forked from tomasiflin/lab4SI
-
Notifications
You must be signed in to change notification settings - Fork 0
/
lab4.py
200 lines (154 loc) · 5.38 KB
/
lab4.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Wes Nov 18 23:33:02 2018
@author: tomasPC
"""
import matplotlib.pyplot as plt
import numpy as np
buenosconsejos=0.9
class CliffWalking():
def __init__(self, ancho, alto):
self.ancho = ancho
self.alto = alto
self.agentPos = [0, 0]
# acciones
self.arriba = 0
self.abajo = 1
self.derecha = 2
self.izquierda = 3
self.acciones = [self.arriba, self.abajo,
self.derecha, self.izquierda]
# zonas
self.startPos = [0, 3]
self.goalPos = [11, 3]
# end __init__
def reset(self):
self.agentPos = self.startPos
return self.agentPos
# end reset
def actuar(self, accion):
x, y = self.agentPos
if(accion == self.arriba):
y = y -1
if(y<0):
y = 0
elif(accion == self.abajo):
y = y +1
if(y >= self.alto):
y = self.alto -1
elif(accion == self.derecha):
x = x +1
if(x >= self.ancho):
x = self.ancho -1
elif(accion == self.izquierda):
x = x -1
if(x<0):
x = 0
else:
print('Accion desconocida')
estado = [x, y]
reward = -1
# x [1;10]
# y = 3
# cliff
if(accion == self.abajo and y == 2
and 1 <= x <= 10) or (
accion == self.derecha
and self.agentPos == self.startPos): #empieza precipicio
reward = -200
estado = self.startPos
self.agentPos = estado
return self.agentPos, reward
# end actuar
class AgenteQLearning():
def __init__(self, entorno, alpha = 0.5, epsilon = 0.1, gamma = 1):#0.99):
self.entorno = entorno
self.nEstados = [entorno.ancho, entorno.alto]
self.nAcciones = 4
# policy params
self.alpha = alpha
self.epsilon = epsilon
self.gamma = gamma
self.Q = np.zeros([self.nEstados[0], self.nEstados[1], self.nAcciones])
# print(self.Q)
# end __init__
#policy Epsilon-Greedy
class AgenteSarsa():
def __init__(self, entorno, alpha = 0.5, epsilon = 0.5, gamma = 1):#0.99):
self.entorno = entorno
self.nEstados = [entorno.ancho, entorno.alto]
self.nAcciones = 4
# policy params
self.alpha = alpha
self.epsilon = epsilon
self.gamma = gamma
self.Q = np.zeros([self.nEstados[0], self.nEstados[1], self.nAcciones])
# print(self.Q)
# end __init__
def seleccionarAccion(self, estado):
#exploracion
if np.random.rand() <= self.epsilon: #aleatorio
return np.random.randint(self.nAcciones)
#explotacion
else: # mejor valor Q
return np.argmax(self.Q[estado[0], estado[1], :])
# end seleccionarAccion
def seleccionarAccionFeedBack(self,estado, entrenador, feedbackProbabilidad):
if np.random.rand() <= feedbackProbabilidad:
if np.random.rand()<=buenosconsejos:
return np.argmax(entrenador.Q[estado[0], estado[1], :])
else:
return np.argmin(entrenador.Q[estado[0], estado[1], :])
else: #accion agente
return self.seleccionarAccion(estado)
# td control
def Sarsa(self, estado,accion,reward, estado_sig,accion_sig):
td_target = reward + self.gamma * (self.Q[estado_sig[0], estado_sig[1], accion_sig]) #por la posicion x,y es que tiene 2 estados siguientes.
td_error = td_target - self.Q[estado[0], estado[1], accion]
self.Q[estado[0], estado[1], accion] += self.alpha * td_error
def entrenar(self, episodios, entrenador=None,feed=0):
recompensas = []
for e in range(episodios):
estado= self.entorno.reset()
recompensa = 0
fin = False
while not fin:
accion = self.seleccionarAccionFeedBack(estado,entrenador,feed)
estado_sig, reward = self.entorno.actuar(accion)
accion_sig = self.seleccionarAccion(estado_sig)
recompensa += reward
fin = self.entorno.goalPos == estado
if not fin:
#actualiza valor Q
self.Sarsa(estado,accion,reward, estado_sig,accion_sig)
estado = estado_sig
recompensas.append(recompensa)
return recompensas
# end entrenar
cantidadAgentes = 50
episodios=500
entorno = CliffWalking(12, 4)
entrenador = AgenteSarsa(entorno)
qlearning = entrenador.entrenar(episodios)
aprendiz = AgenteSarsa(entorno)
ap=aprendiz.entrenar(episodios)
feedback = 0.5
rewardEntrenador=np.zeros(episodios)
rewardAprendiz=np.zeros(episodios)
for r in range(cantidadAgentes):
print('Entrenando Agente autonomo: ',r)
entrenador = AgenteSarsa(entorno)
rewardEntrenador += entrenador.entrenar(episodios)
for r in range(cantidadAgentes):
print('Entrenando Agente interactivo: ',r)
aprendiz = AgenteSarsa(entorno)
rewardAprendiz += aprendiz.entrenar(episodios,entrenador, feedback)
rewardAprendiz /= cantidadAgentes
rewardEntrenador /= cantidadAgentes
plt.plot(rewardAprendiz, label='Aprendiz')
plt.plot(rewardEntrenador, label='Entrenador')
plt.xlabel('Episodios')
plt.ylabel('Recompensa Promedio')
plt.ylim([-1000, -10])
plt.legend()