gradiente estoc astico y aproximaci on estoc astica

.

gradiente estocastico y aproximacion

estocastica aplicados a Q-learning

Autor:Jose Sebastian Nungo Manrique

Asesor de Tesis:Maurico Jose Junca Pelaez

Departamento de MatematicasUniversidad de Los Andes

Bogota D.CJulio, 2020

iii

Resumen

El proyecto esta motivado en demostrar la convergencia de Q-learning. Este esuna algoritmo aplicado a Procesos de decision de Markov finitos en tiempo discreto,donde no se tiene suficiente informacion. Ası, lo que busca el algoritmo es solucionarlas ecuaciones de optimalidad (o ecuaciones de Bellman).

Con este proposito en mente, en el proyecto discutimos cuatro cosas principal-mente:

1. Procesos de decision de Markov finitos en tiempo discreto, que es el modeloque desde un principio nos interesa.

2. Aproximacion estocastica (AE), que es el algoritmo que sirve como marcogeneral de muchos algoritmos, entre ellos Q-learning. Bajo algunas premisaslograremos establecer la convergencia de AE

3. Metodo del descenso del gradiente estocastico, que es la herramienta principalpor la cual se puede establecer la convergencia del algoritmo de AE ( y demuchos de los algoritmos de Machine Learning )

4. Reinforcement Learning, que es la rama en la cual se encuentra el algoritmode Q-learning. Nos permitimos ver este algoritmo como caso particular de AE

Como temas relacionados estan: Optimizacion Convexa, Machine Learning yProcesos Estocasticos.

Indice general

I Introduccion 1

1. Introduccion y preliminares 3

1.1. Procesos de decision de Markov . . . . . . . . . . . . . . . . . . . . . 4

1.1.1. Polıticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.1.2. Costo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.1.3. Polıticas optimas . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.2. Ecuaciones de Optimalidad de Bellman . . . . . . . . . . . . . . . . . 8

1.2.1. Contraccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.2.2. Solucion al Problema . . . . . . . . . . . . . . . . . . . . . . . 11

1.3. Descenso de Gradiente Estocastico . . . . . . . . . . . . . . . . . . . 13

1.3.1. Lemas fundamentales . . . . . . . . . . . . . . . . . . . . . . . 13

1.3.2. Convergencia . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

II Aproximacion estocastica 21

2. Aproximacion estocastica 23

2.1. Aproximacion estocastica . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.1.1. Condiciones de convergencia . . . . . . . . . . . . . . . . . . . 24

2.1.2. Lemas fundamentales . . . . . . . . . . . . . . . . . . . . . . . 25

2.1.3. Prueba del Teorema 2.1.1 . . . . . . . . . . . . . . . . . . . . 27

v

vi INDICE GENERAL

III Aprendizaje por Reforzamiento 35

3. Aprendizaje por Reforzamiento 37

3.1. Q-learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.2. Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3.2.1. Polıticas de Exploracion . . . . . . . . . . . . . . . . . . . . . 42

3.3. Implementacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.3.1. Vuelo con Viento Estocastico. . . . . . . . . . . . . . . . . . . 43

3.3.2. Triqui. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.3.3. Morris de tres hombres. . . . . . . . . . . . . . . . . . . . . . 48

3.3.4. Discusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

Conclusiones 53

Bibliografia 53

Parte I

Introduccion

1

Capıtulo 1

Introduccion y preliminares

Contenido1.1. Procesos de decision de Markov . . . . . . . . . . . . . . . 4

1.1.1. Polıticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.1.2. Costo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.1.3. Polıticas optimas . . . . . . . . . . . . . . . . . . . . . . . 7

1.2. Ecuaciones de Optimalidad de Bellman . . . . . . . . . . 8

1.2.1. Contraccion . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.2.2. Solucion al Problema . . . . . . . . . . . . . . . . . . . . . 11

1.3. Descenso de Gradiente Estocastico . . . . . . . . . . . . . 13

1.3.1. Lemas fundamentales . . . . . . . . . . . . . . . . . . . . 13

1.3.2. Convergencia . . . . . . . . . . . . . . . . . . . . . . . . . 18

Sinopsis

En el proceso de aprendizaje debemos establecer algunas estructuras que modelenlos comportamientos de los ambientes en los cuales el agente se ve envuelto. Coneste fin nos damos a la tarea de recopilar y analizar la teorıa fundamental para eldesarrollo de todo el proyecto.

En primer lugar, describiremos uno de los modelos mas famosos cuando se es-tudia problemas involucrados en la teorıa de control optimo: Procesos de decisionde Markov. En particular, consideraremos los problemas de horizonte infinito, en

3

4 CAPITULO 1. INTRODUCCION Y PRELIMINARES

donde una cadena o simulacion del proceso puede tener infinito numero de pasos.Sin embargo, este supuesto de un numero infinito de pasos nunca se satisface enla practica, pero es una aproximacion razonable para problemas que involucra unnumero finto pero muy grande de pasos.

Para continuar, el siguiente objeto de estudio del trabajo seran las ecuaciones deoptimalidad de Bellman. Todo su estudio sera encaminado por el operador de pro-gramacion dinamica. Cabe resaltar, que los problemas de horizonte infinito requierenun tratamiento matematico mas sofisticado. Nuestro trabajo se limita condicionandosu estructura para recopilar la informacion que va a ser mas importante a lo largodel documento. Como referencia principal utilizamos el libro [Put05].

Por ultimo, introduciremos la teorıa del descenso del gradiente estocastico, una delas herramientas mas populares para solucionar problemas de optimizacion convexa.Sin embargo, nos vamos a limitar en el analisis completo de la teorıa estableciendocondiciones suficientes para determinar la convergencia. Detallaremos la funcion decosto cuadratico y su minimizacion por medio de este metodo. Mas adelante, en elcapıtulo siguiente, este ejemplo sera de vital importancia, por su constante uso enla prueba de convergencia del modelo de aproximacion estocastica. Como referenciaprincipal utilizamos el trabajo en [BCN18].

1.1. Procesos de decision de Markov

El modelo formal que sera usado en este trabajo es Procesos de Decision deMarkov (PDM 1). Un proceso de decision de Markov, o cadena de Markov concontrol, consiste de cinco elementos principales:

1. S un espacio de estados.

2. A un conjunto de acciones.

3. U(s) ⊂ A el conjunto de acciones admisibles dado un estado s ∈ S.

4. Q( · |s, a) una medida de probabilidad dado un estado s ∈ S y a ∈ U(s).

5. c : S × A→ R una funcion de costo. Dado un estado s ∈ S el costo de tomaruna accion a ∈ U(s).

Para evadir las complicaciones de tener un espacio de estados continuo, de ac-ciones continuas u operar en tiempo continuo, vamos a considerar un PDM finito entiempo discreto. Esto es,

1De ahora en adelante se abreviara proceso de decision de Markov como PDM

1.1. PROCESOS DE DECISION DE MARKOV 5

S y A son conjuntos finitos (Denotaremos los estados como S = 1, ..., n)

Los estados observados, las acciones tomadas, y los costos son ejecutados entiempo discreto, i.e, T = N.

Ası, la variable aleatoria que representa el estado en cada tiempo k ∈ T esXk, y el estado actual en el tiempo k ∈ T es xk. El estado en el tiempo k + 1depende solamente del estado en el tiempo k y la accion ak ∈ U(xk) ejecutadaen el tiempo k. Esta dependencia tiene una distribucion dada por la medida deprobabilidad Q( · |xk, ak). De hecho, aca debe ser claro que

∑s∈S Q(s|xk, ak) = 1.

Ası, Xk+1 ∼ Q( · |xk, ak). De este modo se define la funcion de probabilidad,

Pxy(a) = Q(y|x, a)

que determina la probabilidad de pasar al estado y dado que estoy en el estado x yejecuto la accion a.

Finalmente, en cada observacion del proceso, el sistema tiene un costo depen-diendo del estado actual y la accion ejecutada. El costo se puede ver como unavariable aleatoria funcion de Xk y Ak el estado y accion del tiempo k, respectiva-mente. De aca en adelante utilizaremos la notacion cs,a := c(s, a) para denotar elcosto de tomar la accion a en el estado s. Ası, en una simulacion del proceso, elcosto en el tiempo k lo denotamos como ck := cxk,ak con xk y ak el estado alcanzadoy la accion ejecutada en el tiempo k, respectivamente.

Del modelo es claro que tanto el costo como las transiciones de estados puedenser probabilistıcas, de hecho solo dependen del estado y la accion actual; de nin-guna manera es util usar informacion anterior. De este modo, el modelo cumple lapropiedad de Markov. Esta propiedad es crucial, y significa que el estado actual estoda la informacion que necesita el sistema para decidir que accion tomar y pasar acualquier otro estado.

1.1.1. Polıticas

Una polıtica π = (µk)k∈T es una tupla de mapeos del conjunto de estados alconjunto de acciones admisibles. Es decir, funciones de la forma µk : S → A paracada k ∈ T . Ası, una polıtica es la regla con la que se decide que accion se debetomar en cada instante de tiempo. Cada µk esta definida sobre todo el espacio deestados, entonces especifica que hacer en cualquier situacion.

Considere el conjunto de funciones,

M = µ : S → A|µ(i) ∈ U(i), i = 1, ..., n


Ası, si π = (µk)k∈T con µk ∈ M para todo k, entonces es una polıtica. Se tieneque la probabilidad de ir al estado j dado que el sistema esta en el estado i en untiempo k, esta dado por,

P (Xk+1 = j|Xk = i) = Pij(µk(i))

De hecho, denotamos como P (µk) como la matriz de probabilidad correspondienteal control µk, esto es,

[P (µk)]ij = Pij(µk(i)) ∀i, j = 1, ..., n

Ası, la probabilidad de estar en el estado j en el tiempo k dado que el sistema iniciaen el estado i y sigue la polıtica π, esta dado por,

Pπ(Xk = j|X0 = i) = [P (µk−1)P (µk−2) · · ·P (µ0)]ij (1.1)

Ahora bien, se dice que π = (µk)k∈T una polıtica estacionaria si

µ = µ1 = µ2 = µ3 = · · ·

Es decir que la regla con la cual se toman las acciones no varıa con respecto altiempo. En este sentido, si π es estacionaria entonces la ecuacion (1.1), es de laforma,

Pπ(Xk = j|X0 = i) =[P k(µ)

]ij.

1.1.2. Costo

El objetivo de un proceso (agente) que se desarrolla bajo la dinamica de un PDMes minimizar la funcion de costo en una simulacion. El agente no solo debe desearminimizar el costo inmediato en el estado actual donde se encuentre, sino que debeminimizar el potencial costo en un periodo de tiempo futuro.

Hay tres formas en las que se estudia la minimizacion del costo: costo total, costopromedio y costo descontado. El que vamos a trabajar es el de costo descontado, yel algoritmo principal de nuestro proyecto se enfoca en solucionar este problema. Elcosto descontado total desde el tiempo k esta definido de la forma,

ck + βck+1 + β2ck+2 + · · ·+ βnck+n + · · ·

donde ck es el costo obtenido en el tiempo k y β ∈ [0, 1] (normalmente menor que1). β se denomina el factor de descuento. El efecto del factor de descuento β permitecondicionar el costo presente del costo futuro. Por ejemplo, si β esta muy cerca a

1.1. PROCESOS DE DECISION DE MARKOV 7

0, el costo en el tiempo k + 1 es menor que en el tiempo k, y el costo descontadoen realidad depende de minimizar el costo actual. Por otro lado, si β esta cerca a1, el retorno esperado del estado actual depende mas del costo esperado de algunosestados y decisiones del futuro. Sin embargo, para cualquier valor de β estrictamentemenor que 1 el valor de los costos futuros seran insignificante en algun punto.

Ahora bien, considere π = (µk)k∈T una polıtica. Entonces si consideramos el valoresperado del costo descontado hasta el tiempo N , con estado inicial i y siguiendo lapolıtica π, se tiene que,

Eπ

[N∑k=0

βkck|X0 = i

]=

N∑k=0

βkn∑j=1

Pπ(Xk = j|X0 = i)cj,µk(j) (1.2)

Mas aun, defina el vector de costos en el tiempo k dado por el control µk como

c(µk) =

c1,µk(1)...

cn,µk(n)

Entonces, el vector que describe el costo esperado hasta el tiempo N y cualquierestado inicial es

V π(N) :=

(Eπ

[N∑k=0

βkck|X0 = i

])n

i=1

=N∑k=0

βk(P (µk−1) · · ·P (µ0))c(µk)

con P (µ−1) = In.

Ası, si π = (µ)k∈T con µ ∈M, es una polıtica estacionaria entonces se tiene que,

V π(N) = V µ(N) =N∑k=0

βkP k(µ)c(µ).

1.1.3. Polıticas optimas

Dado que se quiere minimizar el costo esperado, el agente debe plantearse cons-truir una polıtica que es optima, es decir, iniciando en cualquier estado, siguiendo lapolıtica pueda obtener el mınimo costo esperado posible que pueda ser alcanzado ini-ciando desde dicho estado. Esto es, una polıtica optima indica la “mejor” accion quese puede tomar en cualquier situacion posible, en el sentido que continuar siguiendola polıtica va a alcanzar el menor costo esperado posible. En horizonte infinito detiempo, se expresa la funcion de costo esperado dada una polıtica π como

V π = lımN→∞

V π(N)


Observe que al al tratarse de un PDM con espacio de estados finitos y accionesfinitas los costos estan acotados. Por lo tanto el lımite con el que se define V π existecomponente a componente siempre que β < 1(ver ecuacion (1.2)).

Ahora bien, como se ha dicho antes, la idea es encontrar π∗ tal que,

V π∗ = mınπV π =: V ∗.

De hecho, aunque no debe ser obvio, la polıtica optima siempre se alcanza enuna polıtica estacionaria, mas aun la polıtica optima no siempre es unica ([Put05]).Sin embargo, la razon esencial de por que toda polıtica optima es estacionara, esporque el estado actual contiene toda la informacion que se necesita para decidirque hacer despues, luego la misma decision es optima cada vez que sea visitado elmismo estado.

1.2. Ecuaciones de Optimalidad de Bellman

Con el fin de encontrar V ∗ = (V ∗i )i∈S, definimos el operador de programaciondinamica L : R|S| → R|S| de la forma,

Li(V ) = mınu∈U(i)

ciu + β

n∑j=1

Pij(u)Vj

∀i ∈ 1, ..., |S|

La forma mas comun en la que vamos a trabajar el operador es de forma vectorial,

L(V ) = mınµ∈Mc(µ) + βP (µ)V (1.3)

En las siguientes dos secciones nos vamos a encontrar con PDM descontadosde horizonte infinito, con estados/acciones finitos y de tiempo discreto. Es decir, elfactor de descuento es estrictamente menor que 1 (0 ≤ β < 1 ). Se busca demostraren las siguientes dos subsecciones es que encontrar el costo optimo es equivalente aencontrar V ∗ ∈ R|S| tal que,

L(V ∗) = V ∗ (1.4)

De hecho, la ecuacion (1.4) se denomina ecuaciones de optimalidad. Por lo tanto,para encontrar el costo optimo se debe solucionar las ecuaciones de optimalidad, loque es equivalente a encontrar un punto fijo del operador L. En este sentido se debedemostrar que L es una contraccion y que su punto fijo es exactamente V ∗, el valorque se esta buscando.

1.2. ECUACIONES DE OPTIMALIDAD DE BELLMAN 9

1.2.1. Contraccion

En esta seccion vamos a demostrar que L es una contraccion. Se usara el teoremade punto fijo de Banach en Rn para establecer la existencia de un punto fijo y unaforma recursiva para hallarlo.

Sea U un espacio de Banach. Es decir, U es un espacio normado y completo.Decimos que el operador L : U → U es una contraccion si existe 0 ≤ λ < 1 tal que,

||L(v)− L(u)|| ≤ λ||v − u|| v, u ∈ U

Teorema 1.2.1 (Teorema del Punto Fijo de Banach). Sea U un espacio de Banachy L : U → U una contraccion. Entonces

1. Existe un unico v∗ en U tal que L(v∗) = v∗; y

2. para v0 ∈ U arbitrario, la sucesion definida como,

vn+1 = L(vn+1) = Ln+1(v0) (1.5)

converge a v∗.

Demostracion. Sea vn como en (1.5). Sea m ≥ 1, entonces

||vn+m − vn|| =

∣∣∣∣∣∣∣∣∣∣m−1∑k=0

vn+k+1 − vn+k

∣∣∣∣∣∣∣∣∣∣

≤m−1∑k=0

||vn+k+1 − vn+k||

=m−1∑k=0

∣∣∣∣Ln+k(v1)− Ln+k(v0)∣∣∣∣

≤m−1∑k=0

λ∣∣∣∣Ln+k−1(v1)− Ln+k−1(v0)

∣∣∣∣≤

m−1∑k=0

λn+k||v1 − v0||

≤ λn||v1 − v0||m−1∑k=0

λk =λn(1− λm)

1− λ||v1 − v0||


Ahora, λn+m ≤ λ y λn ≤ 1, entonces λn(1−λm)1−λ ≤ 1. Ası,

||vm − vn|| ≤ ||v1 − v0|| ∀m ≥ n ≥ 0

Por lo tanto, vn es Cauchy. Y, como U es un espacio completo, se sigue que existeunico v∗ tal que vn → v∗. Ahora, basta ver que L(v∗) = v∗,

0 ≤ ||L(v∗)− v∗|| = ||L(v∗)− vn + vn − v∗||≤ ||L(v∗)− vn||+ ||vn − v∗||= ||L(v∗)− L(vn−1)||+ ||vn − v∗||≤ λ||v∗ − vn−1||+ ||vn − v∗||

Tomando n → ∞ se sigue que ||L(v∗)− v∗|| = 0, luego, L(v∗) − v∗ = 0 como sequerıa.

Ahora bien, demostrando que el operador de programacion dinamica es unacontraccion en Rn se sigue la existencia de un punto fijo y la ecuacion (1.5) sugiereuna manera de encontrarlo.

Teorema 1.2.2. El operador L definido en la ecuacion (1.3) con 0 ≤ β < 1 es unacontraccion en Rn con respecto a la norma || · ||∞.

Demostracion. Sea S = 1, ..., n, entonces L : Rn → Rn. Sea u, v ∈ Rn. Tenemosque L(v) = (Li(v))ni=1. Entonces, s ∈ S. Sin restriccion, Ls(v) ≥ Ls(u), y

a∗s ∈ arg maxa∈U(s)

cs,a + βn∑j=1

Pij(a)vj

Entonces,

0 ≤ Ls(v)− Ls(u) ≤ cs,a∗s + βn∑j=1

Pij(a∗s)vj − cs,a∗s − β

n∑j=1

Pij(a∗s)uj

= β

n∑j=1

Pij(vj − uj)

≤ βn∑j=1

Pij maxj∈S

(vj − uj) = β||v − u||∞

Ası, para todo s ∈ S se tiene que,

|Ls(v)− Ls(u)| ≤ β||v − u||∞

1.2. ECUACIONES DE OPTIMALIDAD DE BELLMAN 11

Y, tomando el maximo sobre todos los estados en ambos lados de la desigualdad seobtiene,

||L(v)− L(u)||∞ ≤ β||v − u||∞como se querıa.

1.2.2. Solucion al Problema

En esta seccion se espera demostrar que el punto fijo del operador L es el costooptimo que se esta buscando. Como el espacio de estados y el conjunto de accioneses finito, definimos M ∈ R como,

M := maxi=1,...,nu∈U(i)

|ci,u|

Teorema 1.2.3. Sea v ∈ Rn. Se tienen las siguientes implicaciones,

a. Si v ≤ L(v) entonces v ≤ V ∗;

b. Si v ≥ L(v) entonces v ≥ V ∗;

c. Si v = L(v) entonces v = V ∗;

Demostracion. Comenzamos con la parte a. Sea v ∈ Rn tal que v ≤ L(v) y unapolıtica estacionaria π = (µ0) con µ0 ∈M. Entonces,

v ≤ mınµ∈Mc(µ) + βP (µ)v ≤ c(µ0) + βP (µ0)v

Ası,

v ≤ c(µ0) + βP (µ0)v ≤ c(µ0) + βP (µ0)(c(µ0) + βP (µ0)v)

= c(µ0) + βP (µ0)c(µ0) + β2P 2(µ0)v

Inductivamente obtenemos que,

v ≤ c(µ0) + βP (µ0)c(µ0) + · · ·+ βN−1PN−1(µ0)c(µ0) + βNPN(µ0)v

=N−1∑k=0

βkP k(µ0)c(µ0) + βNPN(µ0)v(1.6)


Entonces,

v − V π ≤N−1∑k=0

βkP k(µ0)c(µ0) + βNPN(µ0)v −∞∑k=0

βkP k(µ0)c(µ0)

= βNPN(µ0)v −∞∑k=N

βkP k(µ0)c(µ0)

Sea ε > 0. Observe que∣∣∣∣βNPN(µ0)v

∣∣∣∣ ≤ βN ||v|| y como 0 ≤ λ < 1, entonces,existe N1 ≥ 0 tal que,

− (ε/2) ·~1 ≤ βnP n(µ0)v ≤ (ε/2) ·~1 ∀n ≥ N1 (1.7)

Por otro lado,

∞∑k=N

βkP k(µ0)c(µ0) ≤∞∑k=N

βkP k(µ0)(M ·~1)

= βN(M ·~1)∞∑k=0

βk =βN(M · 1)

1− β

De hecho existe N2 ∈ N tal que,

−(ε/2) ·~1 ≤∞∑k=N

βkP k(µ0)c(µ0) ≤ (ε/2) ·~1 ∀n ≥ N2

Ahora bien, de la ecuacion (1.6), se sigue que,

v − V π ≤ (ε/2) ·~1 + (ε/2) ·~1 = ε ·~1

Ası, para s = 1, ..., n se tiene que vs ≤ V πs + ε y tomando ε→ 0 se tiene el resultado

esperado.

Para la parte b. considere v ≥ L(v). Sea d ∈M tal que

d ∈ arg mınµ∈Mc(µ) + βP (µ)v

Entonces,v ≥ c(d) + βP (d)v

De hecho, haciendo la induccion como en la ecuacion (1.6), se obtiene que,

v ≥N−1∑k=0

βkP k(d)c(d) + βNPN(d)v (1.8)

1.3. DESCENSO DE GRADIENTE ESTOCASTICO 13

Y por la ecuacion (1.7), ||βnP n(d)v|| → 0 cuando n→∞ ası

lımn→∞

βnP n(d)v = ~0

De hecho, tomando N →∞, en la ecuacion (1.8) se tiene que,

v ≥∞∑k=0

βkP k(d)c(d) ≥ V ∗

La parte c. se sigue de la parte a. y b.

1.3. Descenso de Gradiente Estocastico

Una herramienta que va a ser fundamental en el siguiente capitulo es el meto-do de descenso de gradiente estocastico. Este metodo es un pilar fundamental parael funcionamiento de los algrotimos en el campo de Machine Learning. El propo-sito en esta seccion es postular y analizar supuestos suficientes para determinar laconvergencia de este metodo.

Considere la funcion objetivo F : Rn → R diferenciable y una funcion g(w; η)que representa un estimador para el gradiente ∇F : Rn → Rn, donde η es una v.a.

La idea del metodo de descenso de gradiente estocastico (MDGE) es hacer unaactualizacion de w ∈ Rn con el fin de solucionar el problema de minimizacion

mınw∈Rn

F (w)

Ası, lo que propone el metodo es que la aproximacion del argumento que minimizala funcion es,

wk+1 = wk − αkg(wk; ηk) k ∈ N (1.9)

Donde αk ∈ [0, 1] y g(wk; ηk) es el termino que aproxima ∇F (wk) con un ciertoruido ηk en la k-esima actualizacion.

1.3.1. Lemas fundamentales

Para establecer la convergencia del metodo de gradiente estocastico se debenplantear algunos supuestos sobre la suavidad de la funcion objetivo. Ademas, sedeben hacer algunas consideraciones adicionales sobre la funcion g que es el estima-dor del gradiente de la funcion objetivo. De estos supuestos se derivan dos lemas


fundamentales para facilitar el objetivo seccion que es establecer la convergencia deMDGE.

Primero, hacemos un supuesto que nos ayuda a caracterizar la suavidad de F lafuncion objetivo,

Supuesto 1.3.1 (Gradiente Lipschitz continuo). Sea F : Rn → R la funcion objeti-vo continua y diferenciable tal que ∇F : Rn → Rn es Lipschitz continua con L > 0,i.e,

||∇F (w)−∇F (w)||2 ≤ L||w − w||2 ∀w, w ∈ Rn.

Basicamente, el supuesto 1.3.1 asegura que el gradiente de F , ∇F (w) no cambiearbitrariamente rapido dependiendo del w ∈ Rn. De este supuesto se obtiene elprimer lema,

Lema 1.3.1. Considere F : Rn → R como en el supuesto 1.3.1, entonces,

F (w) ≤ F (w) +∇F (w)T (w − w) +1

2L||w − w||22 ∀w, w ∈ Rn

Demostracion. Sea w, w ∈ Rn. Del supuesto 1.3.1 se obtiene que,

F (w) = F (w) +

∫ 1

0

∂F (w + t(w − w))

∂tdt

= F (w) +

∫ 1

0

∇F (w + t(w − w))T (w − w) dt

= F (w) +

∫ 1

0

[∇F (w) +∇F (t(w − w))−∇F (w)]T (w − w) dt

= F (w) +∇F (w)T (w − w) +

∫ 1

0

[∇F (t(w − w))−∇F (w)]T (w − w) dt

≤ F (w) +∇F (w)T (w − w) +

∫ 1

0

L||t(w − w)||2||w − w||2 dt

= F (w) +∇F (w)T (w − w) +1

2L||w − w||22

Ahora bien, observemos que (wk, ηk) se pueden ver como vectores aleatoriosdefinidos en un espacio de probabilidad (Ω,F , P ). Ası, suponemos que Fkk∈N esuna sucesion creciente de σ-algebras contenidas en F . Y, tomamos las siguientesconsideraciones de la ecuacion 1.9,


Supuesto 1.3.2. a. ηk−1 es Fk-medibles.

b. E[g(wk; ηk)|Fk] = ∇F (wk)

Cabe mencionar que no se hace ningun supuesto de independencia entre los ηk.De hecho, por la ecuacion (1.9) se tiene que wk es Fk-medible para todo k ≥ 0.Incluso, asumiendo que w0 ∈ Rn esta dado y utilizando el procedimiento recursivode MDGE se puede definir la filtracion cono Fk = σ(w0, ..., wk) como se hara masadelante. Basicamente, se requiere que g(w; η) sea un estimador insesgado. En efecto,tomando E[ · ] a ambos lados de la parte (b.) se obtiene que,

∇F (wk) = E[E[g(wk; ηk)|Fk]] = E[g(wk; ηk)]

Mas aun,∇F (wk)

TE[g(wk; ηk)|Fk] = ||∇F (wk)||22Luego, 〈−E[g(wk; ηk)|Fk],∇F (wk)〉 ≤ 0. Ası, para la recursion k de MDGE, envalor esperado el vector −g(wk; ηk) es una direccion de descenso suficiente, de hecho,comparable con el descenso dado por la norma del gradiente ∇F (wk).

De los anteriores supuestos se obtiene el siguiente lema,

Lema 1.3.2. Considere el supuesto 1.3.1 y 1.3.2. Entonces el MDGE cumple que,

E[F (wk+1)|Fk]− F (wk) ≤ −αk||∇F (wk)||22 +1

2α2kLE

[||g(wk; ηk)||22|Fk

](1.10)

Demostracion. Por el lema 1.3.1 se tiene que,

F (wk+1)− F (wk) ≤ ∇F (wk)T (wk+1 − wk) +

1

2L||wk+1 − wk||22

= −αk∇F (wk)Tg(wk; ηk) +

1

2α2kL||g(wk; ηk)||22

Ahora, por el supuesto 1.3.2(a) se sigue que E[F (wk)|Fk] = F (wk). TomandoE[ · |Fk], se obtiene,

E[F (wk+1)|Fk]− F (wk) ≤ −αk∇F (wk)TE[g(wk; ηk)|Fk]

+1

2α2kLE

[||g(wk; ηk)||22|Fk

]Y por el supuesto 1.3.2(b.) se sigue que,

E[F (wk+1)|Fk]− F (wk) ≤ −αk||∇F (wk)||22 +1

2α2kLE

[||g(wk; ηk)||22|Fk

]


De hecho, el lema 1.3.2 permite entender que independientemente de cual seael valor F (wk) que el MDGE tome para algun k ≥ 0, y la informacion dada porla σ-algebra Fk, el decrecimiento esperado esta acotado. Mas aun, en el lema estaclaro que este decrecimiento esperado depende la eleccion de la sucesion αk.

Ahora, lo que se quiere es establecer supuestos sobre el primero y segundo mo-mento del vector aleatorio g(wk; ηk). Lo que se busca es disminuir el impacto delsegundo termino en el lado derecho de la ecuacion 1.10 restringiendo la varianzacondicional de g(wk; ηk) que para recordar se define como,

V(g(wk; ηk)|Fk) := E[||g(wk; ηk)||22|Fk

]− ||E[g(wk; ηk)|Fk]||22.

Supuesto 1.3.3 (Lımite del primer y segundo momento). Considere la funcionobjetivo como en el supuesto 1.3.1 y ηk como en supuesto 1.3.2, y

E[||g(wk; ηk)||22|Fk

]≤M +MG||∇F (wk)||22

con M ≥ 0 y MG ≥ 1.

El supuesto 1.3.3 busca acotar la varianza condicional. De manera que en eltiempo k la diferencia entre valor real de g(wk; ηk) y su valor esperado este acotada.

Lema 1.3.3. Considere la funcion objetivo como en el supuesto 1.3.1 y ηk comoen supuesto 1.3.2, y el supuesto 1.3.3, entonces,

E[F (wk+1)|Fk]− F (wk) ≤ −(

1− 1

2αkLMG

)αk||∇F (wk)||22 +

1

2α2kLM.

Demostracion. Usando el lema 1.3.2 y las desigualdades del supuesto 1.3.3 se sigueque,

E[F (wk+1)|Fk]− F (wk) ≤ −αk||∇F (wk)||22 +1

2α2kLE

[||g(wk; ηk)||22|Fk

]≤ −αk||∇F (wk)||22 +

1

2α2kL(M +MG||∇F (wk)||22

)= −

(1− 1

2αkLMG

)αk||∇F (wk)||22 +

1

2α2kLM

Ası, por el lema 1.3.3 se tiene que independientemente del valor F (wk+1) quetome el MDGE en la recursion t+ 1, el decrecimiento esperado condicionado a la σ-algebra Fk esta acotado por un valor determinıstico que depende de la recursion enel tiempo k. Luego, el decrecimiento esperado tiene un comportamiento markoviano.


Por ultimo, se hace un supuesto de convexidad de la funcion objetivo, de estemodo tiene sentido que el MDGE sea utilizado para minimizar,

Supuesto 1.3.4 (Fuertemente convexa). La funcion objetivo F : Rd → R es fuer-temente convexa. Es decir, existe c > 0 tal que,

F (w) ≥ F (w) +∇F (w)T (w − w) +1

2c||w − w||22 ∀w, w ∈ Rd (1.11)

Por el supuesto 1.3.4 la funcion objetivo F tiene un minimizador unico w∗ ∈ Rd

con F ∗ := F (w∗). De hecho, el siguiente lema es una consecuencia importante de laconvexidad fuerte,

Lema 1.3.4. Sea F como en el supuesto 1.3.4, entonces,

2c(F (w)− F∗) ≤ ||∇F (w)||22, ∀w ∈ Rd. (1.12)

Demostracion. Sea w ∈ Rn fijo. Defina,

q(w) := F (w) +∇F (w)T (w − w) +1

2c||w − w||22.

Observe que q es una funcion estrictamente convexa con,

∇q(w) = ∇F (w)T + c(w − w)

Luego, el unico minimizador de q es w∗ = −1c∇F (w)T + w, con q(w∗) = F (w) −

12c||∇F (w)||22. De hecho, considerando w = w∗ y la desigualdad 1.11 se sigue que,

F (w)− 1

2c||∇F (w)||22 ≤ F (w) +∇F (w)T (w∗ − w) +

1

2c||w∗ − w||22 ≤ F ∗

Ası, 2c(F (w) − F∗) ≤ ||∇F (w)||22 y como w era arbitrario, la desigualdad se tienepara todo w ∈ Rn.

Por ultimo, para obtener la convergencia del MDGE se deben hacer supuestossobre el proceso αk. De hecho, el caso en particular de interes para nosotros esque,

∞∑k=1

αk =∞,∞∑k=1

α2k ≤ C <∞ (1.13)

Basicamente, la tasa de aprendizaje debe decrecer conforme avanzan las itera-ciones del algoritmo, no obstante, no debe decrecer tan rapido.


1.3.2. Convergencia

Tomando los supuesto y lemas anteriores buscamos demostrar la convergenciadel metodo descrito en la ecuacion (1.9).

Teorema 1.3.1. Considere los supuestos de la seccion anterior, entonces,

E[F (wk)− F∗]→ 0

cuando k →∞.

Demostracion. En primer lugar, por la ecuacion (1.13) se tiene que αk → 0 cuandot→∞, entonces, existe K ∈ N tal que,

αk ≤1

LMG

∀k ≥ K.

Por lo anterior, el lema 1.3.3 y 1.12, se sigue que,

E[F (wk+1)|Fk]− F (wk) ≤ −αkc(F (wk)− F∗) +1

2α2kLM ∀k ≥ K

En ambos lados de la desigualdad se sustrae F∗ y se toma valor esperado. Seobtiene la siguiente desigualdad,

E[F (wk+1)− F∗] ≤ (1− αkc)E[F (wk)− F∗] +1

2α2kLM. (1.14)

Ası,

E[F (wk+1)− F∗]− E[F (wk)− F∗] ≤ −αkcE[F (wk)− F∗] +1

2α2kLM

Y, sumando la misma desigualdad con k = 0, ..., N se obtiene que,

E[F (wN+1)− F∗]− E[F (w0)− F∗] ≤N∑k=0

−αkcE[F (wk)− F∗] +1

2α2kLM

Note que F (w)−F∗ ≥ 0 para todo w ∈ Rn. Entonces, despejando y por la ecuacion(1.13)

0 ≤ E[F (wN+1)− F∗] ≤N∑k=0


2α2kLM + E[F (w0)− F∗]

≤N∑k=0


2CLM + E[F (w0)− F∗]


Por lo tanto, cuando N →∞∞∑k=0

αkcE[F (wk)− F∗] ≤1

2CLM + E[F (w0)− F∗] (1.15)

Ahora bien, suponga hacia contradiccon, que E[F (wk)− F∗] no converge a 0. En-tonces, existe ε > 0 tal que E[F (wk)− F∗] ≥ ε. Luego,

∞∑k=0

αkcE[F (wk)− F∗] ≥ cε∞∑k=0

αk =∞

Contradiciendo la (1.15). Por lo tanto, E[F (wk)− F∗]→ 0 cuando k →∞

Un caso particular de MDGE, que va a ser importante mas adelante, es la funcionde costo cuadratico F : Rn → R de la forma,

F (w) =1

2||w||2.

Y, un estimador del gradiente g(w; ηk) = w + ηk con ηk una v.a en cada tiempok. Observe que F es fuertemente convexa.

Considere Fk una filtracion crecientes de σ-algebras tal que ηk−1 es Fk-mediblepara cada tiempo k. Ademas,

E[ηk|Fk] = 0 y

E[(ηik)2|Fk] ≤M con M ≥ 0

Bajo estas condiciones, verifiquemos los supuestos para la convergencia de MDGE.Como ∇F (w) = w se sigue supuesto 1.3.1. Por las condiciones anteriores se sigue elsupuesto 1.3.2. Observe que,

E[g(wk; ηk)|Fk] = E[∇F (wk) + ηk|Fk] = ∇F (wk)

Luego, se tiene el supuesto 1.3.3 con MG = 1.

Parte II

Aproximacion estocastica

21

Capıtulo 2

Aproximacion estocastica

Contenido2.1. Aproximacion estocastica . . . . . . . . . . . . . . . . . . . 24

2.1.1. Condiciones de convergencia . . . . . . . . . . . . . . . . . 24

2.1.2. Lemas fundamentales . . . . . . . . . . . . . . . . . . . . 25

2.1.3. Prueba del Teorema 2.1.1 . . . . . . . . . . . . . . . . . . 27

Sinopsis

Muchos de los algoritmos de aprendizaje por reforzamiento, que es el tema prin-cipal del proyecto, se pueden ver a traves del analisis de modelo de AproximacionEstocastica (AE). Con el fin de entender el funcionamiento del algoritmo de Q-learning y garantizar la convergencia, se hace uso del modelo de AE como un marcomas general.

El objetivo de este capitulo es proponer un metodo con el cual se logre hallarel punto fijo de un operador F en Rn con algun ruido asociado. Se plantearancondiciones suficientes para garantizar la convergencia del metodo de AE al puntofijo de F . Como fuente principal es utilizado el trabajo de Tsitsiklis en [Tsi94] Desdeluego en el siguiente capitulo la funcion objetivo sera el operador de ProgramacionDinamica, por lo tanto el ruido sera asociado al proceso estocatico que representaun PDM.

23

24 CAPITULO 2. APROXIMACION ESTOCASTICA

2.1. Aproximacion estocastica

El algoritmo de aproximacion estocastica (AE 1) consiste en hacer una actuali-zacion con ruido de un vector x ∈ Rn con el proposito de solucionar una ecuacionde la forma F (x) = x. Aca, F : Rn → Rn de la forma F (x) = (F1(x), ..., Fn(x)), conmapeos Fi : Rn → R para todo i = 1, ..., n para todo x ∈ Rn.

Sea T = N+ el conjunto discreto donde toma valor la variable t de tiempo. Porlo tanto, el valor de x ∈ Rn en el tiempo k esta dado por xk = (x1

k, ..., xnk). Ademas,

para el proceso de aproximacion estocastica se define T i ⊆ T el conjunto de ındicesde tiempo donde se actualiza la componente xik. De este modo,

xik+1 = xik k 6∈ T i.

Y, la actualizacion para cada componente esta dada por,

xik+1 = xik + αk(Fi(xk)− xik + ηik

)k ∈ T i. (2.1)

Donde αk ∈ [0, 1] denominado como el tamano del paso en el tiempo k y ηik esel termino de ruido de actualizacion en el tiempo k para la i-esima componente. Dehecho, (xk, ηk) se pueden ver como vectores aleatorios en un espacio de probabilidad(Ω,F , P ).

2.1.1. Condiciones de convergencia

Para establecer convergencia de A.E. se deben hacer algunos supuestos sobrela naturaleza de las variables aleatorias tales como el ruido y caracterısticas dela funcion F . Suponga Fkk∈N una filtracion creciente de σ-algebras en F . Y,considere los siguientes supuestos.

Supuesto 2.1.1. Para todo k0 ∈ T i existe k ∈ T i tal que k > k0.

Este primer supuesto nos asegura que para cada componente xik0 ∈ R en untiempo k0 ≥ 0 siempre vamos a tener un tiempo mas adelante donde se va a eje-cutar otra actualizacion. Por ejemplo, si consideramos i = 1, ..., n con el espacio deestados en una cadena de Markov irreducible, esta condicion esta garantizada enuna simulacion infinita del proceso.

Ahora bien, sobre la tupla (xk, ηk) hace los siguientes dos supuestos,

1De ahora en adelante se abreviara aproximacion estocastica como A.E.

2.1. APROXIMACION ESTOCASTICA 25

Supuesto 2.1.2. a. x0 es F0−medible.

b. ∀k ηk es Fk+1−medible.

c. ∀i, k E[ηik|Fk] = 0.

d. ∃A,B ∈ R, E[(ηik)

2|Fk]≤ A+Bmax

τ≤kmaxj

∣∣xjτ ∣∣2En el supuesto 2.1.2 junto a la ecuacion (2.1) tenemos que xk es Fk-medible.

Incluso, por este supuesto podemos ver que actualizacion de la ecuacion (2.1) cumplecon la condicion de Markov, puesto que solo utiliza informacion del tiempo t parahacer la actualizacion.

El siguiente supuesto tiene algunos parametros sobre αk. De aca en adelantese la vamos a considerar una sucesion determinista tal que

Supuesto 2.1.3. a.∞∑k=0

αk =∞.

b. ∃C ∈ R,∞∑k=0

(αk)2 ≤ C.

Finalmente, tenemos un supuesto sobre la caracterizacion de F . Debemos asumirque la funcion tiene al menos un punto sobre el cual hay una contraccion,

Supuesto 2.1.4. ∃x∗ ∈ Rn, β ∈ [0, 1) tal que ||F (x)− x∗||∞ ≤ β||x− x∗||∞ paratodo x ∈ Rn.

Con estos supuestos se tiene el resultado principal de este capıtulo,

Teorema 2.1.1. Con el supuesto 2.1.2, 2.1.3 y 2.1.4 se sigue que

a. La sucesion xk esta acotado, con probabilidad 1.

b. xk converge a x∗ cunado k →∞, con probabilidad 1.

2.1.2. Lemas fundamentales

Antes de comenzar con la prueba del teorema 2.1.1 consideramos dos lemas queson fundamentales para determinar la convergencia del proceso xk planteado en laecuacion (2.1). El primer lema es consecuencia directa de MDGE visto en el primercapıtulo y el segundo lema es un resultado numerico,


Lema 2.1.1. Sea Fk una sucesion creciente de σ−algebras. Para cada k, seaαk, ηk−1 y Bk variables aleatorias reales Fk−medibles. Y, C ∈ R. Suponga que lassiguientes condiciones valen con probabilidad 1:

i. E[ηk|Fk] = 0,

ii. E[η2k|Fk] ≤ Bk,

iii. αk ∈ [0, 1],

iv.∑αk =∞,

v.∑α2k ≤ C,

vi. Bk esta acotada.

Y, sea wk tal que satisface el siguiente proceso recursivo,

wk+1 = (1− αk)wk + αkηk,

Entonces, lımt→∞

wk = 0 con probabilidad 1.

Demostracion. Para el caso donde Bk es acotado por una constante determinstıcaestamos considerando el caso de minimizacion de una funcion de costo cuadratico, ysu convergencia se ha argumentado en la seccion de descenso de gradiente estocastico.

En el caso no determinıstico se define τn = mınk≥0Bk ≥ n para n ∈ N.Entendemos que si Bk < n para todo k ∈ N, entonces τn = ∞. Ademas, para cadan construimos la sucesion,

η(n)k =

ηk, k < τn

0, k ≥ τn.

Y,w

(n)k+1 = (1− αk)η(n)

k + αkη(n)k

Observe que, para todo k, n ≥ 0

E[(η

(n)k )2|Fk

]≤ n.

Entonces, para todo n ∈ N, se tiene con probabilidad 1 que w(n)k → 0 cuando k →∞.

Ademas, como Bk esta acotado con probabilidad 1 entonces w(n)k = wk para algun

n con probabilidad 1.


Lema 2.1.2. Para cada i = 1, ..., n considere αk como en el proceso de aproximacionestocastica y cumpliendo el supuesto 2.1.3. Entonces,

∞∏t=0

(1− αk) = 0

Demostracion. Sea i = 1, ..., n. Como∞∑k=0

(αk)2 ≤ C. Entonces, αk → 0 cuando

k →∞.

Por otro lado, observe que − ln(1− x) ∼ x cuando x→ 0. Entonces,

− ln(1− αk) ∼ αk k →∞

Al tomar la sumatoria sobre k = 0, ....,∞ se sigue que − ln(∏∞

k=0 1− αk) = ∞,entonces,

∞∏k=0

1− αk = 0

2.1.3. Prueba del Teorema 2.1.1

Sin restriccion, considere que x∗ = 0 en el supuesto 2.1.4. En efecto, considerea = x∗ 6= 0, en este caso se sigue que,

||F (x+ a)− a||∞ ≤ β||x||∞.

Y, todo el analisis siguiente se tiene con F (x) = F (x+ a)− a.

La prueba se divide en dos partes. Primero, se prueba que el proceso xk estaacotado. En segundo lugar, se prueba la convergencia de xk a cero.

Del mismo supuesto 2.1.4 se tiene que existe β ∈ [0, 1) tal que

||F (x)||∞ ≤ β||x||∞ ∀x ∈ Rn. (2.2)

De hecho, por definicion, maxi|Fi(x)| ≤ βmax

i

∣∣xi∣∣. Es mas, sea G > 0, entonces

para todo i = 1, ..., n se tiene que

|Fi(x)| ≤ βmax||x||∞, G ∀x ∈ Rn.


En efecto, si G = max||x||∞, G entonces βG ≥ β||x||∞ ≥ |Fi(x)| para todoi = 1, ..., n.

Por otro lado, sea ε > 0 tal que β(1 + ε) = 1 y defina,

Mk = maxτ≤k||xτ ||∞ = max

τ≤kmaxi

∣∣xiτ ∣∣ (2.3)

De Mk se tiene que es Fk-medible, y por la ecuacion (2.2),

||F (xτ )||∞ ≤ βMk ∀τ ≤ k. (2.4)

Ademas, sea k ≥ 0

Mk = maxτ≤k||Mτ ||∞ ≤ max

maxτ≤k||Mτ ||∞, ||xk+1||∞

= max

τ≤k+1||Mτ ||∞ = Mk+1.

Por lo tanto, Mk es una sucesion creciente con probabilidad 1.

Ahora bien, defina el proceso Gkk∈T de la siguiente manera recursiva,

G0 = maxM0, G, Gk+1 =

Gk, Mk+1 ≤ (1 + ε)Gk,

G(1 + ε)q, Mk+1 > (1 + ε)Gk,

donde q es elegido tal que, G(1 + ε)q−1 < Mk+1 ≤ G(1 + ε)q. En consecuencia de ladefinicion de Gk se obtiene que es Fk-medible. Mas importante aun,

Mk ≤ (1 + ε)Gk ∀k ≥ 0. (2.5)

En efecto, considere k > 0. Si Mk ≤ (1 + ε)Gk−1 entonces Gk = Gk−1 y,

Mk ≤ (1 + ε)Gk−1 = (1 + ε)Gk.

Por otro lado, si Mk > (1 + ε)Gk−1, entonces Gk = G(1 + ε)q, y el condicionamientode q, se sigue que,

Mk ≤ (1 + ε)qG = Gk ≤ (1 + ε)Gk.

En este segundo caso se infiere que,

Mk ≤ Gk cuando Gk−1 < Gk. (2.6)

Para continuar la prueba, defina, para cada i = 1, ..., n

ηik =ηikGk

∀k ≥ 0. (2.7)


Por el supuesto 2.1.2 se tiene que ηik es Fk+1-medible. Y, para todo k ≥ 0

E[ηik|Fk

]= E

[ηikGk

|Fk]

=E[ηik|Fk]Gk

= 0

Y, considerando tambien la ecuacion (2.5), se sigue que para todo k ≥ 0

E[(ηik)

2|Fk]

=E[(ηik)

2|Fk]G2k

≤ A+BM2k

G2k

≤ A+B(1 + ε)2G2k

G2k

=A

G2k

+B(1 + ε)2 ≤ A

G20

+B(1 + ε)2 ≤ K.

Con K una constante.

Ahora, para cada k0 ≥ 0 sea wk0,k0 = 0 y

wk+1,k0 = (1− αk)wk,k0 + αkηk k ≥ k0. (2.8)

De hecho, tomando k0 = 0 entonces el proceso wk,0 cumple con las premisas del Lema2.1.1, teniendo en cuenta las anotaciones anteriores de ηk. Luego, lım

k→∞wk,0 = 0 con

probabilidad 1.

Sobre el proceso descrito en la ecuacion (2.8) se tiene el siguiente lema:

Lema 2.1.3. Para todo δ > 0, existe K variable aleatoria tal que K ≥ 0 y∣∣wik,k0∣∣ ≤ δ

para todo i = 1, .., n donde K ≤ k0 < k con probabilidad 1.

Demostracion. Sea i = 1, ..., n. En primer lugar, se prueba que, dado k0 ≥ 0

wik,0 =

[k−1∏τ=k0

(1− ατ )

]wik0,0 + wik,k0 k > k0. (2.9)

Se procede por induccion.

Caso base: k = k0 + 1:

wik0+1,0 = (1− αk0)wik0,0 + αk0 ηik0

= (1− αk0)wik0,0 + (1− αk0)wik0,k0 + αk0 ηik0

= (1− αk0)wik0,0 + wik0+1,k0.

Hipotesis de induccion: Suponga que el la ecuacion (2.9) vale para algun k > k0.


Paso inductivo:

wik+1,0 = (1− αk)wik,0 + αkηik

= (1− αk)

([k−1∏τ=k0

(1− ατ )

]wik0,0 + wik,k0

)+ αkη

ik

=

[k∏

τ=k0

(1− ατ )

]wik0,0 + (1− αk)wik,k0 + αkη

ik

=

[k∏

τ=k0

(1− ατ )

]wik0,0 + wik+1,k0

De hecho, existe K v.a tal que wik,0 < δ/2 para todo k > K con probabilidad 1.Luego, de la ecuacion (2.9) se sigue que, para K ≤ k0 < k,

∣∣wik,k0∣∣ =

∣∣∣∣∣wik,0 −(

k−1∏τ=k0

(1− ατ )

)wik0,0

∣∣∣∣∣ ≤ ∣∣wik,0∣∣+

∣∣∣∣∣(

k−1∏τ=k0

(1− ατ )

)wik0,0

∣∣∣∣∣≤∣∣wik,0∣∣+

∣∣wik0,0∣∣ < δ/2 + δ/2 = δ

Para finalizar la primera parte se consideran dos casos.

Caso 1. Gk esta acotado con probabilidad 1. En este caso existe H variablealeatoria real tal que Gk ≤ H para todo k > 0 con probabilidad 1. De hecho, por laecuacion (2.5) se tiene que,

||xk||∞ ≤Mk ≤ (1 + ε)H ∀k > 0

Luego, el proceso xkk>0 es acotado con probabilidad 1.

Caso 2. Gk no esta acotado. En este caso existe k0 > 0 tal que Gk0−1 ≤ Gk0 .Entonces, por la ecuacion (2.6) se tiene que Mk0 ≤ Gk0 . De hecho, por el lema 2.1.3,existe K v.a tal que ∣∣wik,k0∣∣ ≤ ε ∀k ≥ k0 ≥ K. (2.10)

con probabilidad 1. Por otro lado, se prueba que, para todo k ≥ k0 ≥ K, se tieneque Gk = Gk0 y para todo i = 1, ..., n

−Gk0 + wik,k0Gk0 ≤ xik ≤ Gk0 + wik,k0Gk0 ≤ Gk0(1 + ε) (2.11)

con probabilidad 1.


Se procede por induccion:

Caso base: k = k0 por los supuestos sobre k0 y por la ecuacion (2.3) es inmediatoque

∣∣xik0∣∣ ≤Mk0 ≤ Gk0 y wik0,k0 = 0. Ademas, Gk = Gk0 .

Hipotesis de induccion: Suponga que, para algun k ≥ k0, la ecuacion (2.11) secumple y Gk0 = Gk.

Paso inductivo: Por la definicion de xik (eq. (2.1)), la hipotesis de induccion ylas ecuaciones (2.5), (2.4) y (2.7) se sigue que,

xik+1 = (1− αk)xik + αkF (xk) + αkηik

≤ (1− αk)(Gk0 + wik,k0Gk0) + αkβGk0(1 + ε)

+ αkηikGk0

= Gk0 +[(1− αk)wik,k0 + αkη

ik

]Gk0

= Gk0 + wik+1,k0Gk0

Analogamente, xik+1 ≥ −Gk0 +wik+1,k0Gk0 . Usando el resultado de la ecuacion (2.10),

entonces |xk+1| ≤ Gk0(1 + ε) como se querıa.

Ası, por el resultado de la ecuacion (2.11) se tiene que |xik| ≤ Gk0(1 + ε) paratodo k ≥ k0. Luego, el proceso xkk>0 es acotado con probabilidad 1.

Por el momento se ha obtenido que existe D0 v.a tal que el proceso esta acotadopor D0 con probabilidad 1 de forma que

||xk||∞ ≤ D0 ∀k ≥ 0. (2.12)

Lo que sigue es mostrar que xk converge a x∗ = 0 con probabilidad 1.

Sea γ > 0 tal que β(1 + 2γ) < 1. Defina,

Dj+1 = β(1 + 2γ)Dj = (β(1 + 2γ))j+1D0 ∀j ≥ 0

De inmediato se tiene que Dj → 0 cuando j → ∞ con probabilidad 1. Lo que sebusca demostrar es que para todo j ≥ 0 existe variable aleatoria Kj ≥ 0 tal que||xk||∞ ≤ Dj para todo k ≥ Kj con probabilidad 1.

Se procede por induccion en j:

Caso base: j = 0: Defina K0 = 0, entonces por la ecuacion (2.12) se cumple elenunciado.

Hipotesis de induccion: Suponga que existe j ∈ N y Kj ≥ 0 v.a tal que ||xk||∞ ≤Dj para todo k ≥ Kj.


Paso inductivo: Para demostrar que existe Kj+1 ≥ 0 tal que ||xk||∞ ≤ Dj+1

para todo k ≥ Kj+1 se hacen primero unas construcciones.

Observe que por la ecuacion (2.12) y el supuesto 2.1.2 se sigue que para todok ≥ 0

E[(ηik)

2|Fk]≤ A+BM2

k ≤ A+BD20 (2.13)

Ası, para cada k0 ≥ 0 sea wk0,k0 = 0 y,

wk+1,k0 = (1− αk)wk,k0 + αkηk ∀k ≥ k0 (2.14)

De hecho, si toma k0 = 0 y teniendo en cuenta la ecuacion (2.13) se sigue por elLema 2.1.1 que lım

k→∞wk,0 = 0 con probabilidad 1.

Por lo tanto, se puede seguir el mismo argumento del Lema 2.1.3 y se verifica quepara todo δ > 0, existe K tal que

∣∣wik,k0∣∣ ≤ δ para todo i = 1, ..., n y k > k0 ≥ K con

probabilidad 1. Sea τj ≥ Kj y δ = βγDj tal que∣∣∣wik,τj ∣∣∣ ≤ βγDj para todo k ≥ τj.

Ahora bien, defina yτj = Dj y,

yk+1 = (1− αk)yk + αkβDj ∀k ≥ τj (2.15)

de esta estructura, se prueba que

yk =

k−1∏r=τj

(1− αr))

(Dj − βDj) + βDj ∀k > τj. (2.16)


Caso base: k = τj + 1: Por la ecuacion (2.15),

yτj+1 = (1− ατj)yτj + ατjβDj

= (1− ατj)Dj + βDj(1− (1− ατj))= (1− ατj)Dj − (1− ατj)βDj + βDj

= (1− ατj)(Dj − βDj) + βDj

Hipotesis de induccion: Suponga que para algun k > τj se cumple la ecuacion(2.16).


Paso inductivo:

yk+1 = (1− αk)yk + αkβDj

= (1− αk)

t−1∏r=τj

(1− αr)

(Dj − βDj) + βDj

+ αkβDj

=

t∏r=τj

(1− αr)

(Dj − βDj) + (1− αk)βDj + αkβDj

=

t∏r=τj

(1− αr)

(Dj − βDj) + βDj.

Ası, del resultado (2.16), el supuesto 2.1.3 y el lema 2.1.2 se tiene que

lımk→∞

yk → βDj (2.17)

Y, por ultimo se prueba que para todo i = 1, . . . , n,

− yk + wik,τj ≤ xik ≤ yk + wik,τj ∀k ≥ τj. (2.18)


Caso base: k = τj En este caso |xik| ≤ Dj = yk, ademas, wk,τj = 0.

Hipotesis de induccion: Suponga que para algun k ≥ τk se cumple la ecuacion(2.18).

Paso inductivo:

xik+1 = (1− αk)xik + αkFi(xk) + αkηik

≤ (1− αk)(yk + wik,τk) + αkβDj + αkηik

= yk+1 + wik+1,τk

Analogamente, xik+1 ≥ −yk+1 + wik+1,τk. De este modo se obtiene que para todo i∣∣xik∣∣ ≤ yk +

∣∣wik+1,τk

∣∣ ≤ yk + βγDj ∀k ≥ τj

De hecho, por el resultado (2.17) existe v.a Kj+1 ≥ τj tal que

yk = |yk| ≤ βDj(1 + γ) k ≥ Kj+1

Ası, para todo k ≥ Kj+1 y todo i = 1, ..., n∣∣xik∣∣ ≤ βDj(1 + γ) + βγDj

= β(1 + 2γ)Dj = Dj+1


Y tomando el maximo, obtenemos que,

||x||∞ ≤ Dj+1 ∀k ≥ Kj+1

Parte III

Aprendizaje por Reforzamiento

35

Capıtulo 3

Aprendizaje por Reforzamiento

Contenido3.1. Q-learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.2. Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3.2.1. Polıticas de Exploracion . . . . . . . . . . . . . . . . . . . 42

3.3. Implementacion . . . . . . . . . . . . . . . . . . . . . . . . 43

3.3.1. Vuelo con Viento Estocastico. . . . . . . . . . . . . . . . . 43

3.3.2. Triqui. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.3.3. Morris de tres hombres. . . . . . . . . . . . . . . . . . . . 48

3.3.4. Discusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

Sinopsis

Los algoritmos de aprendizaje por reforzamiento, como Q-learning, se basan enproblemas libres de modelo. Es decir, directamente actualizan las funciones de va-lor o las polıticas sin modelar especıficamente el problema por medio de PDM. Sinembargo, al ser algoritmos que aproximan la funcion de valor por medio de la expe-riencia deben ser entrenados, usualmente esto se logra por polıticas de exploracion,que pueden depender del modelo en caso de tener uno. A traves de los ejemplos abri-mos la discusion sobre las variantes de entrenamientos y los beneficios o desventajasde cada uno.

El aprendizaje por reforzamiento (AR) considera problemas de la teorıa de con-trol en la cual el agente trata de minimizar su costo esperado interactuando con el

37

38 CAPITULO 3. APRENDIZAJE POR REFORZAMIENTO

un ambiente desconocido a traves del tiempo. Hay dos tipos de aproximaciones alA.R: Basada en el modelo o libre de modelo. Los algoritmos basados en el modelohacen uso de un modelado del ambiente, formando polıticas de control basadas enlo que se conoce del modelo. De hecho, cuando la polıtica de entrenamiento de losalgoritmos de AR es basada totalmente en el modelo obtenemos similitudes con losalgoritmos de Programacion Dinamica cuya construccion es dependiente del modelo.Por otro lado, las aproximaciones libres de modelo interactuan de manera inciertacon el modelo y actualizan las funciones de valor directamente del costo obtenidoen cada tiempo.

En este capitulo, se espera entender Q-learning como un caso especifico de Apro-ximacion Estocastica. De esta manera, se puede determinar la convergencia utili-zando los resultados del capıtulo anterior. Y, para lograr este objetivo de nuevonos apoyamos en el trabajo de Tsitsiklis en [Tsi94]. Mas adelante se describira elalgoritmo computacional que describe Q-learning y algunas anotaciones sobre sufuncionamiento. Para terminar, se implementara el algoritmo en dos ejemplos don-de las polıticas de exploracion son distintas y se analizara los resultados obtenidos.Como fuentes relacionadas, y de gran importancia en este trabajo esta en el librode Sutton y Barto [SB18] y el libro de Dimitri Bertsekas [Ber19].

3.1. Q-learning

Ahora bien, consideramos un problema de decision de Markov finito en tiempodiscreto. Es decir, un conjunto de estados S; para cada estado i ∈ S, existe unconjunto finito U(i) de acciones admisibles y una medida de probabilidad Q( ·|i, a) :S → [0, 1], a ∈ U(i). Como antes, denotaremos Q(j|i, a) como Pij(a), y se interpretacomo la probabilidad de llegar al estado j dado que el proceso esta en el estado iy tomo la accion a. Mas aun, para cada estado i ∈ S y accion a ∈ U(i), existe unafuncion cia := c(i, a) que representan el consto de aplicar la accion a estando enestado i ∈ S.

Como antes definimos el operador de Programacion Dinamica L : R|S| → R|S|,donde cada componente Li es de la forma,

Li(V ) := mına∈U(i)

cia + β

∑j∈S

Pij(a)Vj

De hecho, como se probo antes, si β < 1 el operador L es una contraccion conrespecto a la norma || · ||∞. Por lo tanto existe un unico punto fijo V ∗.

3.1. Q-LEARNING 39

El algoritmo de Q-learning se ocupa de computar V ∗ tal que V ∗ = L(V ∗), esdecir, que cumpla con las ecuaciones de optimalidad. Se hace una breve descripciondel algoritmo. Considere P = (i, a)|i ∈ S, a ∈ U(i) el conjunto de todos lospares estado-accion admisibles, y |P | = m. Para representar el proceso discreto, seutiliza la variable k como ındice de tiempo. Y, en caso del algoritmo se ve como uncontador de iteraciones. Despues de k iteraciones tenemos un vector Qk ∈ Rm, concomponentes Qia

k , (i, a) ∈ P , que se actualiza de acuerdo a la formula,

Qiak+1 = Qia

k + αk

[cia + β mın

v∈U(Xk+1)QXk+1,vk −Qia

k

](3.1)

Aca, cada αk es el tamano del paso en [0, 1], de hecho, es cero para los (i, a) ∈ Ppara los cuales Qia

k no van a ser actualizados en la iteracion actual. Y, Xk+1 = j esel sucesor aleatorio del estado i con probabilidad Pij(a).

Ahora bien, lo que se busca es argumentar que Q-learning es un caso particu-lar de aproximacion estocastica. Con este objetivo, considere F : Rm → Rm concomponentes Fia definidas como,

Fia(Q) = cia + β∑j∈S

Pij(a) mınv∈U(j)

Qjv. (3.2)

Observe que si el vectorQ∗ ∈ Rm es punto fijo de F , y definimos V i∗ = mınu∈U(i) Q

iu∗

entonces

Li(V∗) = mına∈U(i)

cia + β

∑j∈S

Pij(a)V j∗

= mına∈U(i)

cia + β

∑j∈S

Pij(a) mınu∈U(j)

Qju∗

= mın

a∈U(i)Fia(Q∗)

= mınu∈U(i)

Qiu∗ = V i

∗ .

(3.3)

Entonces, V∗ es punto fijo de L.

Reemplazando, la funcion F de la ecuacion (3.2) en el proceso de la ecuacion(3.1) se obtiene que,

Qiak+1 = Qia

k + αk[Fia(Qk)−Qia

k + ηiak]

con,

ηiak = β mınv∈U(Xk+1)

QXk+1,vk − βE

[mın

v∈U(Xk+1)QXk+1,vk |Fk

],


donde Fk es la filtracion generada por el proceso (Xk, Ak), es decir, el proceso deestados y acciones. Note que, en el proceso Xk = i y Ak = a, entonces,

E[

mınv∈U(Xk+1)

QXk+1,vk |Fk

]= E

[mın

v∈U(Xk+1)QXk+1,vk |Xk = i, Ak = a

].

Ahora bien, el objetivo es verificar que los supuestos necesarios para garantizarla convergencia de aproximacion estocastica se cumplen es este modelo.

1. En la practica no es posible tener simulaciones infintas. Por lo tanto, a la horade la implementacion sera necesario introducir el concepto de episodios. Estose trabajara en la proxima seccion.

2. Para el supuesto 2, para todo (i, a) ∈ P , obtenemos que Qia0 es F0-medible

y como (Xk, Ak) es Fk-medible, entonces ηiak es Fk+1-medible. Por lo tanto sevalidan la parte (a) y (b) del supuesto. Ademas,

E[ηiak |Fk

]= E

[mın


]− E

[mın


]= 0

Luego, obtenemos que E[ηiak |Fk] = 0, validando la parte (d).

Por otro lado, se define, hk = mınv∈U(Xk+1) QXk+1,vk , se sigue que,

V(hk|Fk)− V(E[hk|Fk]|Fk) = E[h2k|Fk]− E[hk|Fk]2

− E[E[hk|Fk]2|Fk] + E[E[hk|Fk]|Fk]2

= E[h2k|Fk]− E[hk|Fk]2

= V(hk|Fk).

Uniendo estos dos resultados se sigue que,

E[(ηiak )2|Fk

]= E

[h2k − 2hkE[hk|Fk] + E[hk|Fk]2|Fk

]= E

[h2k|Fk

]− 2E[hk|Fk]2 + E[hk|Fk]2

= E[h2k|Fk

]− E[hk|Fk]2

≤ E[h2k|Fk

]Ademas,

E

[(mın

v∈U(Xk+1)QXk+1,vk

)2

|Fk

]≤ max

j∈Smaxv∈U(j)

(Qjvk )2

≤ max(j,v)∈P

∣∣(Qjvk )2∣∣

≤ maxτ≤k

max(j,v)∈P

∣∣(Qjvτ )2∣∣

3.1. Q-LEARNING 41

De este modo se tiene que,

E[(ηiak )2|Fk

]≤ A+Bmax

τ≤kmax

(i,v)∈P

∣∣(Qjvτ )2∣∣

con A = 0 y B = 1, validando la parte (d) del supuesto.

3. Ahora bien, para verificar el ultimo supuesto, primero, vamos a probar que lafuncion F : Rm → Rn es una contraccion con respecto a la norma || · ||∞. Sea

Q, Q ∈ Rn y (i, u) ∈ P . Sin restriccion, Fiu(Q) ≥ Fiu(Q) y defina,

v∗(j) ∈ arg mınv∈U(j)

Qj,v para j ∈ S,

Entonces,

0 ≤ Fiu(Q)− Fiu(Q) = ciu + β∑j∈S

Pij(u) mınv∈U(j)

Qj,v

− ciu − β∑j∈S

Pij(u) mınv∈U(j)

Qj,v

= β∑j∈S

Pij(u)

(mınv∈U(j)

Qj,v − mınv∈U(j)

Qj,v

)= β

∑j∈S

Pij(u)

(mınv∈U(j)

Qj,v − Qj,v∗(j)

)≤ β

∑j∈S

Pij(u)(Qj,v∗(j) − Qj,v∗(j)

)≤ β

∑j∈S

Pij(u) max(s,a)∈P

∣∣∣Qs,a − Qs,a∣∣∣

= β max(s,a)∈P

∣∣∣Qia − Qia∣∣∣ ≤ β

∣∣∣∣∣∣Q− Q∣∣∣∣∣∣∞

De este modo se tiene que,∣∣∣Fiu(Q)− Fiu(Q)

∣∣∣ ≤ β∣∣∣∣∣∣Q− Q∣∣∣∣∣∣

∞

Por lo tanto, por el teorema 2.1.1 de aproximacion estocastica se tiene queE[Qk −Q∗] → 0, cuando k → ∞. Al garantizar la convergencia de Q-learning, yteniendo en cuenta la ecuacion (3.3) definimos la funicion de valor para cada estadoi ∈ S como,

V i∗ = mın

u∈U(i)Qiu∗

Donde Q∗ es el punto fijo de la funcion F . Ası, para solucionar el problema deencontrar una polıtica optima definimos µ : S → A como µ(i) = argmına∈U(i) Q

ia,y la polıtica como π = (µ)k∈N.


3.2. Algoritmo

Del supuesto 1 para garantizar la convergencia de aproximacion estocastica tene-mos que disponer de simulaciones infinitas que logran recorrer todos los estados. Sinembargo en un PDM esto depende de la polıtica tomada, puesto que la eleccion de lapolıtica puede generar una cadena de Markov irreducible o no. Computacionalmen-te es imposible generar una cadena infinita, entonces para maximizar el numero deestados evaluados consideramos el concepto de episodio. Donde cada episodio consi-dera una simulacion distinta dado un estado inicial y finaliza en un estado terminalque cumpla algunas condiciones dependiendo del modelo.

Algoritmo de Q-learning

Tamano de paso del algoritmo αkk∈N ⊆ (0, 1).Inicializa Qsa para todo (s, a) ∈ P , arbitrario.Para cada episodio:

Inicializa X ∈ S.Para k = 1, 2, ... cada paso del episodio:

Elige la accion V ∈ U(X) (Polıtica de exploracion).Observa el costo C y la accion de llegada X ′

QXV ← QXV + αk

[C + β mın

a∈U(X′)QX′a −QXV

]X ← X ′

3.2.1. Polıticas de Exploracion

En orden de satisfacer el supuesto 1 que garantiza la convergencia de AE sedebe establecer una polıtica de exploracion que pueda ejecutar la actualizacion deQ-learning, en la ecuacion (3.1), para todo par estado-accion. Debe ser importanterecorrer todos los pares estado-accion posibles de manera que tambien se puedandescartar acciones ineficientes.

Una de las maneras de eleccion de la polıtica exploracion puede ser elegida demanera aleatoria uniforme sobre todas las polıticas que hacen del proceso una cadenairreducible. Sin embargo, buscamos acelerar el proceso de de aproximacion a Q∗con otro tipo de metodos de elecciones de la polıtica de exploracion. El metodoε-codicioso elige la accion a tomar en el tiempo k de la siguiente forma:

3.3. IMPLEMENTACION 43

Algoritmo ε-codicioso

ε ∈ (0, 1)Q← Qk−1

S ← SkU ∼ Unif(0, 1)Si U ≤ ε:Ak ← arg mın

a∈U(S)QSa.

De lo contrario:At se elige uniformemente en U(S)

Con este metodo la polıtica de exploracion busca elegir con probabilidad ε laaccion que minimice el costo esperado, y con probabilidad 1 − ε explora nuevasalternativas, esto con el fin de evaluar y actualizar otros pares estado-accion posible.

3.3. Implementacion

En la ultima parte implementaremos Q-learning a tres ejemplos. El primero esun simulador de un objeto volador, donde esta totalmente definido el modelo dePDM. Los ultimos dos ejemplos se aproximan mas a casos reales donde se utilizanalgoritmos de aprendizaje por reforzamiento, dos juego libres de modelo: Triqui yMorris de tres hombres.

En cumplimiento de los supuestos de los supuestos de aproximacion estocasticatomamos la sucesion del tamano de paso αk = (0,9)k

3.3.1. Vuelo con Viento Estocastico.

Considere un objeto volador que se mueve en una retıcula de 50 × 50 bajo lainfluencia del viento. La meta del objeto volador es llegar ubicacion con coordenadas[40, 45]× [40, 45] en el menor tiempo posible. Para el problema se incluye un vientoestocastico y obstaculos.

Las acciones admisibles en cada posicion de la retıcula son los movimientos desubir, bajar, derecha e izquierda. Los costos estan asociados a cada estado. El costode cada estado transitorio de la retıcula es 0, excepto en los obstaculos que tienenun costo de 100 y la meta que tiene un costo de −100. En caso de incurrir en algunestado que no es transitorio el objeto volador vuelve a la posicion inicial.


Figura 3.1: Retıcula con los obstaculos. Los objetos negros (incluyendo el marco exterior) corresponden a los obstacu-los, y el objeto blanco corresponde a la meta. Los estados que conforman los estados son absorbentes y todo otroestado es transitorio.

Para determinar el viento estocastico se determinan las siguientes probabilidadesde transicion segun dos estados y una accion:

Q((z, w)|(x, y), u) =

0,3 z = x,w = y + 1

0,4 z = x,w = y + 2

0,2 z = x− 1, w = y + 2

0,1 z = x− 1, w = y + 1

Q((z, w)|(x, y), d) =

0,3 z = x,w = y

0,3 z = x,w = y − 1

0,2 z = x− 1, w = y

0,2 z = x− 1, w = y − 1

Q((z, w)|(x, y), l) =

0,3 z = x− 1, w = y + 1

0,2 z = x− 1, w = y

0,3 z = x− 2, w = y

0,2 z = x− 2, w = y + 1

Q((z, w)|(x, y), r) =

0,3 z = x+ 1, w = y

0,4 z = x+ 1, w = y + 1

0,2 z = x,w = y

0,1 z = x,w = y + 1

Para evaluar el desempeno de Q-learning porponemos evaluar el cosoto esperadoque aprende a traves de los episdios desde estados iniciales distintintos de la reticual.Cabe mencionar, que la polıtca de exploracion de Q-learning se hizo con con unalgoritmo ε-codiciosos con ε = 0,6. Luego, con probabilidad de 0,6 las simulacionesdel episodio elegıan la accion optima aprendida anteriormente. Ademas la simulacionde cada episodio finaliza cuando llega la meta o choca contra algun obstaculo.


Figura 3.2: De derecha a izquierda se observa el costo esperado de estados iniciales cada vez mas alejados de lameta. Es de mencionar que cada estado utiliza el vector Q de aprendizaje que dejo el estado anterior.

Observe que a medida que el estado inicial se va alejando Q-learning logra apro-ximar su costo esperado eficientemente con la informacion adquirida en los estadosanteriores. Sin embargo, en estados no explorados, alejado de los anteriores y nofavorecidos por la dinamica del sistema, entonces la informacion anterior no es utilpor lo tanto se dificulta la convergencia, como la grafica superior derecha.

Por otro lado, se hace evidente que la politica optima no es unica. Para eva-luar el desempeno de Q-learning para encontrar una polıtica optima solucionamosel problema utilizando el metodo de programacion lienal propuesto por Puterman[Put05], este metodo aproxima eficientemente la funcion de valor. Es de mencionarque la forma en la que Q-learngin y la teorıa de programacion dinamica abordanel problema es distinta: Por un lado el modelo de PDM considera los objetos yla meta como estados absorbentes, mientras que las simulaciones de Q-learning enla implementacion concluyen cada episodio una vez llegan al estado meta o algunobstaculo.


Figura 3.3: Para referenciar las polıticas se ha hecho un mapa de calor que se identifica como: Subir con morado;bajar con azul; derecha con amarillo; verde con izquierda. El mapa de calor de la izquierda corresponde a la polıticaencontrada por el metodo de Programacion Lineal. Y, a la derecha la polıtica encontrada por el algoritmo deQ-learning.

Primero que todo, note que al implementar Q-learning en unos pocos estados (4),la region que debe aproximar mejor la polıtica optima es por donde estos seis estadoiniciales hicieron la polıtica de exploracion (region en rojo). Observe ademas que alser un proceso empırico el de Q-learning y al no conocer todas las dınamicas delambiente le resulta mas complicado encontrar una polıtica uniforme. Sin embargo,despues de 300,000 episodio indica que la polıtica busca lograr el objetivo que llegara la meta.

3.3.2. Triqui.

Para los juego de mesa no es inmediato asociarlos con un modelo de PDM, masaun no tenemos certeza que se comporten de manera Markoviana. Sin embargo, sepuede ser aproximado a un metodo que estime funciones de valor como lo hace elalgoritmo de Q-learning. En estos casos lo mas importante de definir es el espaciode estados, la acciones admisibles y los costos. Consideramos los estados como cadaorganizacion posible del juego, como las acciones admisibles marcar “X” o “O” enlos espacios permitidos, y la funcion de costo solo esta asociada a ganar o a perder.Por lo tanto, si el agente de A.R. juega con “O”, entonces, los estados que tenga tres“O” en raya son de bajo costo (−1) y los estados que tengan tres “X” tiene costoalto (1).

Hay muchas maneras de desarrollar el juego en un episodio y por eso es quese debe desarrollar una polıtica de exploaracion que garantice la convergencia a lafuncion de valor en cada estado. Para hacer esto conviene una polıtica dependientede Q (que representa la informacion aprendida), como ε-codiciosa, y la intervencion


de un oponente real. Una secuencia desde una posicion inicial cualquier aprendizajeserıa de la forma:

Las lineas punteada representan todas las evaluaciones hechas en la polıticade exploracion pero que no hizo. El segundo movimiento del agente de A.R. esun ejemplo en donde elige explorar un arbol de decisiones que no necesariamenteoptimiza el costo esperado segun la informacion aprendida hasta el momento.

Para evaluar la evolucion de Q-learning, plantamos la evaluacion de un juegotres veces. En el primero, se inicia el vector Q con todas las entradas en cero y lossiguientes juegos se desarrollan con el vector Q aprendido en el juego anterior. Elagente de A.R juega con “O” y en cada turno hace 1000 episodios para aproximarla funcion de valor de cada estado-accion.


Figura 3.4: La imagen consta de tres juegos distintos. El agente jugo con circulo y tuvo el primer turno en todas lasoportunidades. En verde/rojo se encuentra el costo esperado de cada una de las acciones posibles segun el tableroanterior.

Como se observa en las figura solo en el juego 2 el agente obtiene un empate.Para los juegos 1 y 3 logra descifrar la estrategia de juego que siempre lo lleve aganar. Ademas, para toda otra posibilidades de respuesta de “X”, el ante de ARlogra encontrar la estrategia ganadora. Observe tambien que la primera jugada decirculo calcula en 0 el costo esperado de cualquier estado-accion, esto puede serdebido a que si el oponente (que juega con “X”) puede jugar lo suficientemente bienpara llegar al empate. En el siguiente juego que analizamos veremos que la primerajugada toma mas importancia.

3.3.3. Morris de tres hombres.

El Morris de tres hombres consta de un tablero como en la figura 3.5. Cadajugador dispone de tres fichas. Al inicio con el tablero vacıo los jugadores tomanturnos alternados poniendo sus fichas en las intersecciones. Una vez las seis fichasestan en el tablero lo jugadores pueden mover una de sus fichas por las aristas, solouna posicion por turno. El objetivo de cada jugador sera acomodar sus tres fichasen linea.


Figura 3.5: Tablero del Morris de Tres Hombres

Como se ha explicado en el juego no hay posibilidad de empate, entonces adiferencia del Triqui el agente de AR debe tener una funcion de valor distinta ceropara su primera jugada cuando el tablero esta vacıo. Para la siguiente grafica seinicializa el valor de Q en ceros.

Figura 3.6: Funcion de valor para el estado para la primera jugada cuando el tablero esta vacıo.

Observe que alrededor de 60000 episodios el agente ha aprendido cual debe ser laprimera jugada. Ademas la rapida convergencia al valor de −1 indica que ha halladouna estrategia ganadora.


3.3.4. Discusion

Primero, es de mencionar que el algoritmo de Programacion Lienal para encon-trar la funcion de valor se aproximan mas eficientemente en caso de tener un modelode PDM. Sin embargo, esto tambien puede deberse a la naturaleza del problemaque dificulta la terminacion de cada simulacion, bien sea llegando a la meta o coli-sionando algun obstaculo de la retıcula. No obstante, la convergencia de Q-learningse acelera de manera concidrable una vez ha llegado a encontrar una polıtica deexploracion eficiente (no necesariamente optima). Por otro lado, es de resaltar quela polıtica optima encontrada por Q-learning es coherente con respecto al objetivodel problema que es llegar a unos estados denominados como meta.

En los juegos de mesa podemos evidenciar que los metodos de de AR representanuna aproximacion distinta a la funcion de valor que trabajamos normalmente enun PDM. No se trata de encontrar exactamente un funcion de valor por estadoni por accion en un sentido clasico. Es decir, una funcion de valor convencionalevalua el estado en el cual el agente tiene opcion de seleccionar alguna accion, noobstante la funcion de valor que se debe encontrar en los ejemplos de juego de mesaanteriores evalua posiciones despues de que el agente ha hecho su movimiento. Caberesaltar, que al no haber un modelo establecido, evaluar las posiciones de despuesno es una tarea trivial. Por ejemplo, en un juego tıpico sabemos el efecto inmediatode nuestras jugada, sin embargo no conocemos la respuesta de nuestro oponente.Esta aproximacion a la funcion de valor, que evalua las posiciones de despues, tomaventaja del conocimiento del juego, y produce metodos de aprendizaje mas eficientes.

Por ejemplo en el juego de Triqui muchos estados-acciones producen el mismoresultado, como en este caso:

en este caso los estados y acciones anteriores son distintos, pero producen el


mismo estado resultante. Ası, la funcion de valor que evalua posiciones despuespermite que cualquier aprendizaje que se haga sobre el estado-accion de la izquierdasea transferido cuando se evalua en el de la derecha.

Conclusiones

Hemos probado la convergencia de Q-Learning. Partiendo de la teorıa de losProcesos de Decision de Markov y el analisis de las ecuaciones de optimalidad deBellman se ha podido abordar Q-learning bajo el marco general del modelo deAproximacion Estocastica. En el desarrollo se ha utilizado el metodo del descensodel Gradiente Estocastico, que ademas se encuentra presente constantemente en lateorıa de Machine Learning.

De los resultados podemos decir que:

En caso que el ambiente se pueda modelar como un PDM, con todas las es-pecificaciones del sistema, Q-learning no tiene una tasa de convergencia su-ficientemente rapida a la funcion de valor en comparacion a los metodo deProgramacion Dinamica. Sin embargo, en los resultados practicos de encon-trar una polıtca optima, Q-learning tiene buenos resultados una vez se hapodido evaluar todos los estados.

En caso de asumir que el ambiente se comporta como un PDM, sin tener lasespecificaciones del Modelo, como en los juegos de mesa, Q-learning hizo unavance bastante acelerado a estrategias optimas o estrategias ganadoras. Es deresaltar, que independientemente de la polıtica de exploracion, o en este caso“entrenamiento”, en ambos juegos el agente logro el objetivo.

53

54 CONCLUSIONES

Bibliografıa

[BCN18] Leon Bottou, Frank E Curtis, and Jorge Nocedal. Optimization methodsfor large-scale machine learning. Siam Review, 60(2):223–311, 2018.

[Ber19] Dimitri P Bertsekas. Reinforcement learning and optimal control. AthenaScientific Belmont, MA, 2019.

[Put05] Martin L. Puterman. Markove Decision Processes. Johon Wiley & Sons,Inc., 2005.

[SB18] Richard S. Sutton and Andrew G. Barto. Reinforcement Learning. MITPress, 2018.

[Tsi94] John N Tsitsiklis. Asynchronous stochastic approximation and q-learning.Machine learning, 16(3):185–202, 1994.

55

gradiente estoc astico y aproximaci on estoc astica

Documents