posgrado.mat.uson.mx · indice general indice general iii introducci on v 1. juegos markovianos de...

70
Universidad de Sonora Divisi´ on de Ciencias Exactas y Naturales Departamento de Matem´ aticas Estrategias Adaptadas para juegos Markovianos de suma cero Tesis para obtener grado acad´ emico de Maestro en Ciencias (Matem´aticas) presenta: Carmen Geraldi Higuera Chan Director de Tesis: Dr. Jes´ us Adolfo Minj´arez Sosa Septiembre de 2011

Upload: others

Post on 25-Jul-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

Universidad de SonoraDivision de Ciencias Exactas y Naturales

Departamento de Matematicas

Estrategias Adaptadas para juegosMarkovianos de suma cero

Tesispara obtener grado academico de Maestro en Ciencias (Matematicas)

presenta:

Carmen Geraldi Higuera Chan

Director de Tesis:Dr. Jesus Adolfo Minjarez Sosa

Septiembre de 2011

Page 2: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .
Page 3: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

SINODALES

Dr. Fernando Luque VasquezDepartamento de Matematicas, Universidad de Sonora

Dr. Hector Jasso FuentesDepartamento de Matematicas, CINVESTAV

Dr. Jesus Adolfo Minjarez SosaDepartamento de Matematicas, Universidad de Sonora

Dr. Oscar Vega AmayaDepartamento de Matematicas, Universidad de Sonora

Page 4: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

Indice general

Indice general III

Introduccion V

1. Juegos Markovianos de suma cero 11.1. Formulacion de un juego suma cero . . . . . . . . . . . . . . . . . . . 11.2. Estrategias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.3. Criterios de Optimalidad . . . . . . . . . . . . . . . . . . . . . . . . . 4

2. Criterio de optimalidad descontado 72.1. Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.2. Juegos con horizonte finito . . . . . . . . . . . . . . . . . . . . . . . . 92.3. Juegos con horizonte infinito . . . . . . . . . . . . . . . . . . . . . . . 142.4. Estrategias asintoticamente optimas . . . . . . . . . . . . . . . . . . . 22

3. Criterio de optimalidad promedio 333.1. Teorema de existencia . . . . . . . . . . . . . . . . . . . . . . . . . . 343.2. Estimacion de la densidad . . . . . . . . . . . . . . . . . . . . . . . . 393.3. Construccion de estrategias optimas . . . . . . . . . . . . . . . . . . . 40

4. Conclusiones 48

A. Espacios de Borel, Kernels y multifunciones 50A.1. Espacios de Borel y kernels estocasticos . . . . . . . . . . . . . . . . . 50A.2. Multifunciones y selectores . . . . . . . . . . . . . . . . . . . . . . . . 51

B. Semicontinuidad y Lema de Fatou 53B.1. Funciones semicontinuas . . . . . . . . . . . . . . . . . . . . . . . . . 53B.2. Lema de Fatou generalizado . . . . . . . . . . . . . . . . . . . . . . . 54

iii

Page 5: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

INDICE GENERAL iv

C. Varios resultados 57C.1. Teorema de punto fijo de Banach . . . . . . . . . . . . . . . . . . . . 57C.2. Teorema minimax de Fan . . . . . . . . . . . . . . . . . . . . . . . . 57C.3. Teorema del Maximo de Berge y Teorema de Seleccion medible . . . . 58

Bibliografıa 61

Page 6: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

Introduccion

En este trabajo estudiaremos juegos markovianos de suma cero.

En terminos generales, un juego suma cero consiste en lo siguiente. Se tienen dosjugadores con objetivos opuestos. En el tiempo t, supongamos que el estado del juegoes xt = x, entonces independientemente cada jugador elige una accion o control at ybt, respectivamente, de determinado conjunto, y sucede lo siguiente:

1) El jugador 1 recibe un pago r(x, a, b) del jugador 2, es decir, r(x, a, b) representala ganancia para el jugador 1 y el costo para el jugador 2.

2) El juego se mueve a nuevo estado xt+1 = x′ de acuerdo a una determinadadistribucion de probabilidad.

3) Una vez en el estado x′ el proceso se repite.

Los jugadores seleccionan sus acciones mediante reglas conocidas como estrategiasde control , y el pago se acumula durante la evolucion del juego a tiempo discretoconsiderando el criterio de optimalidad descontado y el de pago promedio por etapa.Por lo tanto, el objetivo del jugador 1 es determinar estrategias para maximizar suganancia, mientras que las estrategias del jugador 2 estarıan dirigidas a minimizarsu costo.

Una clase particular de juegos suma cero se tiene cuando la evolucion en el tiempoes modelada por medio de ecuaciones en diferencia de la forma

xt+1 = F (xt, at, bt, ξt), t = 0, 1, ...., (1)

donde F es una funcion conocida y ξt es una sucesion de variables aleatoriasindependientes e identicamente distribuidas, llamado proceso de perturbacion, condensidad comun ρ. En este caso la distribucion de probabilidad que representa la leyde transicion entre los estados la determina la densidad ρ junto con la funcion F.

v

Page 7: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

INTRODUCCION vi

El objetivo principal de este trabajo de tesis es establecer condiciones para laexistencia de estrategias optimas para los jugadores tanto para el criterio de optima-lidad descontado como para el criterio de optimalidad promedio cuando los espaciosde estados y de acciones de ambos jugadores son de Borel, y el pago es posiblementeno acotado. Ademas, en el contexto de los juegos del tipo (1) construiremos estrate-gias (casi) optimas en el caso descontado y optimas en el caso promedio cuando ladensidad ρ es desconocida por los jugadores.

Nuestra metodologıa para el estudio de estos problemas es la siguiente. Primera-mente estudiamos el criterio descontado con horizonte finito N . Luego, a partir deestos resultados, analizamos el problema con horizonte infinito haciendo N → ∞.Ademas, el criterio de optimalidad promedio se estudia aplicando el metodo de factorde descuento desvaneciente, es decir, como lımite del caso descontado. Por otro lado,en el problema, tanto para el caso descontado como para el promedio, cuando la den-sidad ρ es desconocida, construimos para cada jugador un estimador estadıstico dela densidad. Entonces la decision de cada jugador es adaptada a la correspondienteestimacion para determinar sus estrategias. La estrategias que combinan estimaciony control se les conocen como estrategias adaptadas.

El trabajo esta estructurado de la siguiente manera. En el Capıtulo 1 se introdu-cen los elementos necesarios para la descripcion de un juego estocastico suma ceroası como los criterios de optimalidad que estudiaremos. Enseguida, en el Capıtulo 2,se estudia el criterio descontado en el cual se introducen las hipotesis que garantizanla existencia de estrategias optimas tanto para el caso de horizonte finito como el in-finito. Ademas se presenta la construccion de estrategias adaptadas asintoticamentedescontadas optimas para los jugadores. Despues, tomando en cuenta los resultadosobtenidos, en el Capıtulo 3 estudiamos el citerio de optimalidad promedio como lımi-te del caso descontado, y se presentan las condiciones que garantizan la existencia deestrategias optimas. De igual forma, se construyen estrategias adaptadas, las cualesa diferencia del caso descontado, estas resultan ser optimas.

Page 8: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

Capıtulo 1

Juegos Markovianos de suma cero

En este capıtulo se introducen los elementos necesarios para describir un juegoestocastico suma cero. Ademas presentaremos la definicion de estrategia ası como losındices de funcionamiento que estudiaremos a lo largo del trabajo.

Finalmente, veremos algunos resultados que seran utiles en la construccion de es-trategias adaptadas para los criterios descontado y promedio en los Capıtulos 2 y 3respectivamente.

1.1. Formulacion de un juego suma cero

Consideraremos el modelo de un juego estocastico de dos personas con suma cerode la siguiente forma

(X,A,B,KA,KB, Q, r) (1.1)

donde:

i) X es el espacio de estados del juego, el cual suponemos que es un espacio de Borel(ver Apendice A.1).

ii) A y B son los espacios de acciones para los jugadores 1 y 2, respectivamente, ytambien suponemos que son espacios de Borel.

iii) KA y KB son subconjuntos de Borel no vacıos de X×A y X×B, respectivamente.Ademas para cada x ∈ X, la x-seccion

A(x) := a ∈ A : (x, a) ∈ KA

1

Page 9: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 1. JUEGOS MARKOVIANOS DE SUMA CERO 2

es un subconjunto no vacıo de A que representa el conjunto de acciones ad-misibles para el jugador 1 en el estado x. Analogamente, la x-seccion B(x) :=b ∈ B : (x, b) ∈ KB denota el conjunto de acciones admisibles para el jugador2 en el estado x. Luego definimos

K := (x, a, b) : x ∈ X, a ∈ A(x), b ∈ B(x) ,

el cual es un subconjunto de Borel de X × A×B.

iv) Q es un kernel estocastico en X dado K (ver Apendice A), llamado la ley detransicion entre los estados. Es decir Q (·|x, a, b) es la distribucion condicionalde xt+1 dado xt = x, at = a y bt = b para todo t ≥ 0.

v) r : K→ R es una funcion medible que denota la funcion de pago, y representa laganancia para el jugador 1 y el costo para el jugador 2.

El modelo (1.1) representa un juego dinamico que evoluciona en el tiempo de lasiguiente forma. En cada etapa t = 0, 1, . . ., los jugadores 1 y 2 observan el estadoactual del juego xt = x ∈ X, e independientemente los jugadores eligen las accionesa ∈ A(x) y b ∈ B(x), respectivamente. Como consecuencia de esto, pasa lo siguien-te: (1) el jugador 1 recibe inmediatamente una ganancia r(x, a, b); (2) el jugador 2tiene un costo r(x, a, b), y (3) el sistema se mueve a un nuevo estado de acuerdo ala distribucion Q(·|x, a, b). Ası el objetivo del jugador 1 es maximizar su ganancia,mientras que el del jugador 2 es minimizar su costo.

Observacion 1.1.1. En algunos casos, la evolucion del juego se puede modelar

mediante una ecuacion recursiva de la forma

xn+1 = F (xn, an, bn, ξn), n = 0, 1, . . . , (1.2)

donde F : X×A×B×Rk → X es una funcion medible y el proceso de perturbacion

ξn esta formado por vectores aleatorios independientes e indenticamente distribui-

dos en Rk, para algun entero fijo k, con densidad comun ρ. En este caso, el kernel

estocastico Q queda determinado como

Q(D|x, a, b) :=

∫RkID [F (x, a, b, s)] ρ(s)ds, D ∈ B(X), (1.3)

donde ID(·) es la funcion indicadora del conjunto D.

Page 10: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 1. JUEGOS MARKOVIANOS DE SUMA CERO 3

Con el fin de especificar claramente los elementos de un juego estocastico cuando

estamos trabajando en este contexto expresaremos al modelo del juego de la siguien-

te forma:

(X,A,B,KA,KB, F, ρ, r) . (1.4)

1.2. Estrategias

Consideremos el modelo de un juego estocastico como en (1.1), y para cada t =0, 1, . . ., definimos el espacio de historias admisibles hasta la t−esima etapa como

H0 = X y Ht := Kt ×X = K×Ht−1 para t = 1, 2, . . . . (1.5)

Un elemento de Ht es un vector al que llamaremos historia, de la forma

ht = (x0, a0, b0, . . . , xt−1, at−1, bt−1, xt). (1.6)

Definicion 1.2.1. Una estrategia aleatorizada π para el jugador 1, es una sucesion

π = πt, t = 0, 1, . . . de kernels estocasticos πt en P (A|Ht) (ver Definicion A.1.1)

tal que

π (A(xt)|ht) = 1 ∀ht ∈ Ht, t = 0, 1, . . .

Denotamos por Π a la familia de estrategias del jugador 1.

Definicion 1.2.2. Una estrategia π = πt se dice ser:

(a) Markoviana (o de Markov) si πt ∈ P(A|X) para cada t = 0, 1, . . ., esto es, cada

πt depende solo del estado actual xt del sistema.

Al conjunto de las estrategias de Markov del jugador 1 lo denotaremos por ΠM .

(b) Estacionaria si existe f ∈ P(A|X) tal que tal que πt = f para cada t = 0, 1, . . ..

En este caso la estrategia estacionaria π sera identificada con f .

Denoraremos ΠS al conjunto de las estrategias estacionarias del jugador 1.

Tenemos, por supuesto, las siguientes contenciones

ΠS ⊂ ΠM ⊂ Π.

Similarmente definimos las estrategias para el jugador 2, y denotamos por Γ, ΓM , ΓS

Page 11: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 1. JUEGOS MARKOVIANOS DE SUMA CERO 4

al conjunto de todas las estrategias, de las estrategias de Markov y de las estrategiasestacionarias, respectivamente, para el jugador 2.

Sea (Ω,F) el espacio medible (canonico) que consiste del espacio muestral Ω :=(X × A×B)∞ y su σ−algebra producto F . Entonces para cada par de estrategias(π, γ) ∈ Π × Γ y cada estado inicial x ∈ X, por el Teorema de C. Ionescu Tulcea(ver [3]), existe una unica medida de probabilidad P πγ

x y un proceso estocastico(xt, at, bt) , t = 0, 1, . . . definido en (Ω,F) de manera canonica, donde xt, at y btrepresentan el estado y las acciones del jugador 1 y 2, respectivamente, en cadaetapa t = 0, 1, . . .. El operador esperanza con respecto a P πγ

x es denotado por Eπγx .

1.3. Criterios de Optimalidad

Para cada estado inicial x0 = x, estrategias π ∈ Π, γ ∈ Γ, y n ∈ N, definiremosel pago total esperado hasta la n−esima etapa como:

Jn(x, π, γ) = Eπγx

[n−1∑t=0

r(xt, at, bt)

]. (1.7)

Ası mismo, sea α ∈ (0, 1). Definimos el pago descontado esperado hasta la n−esimaetapa como:

Vn(x, π, γ) := Eπγx

[n−1∑t=0

αtr(xt, at, bt)

]. (1.8)

El pago promedio esperado con horizonte infinito se define como

J(x, π, γ) = lım infn→∞

Jn(x, π, γ)

n(1.9)

y el pago descontado esperado con horizontre infinito como

Vα(x, π, γ) := Eπγx

[∞∑t=0

αtr(xt, at, bt)

], (1.10)

para cada par de estrategias (π, γ) y cada estado inicial x. El numero α es llamadoel “factor de descuento”.

Definicion 1.3.1. Para cada n = 1, 2, . . . , definimos las funciones

Lαn(x) := supπ∈Π

ınfγ∈Γ

Vn(x, π, γ)

Page 12: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 1. JUEGOS MARKOVIANOS DE SUMA CERO 5

y

Uαn (x) := ınf

γ∈Γsupπ∈Π

Vn(x, π, γ).

Las funciones Lαn, Uαn : X → R son llamadas el valor inferior y el valor superior, del

juego en n etapas, respectivamente.

Es claro que Lαn(·) ≤ Uαn (·), y si ademas se tiene que Lαn(x) = Uα

n (x) para todox ∈ X, entonces la funcion comun es llamada el valor del juego en n etapas, y ladenotamos por V ∗n (·).

Definicion 1.3.2. Consideremos un juego en n etapas.

i) Una estrategia π∗ ∈ Π se dice ser optima para el jugador 1 si

Uαn (x) ≤ Vn(x, π∗, γ) para cada γ ∈ Γ y x ∈ X.

ii) Una estrategia γ∗ ∈ Γ se dice ser optima para el jugador 2 si

Lαn(x) ≥ Vn(x, π, γ∗) para cada π ∈ Π y x ∈ X.

Si i) y ii) se satisfacen, entonces (π∗, γ∗) se dice ser un par optimo de estrategias.Equivalentemente, (π∗, γ∗) es un par de estrategias optimo para el juego en n etapas,si para todo x ∈ X,

Uαn (x) = ınf

γ∈ΓVn(x, π∗, γ) y Lαn(x) = sup

π∈ΠVn(x, π, γ∗).

La funcion de valor y las estrategias optimas para el caso α−descontado con ho-rizonte infinito, ası como para los casos de pago total y promedio, son definidas demanera similar, y denotaremos por V ∗α , J

∗n y J∗ el valor del juego correspondiente.

Existe otra manera de definir optimalidad, por ejemplo, en el caso α−descontadocon horizonte infinito, si el juego tiene un valor V ∗α , una estrategia π∗ ∈ Π se dice serε−optima para el jugador 1, ε ≥ 0, si

V ∗α (·)− ε ≤ ınfγ∈Γ

Vα(·, π∗, γ). (1.11)

Similarmente, una estrategia γ∗ ∈ Γ se dice ser ε−optima para el jugador 2 si

V ∗α (·) + ε ≥ supπ∈Π

Vα(·, π, γ∗). (1.12)

Page 13: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 1. JUEGOS MARKOVIANOS DE SUMA CERO 6

De aquı que una estrategia es optima cuando es 0−optima.

Un par de estrategias (π∗, γ∗) es llamado un par optimo o punto silla y observe-mos que (π∗, γ∗) es un par optimo si y solo si

Vα(·, π, γ∗) ≤ V (·, π∗, γ∗) ≤ V (·, π∗, γ) ∀π ∈ Π, ∀γ ∈ Γ.

Definiciones similares de estrategias ε−optimas y puntos silla se tienen para el crite-rio de costo promedio.

Para concluir esta seccion introduciremos el concepto de optimalidad asintotica parapares de estrategias el cual es mas debil que el criterio de optimalidad visto anterior-mente. Este concepto de optimalidad es una adaptacion a juegos estocasticos de lanocion de optimalidad asintotica para procesos de control de Markov propuesta porSchall en [26] (ver tambien [9, 10, 14]), y sera usada en el estudio de las estrategiasadaptadas para el caso descontado.

Definamos la funcion de discrepancia D : K→ R como:

D(x, a, b) := r(r, a, b) + α

∫RkV ∗α [(x, a, b, s)] ρ(s)ds− V ∗α (x).

Definicion 1.3.3. Una estrategia π∗ ∈ Π se dice ser asintoticamente descontada

(AD)−optima para el jugador 1 si

lım infn→∞

Eπ∗γx D(xn, an, bn) ≥ 0 ∀x ∈ X, γ ∈ Γ.

Similarmente, γ∗ ∈ Γ se dice ser AD−optima para el jugador 2 si

lım supn→∞

Eπ∗γx D(xn, an, bn) ≤ 0 ∀x ∈ X, π ∈ Π.

Un par de estrategias AD−optimas es llamado un par AD−optimo. En este caso, si

(π∗, γ∗) es un par AD−optimo, entonces, para cada x ∈ X,

lımn→∞

Eπ∗γ∗

x D(xn, an, bn) = 0.

Page 14: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

Capıtulo 2

Criterio de optimalidad descontado

Una vez establecidos los elementos necesarios para la descripcion de un juego es-tocastico suma cero, en este capıtulo se analiza el criterio de optimalidad descontadocon horizonte finito e infinito (ver (1.8) y (1.10)).

Introducimos tambien un conjunto de hipotesis que garantizan la existencia de paresde estrategias optimas de acuerdo a este criterio de optimalidad, para lo cual presen-tamos una serie de resultados preliminares que son consecuencia de dichas hipotesis.

Ademas en el contexto de ecuaciones en diferencias (ver Observacion 1.1.1), con-sideramos el caso en que los jugadores desconocen la densidad ρ, y se construiranestrategias adaptadas que seran asintoticamente optimas.

Por ultimo, presentaremos de manera general otros metodos para la construccionde estrategias adaptadas.

2.1. Preliminares

Antes de introducir los resultados principales, estableceremos la siguiente nota-cion.

Para cada x ∈ X, PA(x) := P(A(x)) y PB(x) := P(B(x)). Ademas notemos quelas multifunciones x 7→ PA(x) y x 7→ PB(x) son medibles, y con valores en los con-juntos compactos si A(x) y B(x) son compactos (ver Proposicion A.2.1).

Definimos FPA := f ∈ P(A|X) : f(x) ∈ PA(x) y FPB := f ∈ P(B|X) : f(x) ∈ PB(x).A los elementos de FPA y FPB se les llama selectores medibles para los jugadores 1 y

7

Page 15: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 2. CRITERIO DE OPTIMALIDAD DESCONTADO 8

2 respectivamente.

Para medidas de probabilidad µ ∈ PA(x) y λ ∈ PB(x), y cualquier funcion medibleu : K→ R definimos:

u(x, µ, λ) :=

∫A(x)

∫B(x)

u(x, a, b)µ(da)λ(db), x ∈ X.

De esta manera para las funciones r y Q establecidas anteriormente, y para cadaconjunto de Borel D ⊂ B(X) tenemos

r(x, µ, λ) :=

∫A(x)

∫B(x)

r(x, a, b)µ(da)λ(db), (2.1)

Q(D|x, µ, λ) :=

∫A(x)

∫B(x)

Q(D|x, a, b)µ(da)λ(db), (2.2)

y ∫X

u(y)Q(dy|x, µ, λ) :=

∫B(x)

∫A(x)

∫X

u(y)Q(dy|x, a, b)µ(da)λ(db). (2.3)

Definicion 2.1.1. Sea w : X → [1,∞) una funcion medible. Para cada funcion

medible u : X → R definimos su w−norma como

‖u‖w := supx∈X

|u(x)|w(x)

.

Denoteremos por Bw(X) al espacio de Banach de las funciones con w−norma finita.

Ademas, Lw(X) (Cw(X)) es el conjunto de funciones u ∈ Bw(X) que son semiconti-

nuas inferiormente (continuas).

Para cada u ∈ Bw(X) y (x, a, b) ∈ K, definimos

H(u;x, a, b) := r(x, a, b) + α

∫X

u(y)Q(dy|x, a, b). (2.4)

Con la notacion de antes, definimos el operador

Tαu(x) := supµ∈PA(x)

ınfλ∈PB(x)

H(u;x, µ, λ) ∀u ∈ Bw(X). (2.5)

Mas adelante podremos asegurar que el supremo y el ınfimo se alcanzan, ası quepodemos reemplazar ınf y sup por mın y max, respectivamente. De esta maneratendremos

Tαu(x) = maxµ∈PA(x)

mınλ∈PB(x)

H(u;x, µ, λ) ∀u ∈ Bw(X). (2.6)

Page 16: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 2. CRITERIO DE OPTIMALIDAD DESCONTADO 9

2.2. Juegos con horizonte finito

Los resultados de existencia del valor del juego, ası como de pares optimos losobtendremos bajo dos tipos de hipotesis. La primera de ellas es la siguiente.

Hipotesis 1. (a) Para cada estado x ∈ X, los conjuntos de acciones admisibles A(x)

y B(x) son compactos.

(b) Para cada (x, a, b) ∈ K, r(x, ·, b) es semicontinua superiormente en A(x), y

r(x, a, ·) es semicontinua inferiormente en B(x).

(c) Para cada (x, a, b) ∈ K y cada funcion acotada y medible v en X, las funciones∫X

v(y)Q(dy|x, ·, b) y

∫X

v(y)Q(dy|x, a, ·)

son continuas en A(x) y B(x), respectivamente.

(d) Existe una constante M > 0 y una funcion medible w : X → R tal que w(x) ≥ 1

para cada x ∈ X y

|r(x, a, b)| ≤Mw(x). (2.7)

Ademas (c) se cumple cuando v es remplazada con w.

(e) Existe una constante 1 < ν < 1α

tal que∫X

w(y)Q(dy|x, a, b) ≤ νw(x) ∀(x, a, b) ∈ K. (2.8)

La condicion (e) puede ser remplazada por

(e)’ Existe un conjunto de Borel no vacıo C ⊂ X tal que para algun β ∈ (0, 1) y

η > 0, tenemos ∫X

w(y)Q(dy|x, a, b) ≤ βw(x) + ηIC(x),

para cada (x, a, b) ∈ K. En este caso IC(x) es la funcion indicadora del conjunto

C y w es la funcion definida en (d).

El siguiente teorema muestra como podemos intercambiar el maximo y mınimode la definicion (2.5).

Page 17: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 2. CRITERIO DE OPTIMALIDAD DESCONTADO 10

Lema 2.2.1. Supongamos que la Hipotesis 1 se cumple. Entonces para cada u en

Bw(X):

(a) Tαu(x) = maxλ∈PB(x)

mınµ∈PA(x)

H(u;x, µ, λ),

(b) Existe f0 ∈ FPA y g0 ∈ FPB tal que, para todo x ∈ X,

Tαu(x) = maxµ∈PA(x)

H(u;x, µ, g0(x))

= mınλ∈PB(x)

H(u;x, f0(x), λ)

= H(u;x, f0(x), g0(x))

(c) Tαu es un elemento de Bw(X).

Demostracion. Elijamos una funcion u en Bw(X).

(a) Por las Hipotesis 1(c) y 1(d) la integral en (2.4) es continua en a ∈ A(x) y

b ∈ B(x) (ver Lema 8.3.7(a) en [13]). Este hecho y la Hipotesis 1(b) implican

que para cada (x, a, b) ∈ K la funcion H(u;x, ·, b) es semicontinua superiormen-

te en A(x), y H(u;x, a, ·) es semicontinua inferiormente en B(x). De aquı la

funcion H(u;x, µ, λ) es semicontinua superiormente en µ ∈ PA(x), y semicon-

tinua superiormente en λ ∈ PB(x). Mas aun, H(u;x, µ, λ) es concava en µ

y convexa en λ. Ası por el Teorema Minimax de Fan (ver Teorema C.2.1),

obtenemos la parte (a).

(b) Definamos

H1(x, µ) := mınλ∈PB(x)

H(u;x, µ, λ),

para todo x ∈ X y µ ∈ PA(x). Como podemos notar, en la prueba de la

parte (a), H1(x, ·) es semicontinua superiormente en PA(x). Por tanto, por

Proposicion A.1.1 y Teorema C.3.4, existe f0 ∈ FPA tal que

H1(x, f0(x)) = maxµ∈PA(x)

H1(x, µ) ∀x ∈ X.

En consecuencia, obtenemos

H1(x, f0(x)) = maxµ∈PA(x)

mınλ∈PB(x)

H(u;x, µ, λ). (2.9)

Page 18: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 2. CRITERIO DE OPTIMALIDAD DESCONTADO 11

Definamos el operador

Tαu(x) := maxPA(x)

mınPB(x)

H(u;x, µ, λ), ∀u ∈ B(X).

Por (2.9), tenemos

Tαu(x) = mınλ∈PB(x)

H(u;x, f0(x), λ).

De manera similar, sea

H2(x, λ) := maxµ∈PA(x)

H(u;x, µ, λ).

Entonces existe g0 ∈ FPB tal que

Tαu(x) = mınλ∈PA(x)

H(u;x, µ, g0(x)).

(c) Como |u(·)| ≤ ‖u‖w w(·), de (2.7) y (2.8) obtenemos, para cualquier (x, a, b) en

K,

|H(u;x, a, b)| ≤ Mw(x) + ‖u‖w α∫Xw(y)Q(dy|x, a, b)

≤ (M + αν ‖u‖w)w(x).

Ası, por el inciso (b) y esto ultimo, Tαu pertenece a Bw(X).

Una consecuencia del lema anterior es el siguiente resultado que garantiza laexistencia del valor del juego con horizonte finito.

Teorema 2.2.2. Supongamos que se satisface la Hipotesis 1. Entonces el juego

estocastico con horizonte finito tiene un valor y ambos jugadores tienen estrategias

de Markov optimas. Mas aun, si V ∗n es la funcion de valor para el juego con horizonte

n, entonces V ∗n ∈ Bw(X) y V ∗n (x) = TαV∗n−1(x) para cada n ≥ 2.

Demostracion. La prueba se sigue por induccion. Para n = 1 se sigue directamente

de (1.8) y Lema 2.2.1 con u(·) ≡ 0. Supongamos ahora que el resultado es valido

para n− 1 (n ≥ 2). Sean πn−1 = (f1, f2, . . . , fn−1) y γn−1 = (g1, g2, . . . , gn−1) un par

Page 19: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 2. CRITERIO DE OPTIMALIDAD DESCONTADO 12

de estrategias optimas para los jugadores 1 y 2, respectivamente, en el juego con n

etapas. Entonces

V ∗n−1(·) = Vn−1(·, πn−1, γn−1).

Sean Uαn (·) y Lαn(·) las funciones de valor superior y inferior, respectivamente (ver

Definicion 1.3.1). Elijamos g ∈ FPB arbitraria y definamos γg := (g, γn−1). Notemos

que, por definicion de Uαn ,

Uαn (x) ≤ sup

π∈ΠVn(x, π, γg)

De aquı, para cada x ∈ X,

Uαn (x) ≤ sup

µ∈PA(x)

[r(x, µ, g(x)) + α

∫X

supπ∈Π

Vn−1(y, π, γn−1)Q(dy|x, µ, g(x))

],

esto es,

Uαn (x) ≤ sup

µ∈PA(x)

[r(x, µ, g(x)) + α

∫X

Vn−1(y)Q(dy|x, µ, g(x))

].

Sea Hn−1(x, µ, λ) := H(Vn−1;x, µ, λ). Por tanto,

Uαn (x) ≤ sup

µ∈PA(x)

Hn−1(x, µ, g(x))

y, como g ∈ FPB es arbitraria,

Uαn (x) ≤ ınf

λ∈PB(x)sup

µ∈PA(x)

Hn−1(x, µ, λ)

para cada x ∈ X. Por tanto, por el Lema 2.2.1, llegamos a

Uαn (x) ≤ TαV

∗n−1(x).

Similarmente, tenemos

Lαn(x) ≥ TαV∗n−1(x).

De estas dos ultimas desigualdades, concluimos que Uαn (x) = Lαn(x) = TαV

∗n−1(x), lo

cual muestra que el juego con horizonte n tiene un valor V ∗n = TαV∗n−1. Ademas, por

el Lema 2.2.1, concluimos que V ∗n ∈ Bw(X) y existen f0 ∈ FPA y g0 ∈ FPB tales que

para cada f ∈ FPA y g ∈ FPB

Page 20: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 2. CRITERIO DE OPTIMALIDAD DESCONTADO 13

Vn(x) = Hn−1(x, f0(x), g0(x)),

Vn(x) ≥ Hn−1(x, f(x), g0(x)),

Vn(x) ≤ Hn−1(x, f0(x), g(x)).

Por ultimo, sean πn = (f0, f1, . . . , fn−1) y γn = (g0, g1, . . . , gn−1). Entonces con-

cluimos que πn y γn son optimas para las jugadores 1 y 2, respectivamente, para el

juego estocastico en n etapas.

Ahora estableceremos otro resultado de existencia para este tipo de juegos con-siderando la siguiente hipotesis.

Hipotesis 2. (a) Las correspondencias x 7→ A(x) y x 7→ B(x) son continuas con

valores compacctos.

(b) La funcion r : K→ R es continua.

(c) El kernel Q es debilmente continuo (ver Definicion A.1.2).

(d) Existe una funcion w : X → [1,∞) tal que |r(x, a, b)| ≤ w(x) para cada

(x, a, b) ∈ K.

(e) La funcion

(x, a, b) 7→∫X

w(y)Q(dy|x, a, b)

es continua en K.

(f) Existen constantes positivas β < 1 y c tal que para cada (x, a, b) ∈ K,∫X

w(y)Q(dy|x, a, b) ≤ βw(x) + c.

Teorema 2.2.3. Supongamos que la Hipotesis 2 se cumple. Entonces las conclu-

siones del Teorema 2.2.2 son validas. Mas aun, V ∗n ∈ Cw(X).

Demostracion. La prueba se sigue por induccion y se hace aplicando argumentos

de programacion dinamica (como en la demostracion del Teorema 2.2.2). En este

caso, para demostrar la continuidad de las funciones V ∗n y la existencia de estrategias

markovianas se usan los Teoremas C.3.3 y C.3.4.

Page 21: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 2. CRITERIO DE OPTIMALIDAD DESCONTADO 14

2.3. Juegos con horizonte infinito

En esta seccion, consideraremos juegos estocasticos con horizonte infinito. Pro-baremos que el valor del juego V ∗α es un punto fijo del operador Tα in (2.6), estoes, V ∗α = TαV

∗α , y mostraremos que la sucesion V α

n definida en la seccion anterior,converge geometricamente a Vα en la w−norma.

De nuevo el resultado se establecera bajo las Hipotesis 1 y 2 de la seccion anterior.

Consideraremos la funcion de pago α−descontado Vα(x, π, γ) y sus correspondien-tes funciones de valor inferior y superior, Lα(·) y Uα(·), respectivamente. El objetivoes mostrar que Lα(·) = Uα(·), de tal forma que el valor para el juego con horizonteinfinito existe y es V ∗α (·). Para hacer esto primero introducimos algunos resultadospreliminares.

Lema 2.3.1. Bajo la Hipotesis 1, el operador Tα definido en (2.5) es un operador

de contraccion en Bw(X) con modulo τ := να (con ν como en (2.8)).

Demostracion. Primero notemos que Tα es un operador monotono, es decir, si u

y u son funciones en Bw(X), y u ≥ u, entonces Tαu(x) ≥ Tαu(x) para todo x ∈ X.

Por otro lado, por (2.8), para cualquier numero real k ≥ 0 se cumple:

Tα(u+ kw)(x) ≤ Tαu(x) + ναkw(x), (2.10)

para todo x ∈ X y u ∈ Bw(X). Ahora, para verificar que Tα es de contraccion,

elijamos u y u en Bw(X). Como u ≤ u + w ‖u− u‖w, la monotonıa de Tα y (2.10)

con k = ‖u− u‖w implican

Tαu(x) ≤ Tα(u+ kw)(x) ≤ Tαu(x) + ναkw(x),

esto es,

Tαu(x)− Tαu(x) ≤ να ‖u− u‖w w(x), x ∈ X.

Si intercambiamos u y u obtenemos

Tαu(x)− Tαu(x) ≥ −να ‖u− u‖w w(x),

ası que

|Tαu(x)− Tαu(x)| ≤ να ‖u− u‖w w(x).

Por lo tanto, haciendo τ := να, obtenemos ‖Tαu− Tαu‖ ≤ τ ‖u− u‖w, y con esto

queda demostrado el lema pues u, u ∈ Bw(x) fueron arbitrarias.

Page 22: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 2. CRITERIO DE OPTIMALIDAD DESCONTADO 15

Lema 2.3.2. Sean M , w y ν como en la Hipotesis 1, y ademas, sean π ∈ Π y γ ∈ Γ

estrategias arbitrarias para los jugadores 1 y 2, respectivamente, y x ∈ X el estado

inicial. Entonces para cada t = 0, 1, . . .

(a) Eπγx w(xt) ≤ νtw(x),

(b) |Eπγx r(xt, at, bt)| ≤Mνtw(x),

(c) lımt→∞

αtEπγx u(xt) = 0 para toda u ∈ Bw(X).

Demostracion. (a) El caso t = 0 se sigue trivialmente. Ahora, si t ≥ 1, tenemos

Eπγx [w(xt)|ht−1, at−1, bt−1] =

∫Xw(y)Q(dy|xt−1, at−1, bt−1)

≤ νw(xt−1) por (2.8).

Por lo tanto tenemos la desigualdad Eπγx w(xt) ≤ νEπγ

x w(xt−1), la cual iterando

obtenemos (a).

(b) Observe que con la Hipotesis 1(d) tenemos

|r(xt, at, bt)| ≤Mw(xt) ∀t = 0, 1, . . . ,

ası que por el inciso (a),

Eπγx |r(xt, at, bt)| ≤Mνtw(x).

(c) Por definicion de w−norma y por la parte (a), obtenemos

Eπγx |u(xt)| ≤ ‖u‖w E

πγx w(xt) ≤ ‖u‖w ν

tw(x),

de donde se sigue (c).

Definicion 2.3.1. Sean f ∈ FPA , g ∈ FPB , y H como en (2.4). Definimos el operador

Rfg : Bw(X)→ Bw(X), u 7→ Rfgu,

por

Rfgu(x) := H(u;x, f(x), g(x)) ∀x ∈ X. (2.11)

Page 23: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 2. CRITERIO DE OPTIMALIDAD DESCONTADO 16

Lema 2.3.3. El operador Rfg es un operador de contraccion con modulo τ := αν

en Bw(X) y Vα(x, f, g) es su unico punto fijo en Bw(X).

Demostracion. Aplicando argumentos similares como en la prueba del Lema 2.3.1,

se sigue que Rfg es un operador de contraccion en Bx(X) con modulo τ := αν. Por

lo tanto, Rfg tiene un unico punto fijo ufg en Bw(X), es decir,

ufg = Rfgufg, (2.12)

con lo cual tenemos que ufg es la unica solucion en Bw(X) de la ecuacion

ufg(x) = r(x, f(x), g(x)) + α

∫X

ufg(y)Q(dyx, f(x), g(x)), ∀x ∈ X. (2.13)

Mas aun, iterando (2.12) o (2.13) llegamos a

ufg(x) = Rnfgufg(x) = Efg

x

[n−1∑t=0

αtr(xt, f(xt), g(xt))

]+ αnEfg

x ufg(xn)

para toda x ∈ X y n ≥ 1, donde Efgx u(xn) =

∫Xu(y)Qn(dy|x, f, g), y Qn(·|x, f, g)

la n−esima transicion del kernel del proceso de Markov xt cuando usamos las

estrategias f y g. Finalmente, por el Lema 2.3.2(c) y haciendo n → ∞ tenemos, de

la definicion de Vα, que ufg(x) = Vα(x, f, g) para todo x ∈ X.

Ahora estableceremos uno de los resultados principales en esta seccion, el cualesteblece, entre otras cosas, que la sucecion Vn converge geometricamente a Vαen la w−norma, ası como la existencia de un par de estrategias optimas. Para lademostracion se consideran los resultados establecidos en el Teorema 2.2.2 para elcaso de horizonte finito n, para despues hacer n→∞.

Teorema 2.3.4. Bajo la Hipotesis 1 y dadas las constantes ν como en (2.8) y

τ := να, tenemos:

(a) La funcion de valor α−descontado V ∗α es la unica funcion en el espacio Bw(X)

que satisface la ecuacion TαV∗α = V ∗α , y

‖V ∗n − V ∗α ‖w ≤Mτn/(1− τ) ∀n = 1, 2, . . . . (2.14)

Page 24: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 2. CRITERIO DE OPTIMALIDAD DESCONTADO 17

(b) Existe un par de estrategias optimo.

Demostracion. Por el Lema 2.3.2 y el Teorema de punto fijo de Banach (Proposi-

cion C.1.1), Tα tiene un unico punto fijo V ∗ en Bw(X), es decir,

TαV∗ = V ∗, (2.15)

y

‖T nαu− V ∗‖w ≤ τn ‖u− V ∗‖w ∀u ∈ Bw(X), n = 0, 1, . . . (2.16)

De aquı, para probar la parte (a) necesitamos mostrar que

(i) V ∗α esta en Bw(X), con norma ‖V ∗α ‖w ≤M/(1− τ), y

(ii) V ∗α = V ∗.

En efecto, usando

V ∗n = TαV∗n−1 = T nαV0 ∀n = 0, 1, . . . , V0 = 0, (2.17)

(2.14) se siguira de (2.17) y (2.16) con u ≡ 0.

Para probar (i), consideremos π ∈ Π y γ ∈ Γ estrategias arbitrarias para los

jugadores 1 y 2, respectivamente, y x ∈ X un estado inicial arbitrario, entonces (i)

se deduce del Lema 2.3.2(b) y observando que

|Vα(x, π, γ)| ≤∞∑t=0

αtEπγx |r(xt, at, bt)| ≤Mw(x)/(1− τ),

con τ := αν. En consecuencia, como π ∈ Π, γ ∈ Γ y x ∈ X fueron arbitrarias,

|V ∗α (x)| ≤Mw(x)/(1− τ).

Para probar (ii) notemos que por la igualdad V ∗ = TαV∗ y el Lema 2.2.1, existen

f∗ ∈ FPA y g∗ ∈ FPB tales que, para todo x ∈ X,

V ∗(x) = supµ∈PA(x)

H(V ∗;x, µ, g∗(x))

= ınfλ∈PB(x)

H(V ∗;x, f∗(x), λ)

= H(x, f∗(x), g∗(x)).

(2.18)

Page 25: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 2. CRITERIO DE OPTIMALIDAD DESCONTADO 18

Observemos que (2.18) puede ser escrito como

V ∗(x) = r(x, f∗(x), g∗(x)) + α

∫X

V ∗(y)Q(dy|x, f∗(x), g∗(x)).

Entonces se sigue del Lema 2.3.3, que V ∗(x) = Vα(x, f∗, g∗). Por tanto, tenemos

Vα(x, f∗, g∗) = supµ∈PA(x)

[r(x, µ, g∗(x)) + α

∫X

Vα(y, f∗, g∗)Q(dy|x, µ, g∗(x))

],

para todo x ∈ X. De aquı, aplicando resultados estandar de programacion dinamica

(ver por ejemplo [12], [13]), se sigue que

Vα(x, f∗, g∗) = supπ∈Π

Vα(x, π, g∗). (2.19)

De manera similar, considerando ahora el ınfimo en (2.18) obtenemos

Vα(x, f∗, g∗) = ınfγ∈Γ

Vα(x, f∗, γ). (2.20)

De (2.19) y (2.20) concluimos

Vα(x, f∗, g∗) = supπ∈Π

Vα(x, π, g∗) ≥ ınfγ∈Γ

supπ∈Π

Vα(x, π, γ),

Vα(x, f∗, g∗) = ınfγ∈Γ

Vα(x, f∗γ) ≤ supπ∈Π

ınfγ∈Γ

Vα(x, π, γ),

lo cual a su vez implican

ınfγ∈Γ

supπ∈Π

Vα(x, π, γ) = Vα(x, f∗, g∗) = supπ∈Π

ınfγ∈Γ

Vα(x, π, γ).

Esto prueba que el juego estocastico tiene un valor, que la funcion de valor es V ∗α (x) =

Vα(x, f∗, g∗) = V ∗(x) para todo x ∈ X y que f∗, g∗ son estrategias optimas para los

jugadores 1 y 2, respectivamente.

Ahora estableceremos un resultado analogo en el contexto de la Hipotesis 2.

Teorema 2.3.5. Supongamos que la Hipotesis 2 se cumple. Entonces el juego es-

tocastico con costo descontado tiene un valor V ∗α y ambos jugadores tienen estrategias

estacionarias optimas f∗ ∈ FPA y g∗ ∈ FPB . Mas aun, V ∗α ∈ Cw(X) y

Page 26: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 2. CRITERIO DE OPTIMALIDAD DESCONTADO 19

V ∗α (x) = TαV∗α (x) = r(s, f∗(x), g∗(x)) + α

∫X

V ∗α (y)Q(dy|x, f∗(x), g∗(x)) (2.21)

= maxµ∈PA(x)

[r(x, µ, g∗(x)) + α

∫X

V ∗α (y)Q(dy|x, µ, g∗(x))

]

= mınλ∈PB(x)

[r(x, f∗(x), λ) + α

∫X

V ∗α (y)Q(dy|x, f∗(x), λ)

]para cada x ∈ X.

Demostracion. Primero mostremos que V ∗α es un punto fijo en Cw(X) del operador

Tα para cada α ∈ (0, 1). Por el Teorema 2.2.3, para cada n ≥ 0, tenemos

V ∗n (x) = mınγ∈Γ

maxπ∈Π

Eπγx

(n−1∑t=0

αtr(xt, at, bt)

)

= maxπ∈Π

mınγ∈Γ

Eπγx

(n−1∑t=0

αtr(xt, at, bt)

)y

V ∗n (x) = T nαV0(x),

para cada x ∈ X, n ≥ 1. De la Hipotesis 2(e), uno puede probar facilmente por

induccion que

Eπγx (w(xn)) ≤ λnw(x)+ϕ(w)

n−1∑k=0

λk ≤ w(x)+ϕ(w)

1− λ, x ∈ X, (π, γ) ∈ Π×Γ. (2.22)

Ahora, supongamos que n > k para k ∈ N y notemos que

|V ∗n (x)− V ∗k (x)| ≤ supπ∈Π

supγ∈Γ

∣∣∣∣Eπγx

(n−1∑t=0

αtr(xt, at, bt)

)− Eπγ

x

(k−1∑t=0

αtr(xt, at, bt)

)∣∣∣∣≤ sup

π∈Πsupγ∈Γ

Eπγx

(n−1∑t=k

αt |r(xt, at, bt)|)

≤ supπ∈Π

supγ∈Γ

Eπγx

(n−1∑t=k

αtw(xt)

).

Page 27: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 2. CRITERIO DE OPTIMALIDAD DESCONTADO 20

Ası que de (2.22), se sigue que

|V ∗n (x)− V ∗k (x)| ≤n−1∑t=k

αkw(x)d ≤ αt

1− αw(x)d

para alguna constante d. Esto implica que la sucesion V ∗n es de Cauchy en Cw(X).

Sea

V ∗α (x) = lımn→∞

V ∗n (x), x ∈ X.

Notemos que V ∗α ∈ Cw(X) y

‖V ∗n − V ∗α ‖w = supx∈X

|V ∗n (x)− V ∗α (x)|w(x)

→ 0 cuando n→∞. (2.23)

Para n ≥ 2, es un hecho que

V ∗n (x) = T nαV0(x) = TαV∗n−1(x).

Ademas tenemos que TαVn−1 → TαV∗α cuando n→∞. En efecto, notemos que

|TαV ∗n (x)− TαV ∗α (x)| ≤ maxa∈A(x)

maxb∈B(x)

∫X

|V ∗n (y)− V ∗α (y)|w(y)

w(y)Q(dy|x, a, b)

≤ ‖V ∗n − V ∗α ‖w maxa∈A(x)

maxb∈B(x)

∫X

w(y)Q(dy|x, a, b).

Ahora de la Hipotesis 2(f) y (2.23), concluimos que TαVn → TαV∗α cuando n → ∞,

con lo cual tenemos que V ∗α es un punto fijo de Tα. La existencia de f∗ y g∗ que

satisfacen la optimalidad y las igualdades deseadas, se siguen aplicando argumentos

similares a la demostracion del Teorema 2.3.4 usando en este caso los Teoremas C.3.3

y C.3.4.

2.3.1. Resultados adicionales

Concluimos la presente seccion presentando un nuevo conjunto de hipotesis pro-puesto por Kuenle en [18] para mostrar la existencia del valor del juego. Estas hipote-sis son mas debiles que las Hipotesis 1 y 2, pero solo garantizan la existencia deestrategias ε−optimas (ver (1.11) y (1.12)).

Page 28: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 2. CRITERIO DE OPTIMALIDAD DESCONTADO 21

Hipotesis 3. (a) La correspondencia x 7→ A(x) es semicontinua inferiormente y

A(x) es completo para cada x ∈ X.

(b) La correspondencia x 7→ B(x) es semicontinua superiormente y B(x) es com-

pacto para cada x ∈ X.

(c) La funcion r(·, ·, ·) ≥ 0 es semicontinua inferiormente en K.

(d) El kernel Q es debilmente continuo.

(e) Existe una funcion medible w ≥ 1 en X y constantes positivas β < 1,M y c, tal

que las siguientes desigualdades se satisfacen para (x, a, b) ∈ K:

(e.1) 0 ≤ r(x, a, b) ≤Mw(x);

(e.2)∫Xw(y)Q(dy|x, a, b) ≤ βw(x) + c.

Teorema 2.3.6 (Kuenle [18]). Bajo la Hipotesis 3 tenemos lo siguiente:

(a) El juego tiene un valor V ∗α ∈ Lw.

(b) Existe una estrategia estacionaria g∗ tal que

V ∗(x) = supµ∈PA(x)

[r(x, µ, g∗) + α

∫RkV ∗α (y)Q(dy|x, µ, g∗)

]∀x ∈ X;

mas aun, para cada ε > 0 existe una estrategia estacionaria fε tal que

V ∗(x)− ε ≤ ınfλ∈PB(x)

[r(x, fε, λ) + α

∫RkV ∗α (y)Q(dy|x, fε, λ)

]∀x ∈ X.

(c) fε es ε−optima para el jugador 1 y g∗ es optima para el jugador 2, es decir,

V ∗(·)− ε ≤ ınfγ∈Γ

Vα(·, fε, γ),

V ∗(·) = supπ∈Π

Vα(·, π, g∗).

Page 29: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 2. CRITERIO DE OPTIMALIDAD DESCONTADO 22

2.4. Estrategias asintoticamente optimas

En esta seccion estudiaremos juegos estocasticos suma cero en el contexto delmodelo (1.4). Es decir, supondremos que la dinamica del juego es modelada pormedio de ecuaciones en diferencia de la forma (ver Observacion 1.1.1):

xn+1 = F (xn, an, bn, ξn), n = 0, 1, . . . ,

y mas aun, supondremos que la densidad ρ de los vectores aleatorios ξn es descono-cida por los jugadores. Bajo estas circunstancias, antes de elegir las acciones an y bnen la etapa n, los jugadores deben implementar un metodo de estimacion estadısticapara obtener los estimadores ρ1

n y ρ2n de ρ, y combinarlos con la historia del juego

para construir sus estrategias.

Por otro lado, como podemos observar, el criterio de costo descontado depende fuer-temente de las decisiones que toman los jugadores en las primeras etapas del juego,precisamente donde la informacion de la densidad ρ es escasa. Es decir, en las pri-meras etapas los metodos de estimacion proporcionan una informacion deficiente dela densidad. Esto implica que en general no existen estrategias adaptadas optimaspara los jugadores, y por lo tanto la optimalidad de las estrategias construidas conprocesos de estimacion y control sera estudiado en un sentido asintotico como en laDefinicion 1.3.3.

Los resultados los obtendremos bajo la siguiente hipotesis.

Hipotesis 4. Existe una funcion medible ρ en Rk tal que la densidad ρ satisface las

siguientes condiciones:

(a) ρ(·) ≤ ρ(·) casi dondequiera respecto a la medida de Lebesgue.

(b) Para cada s ∈ Rk la funcion F (·, ·, ·, s) es continua.

(c) Mas aun, existen constantes β0 ∈ (0, 1), b0 ≥ 0, p > 1, y M > 0 tales que para

todo (x, a, b) ∈ K se tiene que

0 ≤ r(x, a, b) ≤Mw(x),∫Rkwp [F (x, a, b, s)] ρ(s)ds ≤ β0w

p(x) + b0.

(d) Hipotesis 2(a), (b) y (e) se cumplen.

Page 30: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 2. CRITERIO DE OPTIMALIDAD DESCONTADO 23

Observacion 2.4.1. (a) La Hipotesis 4 (b) implica que la funcion

(x, a, b)→∫Rkv(F (x, a, b, s))µ(ds) (2.24)

es continua para cada funcion continua y acotada v en X y cada medida de

probabilidad µ(·) en Rk. Entonces, el kernel estocastico Q dado en (1.3) es

debilmente continuo.

(b) Por la desigualdad de Jensen, la Hipotesis 4(c) implica la Hipotesis 2(f) con

β := β1/p0 y c := b

1/p0 , esto es,∫

Rkw(F (x, a, b, s))ρ(s)ds ≤ βw(x) + c. (2.25)

Entonces por la parte (a) la Hipotesis 4 implica la Hipotesis 2, y por lo tanto,

los resultados del Teorema 2.3.5 se cumplen.

(c) Adicionalmente, notemos que con la Hipotesis 4(c) se tiene

supn≥0

Eπγx [wp(xn)] <∞ y sup

n≥0Eπγx [w(xn)] <∞, (2.26)

para cada par (π, γ) ∈ Π× Γ y x ∈ X (ver [9], [13]).

2.4.1. Estimacion de la densidad

En esta parte construiremos los estimadores de la densidad ρ. El metodo de esti-

macion que presentaremos es una adaptacion a juegos estocasticos del que se uso en

[9, 14] para control adaptado de procesos de Markov, y de esta manera solo expon-

dremos las ideas principales.

Sean ξ0, ξ1, . . . , ξn, . . . realizaciones independientes de vectores aleatorios con den-

sidad ρ(·), y denotemos por ρin(s) := ρin(s; ξ0, ξ1, . . . .ξn−1), s ∈ Rk, n ∈ N, los esti-

madores de la densidad para los jugadores i = 1, 2 tales que

E∥∥ρin − ρ∥∥1

= E

∫Rk

∣∣ρin(s)− ρ(s)∣∣ ds→ 0, cuando n→∞. (2.27)

Estimadores que satisfacen la propiedad (2.27) se pueden ver en [6] (Capıtulo 9, Teo-

rema 9.2).

Page 31: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 2. CRITERIO DE OPTIMALIDAD DESCONTADO 24

Consideremos la clase D formada por las densidades σ(·) que satisfacen las si-

guientes condiciones:

D.1 σ(·) ≤ ρ(·) casi dondequiera respecto a la medida de Lebesgue;

D.2∫Rk w[F (x, a, b, s)]σ(s)ds ≤ βw(x) + c para todo (x, a, b) ∈ K, donde las cons-

tantes β y c son como en la Observacion 2.4.1(b).

La clase de densidades D es un subconjunto cerrado y convexo de L1 bajo la Hipotesis

siguiente (ver [9]).

Hipotesis 5. La funcion

ψ(s) := supx∈X

supa∈A(x)

supb∈B(x)

1

w(x)w [F (x, a, b, s)] , s ∈ Rk, (2.28)

es finita y satisface la condicion∫Rkψ2(s)ρ(s)ds <∞. (2.29)

Entonces de ([6], p. 169), para cada n ∈ N existe ρin(·) ∈ D tal que∥∥ρin − ρin∥∥1= ınf

σ∈D

∥∥σ − ρin∥∥1, i = 1, 2. (2.30)

Notemos que E ‖ρin − ρ‖1 → 0, dado que∥∥ρin − ρ∥∥1≤∥∥ρin − ρin∥∥1

+∥∥ρin − ρ∥∥1

≤ 2∥∥ρin − ρ∥∥1

∀n ∈ N.

Las densidades ρin(·) seran usadas para obtener las estrategias adaptadas para

cada jugador, pero primero expresaremos su propiedad de convergencia usando la

siguiente norma, la cual es mas apropiada para nuestros fines. Para una funcion

medible σ : Rk → R definimos

‖σ‖ := supx∈X

supa∈A(x),b∈B(x)

1

w(x)

∫Rkw [F (x, a, b, s)] |σ(s)| ds. (2.31)

Notemos que la condicion D.2 garantiza que ‖σ‖ <∞ para cualquier densidad σ en

D.

Lema 2.4.1. Si las Hipotesis 4 y 5 se cumplen, entonces

E∥∥ρin − ρ∥∥→ 0 cuando n→∞ para i = 1, 2.

Page 32: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 2. CRITERIO DE OPTIMALIDAD DESCONTADO 25

Demostracion. De las desigualdad de Cauchy-Schwarz, y las relaciones (2.28) y

(2.29),

‖ρin − ρ‖ ≤∫Rkψ(s)

∣∣ρin(s)− ρ(s)∣∣ ds

≤(∫

Rkψ2(s)

∣∣ρin(s)− ρ(s)∣∣ ds)1/2(∫

Rk

∣∣ρin(s)− ρ(s)∣∣ ds)1/2

≤ 21/2

(∫Rkψ2(s)ρ(s)ds

)1/2(∫Rk

∣∣ρin(s)− ρ(s)∣∣ ds)1/2

≤ C ′(∫

Rk

∣∣ρin(s)− ρ(s)∣∣ ds)1/2

= C ′ ‖ρin − ρ‖1 ,

donde C ′ := (2∫Rk ψ

2(s)ρ(s)ds)1/2. El resultado se sigue de la ultima desigualdad

dado que E ‖ρin − ρ‖1 → 0 cuando n→∞.

2.4.2. Construccion de estrategias

Como se comento al principio de la seccion, la construccion de las estrategias se

hara bajo la Hipotesis 4, la cual implica la Hipotesis 2 (ver Observacion 2.4.1).

Sea θ ∈ (α, 1) y d := c[θ/α− 1]−1 constantes fijas. Definimos la funcion

w(·) := w(·) + d, (2.32)

ası como la correspondiente w−norma

‖u‖w = supx∈X

|u(x)|w(x)

<∞,

para u ∈ Bw(X). Observemos que las normas ‖·‖w y ‖·‖w son equivalentes dado que

‖u‖w ≤ ‖u ‖w ≤ (1 + d) ‖u‖w .

Por lo tanto, u ∈ Bw(X) si y solo si ‖u‖w <∞.

Page 33: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 2. CRITERIO DE OPTIMALIDAD DESCONTADO 26

Por otro lado, de [27] tenemos que si ρ ∈ D entonces la funcion w satisface la

desigualdad

α

∫Rkw(F (x, a, b, s))ρ(s)ds ≤ θw(x) ∀(x, a, b) ∈ K.

De aquı, siguiendo argumentos similares a la demostracion del Lema 2.3.1, podemos

demostrar que bajo la Hipotesis 4 y el hecho de que ρ ∈ D esta desigualdad implica

que el operador Tα es de contraccion de Cw(X) en sı mismo con modulo θ respecto

a la w−norma. Por el Teorema de Punto Fijo de Banach (ver Proposicion C.1.1) Tαtiene un unico punto fijo, y por el Teorema 2.3.5, este punto fijo es el valor del juego

V ∗α , es decir,

TV ∗α = V ∗α (2.33)

Ademas,

‖T nαu− V ∗α ‖w → 0 ∀u ∈ Cw(X),

lo cual implica que

‖T nαu− V ∗α ‖w → 0 ∀u ∈ Cw(X).

Las estrategias adaptadas seran obtenidas usando el metodo de iteracion de va-

lores cuando los jugadores usan los estimadores de densidad ρin definidos en (2.30)

como la densidad verdadera. Entonces introducimos, para i = 1, 2, los operadores

T inv(x) := ınfλ∈PA(x)

supµ∈PB(x)

[r(x, µ, λ) + α

∫Rkv(F (x, µ, λ, s))ρin(s)ds

],

para x ∈ X,n ∈ N. Notemos que bajo la Hipotesis 4 y Observacion 2.4.1 estos

operadores son de contraccion del espacio (Cw(X), ‖·‖w) en si mismo, con modulo θ.

Ası, en este caso, las funciones de iteracion de valores “minimax” para el jugador i

(= 1, 2)

U in := T inU

in−1, n ∈ N, U i

0 ≡ 0, (2.34)

pertenecen al espacio Cw(X). Mas aun, existe una sucesion λ∗n ⊂ FPB para el

jugador 2 tal que

U2n(x) = sup

µ∈PA(x)

[r(x, µ, λ∗n) + α

∫RkU2n−1(F (x, µ, λ∗n, s))ρ

2n(s)ds

], (2.35)

para todo x ∈ X, n ∈ N. De manera analoga, existe una sucesion µ∗n ⊂ FPA tal

que

U1n(x) = ınf

λ∈PB(x)

[r(x, µ∗n, λ) + α

∫RkU1n−1(F (x, µ∗n, λ, s))ρ

1n(s)ds

], (2.36)

Page 34: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 2. CRITERIO DE OPTIMALIDAD DESCONTADO 27

para todo x ∈ X, n ∈ N. Ademas, se puede mostrar que para algunas contantes

positivas C1 y C2, ∣∣U in(x)

∣∣ ≤ Ciw(x) ∀n ∈ N0, x ∈ X, i = 1, 2. (2.37)

Finalmente, tenemos el resultado principal de esta seccion.

Teorema 2.4.2. Supongamos que las Hipotesis 4 y 5 se cumplen. Entonces las

estrategias π∗ = µ∗n y γ∗ = λ∗n son AD−optimas para los jugadores 1 y 2,

respectivamente. Ası, en particular,

lımn→∞

Eπ∗,γ∗

x D(xn, an, bn) = 0 ∀x ∈ X.

2.4.3. Demostracion del resultado principal

La demostracion del Teorema 2.4.2 es consecuencia de los siguientes lemas.

Lema 2.4.3. Para cada i = 1, 2,∥∥T inV ∗α − TV ∗α∥∥w ≤ α ‖V ∗α ‖w∥∥ρin − ρ∥∥ ∀n ∈ N. (2.38)

Ası, para cada (π, γ) ∈ Π× Γ y x ∈ X,

lımn→∞

Eπ,γx

∥∥T inV ∗α − TV ∗α∥∥w = 0. (2.39)

Demostracion. Notemos que (2.39) se sigue de (2.38) y del Lema 2.4.1, ya que

‖ρin − ρ‖ no depende de (π, γ) ∈ Π × Γ y x ∈ X. Para demostrar (2.38), notemos

que para todo x ∈ X, n ∈ N, e i = 1, 2, tenemos

Page 35: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 2. CRITERIO DE OPTIMALIDAD DESCONTADO 28

|T inV ∗α (x)− TV ∗α (x)|

≤ supλ∈PB(x)

supµ∈PA(x)

∣∣∣∣α∫RkV ∗α (F (x, µ, λ, s))ρin(s)ds− α

∫RkV ∗α (F (x, µ, λ, s))ρ(s)ds

∣∣∣∣≤ sup

λ∈PB(x)

supµ∈PA(x)

α

∫Rk|V ∗α (F (x, µ, λ, s))|

∣∣ρin(s)− ρ(s)∣∣ ds

≤ α ‖V ∗α ‖w supλ∈PB(x)

supµ∈PA(x)

∫Rkw(F (x, µ, λ, s))

∣∣ρin(s)− ρ(s)∣∣ ds

≤ α ‖V ∗α ‖w ‖ρin − ρ‖w(x).

Esta desigualdad junto con la definicion de ‖·‖w demuestran (2.38).

Lema 2.4.4. Para cada i = 1, 2, (π, γ) ∈ Π× Γ, y x ∈ X,

lımn→∞

Eπ,γx

∥∥U in − V ∗α

∥∥w

= 0

Demostracion. Primero notemos que para todo n ∈ N e i = 1, 2,

‖U in − V ∗α ‖w =

∥∥T inU in−1 − TV ∗α

∥∥w

(ver (2.32) para la definicion de w)

≤∥∥T inU i

n−1 − T inV ∗α∥∥w

+ ‖T inV ∗α − TV ∗α ‖w .

Entonces, dado que T in es un operador de contraccion con modulo θ con respecto a

la w−norma, del Lema 2.4.3 se sigue que∥∥U in − V ∗α

∥∥w≤ θ

∥∥U in−1 − V ∗α

∥∥w

+ α ‖V ∗α ‖w∥∥ρin − ρ∥∥ . (2.40)

Mas aun, como E ‖ρin − ρ‖ → 0 existe una constante positiva M ′ tal que

Eπ,γx

∥∥U in − V ∗α

∥∥w≤ θEπ,γ

x

∥∥U in−1 − V ∗α

∥∥w

+M ′.

Ası, iterando esta desigualdad obtenemos

Page 36: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 2. CRITERIO DE OPTIMALIDAD DESCONTADO 29

Eπ,γx ‖U i

n − V ∗α ‖w ≤ θn ‖V ∗α ‖w +M ′n−1∑i=0

θi

≤ M ′ + ‖V ∗α ‖w1− θ

,

lo cual implica que

L := lım supn→∞

Eπ,γx

∥∥U in − V ∗α

∥∥w<∞.

Ahora tomando esperanza en (2.40) y limsup cuando n tiende a infinito, tenemos

que 0 ≤ L ≤ θL, con lo cual obtenemos L = 0. Esto demuestra el lema.

De acuerdo al Teorema 2.4.2, el objetivo es demostrar que las estrategias π∗ y

γ∗ son AD−optimas (ver Definicion 1.3.3). Para esto definimos “las funciones de

discrepancia aproximantes” para el jugador i = 1, 2, como:

Din(x, µ, λ) := r(x, µ, λ) + α

∫RkU in−1(F (x, µ, λ, s))ρin(s)ds− U i

n(x)

para x ∈ X, µ ∈ PA(x), λ ∈ PB(x).

Lema 2.4.5. Para todo x ∈ X, n ∈ N, se tiene que

supµ∈PA(x)

supλ∈PB(x)

∣∣D(x, µ, λ)−Din(x, µ, λ)

∣∣ ≤ w(x)ηin,

donde

ηin :=∥∥U i

n − V ∗α∥∥w

+ (β + c)∥∥U i

n − V ∗α∥∥w

+ α ‖V ∗α ‖w∥∥ρin − ρ∥∥ (2.41)

para todo n ∈ N.

Demostracion. Sea x ∈ X, µ ∈ PA(x), λ ∈ PB(x) y n ∈ N fijo y arbitrario, y

denotemos Ri(x, µ, λ) := |D(x, µ, λ)−Din(x, µ, λ)|. Entonces, observemos que

Page 37: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 2. CRITERIO DE OPTIMALIDAD DESCONTADO 30

Ri(x, µ, λ) ≤ |U in(x)− V ∗α (x)|

+α∣∣∫

Rk Uin−1(F (x, µ, λ, s))ρin(s)ds−

∫Rk V

∗α (F (x, µ, λ, s))ρ(s)ds

∣∣≤ |U i

n(x)− V ∗α (x)|+ α∫Rk V

∗α (F (x, µ, λ, s)) |ρ(s)− ρin(s)| ds

+α∫Rk |U

in(F (x, µ, λ, s))− V ∗α (F (x, µ, λ, s))| ρin(s)ds

≤ |U in(x)− V ∗α (x)|+ α ‖V ∗α ‖w ‖ρin − ρ‖w(x)

+∥∥U i

n−1 − V ∗α∥∥w

∫Rk w(F (x, µ, λ, s))ρin(s)ds.

Ahora, como ρin(·) ∈ D, de la Condicion D.2, tenemos que∫Rk w[F (x, a, b, s)]ρin(s)ds ≤ βw(x) + c

≤ [β + c]w(x),

lo cual implica

Ri(x, µ, λ) ≤ |U in(x)− V ∗α (x)|+ α ‖V ∗α ‖w ‖ρin − ρ‖w w(x)

+∥∥U i

n−1 − V ∗α∥∥w

(β + c)w(x).

Ası,

supµ∈PA(x)

sup∈PB(x)

∣∣D(x, µ, λ)−Din(x, µ, λ)

∣∣ ≤ w(x)ηin ∀x ∈ X, n ∈ N.

Lema 2.4.6. Dadas las estrategias π∗ = µ∗n y γ∗ = λ∗n como en (2.35) y (2.36),

tenemos

−w(xn)η1n ≤ D(x, µ∗n, λ) ∀λ ∈ PB(x), n ∈ N,

D(x, µ, λ∗n) ≤ w(xn)η2n ∀µ ∈ PA(x), n ∈ N.

Demostracion. Las desigualdades se siguen directamente del Lema 2.4.5, notando

que

ınfλ∈PB(x)

D1n(x, µ∗n, λ) = 0,

Page 38: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 2. CRITERIO DE OPTIMALIDAD DESCONTADO 31

supµ∈PA(x)

D2n(x, µ, λ∗n) = 0

para todo x ∈ X, n ∈ N.

Observacion 2.4.2. Observemos que de (2.41), y los Lemas 2.4.1 y 2.4.4,

lımn→∞

Eπ,γx ηin = 0 para i = 1, 2, (π, γ) ∈ Π× Γ y x ∈ X.

Ası,

ηinPπ,γx−→ 0 para i = 1, 2.

Mas aun, dado que ‖σ‖ <∞ para σ ∈ D, de (2.37) tenemos

ki := supnηin <∞, i = 1, 2.

Demostracion del Teorema 2.4.2. Del Lema 2.4.6, es suficiente demostrar, pa-

ra i = 1, 2, que

Eπ,γx w(xn)ηin → 0 ∀x ∈ X, π ∈ Π, γ ∈ Γ.

Para esto, primero mostraremos que el proceso w(xn)ηin converge a cero en pro-

babilidad respecto a P π,γx para todo x ∈ X, π ∈ Π, γ ∈ Γ. Sean l1 y l2 constantes

positivas arbitrarias, entonces observemos que

P π,γx

[w(xn)ηin > l1

]≤ P π,γ

x

[ηin >

l1l2

]+ P π,γ

x [w(xn) > l2] ∀x ∈ X, n ∈ N.

Ası, por la desigualdad de Chebyshev y (2.26) obtenemos

P π,γx [w(xn)ηin > l1] ≤ P π,γ

x

[ηin >

l1l2

]+ 1

l2Eπ,γx w(xn)

≤ P π,γx

[ηin >

l1l2

]+ M

l2,

para alguna constante M <∞. Ası, por la Observacion 2.4.3,

lım supn→∞

P π,γx

[w(xn)ηin > l1

]≤ M

l2.

Como l2 es arbitrario, tenemos que

lımn→∞

P π,γx

[w(xn)ηin > l1

]= 0, (2.42)

Page 39: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 2. CRITERIO DE OPTIMALIDAD DESCONTADO 32

es decir, w(xn)ηin converge a cero en probabilidad.

Por otro lado, de la Observacion 2.4.1(c) y (2.37), tenemos que la desigualdad

supn∈N

Eπ,γx

[w(xn)ηin

]p ≤ kpi supn∈N

Eπ,γx wp(xn) <∞

es valida para x ∈ X, π ∈ Π, γ ∈ Γ. Ası de [3] la desigualdad anterior implica que el

proceso w(xn)ηin es P π,γx −uniformemente integrable.

Finalmente, usando la integrabilidad uniforme del proceso w(xn)ηin y la conver-

gencia a cero, obtenemos

Eπ,γx w(xn)ηin → 0.

Concluimos el capıtulo con la siguiente observacion.

Observacion 2.4.3. Bajo la Hipotesis 3, propuesta por Kuenle [18] podemos esta-

blecer un resultado similar al Teorema 2.4.2. Basandonos en el Teorema 2.3.5 tenemos

que:

Existe una sucesion λ∗n ⊂ FPB para el jugador 2 tal que se satisface (2.35) para

todo x ∈ X, n ∈ N. De manera analoga, para cualquier sucesion de numeros positivos

εn que converge a cero existe una sucesion µ∗n ⊂ FPA tal que

U1n(x)− εn ≤ ınf

λ∈PB(x)

[r(x, µ∗n, λ) + α

∫RkU1n−1(F (x, µ∗n, λ, s))ρ

1n(s)ds

](2.43)

para todo x ∈ X, n ∈ N. Ademas, se puede mostrar (2.37).

De esta forma se tiene el siguiente resultado, cuya demostracion es similar al Teorema

2.4.2.

Teorema 2.4.7. Supongamos que las Hipotesis 3, 4(a)-(c) y 5 se cumplen. Entonces

las estrategias π∗ = µ∗n y γ∗ = λ∗n son AD−optimas para los jugadores 1 y 2,

respectivamente. Ası, en particular,

lımn→∞

Eπ∗,γ∗

x D(xn, an, bn) = 0 ∀x ∈ X.

Page 40: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

Capıtulo 3

Criterio de optimalidad promedio

En este capıtulo se analiza el criterio de optimalidad promedio.

Para cada estado inicial x0 = x, estrategias π ∈ Π, γ ∈ Γ, y n ∈ N, recordemos

que el pago total esperado hasta la n−esima etapa es:

Jn(x, π, γ) = Eπγx

[n−1∑t=0

r(xt, at, bt)

].

Ası mismo, el pago promedio esperado con horizonte infinito se define como:

J(x, π, γ) = lım infn→∞

Jn(x, π, γ)

n. (3.1)

Como es usual en el estudio del criterio de optimalidad promedio, necesitamos impo-

ner hipotesis de ergodicidad para el analisis asintotico. Bajo estas hipotesis demos-

traremos la existencia del valor del juego, ası como de estrategias optimas para los

jugadores. Para esto usaremos el enfoque del “factor de descuento desvaneciente”,

el cual consiste, en terminos generales, en estudiar el caso promedio como lımite del

caso descontado. En este sentido, estaremos haciendo referencia a los resultados del

capıtulo anterior.

Finalmente, consideraremos juegos cuya dinamica esta modelada por medio de ecua-

ciones en diferencia con distribucion del ruido aleatorio descconocida. En este caso,

a diferencia del criterio descontado, demostraremos que aplicando procesos de esti-

macion y control obtenemos estrategias adaptadas optimas.

33

Page 41: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 3. CRITERIO DE OPTIMALIDAD PROMEDIO 34

3.1. Teorema de existencia

Los resultados de este capıtulo se obtendran en el contexto de la siguiente hipote-

sis.

Hipotesis 6. (a) Las correspondencias x 7→ A(x) y x 7→ B(x) son continuas y con

valores compactos.

(b) La funcion r : K→ R es continua.

(c) El kernel Q es debilmente continuo.

(d) Existe una funcion w : X → [1,∞) tal que |r(x, a, b)| ≤ w(x) para cada

(x, a, b) ∈ K

(e) La funcion

(x, a, b) 7→∫X

w(y)Q(dy|x, a, b)

es continua en K.

(f) Existe una funcion de Borel δ : K → [0, 1] y una medida de probabilidad ϕ en

X tal que

1. Q(B|x, a, b) ≥ δ(x, a, b)ϕ(B) para cada conjunto de Borel B ⊂ X y x ∈ X.

2.∫X

ınfa∈A(x) ınfb∈B(x) δ(x, a, b)ϕ(dx) > 0.

3. ϕ(w) :=∫Xw(x)ϕ(dx) <∞.

4. Para algun β ∈ (0, 1) y cada (x, a, b) ∈ K, se tiene que∫X

w(y)Q(dy|x, a, b) ≤ βw(x) + δ(x, a, b)ϕ(w).

Observemos que bajo la Hipotesis 6 los resultados del Teorema 2.3.5 son validos.

Teorema 3.1.1. Supongamos que la Hipotesis 6 se cumple. Entonces el juego

estocastico con pago promedio tiene un valor ∗, que es independiente del esta-

do inicial, y ambos jugadores tienen estrategias optimas estacionarias. Mas aun,

∗ = lımα→1(1− α)V ∗α (x) para cualquier x ∈ X.

Demostracion. Por el Teorema 2.3.5 para cada α ∈ (0, 1), existe el valor del juego

α−descontado V ∗α y estrategias fα ∈ ΠS, gα ∈ ΓS que satisfacen (2.21). Fijemos

Page 42: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 3. CRITERIO DE OPTIMALIDAD PROMEDIO 35

x∗ ∈ X y consideremos una sucesion αn de factores de descuento que converge a

1. Definimos

hn(x) := V ∗αn(x)− Vαn(x∗), n := (1− αn)V ∗αn(x∗).

Entonces por (2.21), se sigue que, para cada n ∈ N,

n + hn(x) = mınλ∈PB(x)

maxµ∈PA(x)

[r(x, µ, λ) + αn

∫X

hn(y)Q(dy|x, µ, λ)

](3.2)

= maxµ∈PA(x)

[r(x, µ, gαn(x)) + αn

∫X

hn(y)Q(dy|x, µ, gαn)

], x ∈ X.

Por el Lema 7 en [24], la sucesion n es acotada y, sin perdida de generalidad

podemos suponer que n converge a algun numero ∗. Mas aun, por el Lema 8 en [24],

se sigue que ‖hn‖w ≤ c para alguna constante c. Ahora, fijemos un estado x0 ∈ Xy consideremos una sucesion arbitraria de estados xn tan que xn → x0 cuando

n→∞. Entonces de (3.2), haciendo gn := gαn , obtenemos

n + hn(xn) = maxµ∈PA(xn)

[r(xn, µ, gn(xn)) + αn

∫X

hn(y)Q(dy|xn, µ, gn(xn))

]. (3.3)

Sea nk una subsucesion de enteros positivos para los cuales

lım infn→∞

hn(xn) = lımk→∞

hnk(xnk).

Es claro que lımk→∞ nk = ∗ y

∗ + lım infn→∞

hn(xn) = lım infn→∞

[n + hn(xn)] = lımk→∞

[nk + hnk(xnk)] .

Entonces de (3.3), obtenemos

∗ + lım infn→∞

hn(xn)

= lımk→∞

maxµ∈PA(x)

[r(xnk , µ, gnk(xnk)) + αnk

∫X

hnk(y)Q(dy|xnk , µ, gnk(xnk))].

Sea ΠCS el conjunto de las estrategias estacionarias continuas para el jugador 1.

Por las Proposiciones A.2.1 y A.2.2, ΠCS es no-vacıo. Elijamos f ∈ ΠCS. Entonces,

tenemos

Page 43: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 3. CRITERIO DE OPTIMALIDAD PROMEDIO 36

∗ + lım infn→∞

hn(xn)

≥ lım infk→∞

[r(xnk , f(xnk), gnk(xnk)) + αnk

∫X

hnk(y)Q(dy|xnk , f(xnk), gnk(xnk))

].

(3.4)

Notemos que Z := x0∪xn es compacto en X. Ademas sabemos que la correspon-

dencia x 7→ PB(x) es continua y toma valores compactos. Esto junto con el Teorema

de Berge’s (Teorema C.3.3) implican que⋃z∈Z PB(z) es compacto en PB. Por lo tan-

to, gnk(xnk) tiene una subsucesion convergente a algun λ0 ∈ PB. Sin perdida de

generalidad, sea gnk(xnk) → λ0, cuando k → ∞. Por la continuidad de x 7→ PB(x),

λ0 ∈ PB(x0).

Por otro lado, f(xnk)→ f(x0) ∈ PA(x0), porque f ∈ ΠCS y ademas

Q(·|xnk , f(xnk), gnk(xnk))→ Q(·|x0, f(x0), λ0)

debilmente cuando k →∞. Por (3.4) y Lema B.2.3, concluimos que

∗ + lım infn→∞

hn(xn)

≥ lım infk→∞

r(xnk , f(xnk), gnk(xnk)) + lım infk→∞

∫Xhnk(y)Q(dy|xnk , f(xnk), gnk(xnk))

≥ r(x0, f(x0), λ0) + lım infk→∞

∫X

hnk(y)Q(dy|xnk , f(xnk), gnk(xnk))

≥ r(x0, f(x0), λ0) +

∫X

h∗(y)Q(dy|x0, f(x0), λ),

donde h∗ es el lım inf generalizado (ver apendice B.2) de la sucesion hk = hnk . Sea

h∗(x0) el lım inf generalizado de hn. Entonces h∗ ≤ h∗, y aplicando esto a lo

obtenido anteriormente tenemos

∗ + lım infn→∞

hn(xn) ≥ r(x0, f(x0), λ0) +

∫X

h∗(y)Q(dy|x0, f(x0), λ0).

Ademas, por el hecho de que un selector continuo f ∈ ΠCS puede ser elegido

de tal manera que un valor arbitrario de PA(x) es asignado al punto x0 (ver Lema

A.2.2), concluimos que

Page 44: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 3. CRITERIO DE OPTIMALIDAD PROMEDIO 37

∗ + lım infn→∞

wn(xn) ≥ supf∈ΠCS

[r(x0, f(x0), λ0) +

∫Xh∗(y)Q(dy|x0, f(x0), λ0)

]= sup

µ∈PA(x0)

[r(x0, µ, λ) +

∫Xh∗(y)Q(dy|x0, µ, λ)

].

Como h∗ es semicontinua inferiormente (ver Lema B.2.1), podemos escribir

∗ + lım infn→∞

hn(xn) ≥ mınλ∈PB(x0)

supµ∈PA(x0)

[r(x0, µ, λ) +

∫X

h∗(y)Q(dy|x0, µ, λ)

],

y por la definicion (B.2), tenemos

∗ + h∗(x0) ≥ mınλ∈PB(x0)

supµ∈PA(x0)

[r(x0, µ, λ) +

∫X

h∗(y)Q(dy|x0, µ, λ)

]. (3.5)

Dado que x0 fue elegida arbitrariamente, entonces en (3.5) podemos reemplazar

x0 por cualquier x ∈ X.

Ahora, como la funcion h∗ es semicontinua inferiormente, por (3.5) y un teorema

de seleccion medible minimax (ver Teorema C.2.1 ), existe alguna g∗ ∈ ΓS tal que

∗ + h∗(x) ≥ r(x, µ, g∗(x)) +

∫X

h∗(y)Q(dy|x, µ, g∗(x)), (3.6)

para cada x ∈ X y µ ∈ PA(x). Iterando (3.6), podemos mostrar de manera estandar

que

∗ ≥ supπ∈Π

J(x, π, g∗) ≥ U(x), (3.7)

para cada x ∈ X (donde U el valor superior del juego).

Por otro lado, sea fαn = fn una estretegia optima estacionaria para el jugador 1

en el juego estocastico αn−descontado. De acuerdo a (3.6) necesitamos mostrar que

∗ ≤ L(x). De (3.2) y el teorema de minimax de Fan (ver Teorema C.2.1), se puede

ver facilmente que

n + hn(xn) = mınλ∈PB(xn)

[r(xn, fn(xn), λ) + αn

∫X

hn(y)Q(dy|xn, fn(xn), λ)

].

Page 45: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 3. CRITERIO DE OPTIMALIDAD PROMEDIO 38

Supongamos que xn → x0 y consideremos el lım sup generalizado w∗(x0). Proce-

diendo de manera similar a lo anterior, tomamos de nuevo una subsucesion nk de

enteros positivos tales que

lım supn→∞

hn(xn) = lımk→∞

hnk(xnk).

Entonces usando el Lema B.2.3 y (2.21) existe f ∗ ∈ ΠCS tal que

∗ + h∗(x) ≤ r(x, f ∗(s), λ) +

∫X

h∗(y)Q(dy|x, f ∗(x), λ) (3.8)

para cada x ∈ X y λ ∈ PB(x). De nuevo por argumentos de programacion dinamica,

basandonos en (3.8), se muestra que

∗ ≤ ınfγ∈Γ

J(x, f ∗, γ) ≤ L(x), (3.9)

para cada x ∈ X. Por (3.7) y (3.9), concluimos

∗ = supπ∈Π

J(x, π, g∗) = ınfγ∈Γ

J(x, f ∗, γ) = J(x, f ∗, g∗), (3.10)

esto es, el juego tiene un valor J∗(x) = ∗, y f ∗, g∗ son estrategias optimas estacio-

narias para los jugadores 1 y 2 , respectivamente.

Observacion 3.1.1. Para la demostracion del Teorema 3.1.1 se aplico el enfoque

del “factor de descuente desvaneciente”, es decir, los resultados del caso promedio los

obtuvimos haciendo α 1 del caso α−descontado. En particular observemos que si

definimos, para α ∈ (0, 1) y z ∈ X un estado fijo y arbitrario,

α := (1− α)V ∗α (z) y hα(x) := V ∗α (x)− V ∗α (z), (3.11)

entonces, por el Teorema 3.1.1,

lımt→∞

αt = ∗, (3.12)

para cualquier sucesion αt de factores de descuento tal que αt 1. Mas aun,

supα∈(0,1)

‖hα‖w <∞. (3.13)

Page 46: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 3. CRITERIO DE OPTIMALIDAD PROMEDIO 39

3.2. Estimacion de la densidad

En esta seccion presentaremos el proceso de estimacion de la densidad ρ de los

vectores aleatorios ξn, cuando la dinamica del juego es modelada por ecuaciones en

diferencia introducidas en la Observacion 1.1.1.

Escencialmente, el metodo de estimacion es muy similar al que presentamos para

el caso descontado, para lo cual expondremos las ideas principales para una facil

referencia a lo largo del capıtulo.

Hipotesis 7. Existe una funcion medible ρ ∈ Rk tal que la densidad ρ satisface las

siguientes condiciones:

(a) ρ(·) ≤ ρ(·) casi dondequiera respecto a la medida de Lebesgue;

(b) Para cada s ∈ Rk, F (·, ·, ·, s) es continua.

(c) Sea w la funcion en la Hipotesis 6. Entonces existen constantes β0 ∈ (0, 1),

b0 ≥ 0, p > 1 y M > 0 tales que para todo (x, a, b) ∈ K se tiene que

0 ≤ r(x, a, b) ≤Mw(x)∫Rkwp[F (x, a, b, s)]ρ(s)ds ≤ β0w

p(x) + b0.

La razon para imponer la Hipotesis 7(c) es para poder aplicar los arguentos usados

para el caso descontado. En particular, notemos que los comentarios de la Observa-

cion 2.4.1 son validos.

Sean ξ0, ξ1, . . . , ξn, . . . realizaciones independientes de vectores aleatorios con den-

sidad ρ(·), y ρin(s) := ρin(s; ξ0, ξ1, . . . .ξn−1), s ∈ Rk, n ∈ N estimadores de la densidad

para los jugadores i = 1, 2 tales que

E∥∥ρit − ρ∥∥p′1 = E

(∫Rk

∣∣ρit(s)− ρ(s)∣∣ ds)p′ = O(t−δ) cuando t→∞, (3.14)

para alguna constante δ > 0, donde 1/p+ 1/p′ = 1.

Ahora, consideremos la clase D formada por las densidades σ(·) que satisfacen

las siguientes condiciones:

Page 47: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 3. CRITERIO DE OPTIMALIDAD PROMEDIO 40

D.1 σ(·) ≤ ρ(·) casi dondequiera respecto a la medida de Lebesgue;

D.2∫Rk w[F (x, a, b, s)]σ(s)ds ≤ βw(x) + c para todo (x, a, b) ∈ K, donde las cons-

tantes β y c son como en la Observacion 2.4.1.

Como en el caso descontado, bajo la Hipotesis 5 la clase de densidades D es un

subconjunto cerrado y convexo de L1. Entonces de [6], para cada t ∈ N, sea ρt(·) ∈ Dla mejor aproximacion de ρt(·) en el conjunto D (ver (2.30)), esto es,∥∥ρit − ρit∥∥1

= ınfσ∈D

∥∥σ − ρit∥∥1.

La densidad ρit(·) es la que usaremos para obtener las estrategias adaptadas para

el jugador i = 1, 2, y su convergencia se establece en el siguiente resultado cuya

demostracion es similar a la del Lema 2.4.1.

Lema 3.2.1. Bajo las Hipotesis 5 y 7, tenemos

E ‖ρt − ρ‖p′= O(t−δ) cuando t→∞,

donde la norma es definida como en (2.31).

3.3. Construccion de estrategias optimas

Fijemos una sucesion de factores de descuento αt tal que 1 − αt = O(t−ν)

cuando t→∞, y

lımn→∞

κ(n)

n= 0, (3.15)

donde 0 < ν < δ/κ(3p′), δ y p′ como en el Lema 3.2.1, y κ(n) es el numero de cambios

de valor de αt para t = 0, 1, . . . , n.

Tomando en cuenta la Condicion D.2, la Observacion 2.4.1(b) y el Teorema 2.3.5,

tenemos que para cada t ∈ N0 existe una funcion Vρitαt∈ Cw tal que∥∥∥V ρit

αt

∥∥∥w≤ M

1− αt(3.16)

y

Vρitαt

(x) = maxµ∈PA(x)

mınλ∈PB(x)

[r(x, µ, λ) + αt

∫RkVρitαt

(F (x, µ, λ, s))ρt(s)ds

], (3.17)

Page 48: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 3. CRITERIO DE OPTIMALIDAD PROMEDIO 41

o equivalentememte

ρitαt

+ hρitαt

(x) = maxµ∈PA(x)

mınλ∈PB(x)

[r(x, µ, λ) + αt

∫Rk h

ρitαt

(F (x, µ, λ, s))ρt(s)ds]

= maxµ∈PA(x)

mınλ∈PB(x)

[r(x, µ, λ, ) + αt

∫Rkhρitαt

(F (x, µ, λ, s))ρt(s)ds

]

= mınλ∈PB(x)

maxµ∈PA(x)

[r(x, µ, λ) + αt

∫Rkhρitαt

(F (x, µ, λ, s))ρt(s)ds

]donde , para cada estado fijo z ∈ X,

ρitαt

:= (1−αt)Vρitαt

(z) y hρitαt

(x) := Vρitαt

(x)−V ρitαt

(z)

(ver (3.11)). Mas aun, existen sucesiones µ∗t ⊂ ΠS y λ∗t ⊂ ΓS tales que

ρitαt

+ hρitαt

(x) = maxµ∈PA(x)

[r(x, µ, λ∗t ) + αt

∫Rkhρitαt

(F (x, µ, λ∗t ))ρt(s)ds

], (3.18)

y

ρitαt

+ hρitαt

(x) = mınλ∈PB(x)

[r(x, µ∗t , λ) + αt

∫Rkhρitαt

(F (x, µ∗t , λ))ρt(s)ds

]. (3.19)

El resultado principal de esta seccion lo estableceremos de la siguiente manera.

Teorema 3.3.1. Supongamos que se cumplen las Hipotesis 5, 6 y 7. Entonces las

estrategias π∗ = µ∗t y γ∗ = λ∗t son optimas en el caso promedio para el jugador

1 y 2, respectivamente, esto es

∗ ≥ J(x, π∗, γ), ∀γ ∈ Γ, x ∈ X, (3.20)

∗ ≤ J(x, π, γ∗), ∀π ∈ Π, x ∈ X. (3.21)

Por lo tanto (π∗, γ∗) es un par optimo.

3.3.1. Demostracion del resultado principal

Para la demostracion del Teorema 3.3.1 seguiremos algunas ideas introducidas en

la Subseccion 2.4.2 las cuales estableceremos en la siguiente observacion.

Page 49: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 3. CRITERIO DE OPTIMALIDAD PROMEDIO 42

Observacion 3.3.1. Supongamos que la Hipotesis 7 se cumple. Para cada t ∈ N0,

definimos θt := (1−αt)/2 ∈ (αt, 1), et := c(θt/αt−1)−1, y la funcion wt(x) := w(x)+etpara x ∈ X. Ahora, consideremos el espacio Bwt(X) de funciones u : X → R con

wt−norma finita, esto es

‖u‖wt := supx∈X

|u(x)|wt(x)

<∞, t ∈ N0.

Observemos que, para cada t ∈ N0, esta norma es equivalente a la w−norma debido

a que

‖u‖wt ≤ ‖u‖w ≤ lt ‖u‖wt , (3.22)

donde

lt := 1 +2c

1− αt. (3.23)

Entonces para cualquier densidad σ que satisface la condicion D.2, el operador T αtσes de contraccion respecto a la wt−norma con modulo θt, es decir∥∥T αtσ v − T αtσ u

∥∥wt≤ θt ‖v − u‖wt ∀v, u ∈ Bw(X), t ∈ N0. (3.24)

Lema 3.3.2. Dadas las Hipotesis 5, 6 y 7, tenemos, para cada x ∈ X y (π, γ) ∈Π× Γ, cuando t→∞

(a)Eπ,γx

∥∥∥hαt − hρitαt∥∥∥p′w → 0, (b)Eπ,γx

[∥∥∥hαt − hρitαt∥∥∥w w(xt)]→ 0.

Demostracion. (a) Observemos que para cada t ∈ N0,∥∥∥hαt − hρitαt∥∥∥w ≤ 2

∥∥Vαt − V ρtαt

∥∥w

.

Por tanto, de (3.22), esta parte sera demostrada si

lp′

t Eπ,γx

∥∥Vαt − V ρtαt

∥∥p′w→ 0, cuando t→∞. (3.25)

Del Teorema 2.3.5 y (3.17), para cada t ∈ N0, T αρ Vα = Vα y T αρtVρtα = V ρt

α . Ası de

(3.24) tenemos∥∥Vαt − V ρtαt

∥∥wt≤∥∥T αtρ Vαt − T αtρt Vαt

∥∥wt

+ θt

∥∥∥Vαt − V ρitαt

∥∥∥wt

lo cual implica

lt

∥∥∥Vαt − V ρitαt

∥∥∥wt≤ lt

1− θt

∥∥∥T αtρ Vαt − T αtρit Vαt∥∥∥wt, t ∈ N0. (3.26)

Ahora de (3.16), (2.31) y usando el hecho [wt(·)]−1 < [w(·)]−1,

Page 50: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 3. CRITERIO DE OPTIMALIDAD PROMEDIO 43∥∥∥T αtρ Vαt − T αtρit Vαt∥∥∥wt

≤ αt supx∈X

[wt(x)]−1 supµ∈PA(x),λ∈PB(x)

∫RkVα(F (x, µ, λ, s))

∣∣ρ(s)− ρit(s)∣∣ ds

≤ Mαt1− αt

supx∈X

[wt(x)]−1 supµ∈PA(x),λ∈PB(x)

∫RkVα(F (x, µ, λ, s))

∣∣ρ(s)− ρit(s)∣∣ ds

≤ M

1− αt∥∥ρ− ρit∥∥ . (3.27)

Por otro lado, notemos que αt y θt satisfacen la relacion

1

(1− θt)(1− αt)2= O(t3ν), cuando t→∞. (3.28)

Combinando (3.26)-(3.28), y usando (3.23) obtenemos

lp′

t

∥∥∥Vαt − V ρitαt

∥∥∥p′wt≤Mp′

[1

(1− θt)(1− αt)+

2d

(1− θt)(1− αt)2

]p′ ∥∥ρ− ρit∥∥= Mp′O(t3p

′ν)∥∥ρ− ρit∥∥p′ cuando t→∞. (3.29)

Finalmente, tomando esperanza Eπγx en ambos lados de (3.29), por el Lema 3.2.1

y el hecho de que 3νp′ < δ, la relacion (3.25) se cumple, lo cual demuestra (a).

(b) Sea C := (Eπγx [wp(xt)])

1/p <∞ (ver Observacion 2.4.1 (c)). Entonces, aplicando

la desigualdad de Holder en la parte (a), obtenemos

Eπγx

∥∥∥hαt − hρitαt∥∥∥w w(xt) ≤ C

(Eπγx

[∥∥∥hαt − hρitαt∥∥∥p′w])1/p′

→∞, cuando t→∞.

Esto demuestra el lema.

Page 51: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 3. CRITERIO DE OPTIMALIDAD PROMEDIO 44

Demostracion del Teorema 3.3.1. Primero demostraremos la relacion (3.21).

Para esto sea π = πt ∈ Π una estrategia arbitraria para el jugador 1. Definimos

ηt = r(xt, πt, λ∗t ) + αt

∫Rk hαt [F (xt, πt, λ

∗t , s)]ρ(s)ds− αt − hαt(xt)

= r(xt, πt, λ∗t ) + αtE

πγ∗x [hαt(xt+1)|ht]− αt − hαt(xt).

De aquı

Eπγ∗

x r(xt, at, bt) = αt + Eπγ∗

x [hαt(xt)− αthαt(xt+1)] + Eπγ∗

x (ηt),

lo cual implica, para n ≥ k ≥ 1

n−1Eπγ∗[n∑t=1

r(xt, at, bt)

]= n−1

n∑t=1

αt + n−1Eπγ∗x

[k−1∑t=1

(hαt(xt)− αthαt(xt+1))

]

+ n−1Eπγ∗x

[n∑t=k

(hαt(xt)− αthαt(xt+1))

]

+ n−1Eπγ∗

x

[n∑t=1

ηt

]=: I1(n) + I2(n) + I3(n) + I4(n). (3.30)

Observemos que por (3.12) cuando n→∞,

I1(n)→ ∗. (3.31)

Tambien tenemos

I2(n)→ 0, cuando n→∞. (3.32)

Por otro lado, sea C < ∞ una constante tal que Eπγ∗x [hα(xt)] < C ′, para todo

α ∈ (0, 1) y t ∈ N0 (ver Obsevacion 2.4.1 (c)). Denotemos por α∗1, α∗2, . . . , α

∗κ(n), n ≤ 1,

los diferentes valores de αt para t ≤ n (ver (3.15)), y usando el hecho que αt es

una sucesion no decreciente, tenemos

Page 52: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 3. CRITERIO DE OPTIMALIDAD PROMEDIO 45

0 ≤ I3(n)

= n−1Eπγ∗x

[n∑t=1

(hαt(xt)− αthαt(xt))]

+ n−1Eπγ∗x

[n∑t=1

αt(hαt(xt)− hαt(xt+1))

]

≤ (1− αk)C ′ + n−1C ′κ(n)∑i=1

α∗i

≤ (1− αk)C ′ + C ′κ(n)n−1

Ası, como k es arbitraria y αt 1 cuando t→∞, la codicion (3.15) implica que

lımn→∞

I3(n) = 0. (3.33)

Ahora mostraremos que

lımn→∞

I4(n) ≤ 0. (3.34)

Sumando y restando los terminos αt∫Rk h

ρ2tαt

[F (xt, πt, λ∗t , s)] ρ(s)ds y

αt∫Rk h

ρ2tαt

[F (xt, πt, λ∗t , s)] ρ

2t (s)ds obtenemos

ηt = αt∫Rk hαt [F (xt, πt, λ

∗t , s)] ρ(s)ds− αt

∫Rk h

ρ2tαt

[F (xt, πt, λ∗t , s)] ρ(s)ds

+ αt∫Rk h

ρ2tαt

[F (xt, πt, λ∗t , s)] ρ(s)ds− αt

∫Rk h

ρ2tαt

[F (xt, πt, λ∗t , s)] ρ

2t (s)ds

+ r(xt, πt, λ∗t ) + αt

∫Rk h

ρ2tαt

[F (xt, πt, λ∗t , s)] ρ

2t (s)ds− αt − hαt(xt).

Entonces de la definicion de w−norma, (2.31), usando el hecho que |u(x)| ≤ ‖u‖w w(x),

u ∈ Lw, x ∈ X, y (3.19)

Page 53: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 3. CRITERIO DE OPTIMALIDAD PROMEDIO 46

ηt ≤ αt

∥∥∥hαt − hρ2tαt∥∥∥w [(xt) + d] + αtw(xt)∥∥∥hρ2tαt∥∥∥w ∥∥ρ− ρ2

t

∥∥+ max

µ∈PA(x)

r(xt, πt, λ

∗t ) + αt

∫Rkhρ2tαt

[F (xt, πt, λ∗t , s)] ρ

2t (s)ds

− αt − hαt(xt)

≤ αt

∥∥∥hαt − hρ2tαt∥∥∥w [(xt) + d] + αtw(xt)∥∥∥hρ2tαt∥∥∥w ∥∥ρ− ρ2

t

∥∥+

ρ2tαt

+ hρ2tαt

(xt)− αt − hαt(xt). (3.35)

Ahora del Lema 3.2.3

lımt→∞

Eπγ∗

x

[αt

∥∥∥hαt − hρ2tαt∥∥∥w [βw(xt) + c]]

= 0. (3.36)

Mas aun, de la definicion de αt y (3.16)∥∥∥hρ2tαt∥∥∥w ≤ 2∥∥∥V ρ2t

αt

∥∥∥w≤ 2

1− αt= O(tν) cuando t→∞.

Ası, tomando esperanza y aplicando la desigualdad de Holder, obtenemos

0 ≤ Eπγ∗

x

[w(xt)

∥∥∥hρ2tαt∥∥∥w ∥∥ρ− ρ2t

∥∥] ≤ ([O(tν)]p′Eπγ∗

x

∥∥ρ− ρ2t

∥∥p′)1/p′

=[O(tνp

′−δ)]1/p′

→ 0 cuando t→∞, (3.37)

dado que ν < δ/p′.

Por otro lado, observemos que

ρ2tαt− αt ≤ (1− αt)

∥∥∥V ρ2tαt− Vαt

∥∥∥y

hρ2tαt

(xt)− hαt(xt) ≤∥∥∥hρ2tαt − hαt∥∥∥w w(xt).

Ası del Lema 3.2.3 obtenemos

lımt→∞

Eπγ∗

x (ρ2tαt− αt) ≤ 0 (3.38)

Page 54: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 3. CRITERIO DE OPTIMALIDAD PROMEDIO 47

y

lımt→∞

Eπγ∗

x (hρ2tαt

(xt)− hαt(xt)) ≤ 0. (3.39)

Por lo tanto, combinando (3.35)-(3.39) obtenemos (3.34). Finalmente, haciendo

n→∞ en (3.30), de (3.1) y (3.31)-(3.34), obtenemos (3.20), es decir,

J(x, π, γ∗) ≤ ∗, ∀π ∈ Π, x ∈ X.

La demostracion de (3.20) es similar a la anterior, solamente considerando γ ∈ Γ

arbitraria y la densidad respectiva ρ1t .

Page 55: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

Capıtulo 4

Conclusiones

En este trabajo se estudiaron juegos estocasticos de suma cero bajo los criterios

de optimalidad descontado y promedio. Especıficamente este estudio se hizo bajo dos

tipos hipotesis generales con las cuales se puede garantizar la existencia del valor del

juego ası como de pares de estrategias optimos para los jugadores.

Otro problema que se estudio fue la construccion de estrategias adaptadas en jue-

gos suma cero cuando la dinamica es modelada por medio de ecuaciones en diferencia,

y la distribucion del ruido aleatorio es desconocida por ambos jugadores. Es decir,

se implementaron tecnicas de estimacion estadıstica de la distribucion y proceso de

optimizacion para la construccion de estrategias, las cuales resultan asintoticamente

optimas para el caso descontado, y optimas para el caso promedio.

Basicamente estos resultados son una extension a juegos de lo metodos de control

adaptado para procesos de Markov establecidos en [9, 10, 14, 20, 21, 26].

En estos sistemas, los estimadores de la densidad se definen en terminos de ob-

servaciones historicas del ruido aleatorio, lo cual implica que la hipotesis de observa-

bilidad del proceso de perturbacion es muy importante para desarrollar la teorıa.

A partir de esto ultimo surgen problemas interesantes que se pueden abordar con

futuros trabajos. En efecto, podemos estudiar juegos estocasticos donde el proceso

de perturbacion es no observable, los cuales, siguiendo una metodologıa similar, se

pueden abordar extendiendo los resultados de procesos de control de Markov para

48

Page 56: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

CAPITULO 4. CONCLUSIONES 49

sistemas parcialmente observables.

Para concluir haremos una breve descripcion sobre la bibliografıa que se uti-

lizo para la elaboracion del presente trabajo.

La teorıa general sobre procesos de control de Markov se estudio en [5, 10, 12, 13],

y la teorıa de juegos estocasticos en [17, 24, 25]. Los metodos de estimacion y control

en sistemas estocasticos se obtuvieron de [9, 10, 11, 14, 20, 21]. Ademas, los resultados

del Capıtulo 2 sobre la existencia de estrategias optimas ası como la construccion de

estrategias adaptadas fueron estudiadas en [22, 24, 25], mientras que los del Capıtulo

3 sobre el criterio promedio se estudiaron en [17, 23]. El resto de la bibliografıa

sirvio de apoyo.

Page 57: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

Apendice A

Espacios de Borel, Kernels y

multifunciones

A.1. Espacios de Borel y kernels estocasticos

Un espacio topologico siempre estara dotado con la σ−algebra de Borel B(X),

esto es, las mas pequena σ−algebra de subconjuntos de X que contiene a todos los

conjuntos abiertos en X. Ası, cuando nos referimos tanto a conjuntos como a fun-

ciones, medible significa Borel medible.

Un subconjunto de Borel X de un espacio metrico completo y separable es llamado

un espacio de Borel, y su σ−algebra es denotada por B(X). Un subconjunto de Borel

de un espacio de Borel es un espacio de Borel.

Definicion A.1.1. Un kernel estocastico de X en Y es una funcion P (·|·) tal que

(i) P (·|y) es una medida de probabilidad en X para cada y ∈ Y fijo, y

(ii) P (D|·) es una funcion medible en Y para cada D ∈ B(X) fijo.

El conjunto de los kernels estocasticos de X en Y los denoteremos por P(X|Y ).

Dado un espacio X denotamos por P(X) a la familia de medidas de probabilidad

en X.

Decimos que P(X) esta dotado de la topologıa debil, esto es, µn → µ debilmente

50

Page 58: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

APENDICE A. ESPACIOS DE BOREL, KERNELS Y MULTIFUNCIONES 51

si ∫udµn →

∫udµ para cada funcion continua y acotada u. (A.1)

Proposicion A.1.1. Si X es un espacio de Borel, entonces P(X) es de Borel. Si,

ademas X es compacto, entonces P(X) tambien lo es.

Demostracion. Ver el Corolario 7.25.1 y la Proposicion 7.22 en [5].

Definicion A.1.2. Un kernel estocastico Q ∈ P(X|Y ) se dice ser

(a) debilmente continua (o satisface la propiedad de Feller) si la funcion

y 7→∫v(x)Q(dx|y) (A.2)

es continua y acotada en Y para cada funcion v continua y acotada en X;

(b) fuertemente continua (o satisface la propiedad fuerte de Feller) si la funcion en

(A.2) es continua y acotada en Y para cada funcion v acotada en X.

A.2. Multifunciones y selectores

Sean X y A espacios de Borel (no vacıos).

Una multifuncion (tambien llamada correspondencia o funcion conjunto-valuada)

ϕ de X en A es una funcion tal que ϕ(x) es un subconjunto no vacıo de A para cada

x ∈ X. (Una funcion F : X → A es un ejemplo de una multifuncion). La grafica de

una multifuncion es el subconjunto de X × A definido como

Gr(ϕ) := (x, a)|x ∈ X, a ∈ ϕ(x) . (A.3)

Para cada subconjunto B de A definamos el siguiente conjunto

ϕ−1(B) := x ∈ X|ϕ(x) ∩B 6= ∅ .

Definicion A.2.1. Una multifuncion ϕ de X en A se dice ser

(a) Borel medible si ϕ−1(G) es un subconjunto de Borel en X para cada cada conjunto

abierto G ⊂ A;

Page 59: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

APENDICE A. ESPACIOS DE BOREL, KERNELS Y MULTIFUNCIONES 52

(b) semicontinua superiormente (s.c.s.) si ϕ−1(B) es cerrado en X para cada conjunto

cerrado B ⊂ A;

(c) semicontinua inferiormente (s.c.i.) si ϕ−1(G) es abierto en X para cada conjunto

abierto G ⊂ A;

(d) continua si es s.c.s. y s.c.i.

Sea ϕ una multifuncion Borel medible de X en A, denotaremos por F al conjunto

de funciones medibles f : X → A con f(x) ∈ ϕ(x) para todo x ∈ X. Una funcion

f ∈ F es llamada un selector de la multifuncion ϕ.

Sea M : X Y una correspondencia, definimos la correspondencia Φ : X P(Y ) como

Φ(x) := P(M(x)) x ∈ X.

Proposicion A.2.1. Si M es continua que toma valores compactos (no vacıos),

entonces Φ es tambien continua y con valores compactos.

Demostracion. (ver Teorema 3 en [16]).

El siguiente resultado trata de selectores continuos para multifunciones semicon-

tinuas (ver [19]).

Proposicion A.2.2. Supongamos que M es continua con valores compactos (no

vacıos). Sea x0 ∈ X y ν0 ∈ Φ(x0). Entonces Φ admite un selector continuo cuya

grafica contiene el punto (x0, ν0), esto es, existe una funcion continua φ : X → Y tal

que φ(x0) ∈ Φ(x0) para cada x ∈ X y φ(x0) = ν0.

Page 60: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

Apendice B

Semicontinuidad y Lema de Fatou

B.1. Funciones semicontinuas

Definicion B.1.1. Sea X un espacio metrico, f una funcion de X en R ∪ ∞y f(x0) < ∞ para al menos un punto x0 ∈ X. La funcion f es semicontinua infe-

riormente en x0 si y solo si, para cualquier sucesion (xn) tal que xn → x0 tenemos

que

f(x0) ≤ lım infn→∞

f(xn). (B.1)

Consecuentemente f es semicontinua superiormente en x0 si y solo si, para cualquier

sucesion (xn) tal que xn → x tenemos que

lım supn→∞

f(xn) ≤ f(x0).

El siguiente resultado es inmediato.

Proposicion B.1.1. Sea X un espacio metrico. Una funcion f : X → R es se-

micontinua superiormente en x0 ∈ X, si y solo si, la funcion −f es semicontinua

inferiormente en x0.

El siguiente resultado lo puede ver en [4] (1993, Capıtulo 1).

Teorema B.1.2. Sea X un espacio compacto y f : X → R ∪ ∞ una funcion

semicontinua inferiormente. Entonces, la funcion f alcanza el valor mınimo en x0 ∈X, es decir f(x0) ≤ f(x) para todo x ∈ X y el conjunto de puntos donde se alcanza

53

Page 61: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

APENDICE B. SEMICONTINUIDAD Y LEMA DE FATOU 54

el valor mınimo es compacto.

Similarmente, una funcion f semicontinua superiormente con valores reales en un

espacio compacto X, alcanza el valor maximo y el conjunto de puntos donde se

alcanza el valor maximo es compacto.

B.2. Lema de Fatou generalizado

Dentro de los teoremas basicos de integracion estan el Teorema de Convergencia

Monotona, el Teorema de Convergencia Dominada y el Lema de Fatou, los cuales se

pueden ver en [3, 2]. En este caso los resultados que se presentan a continuacion, son

correspondientes al Lema de Fatou generalizado.

Definicion B.2.1. Sea w : X → [1,∞) una funcion medible. Para cada funcion

medible u : X → R definimos su w−norma como

‖u‖w := supx∈X

|u(x)|w(x)

.

Denoteremos por Bw(X) al espacio de Banach de las funciones con w−norma finita.

Dada wn una sucesion de funciones en Bw(X), definimos el lımite inferior (su-

perior) generalizado como:

w∗(x) := ınf

lım infn→∞

(xn) : xn → x

(B.2)

y

w∗(x) := sup

lım supn→∞

(xn) : xn → x

, (B.3)

respectivamente.

Lema B.2.1. La funcion w∗ (respectivamente w∗) es semicontinua superiormente

(inferiormente).

Demostracion. Sea ρ la metrica en el espacio X que define la topologıa. Para cada

x ∈ X y r > 0, hacemos B(x, r) := y : ρ(x, y) < r. Notemos que w∗ puede ser

escrito en la siguiente forma:

w∗(x) = supn

ınfk≥n

(ınf

y∈B(x,1/n)wk(y)

).

Page 62: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

APENDICE B. SEMICONTINUIDAD Y LEMA DE FATOU 55

Fijemos x ∈ X y supongamos que w∗(x) > d para algun numero real d. Para

probar que w∗(x) es semicontinua inferiormente en x, necesitamos mostrar que existe

δ > 0 tal que w∗(y) > d para cada y ∈ B(x, δ). Ya que

ınfk≥n

(ınf

y∈B(x,1/n)wk(y)

)↑ w∗(x),

existe una N tal que

ınfk≥l

(ınf

y∈B(x,1/l)wk(y)

)> d ∀l > N.

Dada m > 2l > l > N y δ := 12l, entonces tenemos

w∗(y) = supn

ınfk≥n

(ınf

z∈B(x,1/n)wk(z)

)≥ ınf

k≥m

(ınf

z∈B(x,1/m)wk(z)

)

≥ ınfk≥m

(ınf

z∈B(x,1/l)wk(z)

)≥ ınf

k≥l

(ınf

z∈B(x,1/l)wk(z)

)> d.

La prueba de la semicontinuidad superior de la funcion w∗(x) en x es similar a la

anterior comenzando con

w∗(x) = ınfn

supk≥n

(sup

y∈B(x,1/n)

wk(y)

).

Lema B.2.2. Sea µn ⊂ P(X) una sucesion que converge debilmente a algun

µ0 ∈ P(X). Si vn es una sucesion de funciones Borel medibles no-negativas en X

y w∗ definida como en (B.2), entonces∫X

w∗(x)µ0(dx) ≤ lım infn→∞

∫X

vn(x)µn(dx); (B.4)

y si las funciones vn son no-positivas, entonces∫X

w∗(x)µ0(dx) ≥ lım supn→∞

∫X

vn(x)µn(dx), (B.5)

con w∗ definida como en (B.3).

Page 63: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

APENDICE B. SEMICONTINUIDAD Y LEMA DE FATOU 56

Demostracion. (ver en Lema 3.2 de [17]).

Lema B.2.3. Supongamos que µn converge debilmente a algun µ0 ∈ P(X) y

wn es una sucesion de funciones en Cw(X) tal que ‖wn‖w ≤ b para toda n y para

alguna constante b > 0. Si V es una funcion continua,∫XV (x)µm(dx) < ∞ para

cada m ≥ 0 y ∫X

V (x)µm(dx)→∫X

V (x)µ0(dx) (B.6)

cuando m→∞, entonces∫X

w∗(x)µ0(dx) ≤ lım infn→∞

∫X

wn(x)µn(dx) (B.7)

y ∫X

w∗(x)µ0(dx) ≥ lım supn→∞

∫X

wn(x)µn(dx) (B.8)

Demostracion. Definamos vn(x) := wn(x) + bV (x) y notemos que vn ≥ 0. Para

alguna x ∈ X y cualquier sucesion xn → x cuando n→∞, tenemos

lım infn→∞

vn(xn) = bV (x) + lım infn→∞

wn(xn).

Por tanto v∗(x) = bV (x) + w∗(x), x ∈ X, y consecuentemente∫X

v∗(x)µ0(dx) = b

∫X

V (x)µ0(dx) +

∫X

w∗(x)µ0(dx)

Aplicando (B.4) a la sucesion vn y (B.6), facilmente obtenemos

lım infn→∞

∫X

wn(x)µn(dx) + b

∫X

V (x)µ0(dx) = lım infn→∞

∫X

vn(x)µn(dx)

≥∫X

v∗(x)µ0(dx) =

∫X

w∗(x)µ0(dx) + b

∫X

V (x)µ0(dx),

lo cual implica (B.7).

Similarmente (B.8) se sigue de (B.5) tomando vn(x) := wn(x)− bV (x) ≤ 0.

Page 64: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

Apendice C

Varios resultados

C.1. Teorema de punto fijo de Banach

Definicion C.1.1. Dado (X, d) un espacio metrico. Un operador T : X → X es

llamado una contraccion si existe un numero 0 ≤ τ < 1 tal que

d(Tx1, Tx2) ≤ τd(x1, x2)

para todo x1, x2 ∈ S. En este caso τ es llamado el modulo de T .

Proposicion C.1.1. (Teorema del puto fijo de Banach) Un operador de con-

traccion T en un espacio metrico completo (X, d) tiene un unico punto fijo x∗. Mas

aun, d(T nx, x∗) ≤ τnd(x, x∗) para todo x ∈ X, n = 1, 2, . . ., donde τ es el modulo de

T , y T n := T (T n−1) para n = 1, 2, . . ., con T 0 :=identidad.

C.2. Teorema minimax de Fan

Antes de enunciar el teorema minimax estableceremos la siguiente definicion.

Definicion C.2.1. Sea f una funcion que toma valores reales en el espacio producto

X × Y de dos conjuntos arbitrarios X, Y (no necesariamente topologicos). f se dice

ser:

(a) convexa en X si para cualquiera dos elementos x1, x2 ∈ X y numero α ∈ [0, 1],

57

Page 65: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

APENDICE C. VARIOS RESULTADOS 58

existe un elemento x0 ∈ X tal que

f(x0, y) ≤ αf(x1, y) + (1− α)f(x2, y) para todo y ∈ Y .

(b) concava en Y si para cualquiera dos elementos y1, y2 ∈ Y y β ∈ [0, 1], existe

y0 ∈ Y tal que

f(xy0) ≥ βf(x, y1) + (1− β)f(x, y2) para todo x ∈ X.

Teorema C.2.1. Sean X, Y dos espacios metricos compactos y f : X × Y → R.

Supongamos que, para cada y ∈ Y , f(x, y) es s.c.i. en X; y para cada x ∈ X, f(x, y)

es s.c.s. en Y . Entonces:

(i) La igualdad

mınx∈X

maxy∈Y

f(x, y) = maxy∈Y

mınx∈X

f(x, y) (C.1)

se tiene, si y solo si la siguiente condicion se satisface: Para cualquiera dos

conjuntos finitos x1, x2, . . . , xn ⊂ X y y1, y2, . . . , ym ⊂ Y , existe x0 ∈ X y

y0 ∈ Y tales que

f(x0, yk) ≤ f(xi, y0) (1 ≤ i ≤ n, 1 ≤ k ≤ m).

(ii) En particular, si f es convexa en X y concava en Y , se tiene (C.1).

Demostracion. (ver [7]).

Para ver mas resultados minimax vea [8].

C.3. Teorema del Maximo de Berge y Teorema de

Seleccion medible

Los elementos que intervienen en los siguientes resultados estan definidos en el

Apendice A.2 y B.1. Cuyas pruebas se pueden consultar en el Capıtulo 17 de [1] .

Lema C.3.1. Sea ϕ : X Y una correspondencia s.c.i. entre espacios metricos y la

funcion f : Grϕ→ R semicontinua inferiormente. Se define la funcion real extendida

m : X → R como

m(x) = supy∈ϕ(x)

f(x, y).

Page 66: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

APENDICE C. VARIOS RESULTADOS 59

Entonces la funcion m es semicontinua inferiormente.

Lema C.3.2. Sea ϕ : X Y una correspondencia s.c.s. entre espacios metricos con

valores compactos no vacıos y la funcion f : Grϕ→ R semicontinua superiormente.

Se define la funcion m : X → R como

m(x) = maxy∈ϕ(x)

f(x, y).

Entonces la funcion m es semicontinua superiormente en X.

Teorema C.3.3. (Teorema del Maximo de Berge) Sea ϕ : X Y una corres-

pondencia continua entre espacios metricos con valores compactos no vacıos y su-

pongamos que la funcion f : Grϕ→ R es continua. Se define la funcion m : X → Rcomo

m(x) = maxy∈ϕ(x)

f(x, y)

y la correspondencia µ : X Y de maximizadores por

µ(x) = y ∈ ϕ(x) : f(x, y) = m(x).

Entonces

(1) m es continua,

(2) la correspondencia µ toma valores compactos no vacıos,

(3) la correspondencia µ es s.c.s.

Teorema C.3.4. (Teorema de Seleccion medible) Sean X y Y espacios de Bo-

rel, ϕ : X Y una correspondencia con valores compactos no vacıos y supongamos

que la funcion u : Grϕ → R es Borel medible tal que u(x, ·) es s.c.s. en ϕ(x) para

cada x ∈ X. Entonces existe un selector Borel medible f : X → Y para cada ϕ tal

que

u(x, f(x)) = maxy∈ϕ(x)

f(x, y) para cada x ∈ X.

Mas aun, la funcion m definida por m(x) = maxy∈ϕ(x) u(x, y) es Borel medible.

Page 67: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

APENDICE C. VARIOS RESULTADOS 60

Similarmente, si u es s.c.s. en ϕ(x) para cada x ∈ X, entonces existe un selector

medible g : X → Y para ϕ tal que

u(x, g(x)) = mıny∈ϕ(x)

f(x, y) para cada x ∈ X,

y, la funcion v definida por v(x) = mıny∈ϕ(x) u(x, y) es Borel medible.

Demostracion. (ver Himmelberg en [15]).

Page 68: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

Bibliografıa

[1] C.D. Aliprantis, K.C. Border, Infinite Dimensional Analisys, Springer-

Berlag, Berlin, 2006.

[2] R. B. Ash, C.A. Doleans-Dade, Probability and Measure Theory, Academic

Res, 2000.

[3] R. B Ash, Real Analysis and Probability, Academic Press, New York, 1972.

[4] J.-P. Aubin, Optima and equilibria, Springer-Verlag, Berlin, 1993.

[5] D. P. Bertsekas, S. E. Shreve, Stochastic Optimal Control: The Discrete

Time Case, Academic Press, New York, 1978.

[6] L. Devroye, G. Lugosi, Combinatorial Methods in Density Estimation,

Springer, New York, 2001.

[7] K. Fan, Minimax theorems, Proc. Nat. Acad. Sci. USA, 39 (1953), pp. 42-47.

[8] J. B G. Frenk, G. Kassay, J. Kolumban, On equivalent results in minimax

theory, European Journal of Operational Research, 157 (2004), 46-58.

[9] E. I. Gordienko, J. A. Minjarez-Sosa, Adaptive control for discrete-time

Markov processes with unbounded costs: Discounted criterion, Kybernetika, 34

(1998), pp. 217–234.

[10] O. Hernandez-Lerma, Adaptive Markov Control Processes, Springer-Verlag,

New York, 1989.

[11] O. Hernandez-Lerma, R. Cavazos-Cadena, Density estimation and adap-

tive control of Markov processes: Average and discounted criteria, Acta Appl.

Math., 20 (1990), pp. 285–307.

61

Page 69: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

BIBLIOGRAFIA 62

[12] O. Hernandez-Lerma, J. B. Lasserre, Discrete-Time Markov Control Pro-

cesses: Basic Optimality Criteria, Springer-Verlag, New York, 1996.

[13] O. Hernandez-Lerma, J. B. Lasserre, Further Topics on Discrete-Time

Markov Control Processes, Springer-Verlag, New York, 1999.

[14] N. Hilgert, J. A. Minjarez-Sosa, Adaptive control of stochastic systems

with unknown disturbance distribution: Discounted criteria, Math. Methods

Oper. Res., 63 (2006), pp. 443–460.

[15] Hilmmelberg, C. J. Parthasarathy, Van Vleck, Optimal plans for dy-

namic programming problems, Math. Oper. Res. 1 (1976), pp. 390-394.

[16] C. J. Himmelberg, F. S. Van Vleck, Multifunctions with values in a space

of probability measures, J. Math. Anal. Appl., 50 (1975), pp. 108-112.

[17] A. Jaskiewicz, A. S. Nowak, Zero-sum ergodic stochastic games with Feller

transition probabilities, SIAM J. Control Optim., 45 (2006), pp. 773–789.

[18] H.-U. Kuenle, On Markov games with average reward criterion and weakly

continuous transition probabilities, SIAM J. Control Optim., 45 (2007), pp.

2156–2168.

[19] E. Michael, Continuos selections I, Ann. Math., 63 (1956), pp. 361-382.

[20] J. A. Minjarez-Sosa, Nonparametric adaptive control for discrete-time Mar-

kov processes with unbounded costs under average criterion, Appl. Math. (War-

saw), 26 (1999), pp. 267–280.

[21] J. A. Minjarez-Sosa, Approximation and estimation in Markov control pro-

cesses under a discounted criterion, Kybernetika, 40 (2004), pp. 681–690.

[22] J. A. Minjarez-Sosa, O. Vega-Amaya, Asymtotically optimal strategies for

adaptive zero-sum discounted Markov games, SIAM SIAM J. Control Optim. 48

(2009), pp. 1405-1421.

[23] J. A. Minjarez-Sosa, O. Vega-Amaya, Averange optimal strategies for

zero-sum Markov games with unknown disturbance distribution on one side, (en

preparacion).

Page 70: posgrado.mat.uson.mx · Indice general Indice general III Introducci on V 1. Juegos Markovianos de suma cero1 1.1. Formulaci on de un juego suma cero. . . . . . . . . . . . .

BIBLIOGRAFIA 63

[24] A. S. Nowak, Optimal Strategies in a class of zero-sum ergodic stochastic

games, Math. Methods Oper. Res., 50 (1999), pp. 466-476.

[25] F. Ramirez-Reyes, Existence of optimal strategies for zero-sum stochastic ga-

mes with discounted payoff, Dpto. de Matematicas, CINVESTAV (2000).

[26] M. Schal, Estimation and control in discounted stochastic dynamic program-

ming, Stochastics, 20 (1987), pp. 51–71.

[27] J. A. E. E. Van Nunen, J. Wessels, A note on dynamic programming with

unbounded rewards, Management Sci., 24 (1977/78), pp. 576–580.