sesión 15: procesos de decisión de markov

81
Sesión 15: Procesos de Decisión de Markov Modelos Gráficos Probabilistas L. Enrique Sucar INAOE

Upload: haque

Post on 08-Dec-2016

225 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Sesión 15: Procesos de Decisión de Markov

Sesión 15: Procesos de Decisiónde Markov

Modelos Gráficos ProbabilistasL. Enrique Sucar

INAOE

Page 2: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 2

Procesos de Decisión de Markov• Procesos de Decisión Secuenciales• Procesos de Decisión de Markov (MDPs)• Técnicas de Solución:

• Iteración de Valor• Iteración de Política

• MDPs Parcialmente Observables (POMDPs)• Extensiones

• MDPs factorizados• Abstracción, descomposición

• Aplicaciones

Page 3: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 3

Problemas de decisión secuenciales

• Problema de decisión que involucra un conjuntode decisiones cuyo resultado (utilidad) se conocehasta el final

• Se considera que se tiene una serie de estados ydecisiones asociadas en el tiempo

• Se tiene incertidumbre asociada con losresultados de las acciones (MDP), y posiblementetambién con los estados (POMDP)

Page 4: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 4

Ejemplo – robot móvil

Inicio

Page 5: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 5

Modelo de Transición

• Normalmente existe incertidumbre respectoa los resultados de una decisión (acción)

• Esta incertidumbre se modela como unaprobabilidad de llegar al estado “j” dadoque se encuentra en el estado “i” y serealizá la acción “a”:

Pija

Page 6: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 6

Modelo de Transición• Probabilidad dirección deseada – Pij=0.8• Probabilidad 2 direcciones vecinas – Pik=0.1

Page 7: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 7

Modelo de los Sensores

• Normalmente el agente puede sensar elambiente para observar en que estado seencuentra.

• Existen dos casos principales:– Observa directamente el estado donde se

encuentra- proceso de decisión de Markov– Se tiene incertidumbre sobre el estado en que

se encuentra- proceso de decisión de Markovparcialmente observable

Page 8: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 8

MDP

Page 9: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 9

POMDP

Page 10: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 10

Política Óptima

• Dado el modelo de transición y el modelode los sensores, el objetivo es encontrar lapolítica óptima para maximizar la utilidadesperada

• Una política indica la acción que se debeejecutar dado el estado (o probabilidad delestado)

• Se considera que las probabilidades detransición sólo dependen del estado actualpor lo que son procesos markovianos

Page 11: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 11

Ejemplo de Política

Inicio

Page 12: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 12

Controlador basado en un MDP

solución MDP

Controlador

Sistema

Modelo

Eventos

estadoacción

política

Page 13: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 13

Procesos de Decisión de Markov• Problema de obtener la política óptima en un

ambiente observable – MDP• El método clásico para resolver estos problemas

se conoce como “iteración de valor” (valueiteration)

• La idea básica es calcular la utilidad de cadaposible estado y usar éstas para seleccionar laacción óptima en cada estado

• Otros métodos de solución son “iteración depolítica” (policy iteration) y programación lineal(al transformar el problema a un problema deoptimización lineal)

Page 14: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 14

Procesos de Decisión de Markov

• Formalmente, un MDP (discreto) se definepor:– Un conjunto finito de estados, S– Un conjunto finito de posibles acciones, A– Un modelo de transición, que especifica la

probabilidad de pasar a un estado dado elestado presente y la acción, P(s | s’, a)

– Una función de recompensa, que especifica el“valor” de ejecutar cierta acción a en el estados, r(s, a)

Page 15: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 15

Utilidad

• La utilidad de un estado depende de la secuenciade acciones tomadas a partir de dicho estado (i)de acuerdo a la política establecida (p)

• En principio, se puede obtener como la utilidadesperada de todas las posibles secuencias deacciones (Hi) y la utilidad resultante para c/u:

U(i) = UE( Hi(p) ) = Σ P(Hi(p)) Uh Hi(p)

Page 16: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 16

Utilidad

• Si la utilidad es separable, se puede estimarcomo la utilidad del estado presente y lautilidad de los siguiente estados

• La forma más sencilla es que sea unafunción aditiva:

U[s0, s1, ... sn] = R(s0) + U[s1, ... sn]• Donde R se conoce como la función de

recompensa

Page 17: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 17

Programación Dinámica

• Dada la condición de separabilidad, la utilidad deun estado se puede obtener en forma iterativamaximizando la utilidad del siguiente estado:

U(i) = R(i) + maxa Σj P(sj | si,a) U(j)

• La política óptima esta dada por la acción que demayor utilidad:

P*(i) = arg maxa Σj P(sj | si,a) U(j)

Page 18: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 18

Horizonte finito vs. infinito

• Los problemas con un número finito depasos se conocen como MDP de horizontefinito

• Los problemas en que puede haber unnúmero infinito de pasos se conocen comoMDP de horizonte infinito

• Muchos problemas, como el ejemplo delrobot, son de horizonte infinito

Page 19: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 19

Solución

• Los métodos principales para resolverMDPs son:– Iteración de valor (Bellman, 57),– Iteración de política (Howards, 60),– Programación lineal (Puterman, 94).

Page 20: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 20

MDPs – ecuaciones fundamentales

• Función de valor (ecuación de Bellman):

V*(s) = maxa { R(s,a) + γ Σs’ P(s’ | s, a) V*(s’) }

• Política:

π*(s) = arg maxa { R(s,a) + γ Σs’ P(s’ | s, a) V*(s’) }

Donde γ es un factor de descuento

Page 21: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 21

SoluciónFunción de valor• Una política para un MDP es una asociación π:S→A (acción por estado).

• Dada la política, el valor para horizonte finito es:Vn

π: S → ℜ

Vnπ(i) = R(i, π(i)) + Σ P(π(i) | i,j) Vn-1(j)

• Para horizonte infinito, generalmente se consideraun factor de descuento, 0<=γ<1:

Vπ(i) = R(i, π(i)) + γΣ P(π(i) | i,j) V(j)

Page 22: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 22

Solución

Política óptima• La solución a un MDP da una política óptima.• Esto es, la política que maximiza la ecuación de

Bellman:π*(i) = max [R(i, a) + γΣ P(a | i,j) V*(j)]

Page 23: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 23

Iteración de Valor

• En el caso de horizonte infinito, se puede obtenerla utilidad de los estados –y la política óptima,mediante un método iterativo

• En cada iteración (t+1), se estima la utilidad decada estado basada en los valores de la iteraciónanterior (t):

Ut+1(i) = R(i) + maxa Σj P(sj | si,a) Ut(j)• Cuando tinf, los valores de utilidad convergen

a un valor estable

Page 24: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 24

Iteración de Valor

Algoritmo:

– Inicializar: Ut = Ut+1 = R– Repetir:

• Ut=Ut+1

• Ut+1(i) = R(i) + maxa Σj P(sj | si,a) Ut(j)

– Hasta: | Ut-Ut+1 | < ε

Page 25: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 25

Iteración de Valor

• ¿Cuántas veces repetir la iteración?

• Normalmente el número de iteraciones paraobtener la política óptima es menor que elrequerido para que las utilidades converjan

• En la práctica, el número de iteraciones esrelativamente pequeño

Page 26: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 26

Ejemplo – utilidades de los estados

0.812

0.762

0.868 0.912

0.660

0.6110.705 0.3380.655

Page 27: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 27

Ejemplo – política óptima

Page 28: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 28

Iteración de Política• Empezando de cierta política (aleatoria),

esta se mejora encontrando una acciónpor estado que tenga un mejor valor quela acción actual

• Se puede usar conocimiento del problemapara definir la política inicial

• El proceso termina cuando ya no puedehaber mejoras

• Normalmente converge en menor númerode iteraciones que iteración de valor, perocada iteración es más costosa

Page 29: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 29

• Escoger una política inicial• Repetir hasta convergencia:

– Obtener el valor para todos los estados, Vπ,basado en la política actual π

– Para cada acción, a, calcular:Qa = R+ γ PaVπ

– Redefinir: π(s) = argmaxa Qa(s)

Iteración de Política

Page 30: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 30

Ejemplo: robot virtual

Page 31: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 31

Una configuración

Page 32: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 32

Política óptima

Page 33: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 33

Otra configuración

Page 34: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 34

Función de valor

Page 35: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 35

POMDP

• En muchos problemas reales, no se puedeobservar exactamente el estado del agente,por lo que se tiene un POMDP

• Además de los elementos de un MDP, unPOMDP incluye:– Una función de observación que especifica la

probabilidad de las observaciones dado elestado, P(O|S)

– Una distribución de probabilidad inicial paralos estados, P(S)

Page 36: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 36

POMDP• El enfoque exacto para resolver un POMDP

requiere considerar toda la historia deobservaciones y acciones

• Esto es equivalente a considerar la distribución deprobabilidad sobre los estados y en base a estadeterminar las decisiones óptimas

• Para ello, se puede considerar un POMDP como unMDP en que los estados corresponden a ladistribución de probabilidad

• El problema es que el espacio de estados se vuelveinfinito y la solución exacta es muy compleja

Page 37: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 37

POMDP• Soluciones aproximadas:

– Representar un POMDP de horizonte finito a través deun “policy tree” (acciones | observaciones | acciones…), resolviendolo en forma recursiva a través deplanes condicionales

– Para POMDP de horizonte finito la función de valor esconvexa y lineal a pedazos (vectores α). Se puedeaproximar mediante un subconjunto de vectores quedominan a los demás, y mediante esto encontrar unapolítica aprox. óptima.

Page 38: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 38

POMDP

• Soluciones aproximadas:– Considerar un número finito de pasos y

modelar el problema como una red de decisióndinámica – la aproximación depende delnúmero de estados que se “ven” hacia delante(lookahead)

Page 39: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 39

Ejemplo POMDP• El robot detecta su posición con sonares

• Hay errores y ruido en las lecturas, alcance limitado• Ciertas celdas son muy parecidas (1,2 – 3,2)

Page 40: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 40

MDP como una RDD

St St+1 St+2 St+3

at-1

rt

at at+1 at+2

rt+1 rt+2

Page 41: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 41

POMDP como una RDD

St St+1 St+2 St+3

at-1

rt

O O O O

at at+1 at+2

rt+1 rt+2

Page 42: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 42

Extensiones El principal problema de los MDPs es el

crecimiento de la complejidad al aumentar elnúmero de estados y acciones (el tamaño delproblema crece exponencialmente con el númerode variables de estado y acciones). Para ello se hanplanteado:

• Representaciones factorizadas• Representaciones abstractas (agregación de estados)• Modelos jerárquicos (serie / paralelo)

Page 43: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 43

MDPs factorizados

• El estado de descompone en un conjunto de variableso factores

• Esto permite utilizar representaciones basadas enmodelos gráficos para reducir la complejidad delmodelo de transición y de recompensa:– El modelo de transición se representa usando RBD (una

RBD de 2 etapas por acción)– La función de recompensa se representa usando árboles de

decisión (considerando sólo las variables relevantes)

Page 44: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 44

MDP factorizado

X = {x1, x2, x3, x4, x5}

Se tiene una RBD por acción x2

x3

x4

x5

x1

x2’

x3’

x4’

x5’

x1’

t t+1

X X’

Page 45: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 45

MDP - factorizado

RLa función de recompensaconsidera sólo las variablesque inciden directamente

x2

x3

x2

x3 x3

x2 x2

V1 V2 V3 V4 V5 V6

Page 46: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 46

Diagramas de Decisión Algebraicos–Otra alternativa para representar en forma compactaM y R es mediante Diagramas de Decisión Algebraicos(SPUDD)

Page 47: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 47

SPUDD

• SPUDD [Hoey et al., 1999] es un sistemaque utiliza ADDs para resolvereficientemente MDPs muy grandes

• Utiliza algoritmos muy eficientes parahacer operaciones con ADDS(desarrollados en el área de diseño yverificación de circuitos electrónicos)

Page 48: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 48

MDPs abstractos

• Otra alternativa para reducir la complejidades reducir el número de estados, agrupandoestados con propiedades similares(recompensa, probabilidades de transición)

• Esto también se puede aplicar a dominioscontinuos

• La desventaja es que la solución puede yano ser óptima

Page 49: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 49

Estados abstractos (cualitativos)

x2

y

x

x1

y1 y2 y3

x3

x1, x2, x3, y1, y2, y3 sonvalores de referencia ocorte

Q1=pos(x, x2),~pos(x,x3), pos(y, y1),~pos(y,y3).

Q2=pos(x, x1),~pos(x,x2), pos(y, y1),~pos(y,y3).

Q1

Q2

Page 50: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 50

Una partición cualitativa q es un grupo deestados con recompensas similares.

Partición cualitativa

Page 51: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 51

Refinamiento

• Si la política obtenida no es satisfactoria, sepueden agregar particiones adicionales odesagrupar estados.

Q1

Q2

Q3

Q4Q5

x1

x2

Q1-p1Q2

Q3-p1

Q5

x1

x2Q1-p2

Q3-p2-1

Q3-p2-1

Q4-p1 Q4-p2

Page 52: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 52

Descomposición• La otra alternativa para simplificar la solución de

un MDP es “partir” el problema en subproblemas,de forma que se puede resolver c/u por separado ydespués “integrar la solución”

• Dos principales enfoques:– serie: se descompone la tarea en subtareas de forma

que cada es una submeta que hay que cumplir paraalcanzar la meta global (p. ej. Heirarchical RL)

– paralelo: se descompone el problema en subproblemasque puedan resolverse “independientemente” yejecutarse en “paralelo” (p. ej. Parallel MDPs,Concurrent MDPs)

Page 53: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 53

Aprendizaje de MDPs

• Aprender el modelo:– En base a una exploración aleatoria del ambiente, se

puede aprender el modelo de transición y la función derecompensa

• Sin modelo:– Se aprende directamente la política explorando el

ambiente (aprendizaje por refuerzo: Q-learning)• Enfoques híbridos:

– Dyna-Q, priotarized sweeping, …

Page 54: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 54

Aplicaciones• Manejo de inventarios• Mantenimiento de equipos y carreteras• Control de sistemas de comunicaciones• Modelado de procesos biológicos• Planeación en robótica móvil• Construcción de mapas / localización• Control de procesos industriales• Control de aviones• …

Page 55: Sesión 15: Procesos de Decisión de Markov

Ejemplo de Aplicación

Control de una Planta Eléctricautilizando MDP

Page 56: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 56

Page 57: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 57

Generador de vapor y domo

Page 58: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 58

Espacio de controlRecommended curve

164166168170172174176178180182184186

50% 60% 70% 80% 90% 100%

531 649 767 885 1003 1120

Flow of main steam (t/h)

Pre

ssur

e in

the

dum

(kg

/cm

2 g)

010987

30

65432111

12 13 14 15 16 17

24 25 26 27 28

31 32 33 34 3536

18 19 20 21 22 2329

3742

38 39 4043 44 45 46 47

41

Page 59: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 59

Ejemplo accionesRecommended curve

164166168170172174176178180182184186

50% 60% 70% 80% 90% 100%

531 649 767 885 1003 1120

Flow of main steam (t/h)

Pre

ssur

e in

the

dum

(kg

/cm

2 g)

010987

30

65432111

12 13 14 15 16 17

24 25 26 27 28

31 32 33 34 3536

18 19 20 21 22 2329

3742

38 39 4043 44 45 46 47

41

Page 60: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 60

Variables relevantes

Flujo deagua

Flujodevapor

Presiónvapor

dmsv

fwv

Page 61: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 61

Modelode

Transición

fms, fms_ref1

fms, fms_ref2

ffw , ffw _ref

d, d_ref

pd, pd_ref1

pd, pd_ref2

pd, pd_ref3

g, g_ref

fms, fms_ref1’‘

fms,fms_ref2’

f fw , ffw _ref’

d, d_ref’

pd, pd_ref1’

pd, pd_ref2’

pd, pd_ref3’

g, g_ref’

0 + -

0 0.33 0.13 0.01

+ 0.33 0.82 0.00

- 0.33 0.05 0.99

acción: cerrar

válvula

Q'

t'

Page 62: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 62

Asistente del Operador• Arquitectura

Data Base

Power PlantSimulator

OperatorInterface

Factored MDP

Operator

Process

OperatorAssistant

Page 63: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 63

Resultados

El modelo detransición seobtuvo de a partirdel simulador

Page 64: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 64

Resultados – comparación de unMDP plano con uno factorizado

Parámetros a0 a1 a2 a3 Total Tiempo desolución

MDP“plano”

147456 147456 147456 147456 589824 5.6 días

MDPfactorizado

175 175 204 204 758 2 minutos

Page 65: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 65

Resultados – comparación con elcontrol convencional

Policy Behavior (Medium Load)

0

1

2

3

4

5

1 9 17 25 33 41 49 57 65 73 81 89 97 105

113

121

129

137

145

153

No of samples (500 ms time step)

Act

ion

control

discreteFactoredMDP

En algunos casos son similares, pero el MDP lleva

más rápidamente a la planta a un estado seguro.

Page 66: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 66

Page 67: Sesión 15: Procesos de Decisión de Markov

Ejemplo de Aplicaciones

Coordinación de tareas para un robotde servicio - Markovito

Page 68: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 68

Coordinación de Tareaspara Robots de Servicio

• Una tarea compleja en robótica de serviciorequiere de diversas habilidades:– Planeación de trayectorias– Evitar obstáculos– Localización– Construcción de mapas– Encontrar personas– Reconocimiento y síntesis de voz– Generación de expresiones– …

Page 69: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 69

Coordinación

• La coordinación de los diferentes módulospara realizar una tarea se base en un MDP

• De acuerdo a la tarea se define una funciónde recompensa, y al resolver el MDP seobtiene la política óptima para dicha tarea

• De esta forma diversos módulos se puedenre-utilizar para diferentes tareas sólocambiando el MDP

Page 70: Sesión 15: Procesos de Decisión de Markov

Arquitectura de Software

Page 71: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 71

Markovito: hardware

• Robot PeopleBot• Cámara Pan/tilt• Micrófono direccional• 2 anillos de sonares• Pinza• Laser• 2 computadoras (interna

& laptop)• Monitor con “cara

animada”

Page 72: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 72

Aplicaciones• Basado en este enfoque se han desarrollado

diversas tareas para un robot de servicio:– Robot mensajero: lleva mensaje u objetos de una

persona a otra– Robot anfitrión: recibe visitantes y los guía en una

institución– Navegación (Robocup@home): va a diferentes lugares

en una casa comandado por voz– Busca y encuentra (Robocup@home): busca un objeto– Seguimiento (Robocup@home): sigue a una persona

Page 73: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 73Enseñando a Markovito a Reconocer un objeto

Navegación en un ambiente de “casa”

Entregando una cerveza!

Mensajero

Page 74: Sesión 15: Procesos de Decisión de Markov

MDPs Concurrentes• Se requiere que el robot pueda hacer diversas acciones al

mismo tiempo, por ejemplo navegar, escuchar a unapersona y sonreír (cara animada)

• Si se consideran todas las combinaciones de acciones enun MDP se tiene una explosión aún mayor en el númerode estados-acciones

• Una alternativa es dividir el problema en varias sub-tareas,de forma que cada sub-tarea se representa con un MDP; ylas políticas de cada sub-MDP se ejecutan en formaconcurrente

© L.E. Sucar: MGP - MDPs 74

Page 75: Sesión 15: Procesos de Decisión de Markov

MDPs Concurrentes• Al descomponer el problema pueden existir conflictos entre

las sub-tareas, que pueden ser de dos tipos:– Conflictos por recursos– Conflictos por comportamiento

• Los conflictos por recursos se resuelven en un proceso de dosfases, en la primera se resuelve cada subMDP en formaindependiente y se construye una política inicial combinada;luego la política se afina usando iteración de políticas

• Los conflictos por comportamiento se resuelven a través deuna serie de restricciones definidas por el usuario, y en línease selecciona el conjunto de acciones de mayor valor quesatisfacen las restricciones

© L.E. Sucar: MGP - MDPs 75

Page 76: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 76

Referencias• [Russell & Norvig] – Cap. 17• [Sucar, Morales, Hoey] - Cap. 3• H. A. Taha, “Investigación de Operaciones”,

Alfaomega, 1991 – Cap. 14• M. Puterman, “Markov Decision Processes”,

Wiley, 1994.

Page 77: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 77

Referencias

• Blythe, J., 1999, Decision –Theoretic Planning. AAAI. AIMagazine, 37-54.

• C. Boutilier, T. Dean, and S. Hanks. Decision-theoreticplanning: structural assumptions and computationalleverage. Journal of Artificial Intelligence Research,11:1–94, 1999

• D. Suc and I. Bratko. Qualitative reverse engineering. InProceedings of the 19th International Conference onMachine Learning, 2000.

• E. Morales. Scaling up reinforcement learning with arelation representation.pages 15–26. Proc. of the Workshopon Adaptability in Multi-agent Systems (AORC-2003),2003.

Page 78: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 78

Referencias

• J. Hoey, R. St-Aubin, A. Hu, and C. Boutilier.Spudd: Stochastic planning using decisiondiagrams. In Proceedings of the 15th Conferenceon Uncertainty in Artificial Intelligence, UAI-99,pages 279–288, 1999.

• K. Forbus. Qualitative process theory. ArtificialIntelligence, 24, 1984.

• R.S. Sutton and A.G. Barto. ReinforcementLearning: An Introduction. 1998.

Page 79: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 79

Referencias

• E. Corona, E. Morales, L.E. Sucar, Executing concurrentactions with concurrent Markov decision processes,ADPRL, IEEE, 2009.

• P. Elinas, E. Sucar, A. Reyes and J. Hoey; A decisiontheoretic approach to task coordination in social robots,IEEE International Workshop on Robots and HumanInteractive Communications RO-MAN 04; Japan 2004.Demo Videos.

• A. Reyes, P. H. Ibarguengoytia, L. E. Sucar; Power PlantOperator Assistant: An Industrial Application of FactoredMDPs; Mexican International Conference on ArtificialIntelligence (MICAI-04); Mexico City; April 2004.

Page 80: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 80

Referencias

• A. Reyes, L. E. Sucar, P. Ibarguengoytia; Power Plant OperatorAssistant; Bayesian Modeling Applications Workshop in the 19thConference on Uncertainty in Artificial Intelligence UAI-03,Acapulco-Mexico, August 2003.

• A. Reyes, M.A. Delgadillo, P. H. Ibarguengoytia; An IntelligentAssistant for Obtaining the Optimal Policy during OperationTransients in a HRSG; 13th Annual Joint ISA POWID/ EPRIControls and Instrumentation Conference; Williamsburg,Virginia, June 2003.

• Ibargüengoytia P. H., Reyes A. 2001. Continuous Planning forThe Operation of Power Plants, Memorias del EncuentroNacional de Computación ENC 2001, Aguscalientes-Mexico.

Page 81: Sesión 15: Procesos de Decisión de Markov

© L.E. Sucar: MGP - MDPs 81

Software

• MDPs– Markov Decision Process (MDP) Toolbox v1.0 for

MATLAB (INRIA) http://www.inra.fr/bia/T/MDPtoolbox/– Markov Decision Process (MDP) Toolbox for Matlab

(K. Murphy)http://www.ai.mit.edu/~murphyk/Software/MDP/mdp.html

– SPUDDhttp://www.cs.ubc.ca/spider/staubin/Spudd/