parte i: mgps
TRANSCRIPT
Parte I:Modelos Gráficos Probabilistas
L. Enrique SucarINAOE
© E. Sucar, PGM: 1 Introducción 2
Información General
• Notas:http://ccc.inaoep.mx/~esucar/Tut-Mixteca• Correo:[email protected]
© E. Sucar, PGM: 1 Introducción 3
Contenido
1. Introducción2. Métodos básicos3. Clasificadores bayesianos4. Redes bayesianas5. Aprendizaje de redes bayesianas6. Campos de Markov
© E. Sucar, PGM: 1 Introducción 4
Referencias Generales• J. Pearl, Probabilistic Reasoning in Intelligent
Systems, Morgan-Kaufman, 1988• R. Neapolitan, Probabilistic Reasoning in Expert
Systems, Wiley, 1990• F. Jensen, Bayesian Networks and Decision
Graphs, Springer, 2001• A. Darwiche, Modeling and Reasoning with
Bayesian Networks, Cambridge, 2009• D. Koller & N. Friedman, Probabilistic Graphical
Models: Principals and Techniques, MIT Press,2009
I.1: Introducción
“Vivir es el arte de derivar conclusionessuficientes de premisas insuficientes”[S. Butler]
© E. Sucar, PGM: 1 Introducción 6
Modelos Gráficos Probabilistas• Representaciones basadas en modelar
la incertidumbre con variablesprobabilistas relacionadas medianteun modelo gráfico (dependencias)
• Muchas técnicas se pueden englobardentro de este tipo de modelos
© E. Sucar, PGM: 1 Introducción 7
Modelos Gráficos Probabilistas• Podemos clasificar los modelos gráficos
probabilistas en 3 dimensiones principales:– Dirigidos vs. No-dirigidos– Estáticos vs. Dinámicos– Probabilista vs. Decisiones
© E. Sucar, PGM: 1 Introducción 8
Modelos Gráficos Probabilistas
• Dirigido • No-dirigido
1
32
4 5
1
32
4 5
© E. Sucar, PGM: 1 Introducción 9
Modelos Gráficos Probabilistas
• Estático • Dinámico
St St+1 St+2 St+3
E E E E
C
H
E
© E. Sucar, PGM: 1 Introducción 10
Modelos Gráficos Probabilistas
• Probabilista • Decisiones
St St+1 St+2
E E E
A
B C
D
U
D
© E. Sucar, PGM: 1 Introducción 11
Modelos Gráficos Probabilistas
DDDPOMDPsDDDProcesos de decisión de MarkovDSDRedes de DecisiónPDDFiltros de KalmanPDDRedes bayesianas dinámicasPSDRedes bayesianasPSNCampos / Redes de MarkovPDDCadenas ocultas de MarkovPSD/NClasificador bayesiano
P/DS/DD/NModelo
© E. Sucar, PGM: 1 Introducción 12
Aplicaciones
• Existen actualmente muchas aplicacionesde PGMs, como:– Reconocimiento de ademanes y actividades– Diagnóstico industrial– Modelado del estudiante– Navegación robótica– Validación de sensores– …
© E. Sucar, PGM: 1 Introducción 13
Reconocimiento de actividadeshumanas
© E. Sucar, PGM: 1 Introducción 14
Reconocimiento de ademanes
S
hand Face
right
Torso
above
S
torso
hand Face
right
Torso
above torso
A
T T+1
SX,Y A SX,Y
© E. Sucar, PGM: 1 Introducción 15
Diagnóstico industrial
FWF
FWPF LI
SWVF
SWV
SWF
FWVF
FWV FWP STV
STF
DRL
DRP
STT
FWPFOccur 0.58¬Occur 0.42
LIOccur 0.88¬Occur 0.12
FWVFOccur 0.57¬Occur 0.43
SWVFOccur 0.18¬Occur 0.82
FWPtrue, [10-29] = 0.36true, [29-107] = 0.57false, [10-107] = 0.07
STVTrue, [0-18] = 0.69True, [18-29] = 0.20False, [0-29] = 0.11
STFTrue, [52-72] = 0.65True, [72-105] = 0.24False, [52-105] = 0.11
FWVTrue, [28-41] = 0.30True, [41-66] = 0.27False, [28-66] = 0.43
SWVTrue, [20-33] = 0.11True, [33-58] = 0.13False, [20-58] = 0.76
FWFTrue, [25-114] = 0.77True, [114-248] = 0.18False, [25-248] = 0.05
SWFTrue, [108-170] = 0.75True, [170-232] = 0.21False, [108-232] = 0.04
STTDecrement, [10-42] = 0.37Decrement, [42-100] = 0.14Decrement, [100-272] = 0.47False, [10-272] = 0.02
DRPTrue, [30-70] = 0.58True, [70-96] = 0.40False, [30-96] = 0.02
DRLIncrement, [10-27] = 0.49Increment, [27-135] = 0.09Decrement, [22-37] = 0.28Decrement [37-44] = 0.12False, [10-135] = 0.02
© E. Sucar, PGM: 1 Introducción 16
Modelado del estudiante
Experiment results Experiment behavior
Knowledge objects
Student
© E. Sucar, PGM: 1 Introducción 17
Navegación robótica
St St+1 St+2 St+3
at-1 at at+1 at+2
rtrt+1 rt+2 rt+3
…
at-1 at at+1 at+2
rtrt+1 rt+2 rt+3
© E. Sucar, PGM: 1 Introducción 18
Validación de sensores
GeneradorCámara decombustión Turbina
CH4
CH1 CH1CH1 CH1 CH1 CH1 CH1CH1CH1
CH4 CH4 CH4
CH4 CH4
© E. Sucar, PGM: 1 Introducción 19
Referencias
• Ng & Abramson, “UncertaintyManagement in Expert Systems”, IEEEExpert, Abril 1990.
• [Russell y Norvig] Cap. 14• [Pearl] Cap.1
I.2: Métodos Básicos“…las reglas mátemáticas de la probabilidad no son simplementereglas para calcular frecuencias de variables aleatorias; sontambién las únicas reglas consistentes para realizar inferencia decualquier tipo …”[E. T. Jaynes 2003]
© E. Sucar, PGM: 1 Introducción 21
Formulación
• Muchos problemas se pueden formularcomo un conjunto de variables sobre lasque tenemos cierta información y queremosobtener otra, por ejemplo:– Diagnóstico médico o industrial– Percepción (visión, voz, sensores)– Clasificación (bancos, empleadores, ...)– Modelado de estudiantes, usuarios, etc.
© E. Sucar, PGM: 1 Introducción 22
Ejemplo
• Determinar si una persona es sujeta decrédito:– X1: otorgar crédito (si/no)– X2: ingreso anual (entero positivo)– X3: créditos anteriores (si/no)– X4: edad (entero positivo)– X5: ocupación (empleado, empresario, …)
© E. Sucar, PGM: 1 Introducción 23
Formulación
• Desde el punto de vista de probabilidad sepuede ver como:– Un conjunto de variables aleatorias: X1, X2,
X3, ...– Cada variable es generalmente una partición
del espacio– Cada variable tiene una distribución de
probabilidad (conocida o desconocida)
© E. Sucar, PGM: 1 Introducción 24
Variables y Particiones
• A = {A1, A2, A3}• B = {B1, B2, B3, B4, B5}
B1
B2
B3 B4
B5A1 A2 A3
© E. Sucar, PGM: 1 Introducción 25
Preguntas
• Dada cierta información (como valores devariables y probabilidades), se requierecontestar ciertas preguntas, como:– Probabilidad de que una variable tome cierto
valor [marginal a priori]– Probabilidad de que una variable tome cierto
valor dada información de otra(s) variable(s)[condicional o a posteriori]
© E. Sucar, PGM: 1 Introducción 26
Preguntas
– Valor de mayor probabilidad de una o másvariables [abducción]
– Valor de mayor probabilidad de una o másvariables dada información de otra(s)variable(s) [abducción parcial o explicación]
– Parámetros del modelo dados datos históricosde las variables [estimación o aprendizaje]
© E. Sucar, PGM: 1 Introducción 27
Enfoque básico (fuerza bruta)
• Dada la probabilidad conjunta de lasvariables, para todos los posibles valores decada una (asumimos por ahora que sondiscretas):
P(X1, X2, X3, ..., Xn)
• podemos estimar todas las probabilidadesrequeridas
© E. Sucar, PGM: 1 Introducción 28
Inferencia
• Probabilidad marginal (cuál es la probabilidad delas diferentes ocupaciones):p(X) = ΣY, Z p(X,Y, Z)
• Probabilidad condicional (cuál es la probabilidadde otorgar el crédito dado cierto nivel de ingreso) :p(X | Y) = p(X,Y) / p(Y)
• Donde:p(X,Y) = ΣZ p(X,Y, Z)
© E. Sucar, PGM: 1 Introducción 29
Abducción• Valor más probable (qué tipo de ocupación es el más
común):ArgX [max p(X) = max ΣY, Z p(X,Y, Z) ]
• Valor condicional más probable (debo o no otorgar elcrédito):ArgX [max p(X | y1) = max p(X,y1) / p(y1) ]
• Valor conjunto más probable (que combinación deocupación y edad es la más probable):ArgX,Y [max p(X,Y) = max ΣZ p(X,Y, Z) ]
© E. Sucar, PGM: 1 Introducción 30
Ejemplo
• Problema de decidir cuando jugar golf?• Variables
– Ambiente– Temperatura– Viento– Humedad– Jugar
© E. Sucar, PGM: 1 Introducción 31
Ejemplo
• Consideremos inicialmente dos variables:ambiente (S,N,Ll) y temperatura (A,M,B)
• Dada la tabla de P conjunta, encontrar:– Probabilidad de ambiente, temperatura– Probabilidad de ambiente conocida la
temperatura (y viceversa)– Combinación de A y T más probable– Ambiente más probable dada la temperatura (y
viceversa)
© E. Sucar, PGM: 1 Introducción 32
Ejemplo
© E. Sucar, PGM: 1 Introducción 33
Limitaciones
• El tamaño de la tabla y el número deoperaciones crece exponencialmente con elnúmero de variables
• La “tabla” conjunta nos dice poco sobre elfenómeno que estamos analizando
• Puede ser difícil estimar las probabilidadesrequeridas (por expertos o a partir datos)
© E. Sucar, PGM: 1 Introducción 34
Estimación de Parámetros• Dados un conjunto de valores de las
variables (registros), se busca estimar lasprobabilidades conjuntas requeridas
• Considerando datos completos:– Las probabilidades se pueden estimar contando
el número de casos de cada valorP(Xi,Yj) ~ Ni,j / N
– Esto corresponde al estimador de máximaverosimilitud cuando no hay valores faltantes
© E. Sucar, PGM: 1 Introducción 35
Ejemplo
• Dados datos sobre lo que “jugadores” hanhecho en situaciones pasadas, podemosestimar la probabilidad conjunta
• Consideremos el caso de 2 variables(ambiente y temperatura) y 14 registros dedatos
© E. Sucar, PGM: 1 Introducción 36
Ejemplos
Ambiente Temp. Humedad Viento Jugarsoleado alta alta no Nsoleado alta alta si Nnublado alta alta no Plluvia media alta no Plluvia baja normal no Plluvia baja normal si Nnublado baja normal si Psoleado media alta no Nsoleado baja normal no Plluvia media normal no Psoleado media normal si Pnublado media alta si Pnublado alta normal no Plluvia media alta si N
© E. Sucar, PGM: 1 Introducción 37
Ejemplo
© E. Sucar, PGM: 1 Introducción 38
Limitaciones
• Se requiere una gran cantidad de datos paraestimaciones confiables
• Se complica si hay datos faltantes• Puede ser mejor estimar probabilidades
marginales o condicionales (menos datos,más fácil para el experto)
• También puede ser complejo el tenerdemasiados datos (minería de datos)
© E. Sucar, PGM: 1 Introducción 39
Alternativas
• El problema de complejidad computacional utilizando elenfoque básico (tanto en espacio para representar elmodelo, como en tiempo para el cálculo deprobabilidades), nos lleva a buscar alternativas
• Los modelos gráficos probabilistas proveen estaalternativa, mediante representaciones muchos máscompactas (y entendibles) y técnicas eficientes para elcálculo de las probabilidades
I.3: Clasificadores bayesianos
© E. Sucar, PGM: 1 Introducción 41
Clasificación
• El concepto de clasificación tiene dossignificados:– No supervisada: dado un conjunto de datos,
establecer clases o agrupaciones (clusters)– Supervisada: dadas ciertas clases, encontrar
una regla para clasificar una nueva observacióndentro de las clases existentes
© E. Sucar, PGM: 1 Introducción 42
Clasificación
• El problema de clasificación (supervisada)consiste en obtener el valor más probable de unavariable (hipótesis) dados los valores de otrasvariables (evidencia, atributos)
ArgH [ Max P(H | E1, E2, ...EN) ]ArgH [ Max P(H | EE) ]
EE = {E1, E2, ...EN}
© E. Sucar, PGM: 1 Introducción 43
Tipos de Clasificadores
• Métodos estadísticos clásicos– Clasificador bayesiano simple (naive Bayes)– Descriminadores lineales
• Modelos de dependencias– Redes bayesianas
• Aprendizaje simbólico– Árboles de decisión, reglas, …
• Redes neuronales, SVM, …
© E. Sucar, PGM: 1 Introducción 44
Clasificación
• Consideraciones para un clasificador:– Exactitud – proporción de clasificaciones
correctas– Rapidez – tiempo que toma hacer la
clasificación– Claridad – que tan comprensible es para los
humanos– Tiempo de aprendizaje – tiempo para obtener o
ajustar el clasificador a partir de datos
© E. Sucar, PGM: 1 Introducción 45
Regla de Bayes
• La probabilidad posterior se puede obteneren base a la regla de Bayes:
P(H | EE) = P(H) P(EE | H) / P(EE)P(H | EE) = P(H) P(EE | H) / Σi P(EE | Hi ) P(Hi)
• Normalmente no se requiere saber el valorde probabilidad, solamente el valor másprobable de H
© E. Sucar, PGM: 1 Introducción 46
Regla de Bayes
• Para el caso de 2 clases H:{0, 1}, la regla dedecisión de Bayes es:
H*(E) = 1 si P(H=1 | EE) > 1/20, de otra forma
• Se puede demostrar que la regla de Bayes esóptima
© E. Sucar, PGM: 1 Introducción 47
Valores Equivalentes
• Se puede utilizar cualquier función monotónicapara la clasificación:
ArgH [ Max P(H | EE) ]ArgH [ Max P(H) P(EE | H) / P(EE) ]
ArgH [ Max P(H) P(EE | H) ]ArgH [ Max log {P(H) P(EE | H)} ]
ArgH [ Max ( log P(H) + log P(EE | H) ) ]
© E. Sucar, PGM: 1 Introducción 48
Clasificador bayesiano simple
• Estimar la probabilidad: P(EE | H) es complejo, pero sesimplifica si se considera que los atributos son independientesdada la hipotesis:
P(E1, E2, ...EN | H) = P(E1 | H) P(E2 | H) ... P(EN | H)• Por lo que la probabilidad de la hipótesis dada la evidencia
puede estimarse como:P(H | E1, E2, ...EN) = P(H) P(E1 | H) P(E2 | H) ... P(EN | H)
P(EE)• Esto se conoce como el clasificador bayesiano simple
© E. Sucar, PGM: 1 Introducción 49
Clasificador bayesiano simple
• Como veíamos, no es necesario calcular eldenominador:
P(H | E1, E2, ...EN) ~P(H) P(E1 | H) P(E2 | H) ... P(EN | H)
• P(H) se conoce como la probabilidad a priori,P(Ei | H) es la probabilidad de los atributos dadala hipótesis (verosimilitud), y P(H | E1, E2,...EN) es la probabilidad posterior
© E. Sucar, PGM: 1 Introducción 50
Ejemplo
• Para el caso del golf, cuál es la acción másprobable (jugar / no-jugar) dado elambiente y la temperatura?
© E. Sucar, PGM: 1 Introducción 51
Ventajas
• Bajo tiempo de clasificación• Bajo tiempo de aprendizaje• Bajos requerimientos de memoria• “Sencillez”• Buenos resultados en muchos dominios
© E. Sucar, PGM: 1 Introducción 52
Limitaciones
• En muchas ocasiones la suposición de independenciacondicional no es válida
• Para variables continuas, existe el problema dediscretización
• Alternativas – dependencias:– Estructuras que consideran dependencias– Mejora estructural del clasificador
• Alternativas – variables continuas:– Descriminador lineal (variables gaussianas)– Técnicas de discretización
© E. Sucar, PGM: 1 Introducción 53
CBS – modelo gráfico
C
A2A1 An…
© E. Sucar, PGM: 1 Introducción 54
Enfoques para clasificación
C
A
C
A
Generativo Descriminativo
P(C)P(A|C) P(C|A)
© E. Sucar, PGM: 1 Introducción 55
Extensiones
• TAN
C
A2A1 An…
Se incorpora algunasdependencias entre atributos mediante laconstrucción de un“árbol” entre ellos (másadelante veremos comose aprende el árbol)
© E. Sucar, PGM: 1 Introducción 56
Extensiones
• BAN
C
A2
A1 An…
Se incorpora una “red” para modelar lasdependencias entre atributos (también más adelante veremos comoaprender una red).
© E. Sucar, PGM: 1 Introducción 57
Mejora estructural
• Otra alternativa para mejorar el CBS es partir de unaestructura “simple” y modificarla mediante:– Eliminación de atributos irrelevantes (selección de atributos)– Verificación de las relaciones de independencia entre atributos y
alterando la estructura:• Eliminar nodos• Combinar nodos• Insertar nodos
© E. Sucar, PGM: 1 Introducción 58
Eliminación de atributos• Medir la “dependencia” entre la clase y atributos
(por ejemplo con la información mutua), yeliminar aquellos con “poca” aportación
C
A2A1 A4A3
© E. Sucar, PGM: 1 Introducción 59
Mejora estructural
• Medir la dependencia entre pares de atributos dada laclase (por ejemplo mediante la información mutuacondicional), alterar la estructura si hay 2 dependientes:
1. Eliminación: quitar uno de los dos (redundantes)2. Unión: juntar los 2 atributos en uno, combinando sus valores3. Inserción: insertar un atributo “virtual” entre la clase y los dos
atributos que los haga independientes.
© E. Sucar, PGM: 1 Introducción 60
Mejora Estructural
YX
Z
X
Z
XY
Z W
Z
YX
© E. Sucar, PGM: 1 Introducción 61
Atributos redundantes
• Prueba de dependencia entre cada atributoy la clase
• Información mutua:MI(C, Ai) = Σ P(C, Ai) log [P(C, Ai) / P(C) P(Ai)]
• Eliminar atributos que no proveaninformación a la clase
© E. Sucar, PGM: 1 Introducción 62
Atributos dependientes
• Prueba de independencia de cada atributodada la clase
• Información mutua condicionalCMI(Ai, Aj | C) =
Σ P(Ai,Aj|C) log [P(Ai,Aj|C) / P(Ai|C) P(Aj|C)]
• Eliminar, unir o (insertar) atributos
© E. Sucar, PGM: 1 Introducción 63
Discretización
• Si los atributos no siguen una distribucióngaussiana, la alternativa es convertirlos adiscretos agrupando los valores en unconjunto de rangos o intervalos
• Dos tipos de técnicas de discretización:– No supervisada: no considera la clase– Supervisada: en base a la clase
© E. Sucar, PGM: 1 Introducción 64
Discretización no supervisada
• Intervalos iguales• Intervalos con los mismos datos• En base al histograma
© E. Sucar, PGM: 1 Introducción 65
Discretización supervisada
• Considerando los posibles “cortes” entreclases:– Probar clasificador (con datos diferentes)– Utilizar medidas de información (p. ej., reducir
la entropía)• Problema de complejidad computacional
© E. Sucar, PGM: 1 Introducción 66
Costo de mala clasificación
• En realidad, no sólo debemos considerar laclase más probable si no también el costode una mala clasificación– Si el costo es igual para todas las clases,
entonces es equivalente a seleccionar la demayor probabilidad
– Si el costo es diferente, entonces se debeminimizar el costo esperado
© E. Sucar, PGM: 1 Introducción 67
Costo de mala clasificación• El costo esperado (para dos clases, + y -) está
dado por la siguiente ecuación:CE = FN p(-) C(-|+) + FP p(+) C(+|-)
FN: razón de falsos negativosFP: razón de falsos positivosp: probabilidad de negativo o positivoC(-|+): costo de clasificar un positivo como negativoC(+|-): costo de clasificar un negativo como positivo
• Considerando esto y también la proporción decada clase, existen técnicas más adecuadas paracomparar clasificadores como la curva ROC y lascurvas de costo
© E. Sucar, PGM: 1 Introducción 68
Referencias• Clasificadores:
– D. Michie, D.J. Spiegelhalter , C.C. Taylor, “MachineLearning, Neural and Statistical Classification”, EllisHorwood, 1994
– L. E. Sucar, D. F. Gillies, D. A. Gillies, "ObjectiveProbabilities in Expert Systems", Artificial IntelligenceJournal, Vol. 61 (1993) 187-208.
– J. Cheng, R. Greiner, “Comparing Bayesian networkclassifiers”, UAI´99, 101-108.
– M. Pazzani, “Searching for attribute dependencies inBayesian classifiers”, Preliminary Papers of Intelligenceand Statistics, 424-429.
– M. Martínez, L.E. Sucar, “Learning an optimal naiveBayesian classifier”, ICPR, 2006
© E. Sucar, PGM: 1 Introducción 69
Referencias• Evaluación:
– C. Drummond, R. C. Holte, “Explicitlyrepresenting expected cost: an alternative to theROC representation”.
I.4: Redes Bayesianas
“La probabilidad no es realmente sobre números,es sobre la estructura del razonamiento”[G. Shafer]
© E. Sucar, PGM: 1 Introducción 71
Representación
• Las redes bayesianas son unarepresentación gráfica de dependenciaspara razonamiento probabilístico, en la cuallos nodos y arcos representan:– Nodos: Variables proposicionales.– Arcos: Dependencia probabilística
• La variable a la que apunta el arco esdependiente (causa-efecto) de la que estáen el origen de éste.
© E. Sucar, PGM: 1 Introducción 72
Ejemplo de una red bayesiana
Borracho
Sed Dolor-Cabeza
Vino
© E. Sucar, PGM: 1 Introducción 73
Otro ejemplo
© E. Sucar, PGM: 1 Introducción 74
Estructura
• La topología o estructura de la red nos dainformación sobre las dependenciasprobabilísticas entre las variables.
• La red también representa las independenciascondicionales de una variable (o conjunto devariables) dada otra variable(s).
© E. Sucar, PGM: 1 Introducción 75
Ejemplo
• Para el caso del domo:{Fva} es cond. indep. de {Fv, Fe, Nd} dado {Fb}• Esto es:
P(Fva | Fv, Fe, Nd, Fb)= P(Fva | Fb)• Esto se representa gráficamente por el nodo Fb
separando al nodo Fva del resto de las variables.
© E. Sucar, PGM: 1 Introducción 76
© E. Sucar, PGM: 1 Introducción 77
Independencias condicionales• En una RB todas la relaciones de independencia condicional
representadas en el grafo corresponden a relaciones deindependencia en la distribución de probabilidad.
• Dichas independencias simplifican la representación delconocimiento (menos parámetros) y el razonamiento(propagación de las probabilidades).
© E. Sucar, PGM: 1 Introducción 78
Representación Gráfica
• Una red bayesiana representa en formagráfica las dependencias e independenciasentre variables aleatorias, en particular lasindependencias condicionales
• Independencia en la distribución– P(X | Y,Z) = P(X | Z)
• Independencia en el grafo– X “separada” de Y por Z
© E. Sucar, PGM: 1 Introducción 79
Representación Gráfica
Notación:• Independencia en la distribución
– I(X,Z,Y)• Independencia en el grafo
– < X | Z | Y >
X Z Y
© E. Sucar, PGM: 1 Introducción 80
Separación “D”
• El conjunto de variables A esindependiente del conjunto B dado elconjunto C, si no existe trayectoria entreA y B en que
1. Todos los nodos convergentes están o tienendescendientes en C
2. Todos los demás nodos están fuera de C
© E. Sucar, PGM: 1 Introducción 81
Separación “D”• Tres casos básicos
– Arcos divergentes– Arcos en secuencia– Arcos convergentes
© E. Sucar, PGM: 1 Introducción 82
Separación “D” – casos básicos• caso 1: Secuencia:
X Z Y
• caso 2: Divergentes:
• caso 3: Convergentes:
X Z Y
X Z Y
© E. Sucar, PGM: 1 Introducción 83
Ejemplos Separación-D
A
DC
F G
B
E ¿I(A,CD,F)?¿I(A,CD,B)?¿I(BD,A,C)?¿I(A,G,B)?¿I(A,D,G)?¿I(C,BEG,D)?
© E. Sucar, PGM: 1 Introducción 84
Correspondencia Grafo-Modelo
• Dada una distribución de probabilidad omodelo (M) y una representación gráfica dedependencias o grafo (G) debe existir unacorrespondencia entre las independenciasrepresentados en ambos
• Tres tipos básicos - mapas
© E. Sucar, PGM: 1 Introducción 85
Correspondencia Grafo-Modelo• Mapa-D: las variables independientes están separadas en
el grafo• Mapa-I: las variables separadas en el grafo son
independientes• Mapa perfecto: mapa-I & mapa-D
• No es siempre posible tener un mapa perfecto (haydistribuciones con relaciones de independencia que no sepueden representar como un GAD)
© E. Sucar, PGM: 1 Introducción 86
Correspondencia Grafo-Modelo
• Mapa-I mínimo: las variables separadas enel grafo son independientes y al quitarcualquier arco se destruye esta condición
• Una red bayesiana es un grafo acíclicodirigido (GAD) que corresponde a un mapa-I mínimo de una distribución deprobabilidad P
© E. Sucar, PGM: 1 Introducción 87
Especificación Estructural
• En una RB, cualquier nodo X esindependiente de todos los nodos que noson sus descendientes dados sus nodospadres Pa(X) – “contorno de X”
• La estructura de una RB se especificaindicando el contorno (padres) de cadavariable
© E. Sucar, PGM: 1 Introducción 88
Especificación Estructural
A
DC
F G
B
E
Pa(A) = 0Pa(B) = 0Pa(C) = APa(D) = A, BPa(E) = BPa(F) = C, DPa(G) = D
© E. Sucar, PGM: 1 Introducción 89
Cobija de Markov
• La “cobija de Markov” de un nodo es elconjunto de nodos que lo hacenindependiente del resto de la red
• Para una RB la cobija de Markov estáformada por:– Nodos padre– Nodos hijo– Otros padres de los hijos
© E. Sucar, PGM: 1 Introducción 90
Cobija de Markov
A
DC
F G
B
E
CM (D) ?
© E. Sucar, PGM: 1 Introducción 91
Parámetros
• Complementan la definición de una redbayesiana las probabilidades condicionalesde cada variable dados sus padres.
– Nodos raíz: vector de probabilidadesmarginales
– Otros nodos: matriz de probabilidadescondicionales dados sus padres
© E. Sucar, PGM: 1 Introducción 92
P(C)
P(T|C) P(G)
P(R|T) P(F|T,G)
Comida
GripeTifoidea
Fiebre DolorReaccionesP(D|T,G)
Ejemplo
© E. Sucar, PGM: 1 Introducción 93
P(C)
P(T|C) P(G)
P(R|T) P(F|T,G)
Comida
GripeTifoidea
Fiebre DolorReaccionesP(D|T,G)
Ejemplo 0.80.2SalIns
© E. Sucar, PGM: 1 Introducción 94
P(C)
P(T|C) P(G)
P(R|T) P(F|T,G)
Comida
GripeTifoidea
Fiebre DolorReaccionesP(D|T,G)
0.80.2SalIns
.9.3No
.1.7SiSalIns
© E. Sucar, PGM: 1 Introducción 95
P(C)
P(T|C) P(G)
P(R|T)
P(F|T,G)
Comida
GripeTifoidea
Fiebre DolorReacciones
P(D|T,G)
0.80.2SalIns
.9.3No
.1.7SiSalIns
0.90.50.40.2~F0.10.50.60.8FNo,NoNo,SiSi,NoSi, Si
© E. Sucar, PGM: 1 Introducción 96
Especificación Paramétrica
• Dado que los contornos (padres) de cada nodo especificanla estructura, mediante las probabilidades condicionales dedichos nodos podemos especificar también lasprobabilidades requeridas
• Aplicando la regla de la cadena y las independenciascondicionales, se puede verificar que con dichasprobabilidades se puede calcular la probabilidad conjunta
© E. Sucar, PGM: 1 Introducción 97
Especificación ParamétricaA
DC
F G
B
E
P(A,B,C,D,E,F,G)= P(G|F,E,D,C,B,A) P(F|E,D,C,B,A) P(E|D,C,B,A) P(D|C,B,A) P(C|B,A) P(B|A) P(A)= P(G|D) P(F|D,C) P(E|B) P(D|B,A) P(C|A) P(B) P(A)
© E. Sucar, PGM: 1 Introducción 98
Especificación Paramétrica
• En general, la probabilidad conjunta seespecifica por el producto de lasprobabilidades de cada variable dados suspadres:
P(X1,X2, ..., Xn) = Π P(Xi | Pa(Xi))
© E. Sucar, PGM: 1 Introducción 99
Inferencia probabilística
• En RB, la inferencia probabilística consiste en: “dadas ciertas variables conocidas (evidencia), calcular la
probabilidad posterior de las demás variables(desconocidas)”
• Es decir, calcular: P(Xi | E), donde:– E es un subconjunto de variables de la RB (posiblemente vació)– Xi es cualquier variable en la RB, no en E
© E. Sucar, PGM: 1 Introducción 100
Inferencia bayesiana
C
H
E
P(H|C)
P(E|H)
Causal:C H
Evidencial:E H
Mixta:C, E H
© E. Sucar, PGM: 1 Introducción 101
Tipos de Técnicas
• Calcular probabilidades posteriores:– Una variable, cualquier estructura: algoritmo
de eliminación (variable elimination)– Todas las variable, estructuras sencillamente
conectadas (árboles, poliárboles): propagación– Todas las variables, cualquier estructura:
• Agrupamiento (junction tree)• Simulación estocástica• Condicionamiento
© E. Sucar, PGM: 1 Introducción 102
Tipos de Técnicas
• Obtener variable(s) de mayor probabilidaddada cierta evidencia – abducción:– Abducción total– Abducción parcial
© E. Sucar, PGM: 1 Introducción 103
Tipos de estructuras• Sencillamente
conectadas– Árboles
– Poliárboles
• Multiconectadas
© E. Sucar, PGM: 1 Introducción 104
Cada nodo corresponde a una variablediscreta, B (B 1, B 2,…, B m) con surespectiva matriz de probabilidadcondicional, P(B|A)=P(Bj| Ai)
Propagación en Árboles
© E. Sucar, PGM: 1 Introducción 105
Propagación en Árboles
A
D
C
F G
B
E
H
I
© E. Sucar, PGM: 1 Introducción 106
Dada cierta evidencia E -representada por lainstanciación de ciertas variables- laprobabilidad posterior de cualquier variableB, por el teorema de Bayes:
P( Bi | E)=P( Bi ) P(E | Bi) / P( E )
B
© E. Sucar, PGM: 1 Introducción 107
Evidencia
A
D
C
F G
B
E
H
I
E = {I,F,E}
© E. Sucar, PGM: 1 Introducción 108
Ya que la estructura de la red es un árbol, elNodo B la separa en dos subárboles, por loque podemos dividir la evidencia en dosgrupos:
E-: Datos en el árbol que cuya raíz es B
E+: Datos en el resto del árbol
Evidencia
© E. Sucar, PGM: 1 Introducción 109
Evidencia
A
D
C
F G
B
E
H
I
E+
E-
© E. Sucar, PGM: 1 Introducción 110
Entonces:
P( Bi | E ) = P ( Bi ) P ( E-,E+ | Bi ) / P(E)
Pero dado que ambos son independientes yaplicando nuevamente Bayes:
P( Bi | E ) = a P ( Bi | E+ ) P(E- | Bi )
Donde a es una constante de normalización
© E. Sucar, PGM: 1 Introducción 111
Si definimos los siguientes términos:
Definiciones:
l (Bi) = P ( E- | Bi)
Entonces:
p (Bi) = P (Bi | E+ )
P(Bi | E ) = a p (B i) l (B i)
© E. Sucar, PGM: 1 Introducción 112
Desarrollo
• En base a la ecuación anterior, se puedeintegrar un algoritmo distribuido paraobtener la probabilidad de un nodo dadacierta evidencia
• Para ello se descompone el cálculo de cadaparte:– Evidencia de los hijos (λ)– Evidencia de los demás nodos (π)
© E. Sucar, PGM: 1 Introducción 113
Evidencia de los hijos (l )
• Dado que los hijos son condicionalmenteindependientes dado el padre:
λ (Bi) = P ( E- | Bi) = Πk P ( Ek- | Bi)
• Donde Ek- corresponde a la evidencia del
subárbol del hijo k
© E. Sucar, PGM: 1 Introducción 114
Evidenciahijos
A
D
C
F G
B
E
H
I
E-(D) E-(E)
J
© E. Sucar, PGM: 1 Introducción 115
Evidencia de los hijos (λ)
• Condicionando respecto a los posiblesvalores de los hijos de B:
λ (Bi)= Πk [ Σj P ( Ek- | Bi, Sj
k) P(Sjk | Bi) ]
• Donde Sk es el hijo k de B, y la sumatoria essobre los valores de dicho nodo (teorema deprobabilidad total)
© E. Sucar, PGM: 1 Introducción 116
Evidencia de los hijos (λ)
• Dado que B es condicionalmenteindependiente de la evidencia dados sus hijos:
λ (Bi) = Πk [ Σj P ( Ek- | Sj
k) P(Sjk | Bi) ]
• Substituyendo la definción de λ:
λ (Bi)= Πk [ Σj P(Sjk | Bi) λ (Sj
k)]
© E. Sucar, PGM: 1 Introducción 117
Evidenciahijos
A
D
C
F G
B
E
H
I
λ(E)λ(D)
© E. Sucar, PGM: 1 Introducción 118
Evidencia de los hijos (l )
• Recordando que λ es un vector (un valor porcada posible valor de B), lo podemos ver enforma matricial:
λ = λ P (S | B)
© E. Sucar, PGM: 1 Introducción 119
Evidencia de los demás nodos (π)
• Condicionando sobre los diferentes valoresdel nodo padre (A):
π (Bi) = P (Bi | E+ ) = Σj P (Bi | E+ , Aj) P(Aj | E+ )
• Donde Aj corresponde a los diferentes valoresdel nodo padre de B
© E. Sucar, PGM: 1 Introducción 120
Evidenciapadre
A
D
C
F G
B
E
H
IE+
© E. Sucar, PGM: 1 Introducción 121
Evidencia de los demás nodos (p)• Dado que B es independiente de la evidencia “arriba” de A,
dado A:
Π (Bi) = Σj P (Bi | Aj) P(Aj | E+ )
• La P(Aj | E+ ) corresponde a la P posterior de A dada toda laevidencia excepto B y sus hijos, por lo que se puede escribircomo:
P(Aj | E+ ) = α π (A i) Πk¹ B λk (A i)
© E. Sucar, PGM: 1 Introducción 122
Evidenciapadre
A
D
C
F G
B
E
H
I
λ(C)
λ(B)
π(A)
© E. Sucar, PGM: 1 Introducción 123
Evidencia de los demás nodos (π)
• Substituyendo P(Aj | E+ ) en la ecuación de π :
π (Bi) = Σj P (Bi | Aj) [ α π (A i) Πk¹ B λk (A i) ]
• De forma que se obtiene combinando la π dedel nodo padre con la λ de los demás hijos
© E. Sucar, PGM: 1 Introducción 124
Evidencia de los demás nodos (p)
• Dado que también π es un vector, lo podemos ver en formamatricial (donde PA es el producto de la evidencia de padre yotros hijos):
π = P (B | A) PA
© E. Sucar, PGM: 1 Introducción 125
Algoritmo
• Mediante estas ecuaciones se integra unalgoritmo de propagación deprobabilidades en árboles.
• Cada nodo guarda los valores de losvectores π y λ, así como su matriz deprobabilidad condicional (CPT), P.
• La propagación se hace por un mecanismode paso de mensajes, en donde cada nodoenvía los mensajes correspondientes a supadre e hijos
© E. Sucar, PGM: 1 Introducción 126
Mensaje al padre (hacia arriba) –nodo B a su padre A:
Mensaje a los hijos (hacia abajo) -nodo B a su hijo Sk :
© E. Sucar, PGM: 1 Introducción 127
Algoritmo
• Al instanciarse ciertos nodos, éstos envíanmensajes a sus padres e hijos, y se propagan hastaa llegar a la raíz u hojas, o hasta encontrar unnodo instanciado.
• Así que la propagación se hace en un solo paso,en un tiempo proporcional al diámetro de la red.
© E. Sucar, PGM: 1 Introducción 128
Propagaciónλ
A
D
C
F G
B
E
H
I
λI (H)
λE(B)
λG(D)λF(D)
λC(A)
λD(B)
λB(A)
λA(H)
© E. Sucar, PGM: 1 Introducción 129
Propagaciónπ
A
D
C
F G
B
E
H
I
πH(I)
πB(E)
πD(G)πD(F)
πA(C)
πB(D)
πA(B)
πH(A)
© E. Sucar, PGM: 1 Introducción 130
Condiciones Iniciales• Nodos hoja no conocidos:
λ (Bi) = [1,1, …]• Nodos asignados (conocidos):
λ (Bi) = [0,0, ..1, 0, …, 0] (1 para valor asignado)π (Bi) = [0,0, ..1, 0, …, 0] (1 para valor asignado)
• Nodo raíz no conocido:π (A) = P(A), (probabilidad marginal inicial)
© E. Sucar, PGM: 1 Introducción 131
Ejemplo
Enf.
Fiebre Dolor
Comida
P(F|E)0.9 0.50.1 0.5
P(D|E)0.7 0.40.3 0.6
P(E|C)0.9 0.70.1 0.3
P(C)0.8 0.2
© E. Sucar, PGM: 1 Introducción 132
Ejemplo
Enf.
Fiebre Dolor
Comida
F=siλ=[1,0] λ=[1,1]
© E. Sucar, PGM: 1 Introducción 133
Ejemplo
Enf.
Fiebre Dolor
ComidaλF= [1,0] * [.9 .5 | .1 .5] = [.9 .5]
λD= [1,1] * [.7 .4 | .3 .6] = [1 1]
P(D|E)0.7 0.40.3 0.6
P(F|E)0.9 0.50.1 0.5
© E. Sucar, PGM: 1 Introducción 134
Ejemplo
Enf.
Fiebre Dolor
Comida
λ(E) = [.9 .5] * [1 1] = [.9 .5]
P(D|E)0.7 0.40.3 0.6
P(F|E)0.9 0.50.1 0.5
λ(C) = [.9 .5] * [.9 .7| .1 .3] = [.86 .78]
P(E|C)0.9 0.70.1 0.3
© E. Sucar, PGM: 1 Introducción 135
Ejemplo
Enf.
Fiebre Dolor
Comidaπ(E) = [.8 .2] * [.9 .7| .1 .3] = [.86 .14]
P(D|E)0.7 0.40.3 0.6
P(F|E)0.9 0.50.1 0.5
π(C) = [.8 .2]
P(E|C)0.9 0.70.1 0.3
© E. Sucar, PGM: 1 Introducción 136
Ejemplo
Enf.
Fiebre Dolor
Comida
π(E) = [.86 .14]
P(D|E)0.7 0.40.3 0.6
π(C) = [.8 .2]
π(D) = [.86 .14] * [.9 .5] [.7 .4| .3 .6] = [.5698 .2742]
© E. Sucar, PGM: 1 Introducción 137
Ejemplo
Enf.
Fiebre Dolor
Comidaπ(E) = [.86 .14]π(C) = [.8 .2]
π(D) = [.57 .27]λ(D)=[1,1]
λ(E) = [.9 .5]λ(C) = [.86 .78]
P(C)=α[.688 .156]P(C)= [.815 .185]
P(E)=α[.774 .070]P(E)= [.917 .083]
P(D)=α[.57 .27]P(D)= [.67 .33]
© E. Sucar, PGM: 1 Introducción 138
Demo 1
• Ejemplo en HUGIN
© E. Sucar, PGM: 1 Introducción 139
Propagación en poliárboles
• Un poliárbol es una red conectada enforma sencilla, pero en la que un nodopuede tener varios padres:
P(B | A1, A2, …, An)
© E. Sucar, PGM: 1 Introducción 140
Propagación en Poliárboles
A
D
C
F G
B
E
H
I
© E. Sucar, PGM: 1 Introducción 141
Algoritmo
• El método es muy similar al de árboles, conalgunas consideraciones adicionales:– Considerar la probabilidad condicional del
nodo dados todos sus padres para el cálculo deπ y λ
– Enviar los mensajes λ a cada uno de los padresde un nodo
© E. Sucar, PGM: 1 Introducción 142
Propagación en redesmulticonectadas
• Una red multiconectada es un grafo noconectado en forma sencilla, es decir, en elque hay múltiples trayectorias entre nodos.
• Para este tipo de redes existen varios tiposde técnicas de inferencia:– Propagación “Loopy”– Condicionamiento– Simulación estocástica– Agrupamiento
© E. Sucar, PGM: 1 Introducción 143
Agrupamiento
• El método de agrupamiento consiste entransformar la estructura de la red paraobtener un árbol, mediante agrupación denodos usando la teoría de grafos.
• La propagación se realiza sobre el árbol demacro-nodos obtenido, donde cada macro-nodo corresponde a un clique o unión de laRB original (junction tree)
© E. Sucar, PGM: 1 Introducción 144
Agrupamiento
• Transformación:– Eliminar direccionalidad de los arcos– Ordenamiento de los nodos por máxima
cardinalidad– Moralizar el grafo (arco entre nodos con hijos
comunes)– Triangular el grafo– Obtener los cliques y ordenar– Construir árbol de cliques
© E. Sucar, PGM: 1 Introducción 145
Ejemplo
A
CB
D E
A
CB
D E
© E. Sucar, PGM: 1 Introducción 146
Ordenamiento de Cliques
A
CB
D E
C1
C2
C3
© E. Sucar, PGM: 1 Introducción 147
Árbol de Cliques
C1
C2
C3
A,B,C
B,C,D
C,E
© E. Sucar, PGM: 1 Introducción 148
Propagación
• La propagación es mediante el envío de mensajesen el árbol de cliques (en forma similar a árboles)
• Inicialmente se calcula la probabilidad conjunta(potencial) de cada clique, y la condicional dadoel padre
• Dada cierta evidencia se recalculan lasprobabilidades de cada clique
• La probabilidad individual de cada variable seobtiene de la del clique por marginalización
© E. Sucar, PGM: 1 Introducción 149
Procedimiento – preprocesamiento:
1. Se obtienen los conjuntos de nodos decada clique – Ci
2. Se obtienen los conjuntos de nodoscomunes con cliques previos – Si
3. Se obtienen los conjuntos de nodos queestán en Ci pero no en Si: Ri = Ci – Si
4. Se calcula la probabilidad (potencial) decada clique – ψ(clqi) = Π P(nodos)
© E. Sucar, PGM: 1 Introducción 150
Ejemplo • C:– A,B,C– B,C,D– C,E
• S:– Æ– B,C– C
• R:– A,B,C– D– E
• Ψ:– P(A) P(B|A) P(C|A)– P(D|B,C)– P(E|C)
A
CB
D E
C1
C2
C3
A,B,C
B,C,D
C,E
© E. Sucar, PGM: 1 Introducción 151
Propagación sin evidencia:
• Cálculo de λ :
λ(Ci) = ΣR Y(Ci)
• Actualización:Y(Ci)’ = Y(Ci) / λ(Ci)
• Enviar λ a padre
© E. Sucar, PGM: 1 Introducción 152
Propagación sin evidencia:
• Cálculo de π . Para todos los hijos “i” delclique “j”:
π(Ci) = ΣCj - Si P’(Ci)• Enviar π a cada hijo
© E. Sucar, PGM: 1 Introducción 153
Propagación sin evidencia:
• Propagación de λ :– Calcular λ para los clique hoja– Actualizar potencial del clique “j” al recibir
cada λ de los hijos “i”:Ψ(Cj)’ = λ(Ci) Ψ(Cj)
– Al recibir todas la l propagar al padre:– Al llegar al nodo raíz obtener P’:
P’(Cj) = Ψ(Cj)’
© E. Sucar, PGM: 1 Introducción 154
Propagación sin evidencia:
• Propagación de π :– Obtener π del clique raíz para cada hijo– Enviar π a cada hijo– Actualizar P’(Ci):
P’(Ci) = π(Ci) Ψ’(Ci)– Enviar π a cada hijo hasta llegar a los nodos
hoja
© E. Sucar, PGM: 1 Introducción 155
Ejemplo – propagación λ
C1
C2
C3
Ψ(C1)’, λ(C1), Ψ(C1)’
λ(C3)
λ(C3), Ψ(C3)’
Ψ(C2)’, λ(C2), Ψ(C2)’
λ(C3)
© E. Sucar, PGM: 1 Introducción 156
Ejemplo – propagación π
C1
C2
C3
P’(C1), π1(C2)
π2(C3)
P’(C3)
P’(C2), π2(C3)
π1(C2)
© E. Sucar, PGM: 1 Introducción 157
Propagación con evidencia:• Cuando hay nodos conocidos (Evidencia – E), se actualizan
los potenciales, R y S de cada clique en función de laevidencia:– CLQi = CLQi – {E}– Si = Si - {E}– Ri = Ri - {E}
• Se obtienen los potenciales para cliques con nodos evidenciade acuerdo a los valores de dichos nodos:– Ψ(Ci)’ = Ψ(Ci)’ E=evidencia
• Después se sigue el mismo proceso de propagación que sinevidencia
© E. Sucar, PGM: 1 Introducción 158
Ejemplo:
• Supongamos que se conocen D y E:– C: {A,B,C}, {B,C}, {C}– S: {0}, {B,C}, {C}– R: {A,B,C} { Æ }, { Æ }
• Potenciales:– Ψ({A,B,C})– Ψ({B,C}) D=di– Ψ({C}) E=ei
© E. Sucar, PGM: 1 Introducción 159
Probabilidades de las variables:• Se obtienen a partir de las probabilidades de los cliques
por marginalización:
P(X) = Σ Y,Z,... P’(clq)• En el ejemplo:
P(A) = Σ B,C P’(clq-1)
P(B) = Σ A,C P’(clq-1)
P(C) = Σ A,B P’(clq-1)
P(D) = Σ B,C P’(clq-2)
P(E) = Σ C P’(clq-3)
© E. Sucar, PGM: 1 Introducción 160
Complejidad
• En el peor caso, la propagación en redes bayesianas es unproblema NP-duro
• En la práctica, en muchas aplicaciones se tienen redes nomuy densamente conectadas y la propagación es eficienteaún para redes muy grandes (función del clique mayor)
• Para redes muy complejas (muchas conexiones), la mejoralternativa son técnicas de simulación estocástica otécnicas aproximadas
© E. Sucar, PGM: 1 Introducción 161
Referencias
• Pearl 88 – Cap. 4,5• Neapolitan 90 – Cap. 6,7,8• Jensen 01 – Cap. 5• Darwiche 09 – Cap. 4-8
I.5:Aprendizaje de Redes Bayesianas
“Preferiría descubrir una ley causalque ser rey de Persia” [Democritus]
© E. Sucar, PGM: 1 Introducción 163
Aprendizaje
El aprendizaje inductivo consiste en obtener conocimiento a partir de datos.
En redes bayesianas se divide en 2 aspectos:• Obtener la estructura de la red –
aprendizaje estructural• Obtener las probabilidades asociadas –
aprendizaje paramétrico
© E. Sucar, PGM: 1 Introducción 164
Aprendizaje Paramétrico
• Datos completos - se estiman lasprobabilidades a partir de frecuencias
P(A) ~ Na / NtP(B|A1, ..., An) ~ N a1, ..., an, b / Na1, ..., an
© E. Sucar, PGM: 1 Introducción 165
Ejemplo - ¿Cuándo jugar golf?
Ambiente Temp. Humedad Viento Jugarsoleado alta alta no Nsoleado alta alta si Nnublado alta alta no Plluvia media alta no Plluvia baja normal no Plluvia baja normal si Nnublado baja normal si Psoleado media alta no Nsoleado baja normal no Plluvia media normal no Psoleado media normal si Pnublado media alta si Pnublado alta normal no Plluvia media alta si N
© E. Sucar, PGM: 1 Introducción 166
AH
J
V
T
Ejemplo – estructura
© E. Sucar, PGM: 1 Introducción 167
Ejemplo
• P(J)– P(N) = 5/14– P(P) = 9/14
• P(V|J)– P(si|N)=3/5, P(si|P)=3/9– P(no|N)=2/5, P(no|P)=6/9
• Etc.
© E. Sucar, PGM: 1 Introducción 168
Suavizado
• Cuando se tienen pocos datos (o muchasvariables-valores) se pueden tenerprobabilidades igual a cero, lo que ocasionaproblema
• Para ello se pueden “suavizar” lasestimaciones de las probabilidades
• Existen varios métodos de suavizado, elmás sencillo y común el de Laplace
© E. Sucar, PGM: 1 Introducción 169
Suavizado
• El suavizado de Laplace consiste en inicializar todas lasprobabilidades en forma uniforme, y despuésincrementarlas con los datos
• Ejemplo:– P(A), A={a1, a2, a3)– Inicial: P(a1) = 1/3, P(a2) = 1/3, P(a3) = 1/3– Dato A=a2 P(a1) = 1/4, P(a2) = 2/4, P(a3) = 1/4– Dato A=a3 P(a1) = 1/5, P(a2) = 2/5, P(a3) = 2/5– Dato A=a3 P(a1) = 1/6, P(a2) = 2/2, P(a3) = 3/6
© E. Sucar, PGM: 1 Introducción 170
Información incompleta
• En la práctica, en muchas ocasiones losdatos no están completos
• Dos tipos básicos de informaciónincompleta:– Faltan algunos valores de una de las variables
en algunos casos – datos incompletos– Faltan todos los valores de una variable –
nodos ocultos
© E. Sucar, PGM: 1 Introducción 171
Información incompleta
Ambiente Temp. Humedad Viento Jugarsoleado xxx alta -- Nsoleado alta alta -- Nnublado alta alta -- Plluvia media alta -- Plluvia baja normal -- Plluvia baja normal -- Nnublado baja normal -- Psoleado media alta -- Nsoleado xxx normal -- Plluvia media normal -- Psoleado media normal -- Pnublado media alta -- Pnublado alta normal -- Plluvia media alta -- N
© E. Sucar, PGM: 1 Introducción 172
Datos incompletos
Existen varias alternativas:1. Considerar un nuevo valor “desconocido”2. Tomar el valor más probable (promedio) de la variable3. Considerar el valor más probable en base a las otras
variables4. Considerar la probabilidad de los diferentes valores en
base a las otras variables
© E. Sucar, PGM: 1 Introducción 173
Datos incompletos
Valor más probable:1. Asignar todas las variables observables.
2. Propagar su efecto y obtener las probabilidadesposteriores de las no observables.
3. Para las variables no observables, asumir el valor conprobabilidad mayor como observado.
4. Actualizar las probabilidades previas y condicionales deacuerdo a las fórmulas anteriores.
5. Repetir 1 a 4 para cada observación.
© E. Sucar, PGM: 1 Introducción 174
Datos incompletos
Ambiente Temp. Humedad Viento Jugarsoleado xxx alta -- Nsoleado alta alta -- Nnublado alta alta -- Plluvia media alta -- Plluvia baja normal -- Plluvia baja normal -- Nnublado baja normal -- Psoleado media alta -- Nsoleado xxx normal -- Plluvia media normal -- Psoleado media normal -- Pnublado media alta -- Pnublado alta normal -- Plluvia media alta -- N
P(T|sol,alta,N)
P(T|sol,nor,P)
© E. Sucar, PGM: 1 Introducción 175
Datos incompletos
Ambiente Temp. Humedad Viento Jugarsoleado media alta -- Nsoleado alta alta -- Nnublado alta alta -- Plluvia media alta -- Plluvia baja normal -- Plluvia baja normal -- Nnublado baja normal -- Psoleado media alta -- Nsoleado media normal -- Plluvia media normal -- Psoleado media normal -- Pnublado media alta -- Pnublado alta normal -- Plluvia media alta -- N
P(T|sol,alta,N)
P(T|sol,nor,P)
© E. Sucar, PGM: 1 Introducción 176
Nodos ocultos – algoritmo EM• El algoritmo EM es un método estadístico muy
utilizado para estimar probabilidades cuando hayvariables no observables (un caso especial es elalgoritmo de Baum-Welch en HMM)
• Consiste básicamente de 2 pasos que se repiten enforma iterativa:
1. Paso E: se estiman los datos faltantes en base a losparámetros (P) actuales
2. Paso M: se estiman las probabilidades (parámetros)considerando los datos estimados
© E. Sucar, PGM: 1 Introducción 177
EM para RB con nodos ocultos1. Iniciar los parámetros desconocidos (CPTs) con
valores aleatorios (o estimaciones de expertos)2. Utilizar los datos conocidos con los parámetros
actuales para estimar los valores de lavariable(s) oculta(s)
3. Utilizar los valores estimados para completar latabla de datos
4. Re-estimar los parámetros con los nuevos datos5. Repetir 24 hasta que no haya cambios
significativos en las probabilidades
© E. Sucar, PGM: 1 Introducción 178
Ejemplo
• V es un nodo oculto• Se seleccionan valores aleatorios para P(V|J)• Se calcula la probabilidad de V para cada caso, dados los
valores de A, T, H, J• Cada caso se “pesa” de acuerdo a las probabilidades
posteriores de V (un caso puede representar “n” datos)• Se recalculan los parámetros ( P(V|J) ) en base a los casos
obtenidos• Se repite el proceso hasta que converja
A T
J
H V
© E. Sucar, PGM: 1 Introducción 179
EM: inicio
Ambiente Temp. Humedad Viento Jugarsoleado media alta -- Nsoleado alta alta -- Nnublado alta alta -- Plluvia media alta -- Plluvia baja normal -- Plluvia baja normal -- Nnublado baja normal -- Psoleado media alta -- Nsoleado media normal -- Plluvia media normal -- Psoleado media normal -- Pnublado media alta -- Pnublado alta normal -- Plluvia media alta -- N
“Adivinar”P(V | J):
0.50.5si
0.50.5noPNV\J
© E. Sucar, PGM: 1 Introducción 180
EM: paso E
Ambiente Temp. Humedad Viento Jugarsoleado media alta no Nsoleado alta alta no Nnublado alta alta no Plluvia media alta no Plluvia baja normal si Plluvia baja normal si Nnublado baja normal si Psoleado media alta no Nsoleado media normal no Plluvia media normal no Psoleado media normal si Pnublado media alta si Pnublado alta normal si Plluvia media alta si N
Estimar valores de V en base aP(V | J) y los datos
© E. Sucar, PGM: 1 Introducción 181
EM: paso M
Ambiente Temp. Humedad Viento Jugarsoleado media alta no Nsoleado alta alta no Nnublado alta alta no Plluvia media alta no Plluvia baja normal si Plluvia baja normal si Nnublado baja normal si Psoleado media alta no Nsoleado media normal no Plluvia media normal no Psoleado media normal si Pnublado media alta si Pnublado alta normal si Plluvia media alta si N
Re-estimar P(V | J) con losNuevos datos:
0.660.4si
0.440.6noPNV\J
© E. Sucar, PGM: 1 Introducción 182
EM
• Limitaciones:– Puede caer en máximos locales (depende del
valor inicial)– Complejidad computacional
© E. Sucar, PGM: 1 Introducción 183
Aprendizaje Estructural
Diversos métodos:• Aprendizaje de árboles• Aprendizaje de poliárboles• Aprendizaje de redes multiconectadas
– Métodos basados en medidas– Métodos basados en relaciones de dependencia
© E. Sucar, PGM: 1 Introducción 184
Aprendizaje de árboles• Algoritmo desarrollado por Chow y Liu para
aproximar una distribución de probabilidad porun producto de probabilidades de segundoorden (árbol).
• La probabilidad conjunta de n variables sepuede representar como:
• donde Xj(i) es la causa o padre de Xi.
( ) ( )( )!=
=n
iijin XXPXXXP
121 |,...,,
© E. Sucar, PGM: 1 Introducción 185
Aprendizaje de árboles• Se plantea el problema como uno de
optimización - obtener la estructura quemás se aproxime a la distribución "real".
• Medida de la diferencia de informaciónentre la distribución real (P) y laaproximada (P*):
• El objetivo es minimizar I.
( ) ( )!=x XP
XPXPPPI)()(log, *
*
© E. Sucar, PGM: 1 Introducción 186
Aprendizaje de árboles• Se puede definir dicha diferencia en función de la
información mutua entre pares de variables, que se definecomo:
• Se puede demostrar (Chow 68) que la diferencia deinformación es una función del negativo de la suma de lasinformaciones mutuas (pesos) de todos los pares devariables que constituyen el árbol
• Encontrar el árbol más próximo equivale a encontrar elárbol con mayor peso.
( ) ( ) ( )( ) ( )!=
ji xx ji
jijiji XPXP
XXPXXPXXI
,
,log,,
© E. Sucar, PGM: 1 Introducción 187
Aprendizaje de árboles - algoritmo1. Calcular la información mutua entre todos los pares de
variables (n(n - 1)/2).2. Ordenar las informaciones mutuas de mayor a menor.3. Seleccionar la rama de mayor valor como árbol inicial.4. Agregar la siguiente rama mientras no forme un ciclo, si es así,
desechar.5. Repetir (3-4) hasta que se cubran todas las variables (n -1
ramas).
• El algoritmo NO provee la dirección de los arcos, por lo queésta se puede asignar en forma arbitraria o utilizandosemántica externa (experto).
© E. Sucar, PGM: 1 Introducción 188
Ejemplo (golf)• Informaciones mutuas ordenadasNo. Var 1 Var 2 I.M.
1 temp. ambiente .28562 juega ambiente .07433 juega humedad .04564 juega viento .00745 humedad ambiente .00606 viento temp. .00527 viento ambiente .00178 juega temp. .00039 humedad temp. 010 viento humedad 0
© E. Sucar, PGM: 1 Introducción 189
Ejemplo (golf)
AH
J
V
T
© E. Sucar, PGM: 1 Introducción 190
Aprendizaje de poliárboles• Parte del esqueleto (estructura sin direcciones)
obtenido con el algoritmo anterior• Determina la dirección de los arcos utilizando
pruebas de dependencia entre tripletas de variables.
• Dadas 3 variables, existen 3 casos posibles:• Arcos divergentes• Arcos secuenciales• Arcos convergentes
• Los primeros dos casos son indistinguibles, pero eltercero es diferente, ya que las dos variables "padre"son marginalmente independientes.
© E. Sucar, PGM: 1 Introducción 191
Prueba de Tripletas
• Tripleta de variables:X – Z – Y
• Si X – Y son independientes dado Z, entonces pueden sersecuenciales o divergentes
X Z Y; X Z Y• Si X – Y no son independientes dado Z, entonces son
arcos convergentesX Z Y
© E. Sucar, PGM: 1 Introducción 192
Aprendizaje de poliárboles - algoritmo1.1. Obtener esqueleto utilizando el algoritmo de Obtener esqueleto utilizando el algoritmo de Chow Chow y y LiuLiu
2. 2. Recorrer la red hasta encontrar una tripleta de nodos queRecorrer la red hasta encontrar una tripleta de nodos quesean convergentes (tercer caso) - nodo sean convergentes (tercer caso) - nodo multipadre-multipadre-
3. 3. A partir de un nodo A partir de un nodo multipadre multipadre determinar las direccionesdeterminar las direccionesde los arcos utilizando la prueba de tripletas hasta dondede los arcos utilizando la prueba de tripletas hasta dondesea posible (base causal).sea posible (base causal).
4. 4. Repetir 2-3 hasta que ya no se puedan descubrir másRepetir 2-3 hasta que ya no se puedan descubrir másdirecciones.direcciones.
5. 5. Si quedan arcos sin Si quedan arcos sin direccionardireccionar, utilizar semántica, utilizar semánticaexterna para obtener su dirección (o fijar direcciones).externa para obtener su dirección (o fijar direcciones).
© E. Sucar, PGM: 1 Introducción 193
Ejemplo
AH
J
V
T
~I(H,J,V)I(H,J,A)I(J,A,T)
© E. Sucar, PGM: 1 Introducción 194
Aprendizaje de redesmulticonectadas
Existen dos tipos de métodos para elaprendizaje genérico de redes bayesianas:
1. Métodos basados en medidas de ajuste ybúsqueda
2. Métodos basados en pruebas deindependencia
© E. Sucar, PGM: 1 Introducción 195
Métodos basados en medidas
Se generan diferentes estructuras y se evalúanrespecto a los datos utilizando algunamedida
Dos aspectos principales:• Medida de “ajuste” de la estructura a los
datos• Búsqueda de la “mejor” estructura
© E. Sucar, PGM: 1 Introducción 196
Medidas
• Evalúan que tan “buena” es una estructurarespecto a los datos
• Hay varias posibles medidas, las dos máscomunes son:– Medida bayesiana– Medida basada en el principio de longitud de
descripción mínima (MDL)
© E. Sucar, PGM: 1 Introducción 197
MDL
• La “calidad” de la estructura se basa en elprincipio de “descripción de longitudmínima” (MDL):– Tamaño de la descripción de la red
(complejidad)– Tamaño de error de predicción de los datos por
la red (exactitud)• Se hace una búsqueda heurística de la
estructura en base al MDL
© E. Sucar, PGM: 1 Introducción 198
MDL
Compromiso entre exactitud y complejidad-minimizar: long. de descripción del modelo +
descripción de lo datos dado el modelo
Ejemplo – ajustar un polinomio a un conjunto depuntos:
© E. Sucar, PGM: 1 Introducción 199
MDL
Para redes bayesianas:
Complejidad:L= Σi [ ki log2n + d(Si - 1) ΠFi si]n-# de nodos, k-# padres por nodo, Si-# de valorespor variable, Fi-conj. de padres, d-# de bits
Exactitud: w(xi, Fxi) = Σ P(xi, Fxi) log2 [P(xi,Fxi)/P(xi)P(Fxi)] W = Σi w(xi, Fxi)
© E. Sucar, PGM: 1 Introducción 200
Buscando la mejor estructura
• Búsqueda de ascenso de colinas (hillclimbing)
• Se inicia con una estructura simple (árbol)y se van agregando arcos hasta llegar a unmínimo local
“óptimo”
© E. Sucar, PGM: 1 Introducción 201
Ejemplo - ¿Cuándo jugar golf?
Ambiente Temp. Humedad Viento Jugarsoleado alta alta no Nsoleado alta alta si Nnublado alta alta no Plluvia media alta no Plluvia baja normal no Plluvia baja normal si Nnublado baja normal si Psoleado media alta no Nsoleado baja normal no Plluvia media normal no Psoleado media normal si Pnublado media alta si Pnublado alta normal no Plluvia media alta si N
© E. Sucar, PGM: 1 Introducción 202
AH
J
V
T
Ejemplo
AH
J
V
TAH
J
V
T
© E. Sucar, PGM: 1 Introducción 203
Variantes
• Utilizar otros métodos de búsqueda:– Algoritmos genéticos– “Beam search”– Etc.
• Considerar sólo estructuras que seandiferentes estadísticamente, buscando sobreestructuras equivalentes (se llega a unaestructura parcial)
© E. Sucar, PGM: 1 Introducción 204
Estructuras Equivalentes
• Cuando ciertos arcos no se pueden determinar por pruebasestadísticas, por ejemplo:
© E. Sucar, PGM: 1 Introducción 205
Métodos basados en medidas
• Se genera la estructura en base a iragregando/eliminando arcos de acuerdo amedidas de dependencia entre variables
• Ejemplos:– Árboles – método de Chow y Liu– Poliárboles – método de Rebane y Pearl– Multiconectadas – existen varios algoritmos
basados en diferentes medidas
© E. Sucar, PGM: 1 Introducción 206
Algoritmo PC
• Se basa en pruebas de independencia entrevariables:
I (Xi, Xj | A)• Donde A es un subconjunto de variables• Asume que:
– Se tienen suficientes datos– Las pruebas estadísticas no tienen errores
© E. Sucar, PGM: 1 Introducción 207
Prueba de Independencia
• Para probar si X, Y son independientes dado A se utiliza laentropía cruzada condicional:
CE(X,Y | Z) = Σz P(z) Σx,y P(x,y|z) log [P(x,y|z) / P(x|z) P(y|z)]• Si es cero o cercana a cero, quiere decir que son
independientes (se puede usar un umbral o una pruebaestadística con cierto nivel de significancia)
© E. Sucar, PGM: 1 Introducción 208
Algoritmo
1. Encontrar un “esqueleto” (grafo nodirigido)
2. Encontrar arcos convergentes en tripletasde variables por pruebas de independencia
3. Orientar el resto de las ligas de forma queno se produzcan ciclos
© E. Sucar, PGM: 1 Introducción 209
Esqueleto• La idea básica para determinar el esqueleto es
iniciar con un grafo completo (conectando todosvs. todos los nodos) y eliminar el arco entre X –Y si hay un subconjunto de nodos en G (exceptoX, Y) que los hace independientes
• En principio se consideran todos los posiblessubconjuntos de variables, de tamaño 1 hasta detamaño N-1 (N es el número de nodos adyacentesa X)
• El considerar todos los posibles subconjuntos esmuy ineficiente, y normalmente se limita aconsiderar sólo subconjuntos de 1, 2, …, k nodos
© E. Sucar, PGM: 1 Introducción 210
Ejemplo
AH
J
V
T
Probar si H,V sonIndependientes dados:1: J, A, T2: JA, JT, AT3: JAT si
© E. Sucar, PGM: 1 Introducción 211
Ejemplo
AH
J
V
T
Probar si H,T sonIndependientes dados:1: J, A2: JA si
© E. Sucar, PGM: 1 Introducción 212
Ejemplo
AH
J
V
T
Probar si H,A sonIndependientes dados:1: J si
© E. Sucar, PGM: 1 Introducción 213
Ejemplo
AH
J
V
T
Probar si H,J sonIndependientes dados:0, no
© E. Sucar, PGM: 1 Introducción 214
Ejemplo
AH
J
V
T
Probar si A,J sonIndependientes dados:1: T, V2: TV no
© E. Sucar, PGM: 1 Introducción 215
Ejemplo
AH
J
V
T
Probar si A,V sonIndependientes dados:1: T, J2: TJ si
© E. Sucar, PGM: 1 Introducción 216
Ejemplo
AH
J
V
T
Probar si A,T sonIndependientes dados:1: J no
© E. Sucar, PGM: 1 Introducción 217
Ejemplo
AH
J
V
T
Probar si J,V sonIndependientes dados:1: T no
© E. Sucar, PGM: 1 Introducción 218
Ejemplo
AH
J
V
T
Probar si J,T sonIndependientes dados:1: A,V2: AV si
© E. Sucar, PGM: 1 Introducción 219
Ejemplo
AH
J
V
T
Probar si V,T sonIndependientes dados:1: 0 no
© E. Sucar, PGM: 1 Introducción 220
Arcos convergentes
• Se verifica cada tripleta de variables paraencontrar arcos convergentes mediantepruebas de independencia:
X – Z – Y• Si X – Y no son independientes dado Z,
entonces son arcos convergentesX Z Y
© E. Sucar, PGM: 1 Introducción 221
Ejemplo
AH
J
V
T
H,V no sonIndependientes dado J
© E. Sucar, PGM: 1 Introducción 222
Ejemplo
AH
J
V
T
A,V no sonIndependientes dado T
© E. Sucar, PGM: 1 Introducción 223
Otras orientaciones
• En base a los arcos existentes, se orientanlos demás con pruebas de independencia,evitando crear ciclos
• Si quedan al final arcos sin orientar, sedireccionan en forma aleatoria, evitandociclos
© E. Sucar, PGM: 1 Introducción 224
Ejemplo
AH
J
V
T
H, A sonIndependientes dado J
HUGIN
Aprendizaje de RB
© E. Sucar, PGM: 1 Introducción 226
Referencias
• Pearl 88 – Cap. 8• Neapolitan 90 – Cap. 10• Darwiche 09 - Caps. 17,18• T. Mitchell, Machine Learning, McGraw-
Hill, 1997 – Cap. 6
© E. Sucar, PGM: 1 Introducción 227
Referencias• W. Lam, F. Bacchus, "Learning Bayesian Belief
Networks: An Approach based on the MDLPrinclple", Computational Intelligence, Vol. 10(1994) 269-293.
• G. Cooper, E. Herskovits, “A Bayesian method forthe induction of probabilistic networks from data”,Machine Learning, Vol 9, 1992.
• G. Cooper, E. Herskovits, “A Bayesian method forthe induction of probabilistic networks from data”,Machine Learning, Vol 9, 1992.
• L. E. Sucar, D. F. Gillies, D. A. Gillies, "ObjectiveProbabilities in Expert Systems", ArtificialIntelligence Journal, Vol. 61 (1993) 187-208.
• W. Buntine, “A guide to the literature on learningprobabilistic networks form data”, IEEE TKDE.
I.6: Campos de Markov
© E. Sucar, PGM: 1 Introducción 229
Campos de Markov (CAM)
• Ciertos procesos, como un campo magnético o unaimagen, se pueden ver como una serie de estadosen el espacio o una malla de estados.
• A este tipo de modelos se les conoce como Camposde Markov.
• Estos procesos son una extensión de las cadenasde Markov en los cuales el índice de tiempo sesubstituye por un índice espacial
© E. Sucar, PGM: 1 Introducción 230
Modelo de Ising• Surgen del problema de modelar materiales
ferromagnéticos en lo que se conoce como elModelo Ising.
• Se tiene una serie de dipolos en una línea quepueden estar orientados hacia “arriba” (+) o hacia“abajo” (-).
• El estado de cada dipolo se ve influenciado por losdipolos cercanos - probabilidad para cada estadodepende de los estado de los puntos vecinos.
© E. Sucar, PGM: 1 Introducción 231
Modelo de Ising
q1 q2 q4q3
Posibles configuraciones:+ + + ++ + + -+ + - +....
© E. Sucar, PGM: 1 Introducción 232
Modelo de Ising
• Un campo de Markov asigna probabilidad a cadaconfiguración en el espacio de posiblesconfiguraciones.
• Se considera que la probabilidad del estado de unavariable es independiente de los demás dados sus 2vecinos (para una cadena), es decir que tiene lapropiedad Markoviana
( ) ( )knjninkjin qSqSqSPqSqSqSP ======= +! 11....21 ,|,|
© E. Sucar, PGM: 1 Introducción 233
Configuración más probable• Dadas las probabilidades locales, el problema
central en es encontrar la probabilidad de cada unalas posibles configuraciones, y en particular cual esla configuración más probable.– + + + +– + + + -– + + - +– …– - - + +– …– - - - -
© E. Sucar, PGM: 1 Introducción 234
Probabilidades
• Podemos distinguir dos factores quedeterminan la probabilidad de unaconfiguración:
• la P a priori de cada estado,• la P conjunta con sus vecinos.
• En el modelo de Ising, estos corresponden ala influencia de un campo magnético externo,y a las interacciones entre los dipolos vecinos.
© E. Sucar, PGM: 1 Introducción 235
Campos en 2-D
• Esto lo podemos extender de una dimensióna dos dimensiones. En este caso tenemosuna malla de puntos, donde el estado decada punto depende del estado de susvecinos (4, 8, etc).
© E. Sucar, PGM: 1 Introducción 236
Ejemplo
q1 q2
q4 q3
q2 q3
q5 q6q4 q2
q7 q3
q5 q6
q8 q9
© E. Sucar, PGM: 1 Introducción 237
Representación• Un campo aleatorio es una colección de variables
aleatorias indexadas por sitios.
• Se considera un conjunto de variables aleatorias F ={F1,….., FM}, asociadas a cada sitio del sistema desitios S. Cada variable toma un valor fi de un unconjunto de posibles valores L. Entonces F es uncampo aleatorio.
• Un campo aleatorio de Markov (CAM) es un campoaleatorio con la propiedad de “localidad”.
© E. Sucar, PGM: 1 Introducción 238
PropiedadesUn CAM debe satisfacer las siguientes propiedades:
( )( ) ( )( )iiisi fvecfPffP
positivofP||
0=•
!>•
!
Donde vec( fi ) son los vecinos de fi
© E. Sucar, PGM: 1 Introducción 239
Vecindad
{ }SVV ii !"= |
Un sistema de vecindad para S se define como:
• Cumple con las siguientes dos propiedades:1. Un sitio no es vecino de si mismo.
2. La relación de vecindad es mutua.
• Se pueden tener diferentes “vecindades” (primerorden, segundo orden, etc.).
© E. Sucar, PGM: 1 Introducción 240
VecindadPara una malla regular, la vecindad de orden i conradio r se define como:
( ) ( )( ){ }rividistSvV ii !"= ,|
Donde dist(x,y) es la distancia euclidiana entre x y y.
En un sistema de vecindad de primer orden,cada, sitio (interior) tiene 4 vecinos; en uno desegundo orden, 8 vecinos: en uno de tercerorden, 12 vecinos, etc.
© E. Sucar, PGM: 1 Introducción 241
Ejemplo – 1er orden
q1 q2
q4 q3
q2 q3
q5 q6q4 q2
q7 q3
q5 q6
q8 q9
© E. Sucar, PGM: 1 Introducción 242
Ejemplo – 2do orden
q1 q2
q4 q3
q2 q3
q5 q6q4 q2
q7 q3
q5 q6
q8 q9
© E. Sucar, PGM: 1 Introducción 243
Conjuntos CompletosEl conjunto de sitios junto con las vecindades nosdefinen un grafo no-dirigido: G=(S, V).
Un conjunto completo (C) se define como unsubconjunto de sitios de forma que están todosconectado contra todos
Un conjunto completo puede ser un solo sitio, C1, unpar de sitios vecinos, C2, una tripleta de vecinos, C3, yasí sucesivamente. De forma que la colección de Cpara un grafo esta dada por:
...321 !!!= CCCC
© E. Sucar, PGM: 1 Introducción 244
Configuración más probableUna aplicación típica de CAMs es para obtener laconfiguración más probable dadas ciertasrestricciones representadas por las probabilidadeslocales (potenciales)
Podemos expresar la probabilidad conjunta, comoel producto de las probabilidades de lasvecindades:
( ) ccGF PkfP !=/
© E. Sucar, PGM: 1 Introducción 245
Configuración más probable
Dichas probabilidades de las vecindades(potenciales) se pueden ver como “restricciones”que van a favorecer o desfavorecer ciertasconfiguraciones.
De esta forma, la configuración más probable sepuede ver como aquella que tiene una mayorcompatibilidad con las probabilidades locales.
© E. Sucar, PGM: 1 Introducción 246
Configuración más probablePodemos expresar los potenciales en forma deexponenciales (de esta forma pueden ser cualquiernúmero real):
Pot(xc) = exp{-Uc (xc)}Así que el producto se vuelve una suma:
Up(f) = Σ Uc (xc)Por lo que la probabilidad conjunta se puede expresar como:
( ) ( ) ( )[ ]fUZfP pGF != exp1/
© E. Sucar, PGM: 1 Introducción 247
Campo de GibbsLo anterior también se puede obtener mediante unaanalogía entre los CAM y los Campo Aleatorio deGíbbs (CAG).
Una distribución de Gibbs tiene la siguiente forma (Zes una constante de normalización):
( ) ( ) ( )
( )!"#
$%&'(=
!"#
$%&'=
) TfUZ
Donde
TfU
zfP
Ff exp
:
exp1
© E. Sucar, PGM: 1 Introducción 248
Campo de GibbsU(f) se conoce como la función de energía y seobtiene como la suma de los potenciales de todoslos C:
U ( f ) = Σc Vc ( f )
La configuración más probable corresponde a la deenergía mínima.
La función de energía se puede expresar entérminos de los C de cada tamaño:
( ) ( ) ( ) ( ) .....,,, 332211 +!+!+!= kjicjicic fffVffVfVfU
© E. Sucar, PGM: 1 Introducción 249
Campo de Gibbs
Se puede demostrar que un CAM y elcorrespondiente CAG son equivalentes.
Esto permite que se pueda expresar laprobabilidad conjunta especificando lospotenciales de los C. En la práctica seseleccionan los potenciales de acuerdo alcomportamiento deseado – con los potencialesse codifica el conocimiento a priori del problema.
© E. Sucar, PGM: 1 Introducción 250
Configuración más probable• Entonces, para especificar un CAM se
requiere:– Definir el esquema de vecindad– Especificar las probabilidades
(potenciales) para cada uno de losconjuntos completos de nodos
Para el caso de vecindad de primer orden:
( ) ( ) ( )fVfVfU OOccp !+!= "
© E. Sucar, PGM: 1 Introducción 251
Configuración más probable• Vc corresponde a PF o la información del dominio
dada por los vecinos y VO corresponde a PG/F o lainformación de las observaciones; λ es unaconstante que da el peso relativo entre ambas.
• Bajo este enfoque, la solución a un problemaparticular corresponde en encontrar la configuracióndel CAM de mayor probabilidad o de “energía” (UP)mínima. La función que se logre depende de laforma de las funciones para VC y V0.
© E. Sucar, PGM: 1 Introducción 252
Ejemplo• Por ejemplo, podemos querer “suavizar”
una imagen; es decir, minimizar la“distancia” de cada pixel a sus vecinos,pero también mantenerlo cercano a suvalor en la imagen (observación):
( ) ( )( ) ( )20
2
gffV
uffVc!=
!=
© E. Sucar, PGM: 1 Introducción 253
Ejemplo
Fimagen “suavizada”
Gimagen “original”
q1 q2
q4 q3
q2 q3
q5 q6q4 q2
q7 q3
q5 q6
q8 q9
© E. Sucar, PGM: 1 Introducción 254
Analogía Física
© E. Sucar, PGM: 1 Introducción 255
Analogía Física- más peso a las observaciones -
© E. Sucar, PGM: 1 Introducción 256
Analogía Física- más peso a los vecinos -
© E. Sucar, PGM: 1 Introducción 257
Algoritmos• El obtener la configuración de mayor
probabilidad (mínima energía) en formadirecta (exhaustiva) prácticamenteimposible (excepto para problemas muypequeño), por lo que se plantea como unproblema de búsqueda. Se busca laconfiguración de mayor probabilidad, sintener que calcular directamente lasprobabilidades de cada configuración.
© E. Sucar, PGM: 1 Introducción 258
AlgoritmosEl problema incluye 3 aspectos:
1. Representación: CAM con un esquema devecindad y los potenciales asociados
2. Función objetivo: Función de energía aminimizar.
3. Algoritmo de optimización: simulaciónestocástica (Metropolis)
© E. Sucar, PGM: 1 Introducción 259
Algoritmo básico• Inicializar con un valor aleatorio cada variable.• Repetir para cada variable en el campo:
- Calcular el valor de energía (potencial) de cadavariable en base a la función deseada y los valoresde los vecinos. - Si el valor de energía es menor al anterior cambiar de valor. - Si no, con cierta probabilidad también cambiar de valor.
• Hasta que se cumplan N iteraciones o ya nohaya cambios (convergencia)
• Obtener configuración “óptima”
© E. Sucar, PGM: 1 Introducción 260
Variantes
Cálculo del óptimo:
• MAP: se toma el valor para cada variable al final delas iteraciones.
• MPM: se toma el valor de mayor frecuencia deacuerdo a su ocurrencia durante la simulación.
© E. Sucar, PGM: 1 Introducción 261
VariantesForma de optimización:
• Metrópolis: con probabilidad fija se puedepasar a estados de mayor energía.
• Recocido simulado: se va disminuyendo laprobabilidad de pasar a estados de mayorenergía (temperatura).
• ICM: tomar siempre el estado de menorenergía.
© E. Sucar, PGM: 1 Introducción 262
Probabilidades de transición
• Probabilidad de transición a estado demayor energía:
• Donde δV es la diferencia de energía yT es la temperatura
TVeP /!"=
© E. Sucar, PGM: 1 Introducción 263
Ejemplo
• Dada la siguienteimagen:
• Consideramos:– Configuración inicial
de ceros– Vecindad de primer
orden– Potenciales de
suavizamiento con l =4 1110
1010
1110
0000
© E. Sucar, PGM: 1 Introducción 264
Ejemplo
1era iteración:• 1er sitio:
V1 (0) = 0V1(1) = 2 + 4 (1) = 6
• …• …
0000
0000
0000
0000
© E. Sucar, PGM: 1 Introducción 265
Ejemplo
• …• …• 11vo sitio:
V11(0) = 2V11(1) = 6
• …
0000
0010
1110
0000
© E. Sucar, PGM: 1 Introducción 266
Ejemplo
2da iteración• …• 11ovo sitio:
V11(0) = 4V11(1) = 4
• …
1110
1110
1110
0000
© E. Sucar, PGM: 1 Introducción 267
Aplicaciones
• Procesamiento de imágenes– Eliminación de ruido– Filtrado de una imagen– Segmentación de texturas– Visión estereoscópica– Recuperación de forma (3-D)– Reconocimiento de objetos– Etiquetado de imágenes
© E. Sucar, PGM: 1 Introducción 268
Ejemplo – eliminación de ruido
© E. Sucar, PGM: 1 Introducción 269
Ejemplo – eliminación de ruido
© E. Sucar, PGM: 1 Introducción 270
Ejemplo – eliminación de ruido
© E. Sucar, PGM: 1 Introducción 271
Referencias• Li, “Markov Random Fields Models in Computer
Vision”, Springer-Verlag• Chellapa, Jain, “Markov Random Fields: Theory
and Models”, Academic Press.
© E. Sucar, PGM: 1 Introducción 272
Sumario
• Los modelos gráficos probabilistaspermiten representar una distribución deprobabilidad en forma compacta y másentendible
• A partir de estas representaciones podemosobtener la probabilidad de ciertas variablesdadas otras, mediante lo que se conocecomo razonamiento probabilista
© E. Sucar, PGM: 1 Introducción 273
Sumario
• Existen varios tipos de modelos:clasificadores bayesianos, redes bayesianas,campos de Markov, etc.
• El tipo del modelo más adecuado dependede la aplicación
• Hay diversas técnicas para aprender estosmodelos a partir de datos