parte i: mgps

273
Parte I: Modelos Gráficos Probabilistas L. Enrique Sucar INAOE

Upload: others

Post on 20-Jul-2022

10 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Parte I: MGPs

Parte I:Modelos Gráficos Probabilistas

L. Enrique SucarINAOE

Page 2: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 2

Información General

• Notas:http://ccc.inaoep.mx/~esucar/Tut-Mixteca• Correo:[email protected]

Page 3: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 3

Contenido

1. Introducción2. Métodos básicos3. Clasificadores bayesianos4. Redes bayesianas5. Aprendizaje de redes bayesianas6. Campos de Markov

Page 4: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 4

Referencias Generales• J. Pearl, Probabilistic Reasoning in Intelligent

Systems, Morgan-Kaufman, 1988• R. Neapolitan, Probabilistic Reasoning in Expert

Systems, Wiley, 1990• F. Jensen, Bayesian Networks and Decision

Graphs, Springer, 2001• A. Darwiche, Modeling and Reasoning with

Bayesian Networks, Cambridge, 2009• D. Koller & N. Friedman, Probabilistic Graphical

Models: Principals and Techniques, MIT Press,2009

Page 5: Parte I: MGPs

I.1: Introducción

“Vivir es el arte de derivar conclusionessuficientes de premisas insuficientes”[S. Butler]

Page 6: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 6

Modelos Gráficos Probabilistas• Representaciones basadas en modelar

la incertidumbre con variablesprobabilistas relacionadas medianteun modelo gráfico (dependencias)

• Muchas técnicas se pueden englobardentro de este tipo de modelos

Page 7: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 7

Modelos Gráficos Probabilistas• Podemos clasificar los modelos gráficos

probabilistas en 3 dimensiones principales:– Dirigidos vs. No-dirigidos– Estáticos vs. Dinámicos– Probabilista vs. Decisiones

Page 8: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 8

Modelos Gráficos Probabilistas

• Dirigido • No-dirigido

1

32

4 5

1

32

4 5

Page 9: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 9

Modelos Gráficos Probabilistas

• Estático • Dinámico

St St+1 St+2 St+3

E E E E

C

H

E

Page 10: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 10

Modelos Gráficos Probabilistas

• Probabilista • Decisiones

St St+1 St+2

E E E

A

B C

D

U

D

Page 11: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 11

Modelos Gráficos Probabilistas

DDDPOMDPsDDDProcesos de decisión de MarkovDSDRedes de DecisiónPDDFiltros de KalmanPDDRedes bayesianas dinámicasPSDRedes bayesianasPSNCampos / Redes de MarkovPDDCadenas ocultas de MarkovPSD/NClasificador bayesiano

P/DS/DD/NModelo

Page 12: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 12

Aplicaciones

• Existen actualmente muchas aplicacionesde PGMs, como:– Reconocimiento de ademanes y actividades– Diagnóstico industrial– Modelado del estudiante– Navegación robótica– Validación de sensores– …

Page 13: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 13

Reconocimiento de actividadeshumanas

Page 14: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 14

Reconocimiento de ademanes

S

hand Face

right

Torso

above

S

torso

hand Face

right

Torso

above torso

A

T T+1

SX,Y A SX,Y

Page 15: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 15

Diagnóstico industrial

FWF

FWPF LI

SWVF

SWV

SWF

FWVF

FWV FWP STV

STF

DRL

DRP

STT

FWPFOccur 0.58¬Occur 0.42

LIOccur 0.88¬Occur 0.12

FWVFOccur 0.57¬Occur 0.43

SWVFOccur 0.18¬Occur 0.82

FWPtrue, [10-29] = 0.36true, [29-107] = 0.57false, [10-107] = 0.07

STVTrue, [0-18] = 0.69True, [18-29] = 0.20False, [0-29] = 0.11

STFTrue, [52-72] = 0.65True, [72-105] = 0.24False, [52-105] = 0.11

FWVTrue, [28-41] = 0.30True, [41-66] = 0.27False, [28-66] = 0.43

SWVTrue, [20-33] = 0.11True, [33-58] = 0.13False, [20-58] = 0.76

FWFTrue, [25-114] = 0.77True, [114-248] = 0.18False, [25-248] = 0.05

SWFTrue, [108-170] = 0.75True, [170-232] = 0.21False, [108-232] = 0.04

STTDecrement, [10-42] = 0.37Decrement, [42-100] = 0.14Decrement, [100-272] = 0.47False, [10-272] = 0.02

DRPTrue, [30-70] = 0.58True, [70-96] = 0.40False, [30-96] = 0.02

DRLIncrement, [10-27] = 0.49Increment, [27-135] = 0.09Decrement, [22-37] = 0.28Decrement [37-44] = 0.12False, [10-135] = 0.02

Page 16: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 16

Modelado del estudiante

Experiment results Experiment behavior

Knowledge objects

Student

Page 17: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 17

Navegación robótica

St St+1 St+2 St+3

at-1 at at+1 at+2

rtrt+1 rt+2 rt+3

at-1 at at+1 at+2

rtrt+1 rt+2 rt+3

Page 18: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 18

Validación de sensores

GeneradorCámara decombustión Turbina

CH4

CH1 CH1CH1 CH1 CH1 CH1 CH1CH1CH1

CH4 CH4 CH4

CH4 CH4

Page 19: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 19

Referencias

• Ng & Abramson, “UncertaintyManagement in Expert Systems”, IEEEExpert, Abril 1990.

• [Russell y Norvig] Cap. 14• [Pearl] Cap.1

Page 20: Parte I: MGPs

I.2: Métodos Básicos“…las reglas mátemáticas de la probabilidad no son simplementereglas para calcular frecuencias de variables aleatorias; sontambién las únicas reglas consistentes para realizar inferencia decualquier tipo …”[E. T. Jaynes 2003]

Page 21: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 21

Formulación

• Muchos problemas se pueden formularcomo un conjunto de variables sobre lasque tenemos cierta información y queremosobtener otra, por ejemplo:– Diagnóstico médico o industrial– Percepción (visión, voz, sensores)– Clasificación (bancos, empleadores, ...)– Modelado de estudiantes, usuarios, etc.

Page 22: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 22

Ejemplo

• Determinar si una persona es sujeta decrédito:– X1: otorgar crédito (si/no)– X2: ingreso anual (entero positivo)– X3: créditos anteriores (si/no)– X4: edad (entero positivo)– X5: ocupación (empleado, empresario, …)

Page 23: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 23

Formulación

• Desde el punto de vista de probabilidad sepuede ver como:– Un conjunto de variables aleatorias: X1, X2,

X3, ...– Cada variable es generalmente una partición

del espacio– Cada variable tiene una distribución de

probabilidad (conocida o desconocida)

Page 24: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 24

Variables y Particiones

• A = {A1, A2, A3}• B = {B1, B2, B3, B4, B5}

B1

B2

B3 B4

B5A1 A2 A3

Page 25: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 25

Preguntas

• Dada cierta información (como valores devariables y probabilidades), se requierecontestar ciertas preguntas, como:– Probabilidad de que una variable tome cierto

valor [marginal a priori]– Probabilidad de que una variable tome cierto

valor dada información de otra(s) variable(s)[condicional o a posteriori]

Page 26: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 26

Preguntas

– Valor de mayor probabilidad de una o másvariables [abducción]

– Valor de mayor probabilidad de una o másvariables dada información de otra(s)variable(s) [abducción parcial o explicación]

– Parámetros del modelo dados datos históricosde las variables [estimación o aprendizaje]

Page 27: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 27

Enfoque básico (fuerza bruta)

• Dada la probabilidad conjunta de lasvariables, para todos los posibles valores decada una (asumimos por ahora que sondiscretas):

P(X1, X2, X3, ..., Xn)

• podemos estimar todas las probabilidadesrequeridas

Page 28: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 28

Inferencia

• Probabilidad marginal (cuál es la probabilidad delas diferentes ocupaciones):p(X) = ΣY, Z p(X,Y, Z)

• Probabilidad condicional (cuál es la probabilidadde otorgar el crédito dado cierto nivel de ingreso) :p(X | Y) = p(X,Y) / p(Y)

• Donde:p(X,Y) = ΣZ p(X,Y, Z)

Page 29: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 29

Abducción• Valor más probable (qué tipo de ocupación es el más

común):ArgX [max p(X) = max ΣY, Z p(X,Y, Z) ]

• Valor condicional más probable (debo o no otorgar elcrédito):ArgX [max p(X | y1) = max p(X,y1) / p(y1) ]

• Valor conjunto más probable (que combinación deocupación y edad es la más probable):ArgX,Y [max p(X,Y) = max ΣZ p(X,Y, Z) ]

Page 30: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 30

Ejemplo

• Problema de decidir cuando jugar golf?• Variables

– Ambiente– Temperatura– Viento– Humedad– Jugar

Page 31: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 31

Ejemplo

• Consideremos inicialmente dos variables:ambiente (S,N,Ll) y temperatura (A,M,B)

• Dada la tabla de P conjunta, encontrar:– Probabilidad de ambiente, temperatura– Probabilidad de ambiente conocida la

temperatura (y viceversa)– Combinación de A y T más probable– Ambiente más probable dada la temperatura (y

viceversa)

Page 32: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 32

Ejemplo

Page 33: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 33

Limitaciones

• El tamaño de la tabla y el número deoperaciones crece exponencialmente con elnúmero de variables

• La “tabla” conjunta nos dice poco sobre elfenómeno que estamos analizando

• Puede ser difícil estimar las probabilidadesrequeridas (por expertos o a partir datos)

Page 34: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 34

Estimación de Parámetros• Dados un conjunto de valores de las

variables (registros), se busca estimar lasprobabilidades conjuntas requeridas

• Considerando datos completos:– Las probabilidades se pueden estimar contando

el número de casos de cada valorP(Xi,Yj) ~ Ni,j / N

– Esto corresponde al estimador de máximaverosimilitud cuando no hay valores faltantes

Page 35: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 35

Ejemplo

• Dados datos sobre lo que “jugadores” hanhecho en situaciones pasadas, podemosestimar la probabilidad conjunta

• Consideremos el caso de 2 variables(ambiente y temperatura) y 14 registros dedatos

Page 36: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 36

Ejemplos

Ambiente Temp. Humedad Viento Jugarsoleado alta alta no Nsoleado alta alta si Nnublado alta alta no Plluvia media alta no Plluvia baja normal no Plluvia baja normal si Nnublado baja normal si Psoleado media alta no Nsoleado baja normal no Plluvia media normal no Psoleado media normal si Pnublado media alta si Pnublado alta normal no Plluvia media alta si N

Page 37: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 37

Ejemplo

Page 38: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 38

Limitaciones

• Se requiere una gran cantidad de datos paraestimaciones confiables

• Se complica si hay datos faltantes• Puede ser mejor estimar probabilidades

marginales o condicionales (menos datos,más fácil para el experto)

• También puede ser complejo el tenerdemasiados datos (minería de datos)

Page 39: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 39

Alternativas

• El problema de complejidad computacional utilizando elenfoque básico (tanto en espacio para representar elmodelo, como en tiempo para el cálculo deprobabilidades), nos lleva a buscar alternativas

• Los modelos gráficos probabilistas proveen estaalternativa, mediante representaciones muchos máscompactas (y entendibles) y técnicas eficientes para elcálculo de las probabilidades

Page 40: Parte I: MGPs

I.3: Clasificadores bayesianos

Page 41: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 41

Clasificación

• El concepto de clasificación tiene dossignificados:– No supervisada: dado un conjunto de datos,

establecer clases o agrupaciones (clusters)– Supervisada: dadas ciertas clases, encontrar

una regla para clasificar una nueva observacióndentro de las clases existentes

Page 42: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 42

Clasificación

• El problema de clasificación (supervisada)consiste en obtener el valor más probable de unavariable (hipótesis) dados los valores de otrasvariables (evidencia, atributos)

ArgH [ Max P(H | E1, E2, ...EN) ]ArgH [ Max P(H | EE) ]

EE = {E1, E2, ...EN}

Page 43: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 43

Tipos de Clasificadores

• Métodos estadísticos clásicos– Clasificador bayesiano simple (naive Bayes)– Descriminadores lineales

• Modelos de dependencias– Redes bayesianas

• Aprendizaje simbólico– Árboles de decisión, reglas, …

• Redes neuronales, SVM, …

Page 44: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 44

Clasificación

• Consideraciones para un clasificador:– Exactitud – proporción de clasificaciones

correctas– Rapidez – tiempo que toma hacer la

clasificación– Claridad – que tan comprensible es para los

humanos– Tiempo de aprendizaje – tiempo para obtener o

ajustar el clasificador a partir de datos

Page 45: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 45

Regla de Bayes

• La probabilidad posterior se puede obteneren base a la regla de Bayes:

P(H | EE) = P(H) P(EE | H) / P(EE)P(H | EE) = P(H) P(EE | H) / Σi P(EE | Hi ) P(Hi)

• Normalmente no se requiere saber el valorde probabilidad, solamente el valor másprobable de H

Page 46: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 46

Regla de Bayes

• Para el caso de 2 clases H:{0, 1}, la regla dedecisión de Bayes es:

H*(E) = 1 si P(H=1 | EE) > 1/20, de otra forma

• Se puede demostrar que la regla de Bayes esóptima

Page 47: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 47

Valores Equivalentes

• Se puede utilizar cualquier función monotónicapara la clasificación:

ArgH [ Max P(H | EE) ]ArgH [ Max P(H) P(EE | H) / P(EE) ]

ArgH [ Max P(H) P(EE | H) ]ArgH [ Max log {P(H) P(EE | H)} ]

ArgH [ Max ( log P(H) + log P(EE | H) ) ]

Page 48: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 48

Clasificador bayesiano simple

• Estimar la probabilidad: P(EE | H) es complejo, pero sesimplifica si se considera que los atributos son independientesdada la hipotesis:

P(E1, E2, ...EN | H) = P(E1 | H) P(E2 | H) ... P(EN | H)• Por lo que la probabilidad de la hipótesis dada la evidencia

puede estimarse como:P(H | E1, E2, ...EN) = P(H) P(E1 | H) P(E2 | H) ... P(EN | H)

P(EE)• Esto se conoce como el clasificador bayesiano simple

Page 49: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 49

Clasificador bayesiano simple

• Como veíamos, no es necesario calcular eldenominador:

P(H | E1, E2, ...EN) ~P(H) P(E1 | H) P(E2 | H) ... P(EN | H)

• P(H) se conoce como la probabilidad a priori,P(Ei | H) es la probabilidad de los atributos dadala hipótesis (verosimilitud), y P(H | E1, E2,...EN) es la probabilidad posterior

Page 50: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 50

Ejemplo

• Para el caso del golf, cuál es la acción másprobable (jugar / no-jugar) dado elambiente y la temperatura?

Page 51: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 51

Ventajas

• Bajo tiempo de clasificación• Bajo tiempo de aprendizaje• Bajos requerimientos de memoria• “Sencillez”• Buenos resultados en muchos dominios

Page 52: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 52

Limitaciones

• En muchas ocasiones la suposición de independenciacondicional no es válida

• Para variables continuas, existe el problema dediscretización

• Alternativas – dependencias:– Estructuras que consideran dependencias– Mejora estructural del clasificador

• Alternativas – variables continuas:– Descriminador lineal (variables gaussianas)– Técnicas de discretización

Page 53: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 53

CBS – modelo gráfico

C

A2A1 An…

Page 54: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 54

Enfoques para clasificación

C

A

C

A

Generativo Descriminativo

P(C)P(A|C) P(C|A)

Page 55: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 55

Extensiones

• TAN

C

A2A1 An…

Se incorpora algunasdependencias entre atributos mediante laconstrucción de un“árbol” entre ellos (másadelante veremos comose aprende el árbol)

Page 56: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 56

Extensiones

• BAN

C

A2

A1 An…

Se incorpora una “red” para modelar lasdependencias entre atributos (también más adelante veremos comoaprender una red).

Page 57: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 57

Mejora estructural

• Otra alternativa para mejorar el CBS es partir de unaestructura “simple” y modificarla mediante:– Eliminación de atributos irrelevantes (selección de atributos)– Verificación de las relaciones de independencia entre atributos y

alterando la estructura:• Eliminar nodos• Combinar nodos• Insertar nodos

Page 58: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 58

Eliminación de atributos• Medir la “dependencia” entre la clase y atributos

(por ejemplo con la información mutua), yeliminar aquellos con “poca” aportación

C

A2A1 A4A3

Page 59: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 59

Mejora estructural

• Medir la dependencia entre pares de atributos dada laclase (por ejemplo mediante la información mutuacondicional), alterar la estructura si hay 2 dependientes:

1. Eliminación: quitar uno de los dos (redundantes)2. Unión: juntar los 2 atributos en uno, combinando sus valores3. Inserción: insertar un atributo “virtual” entre la clase y los dos

atributos que los haga independientes.

Page 60: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 60

Mejora Estructural

YX

Z

X

Z

XY

Z W

Z

YX

Page 61: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 61

Atributos redundantes

• Prueba de dependencia entre cada atributoy la clase

• Información mutua:MI(C, Ai) = Σ P(C, Ai) log [P(C, Ai) / P(C) P(Ai)]

• Eliminar atributos que no proveaninformación a la clase

Page 62: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 62

Atributos dependientes

• Prueba de independencia de cada atributodada la clase

• Información mutua condicionalCMI(Ai, Aj | C) =

Σ P(Ai,Aj|C) log [P(Ai,Aj|C) / P(Ai|C) P(Aj|C)]

• Eliminar, unir o (insertar) atributos

Page 63: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 63

Discretización

• Si los atributos no siguen una distribucióngaussiana, la alternativa es convertirlos adiscretos agrupando los valores en unconjunto de rangos o intervalos

• Dos tipos de técnicas de discretización:– No supervisada: no considera la clase– Supervisada: en base a la clase

Page 64: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 64

Discretización no supervisada

• Intervalos iguales• Intervalos con los mismos datos• En base al histograma

Page 65: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 65

Discretización supervisada

• Considerando los posibles “cortes” entreclases:– Probar clasificador (con datos diferentes)– Utilizar medidas de información (p. ej., reducir

la entropía)• Problema de complejidad computacional

Page 66: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 66

Costo de mala clasificación

• En realidad, no sólo debemos considerar laclase más probable si no también el costode una mala clasificación– Si el costo es igual para todas las clases,

entonces es equivalente a seleccionar la demayor probabilidad

– Si el costo es diferente, entonces se debeminimizar el costo esperado

Page 67: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 67

Costo de mala clasificación• El costo esperado (para dos clases, + y -) está

dado por la siguiente ecuación:CE = FN p(-) C(-|+) + FP p(+) C(+|-)

FN: razón de falsos negativosFP: razón de falsos positivosp: probabilidad de negativo o positivoC(-|+): costo de clasificar un positivo como negativoC(+|-): costo de clasificar un negativo como positivo

• Considerando esto y también la proporción decada clase, existen técnicas más adecuadas paracomparar clasificadores como la curva ROC y lascurvas de costo

Page 68: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 68

Referencias• Clasificadores:

– D. Michie, D.J. Spiegelhalter , C.C. Taylor, “MachineLearning, Neural and Statistical Classification”, EllisHorwood, 1994

– L. E. Sucar, D. F. Gillies, D. A. Gillies, "ObjectiveProbabilities in Expert Systems", Artificial IntelligenceJournal, Vol. 61 (1993) 187-208.

– J. Cheng, R. Greiner, “Comparing Bayesian networkclassifiers”, UAI´99, 101-108.

– M. Pazzani, “Searching for attribute dependencies inBayesian classifiers”, Preliminary Papers of Intelligenceand Statistics, 424-429.

– M. Martínez, L.E. Sucar, “Learning an optimal naiveBayesian classifier”, ICPR, 2006

Page 69: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 69

Referencias• Evaluación:

– C. Drummond, R. C. Holte, “Explicitlyrepresenting expected cost: an alternative to theROC representation”.

Page 70: Parte I: MGPs

I.4: Redes Bayesianas

“La probabilidad no es realmente sobre números,es sobre la estructura del razonamiento”[G. Shafer]

Page 71: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 71

Representación

• Las redes bayesianas son unarepresentación gráfica de dependenciaspara razonamiento probabilístico, en la cuallos nodos y arcos representan:– Nodos: Variables proposicionales.– Arcos: Dependencia probabilística

• La variable a la que apunta el arco esdependiente (causa-efecto) de la que estáen el origen de éste.

Page 72: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 72

Ejemplo de una red bayesiana

Borracho

Sed Dolor-Cabeza

Vino

Page 73: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 73

Otro ejemplo

Page 74: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 74

Estructura

• La topología o estructura de la red nos dainformación sobre las dependenciasprobabilísticas entre las variables.

• La red también representa las independenciascondicionales de una variable (o conjunto devariables) dada otra variable(s).

Page 75: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 75

Ejemplo

• Para el caso del domo:{Fva} es cond. indep. de {Fv, Fe, Nd} dado {Fb}• Esto es:

P(Fva | Fv, Fe, Nd, Fb)= P(Fva | Fb)• Esto se representa gráficamente por el nodo Fb

separando al nodo Fva del resto de las variables.

Page 76: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 76

Page 77: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 77

Independencias condicionales• En una RB todas la relaciones de independencia condicional

representadas en el grafo corresponden a relaciones deindependencia en la distribución de probabilidad.

• Dichas independencias simplifican la representación delconocimiento (menos parámetros) y el razonamiento(propagación de las probabilidades).

Page 78: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 78

Representación Gráfica

• Una red bayesiana representa en formagráfica las dependencias e independenciasentre variables aleatorias, en particular lasindependencias condicionales

• Independencia en la distribución– P(X | Y,Z) = P(X | Z)

• Independencia en el grafo– X “separada” de Y por Z

Page 79: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 79

Representación Gráfica

Notación:• Independencia en la distribución

– I(X,Z,Y)• Independencia en el grafo

– < X | Z | Y >

X Z Y

Page 80: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 80

Separación “D”

• El conjunto de variables A esindependiente del conjunto B dado elconjunto C, si no existe trayectoria entreA y B en que

1. Todos los nodos convergentes están o tienendescendientes en C

2. Todos los demás nodos están fuera de C

Page 81: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 81

Separación “D”• Tres casos básicos

– Arcos divergentes– Arcos en secuencia– Arcos convergentes

Page 82: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 82

Separación “D” – casos básicos• caso 1: Secuencia:

X Z Y

• caso 2: Divergentes:

• caso 3: Convergentes:

X Z Y

X Z Y

Page 83: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 83

Ejemplos Separación-D

A

DC

F G

B

E ¿I(A,CD,F)?¿I(A,CD,B)?¿I(BD,A,C)?¿I(A,G,B)?¿I(A,D,G)?¿I(C,BEG,D)?

Page 84: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 84

Correspondencia Grafo-Modelo

• Dada una distribución de probabilidad omodelo (M) y una representación gráfica dedependencias o grafo (G) debe existir unacorrespondencia entre las independenciasrepresentados en ambos

• Tres tipos básicos - mapas

Page 85: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 85

Correspondencia Grafo-Modelo• Mapa-D: las variables independientes están separadas en

el grafo• Mapa-I: las variables separadas en el grafo son

independientes• Mapa perfecto: mapa-I & mapa-D

• No es siempre posible tener un mapa perfecto (haydistribuciones con relaciones de independencia que no sepueden representar como un GAD)

Page 86: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 86

Correspondencia Grafo-Modelo

• Mapa-I mínimo: las variables separadas enel grafo son independientes y al quitarcualquier arco se destruye esta condición

• Una red bayesiana es un grafo acíclicodirigido (GAD) que corresponde a un mapa-I mínimo de una distribución deprobabilidad P

Page 87: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 87

Especificación Estructural

• En una RB, cualquier nodo X esindependiente de todos los nodos que noson sus descendientes dados sus nodospadres Pa(X) – “contorno de X”

• La estructura de una RB se especificaindicando el contorno (padres) de cadavariable

Page 88: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 88

Especificación Estructural

A

DC

F G

B

E

Pa(A) = 0Pa(B) = 0Pa(C) = APa(D) = A, BPa(E) = BPa(F) = C, DPa(G) = D

Page 89: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 89

Cobija de Markov

• La “cobija de Markov” de un nodo es elconjunto de nodos que lo hacenindependiente del resto de la red

• Para una RB la cobija de Markov estáformada por:– Nodos padre– Nodos hijo– Otros padres de los hijos

Page 90: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 90

Cobija de Markov

A

DC

F G

B

E

CM (D) ?

Page 91: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 91

Parámetros

• Complementan la definición de una redbayesiana las probabilidades condicionalesde cada variable dados sus padres.

– Nodos raíz: vector de probabilidadesmarginales

– Otros nodos: matriz de probabilidadescondicionales dados sus padres

Page 92: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 92

P(C)

P(T|C) P(G)

P(R|T) P(F|T,G)

Comida

GripeTifoidea

Fiebre DolorReaccionesP(D|T,G)

Ejemplo

Page 93: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 93

P(C)

P(T|C) P(G)

P(R|T) P(F|T,G)

Comida

GripeTifoidea

Fiebre DolorReaccionesP(D|T,G)

Ejemplo 0.80.2SalIns

Page 94: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 94

P(C)

P(T|C) P(G)

P(R|T) P(F|T,G)

Comida

GripeTifoidea

Fiebre DolorReaccionesP(D|T,G)

0.80.2SalIns

.9.3No

.1.7SiSalIns

Page 95: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 95

P(C)

P(T|C) P(G)

P(R|T)

P(F|T,G)

Comida

GripeTifoidea

Fiebre DolorReacciones

P(D|T,G)

0.80.2SalIns

.9.3No

.1.7SiSalIns

0.90.50.40.2~F0.10.50.60.8FNo,NoNo,SiSi,NoSi, Si

Page 96: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 96

Especificación Paramétrica

• Dado que los contornos (padres) de cada nodo especificanla estructura, mediante las probabilidades condicionales dedichos nodos podemos especificar también lasprobabilidades requeridas

• Aplicando la regla de la cadena y las independenciascondicionales, se puede verificar que con dichasprobabilidades se puede calcular la probabilidad conjunta

Page 97: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 97

Especificación ParamétricaA

DC

F G

B

E

P(A,B,C,D,E,F,G)= P(G|F,E,D,C,B,A) P(F|E,D,C,B,A) P(E|D,C,B,A) P(D|C,B,A) P(C|B,A) P(B|A) P(A)= P(G|D) P(F|D,C) P(E|B) P(D|B,A) P(C|A) P(B) P(A)

Page 98: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 98

Especificación Paramétrica

• En general, la probabilidad conjunta seespecifica por el producto de lasprobabilidades de cada variable dados suspadres:

P(X1,X2, ..., Xn) = Π P(Xi | Pa(Xi))

Page 99: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 99

Inferencia probabilística

• En RB, la inferencia probabilística consiste en: “dadas ciertas variables conocidas (evidencia), calcular la

probabilidad posterior de las demás variables(desconocidas)”

• Es decir, calcular: P(Xi | E), donde:– E es un subconjunto de variables de la RB (posiblemente vació)– Xi es cualquier variable en la RB, no en E

Page 100: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 100

Inferencia bayesiana

C

H

E

P(H|C)

P(E|H)

Causal:C H

Evidencial:E H

Mixta:C, E H

Page 101: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 101

Tipos de Técnicas

• Calcular probabilidades posteriores:– Una variable, cualquier estructura: algoritmo

de eliminación (variable elimination)– Todas las variable, estructuras sencillamente

conectadas (árboles, poliárboles): propagación– Todas las variables, cualquier estructura:

• Agrupamiento (junction tree)• Simulación estocástica• Condicionamiento

Page 102: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 102

Tipos de Técnicas

• Obtener variable(s) de mayor probabilidaddada cierta evidencia – abducción:– Abducción total– Abducción parcial

Page 103: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 103

Tipos de estructuras• Sencillamente

conectadas– Árboles

– Poliárboles

• Multiconectadas

Page 104: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 104

Cada nodo corresponde a una variablediscreta, B (B 1, B 2,…, B m) con surespectiva matriz de probabilidadcondicional, P(B|A)=P(Bj| Ai)

Propagación en Árboles

Page 105: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 105

Propagación en Árboles

A

D

C

F G

B

E

H

I

Page 106: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 106

Dada cierta evidencia E -representada por lainstanciación de ciertas variables- laprobabilidad posterior de cualquier variableB, por el teorema de Bayes:

P( Bi | E)=P( Bi ) P(E | Bi) / P( E )

B

Page 107: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 107

Evidencia

A

D

C

F G

B

E

H

I

E = {I,F,E}

Page 108: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 108

Ya que la estructura de la red es un árbol, elNodo B la separa en dos subárboles, por loque podemos dividir la evidencia en dosgrupos:

E-: Datos en el árbol que cuya raíz es B

E+: Datos en el resto del árbol

Evidencia

Page 109: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 109

Evidencia

A

D

C

F G

B

E

H

I

E+

E-

Page 110: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 110

Entonces:

P( Bi | E ) = P ( Bi ) P ( E-,E+ | Bi ) / P(E)

Pero dado que ambos son independientes yaplicando nuevamente Bayes:

P( Bi | E ) = a P ( Bi | E+ ) P(E- | Bi )

Donde a es una constante de normalización

Page 111: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 111

Si definimos los siguientes términos:

Definiciones:

l (Bi) = P ( E- | Bi)

Entonces:

p (Bi) = P (Bi | E+ )

P(Bi | E ) = a p (B i) l (B i)

Page 112: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 112

Desarrollo

• En base a la ecuación anterior, se puedeintegrar un algoritmo distribuido paraobtener la probabilidad de un nodo dadacierta evidencia

• Para ello se descompone el cálculo de cadaparte:– Evidencia de los hijos (λ)– Evidencia de los demás nodos (π)

Page 113: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 113

Evidencia de los hijos (l )

• Dado que los hijos son condicionalmenteindependientes dado el padre:

λ (Bi) = P ( E- | Bi) = Πk P ( Ek- | Bi)

• Donde Ek- corresponde a la evidencia del

subárbol del hijo k

Page 114: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 114

Evidenciahijos

A

D

C

F G

B

E

H

I

E-(D) E-(E)

J

Page 115: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 115

Evidencia de los hijos (λ)

• Condicionando respecto a los posiblesvalores de los hijos de B:

λ (Bi)= Πk [ Σj P ( Ek- | Bi, Sj

k) P(Sjk | Bi) ]

• Donde Sk es el hijo k de B, y la sumatoria essobre los valores de dicho nodo (teorema deprobabilidad total)

Page 116: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 116

Evidencia de los hijos (λ)

• Dado que B es condicionalmenteindependiente de la evidencia dados sus hijos:

λ (Bi) = Πk [ Σj P ( Ek- | Sj

k) P(Sjk | Bi) ]

• Substituyendo la definción de λ:

λ (Bi)= Πk [ Σj P(Sjk | Bi) λ (Sj

k)]

Page 117: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 117

Evidenciahijos

A

D

C

F G

B

E

H

I

λ(E)λ(D)

Page 118: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 118

Evidencia de los hijos (l )

• Recordando que λ es un vector (un valor porcada posible valor de B), lo podemos ver enforma matricial:

λ = λ P (S | B)

Page 119: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 119

Evidencia de los demás nodos (π)

• Condicionando sobre los diferentes valoresdel nodo padre (A):

π (Bi) = P (Bi | E+ ) = Σj P (Bi | E+ , Aj) P(Aj | E+ )

• Donde Aj corresponde a los diferentes valoresdel nodo padre de B

Page 120: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 120

Evidenciapadre

A

D

C

F G

B

E

H

IE+

Page 121: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 121

Evidencia de los demás nodos (p)• Dado que B es independiente de la evidencia “arriba” de A,

dado A:

Π (Bi) = Σj P (Bi | Aj) P(Aj | E+ )

• La P(Aj | E+ ) corresponde a la P posterior de A dada toda laevidencia excepto B y sus hijos, por lo que se puede escribircomo:

P(Aj | E+ ) = α π (A i) Πk¹ B λk (A i)

Page 122: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 122

Evidenciapadre

A

D

C

F G

B

E

H

I

λ(C)

λ(B)

π(A)

Page 123: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 123

Evidencia de los demás nodos (π)

• Substituyendo P(Aj | E+ ) en la ecuación de π :

π (Bi) = Σj P (Bi | Aj) [ α π (A i) Πk¹ B λk (A i) ]

• De forma que se obtiene combinando la π dedel nodo padre con la λ de los demás hijos

Page 124: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 124

Evidencia de los demás nodos (p)

• Dado que también π es un vector, lo podemos ver en formamatricial (donde PA es el producto de la evidencia de padre yotros hijos):

π = P (B | A) PA

Page 125: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 125

Algoritmo

• Mediante estas ecuaciones se integra unalgoritmo de propagación deprobabilidades en árboles.

• Cada nodo guarda los valores de losvectores π y λ, así como su matriz deprobabilidad condicional (CPT), P.

• La propagación se hace por un mecanismode paso de mensajes, en donde cada nodoenvía los mensajes correspondientes a supadre e hijos

Page 126: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 126

Mensaje al padre (hacia arriba) –nodo B a su padre A:

Mensaje a los hijos (hacia abajo) -nodo B a su hijo Sk :

Page 127: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 127

Algoritmo

• Al instanciarse ciertos nodos, éstos envíanmensajes a sus padres e hijos, y se propagan hastaa llegar a la raíz u hojas, o hasta encontrar unnodo instanciado.

• Así que la propagación se hace en un solo paso,en un tiempo proporcional al diámetro de la red.

Page 128: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 128

Propagaciónλ

A

D

C

F G

B

E

H

I

λI (H)

λE(B)

λG(D)λF(D)

λC(A)

λD(B)

λB(A)

λA(H)

Page 129: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 129

Propagaciónπ

A

D

C

F G

B

E

H

I

πH(I)

πB(E)

πD(G)πD(F)

πA(C)

πB(D)

πA(B)

πH(A)

Page 130: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 130

Condiciones Iniciales• Nodos hoja no conocidos:

λ (Bi) = [1,1, …]• Nodos asignados (conocidos):

λ (Bi) = [0,0, ..1, 0, …, 0] (1 para valor asignado)π (Bi) = [0,0, ..1, 0, …, 0] (1 para valor asignado)

• Nodo raíz no conocido:π (A) = P(A), (probabilidad marginal inicial)

Page 131: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 131

Ejemplo

Enf.

Fiebre Dolor

Comida

P(F|E)0.9 0.50.1 0.5

P(D|E)0.7 0.40.3 0.6

P(E|C)0.9 0.70.1 0.3

P(C)0.8 0.2

Page 132: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 132

Ejemplo

Enf.

Fiebre Dolor

Comida

F=siλ=[1,0] λ=[1,1]

Page 133: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 133

Ejemplo

Enf.

Fiebre Dolor

ComidaλF= [1,0] * [.9 .5 | .1 .5] = [.9 .5]

λD= [1,1] * [.7 .4 | .3 .6] = [1 1]

P(D|E)0.7 0.40.3 0.6

P(F|E)0.9 0.50.1 0.5

Page 134: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 134

Ejemplo

Enf.

Fiebre Dolor

Comida

λ(E) = [.9 .5] * [1 1] = [.9 .5]

P(D|E)0.7 0.40.3 0.6

P(F|E)0.9 0.50.1 0.5

λ(C) = [.9 .5] * [.9 .7| .1 .3] = [.86 .78]

P(E|C)0.9 0.70.1 0.3

Page 135: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 135

Ejemplo

Enf.

Fiebre Dolor

Comidaπ(E) = [.8 .2] * [.9 .7| .1 .3] = [.86 .14]

P(D|E)0.7 0.40.3 0.6

P(F|E)0.9 0.50.1 0.5

π(C) = [.8 .2]

P(E|C)0.9 0.70.1 0.3

Page 136: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 136

Ejemplo

Enf.

Fiebre Dolor

Comida

π(E) = [.86 .14]

P(D|E)0.7 0.40.3 0.6

π(C) = [.8 .2]

π(D) = [.86 .14] * [.9 .5] [.7 .4| .3 .6] = [.5698 .2742]

Page 137: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 137

Ejemplo

Enf.

Fiebre Dolor

Comidaπ(E) = [.86 .14]π(C) = [.8 .2]

π(D) = [.57 .27]λ(D)=[1,1]

λ(E) = [.9 .5]λ(C) = [.86 .78]

P(C)=α[.688 .156]P(C)= [.815 .185]

P(E)=α[.774 .070]P(E)= [.917 .083]

P(D)=α[.57 .27]P(D)= [.67 .33]

Page 138: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 138

Demo 1

• Ejemplo en HUGIN

Page 139: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 139

Propagación en poliárboles

• Un poliárbol es una red conectada enforma sencilla, pero en la que un nodopuede tener varios padres:

P(B | A1, A2, …, An)

Page 140: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 140

Propagación en Poliárboles

A

D

C

F G

B

E

H

I

Page 141: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 141

Algoritmo

• El método es muy similar al de árboles, conalgunas consideraciones adicionales:– Considerar la probabilidad condicional del

nodo dados todos sus padres para el cálculo deπ y λ

– Enviar los mensajes λ a cada uno de los padresde un nodo

Page 142: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 142

Propagación en redesmulticonectadas

• Una red multiconectada es un grafo noconectado en forma sencilla, es decir, en elque hay múltiples trayectorias entre nodos.

• Para este tipo de redes existen varios tiposde técnicas de inferencia:– Propagación “Loopy”– Condicionamiento– Simulación estocástica– Agrupamiento

Page 143: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 143

Agrupamiento

• El método de agrupamiento consiste entransformar la estructura de la red paraobtener un árbol, mediante agrupación denodos usando la teoría de grafos.

• La propagación se realiza sobre el árbol demacro-nodos obtenido, donde cada macro-nodo corresponde a un clique o unión de laRB original (junction tree)

Page 144: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 144

Agrupamiento

• Transformación:– Eliminar direccionalidad de los arcos– Ordenamiento de los nodos por máxima

cardinalidad– Moralizar el grafo (arco entre nodos con hijos

comunes)– Triangular el grafo– Obtener los cliques y ordenar– Construir árbol de cliques

Page 145: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 145

Ejemplo

A

CB

D E

A

CB

D E

Page 146: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 146

Ordenamiento de Cliques

A

CB

D E

C1

C2

C3

Page 147: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 147

Árbol de Cliques

C1

C2

C3

A,B,C

B,C,D

C,E

Page 148: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 148

Propagación

• La propagación es mediante el envío de mensajesen el árbol de cliques (en forma similar a árboles)

• Inicialmente se calcula la probabilidad conjunta(potencial) de cada clique, y la condicional dadoel padre

• Dada cierta evidencia se recalculan lasprobabilidades de cada clique

• La probabilidad individual de cada variable seobtiene de la del clique por marginalización

Page 149: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 149

Procedimiento – preprocesamiento:

1. Se obtienen los conjuntos de nodos decada clique – Ci

2. Se obtienen los conjuntos de nodoscomunes con cliques previos – Si

3. Se obtienen los conjuntos de nodos queestán en Ci pero no en Si: Ri = Ci – Si

4. Se calcula la probabilidad (potencial) decada clique – ψ(clqi) = Π P(nodos)

Page 150: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 150

Ejemplo • C:– A,B,C– B,C,D– C,E

• S:– Æ– B,C– C

• R:– A,B,C– D– E

• Ψ:– P(A) P(B|A) P(C|A)– P(D|B,C)– P(E|C)

A

CB

D E

C1

C2

C3

A,B,C

B,C,D

C,E

Page 151: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 151

Propagación sin evidencia:

• Cálculo de λ :

λ(Ci) = ΣR Y(Ci)

• Actualización:Y(Ci)’ = Y(Ci) / λ(Ci)

• Enviar λ a padre

Page 152: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 152

Propagación sin evidencia:

• Cálculo de π . Para todos los hijos “i” delclique “j”:

π(Ci) = ΣCj - Si P’(Ci)• Enviar π a cada hijo

Page 153: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 153

Propagación sin evidencia:

• Propagación de λ :– Calcular λ para los clique hoja– Actualizar potencial del clique “j” al recibir

cada λ de los hijos “i”:Ψ(Cj)’ = λ(Ci) Ψ(Cj)

– Al recibir todas la l propagar al padre:– Al llegar al nodo raíz obtener P’:

P’(Cj) = Ψ(Cj)’

Page 154: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 154

Propagación sin evidencia:

• Propagación de π :– Obtener π del clique raíz para cada hijo– Enviar π a cada hijo– Actualizar P’(Ci):

P’(Ci) = π(Ci) Ψ’(Ci)– Enviar π a cada hijo hasta llegar a los nodos

hoja

Page 155: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 155

Ejemplo – propagación λ

C1

C2

C3

Ψ(C1)’, λ(C1), Ψ(C1)’

λ(C3)

λ(C3), Ψ(C3)’

Ψ(C2)’, λ(C2), Ψ(C2)’

λ(C3)

Page 156: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 156

Ejemplo – propagación π

C1

C2

C3

P’(C1), π1(C2)

π2(C3)

P’(C3)

P’(C2), π2(C3)

π1(C2)

Page 157: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 157

Propagación con evidencia:• Cuando hay nodos conocidos (Evidencia – E), se actualizan

los potenciales, R y S de cada clique en función de laevidencia:– CLQi = CLQi – {E}– Si = Si - {E}– Ri = Ri - {E}

• Se obtienen los potenciales para cliques con nodos evidenciade acuerdo a los valores de dichos nodos:– Ψ(Ci)’ = Ψ(Ci)’ E=evidencia

• Después se sigue el mismo proceso de propagación que sinevidencia

Page 158: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 158

Ejemplo:

• Supongamos que se conocen D y E:– C: {A,B,C}, {B,C}, {C}– S: {0}, {B,C}, {C}– R: {A,B,C} { Æ }, { Æ }

• Potenciales:– Ψ({A,B,C})– Ψ({B,C}) D=di– Ψ({C}) E=ei

Page 159: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 159

Probabilidades de las variables:• Se obtienen a partir de las probabilidades de los cliques

por marginalización:

P(X) = Σ Y,Z,... P’(clq)• En el ejemplo:

P(A) = Σ B,C P’(clq-1)

P(B) = Σ A,C P’(clq-1)

P(C) = Σ A,B P’(clq-1)

P(D) = Σ B,C P’(clq-2)

P(E) = Σ C P’(clq-3)

Page 160: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 160

Complejidad

• En el peor caso, la propagación en redes bayesianas es unproblema NP-duro

• En la práctica, en muchas aplicaciones se tienen redes nomuy densamente conectadas y la propagación es eficienteaún para redes muy grandes (función del clique mayor)

• Para redes muy complejas (muchas conexiones), la mejoralternativa son técnicas de simulación estocástica otécnicas aproximadas

Page 161: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 161

Referencias

• Pearl 88 – Cap. 4,5• Neapolitan 90 – Cap. 6,7,8• Jensen 01 – Cap. 5• Darwiche 09 – Cap. 4-8

Page 162: Parte I: MGPs

I.5:Aprendizaje de Redes Bayesianas

“Preferiría descubrir una ley causalque ser rey de Persia” [Democritus]

Page 163: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 163

Aprendizaje

El aprendizaje inductivo consiste en obtener conocimiento a partir de datos.

En redes bayesianas se divide en 2 aspectos:• Obtener la estructura de la red –

aprendizaje estructural• Obtener las probabilidades asociadas –

aprendizaje paramétrico

Page 164: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 164

Aprendizaje Paramétrico

• Datos completos - se estiman lasprobabilidades a partir de frecuencias

P(A) ~ Na / NtP(B|A1, ..., An) ~ N a1, ..., an, b / Na1, ..., an

Page 165: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 165

Ejemplo - ¿Cuándo jugar golf?

Ambiente Temp. Humedad Viento Jugarsoleado alta alta no Nsoleado alta alta si Nnublado alta alta no Plluvia media alta no Plluvia baja normal no Plluvia baja normal si Nnublado baja normal si Psoleado media alta no Nsoleado baja normal no Plluvia media normal no Psoleado media normal si Pnublado media alta si Pnublado alta normal no Plluvia media alta si N

Page 166: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 166

AH

J

V

T

Ejemplo – estructura

Page 167: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 167

Ejemplo

• P(J)– P(N) = 5/14– P(P) = 9/14

• P(V|J)– P(si|N)=3/5, P(si|P)=3/9– P(no|N)=2/5, P(no|P)=6/9

• Etc.

Page 168: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 168

Suavizado

• Cuando se tienen pocos datos (o muchasvariables-valores) se pueden tenerprobabilidades igual a cero, lo que ocasionaproblema

• Para ello se pueden “suavizar” lasestimaciones de las probabilidades

• Existen varios métodos de suavizado, elmás sencillo y común el de Laplace

Page 169: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 169

Suavizado

• El suavizado de Laplace consiste en inicializar todas lasprobabilidades en forma uniforme, y despuésincrementarlas con los datos

• Ejemplo:– P(A), A={a1, a2, a3)– Inicial: P(a1) = 1/3, P(a2) = 1/3, P(a3) = 1/3– Dato A=a2 P(a1) = 1/4, P(a2) = 2/4, P(a3) = 1/4– Dato A=a3 P(a1) = 1/5, P(a2) = 2/5, P(a3) = 2/5– Dato A=a3 P(a1) = 1/6, P(a2) = 2/2, P(a3) = 3/6

Page 170: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 170

Información incompleta

• En la práctica, en muchas ocasiones losdatos no están completos

• Dos tipos básicos de informaciónincompleta:– Faltan algunos valores de una de las variables

en algunos casos – datos incompletos– Faltan todos los valores de una variable –

nodos ocultos

Page 171: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 171

Información incompleta

Ambiente Temp. Humedad Viento Jugarsoleado xxx alta -- Nsoleado alta alta -- Nnublado alta alta -- Plluvia media alta -- Plluvia baja normal -- Plluvia baja normal -- Nnublado baja normal -- Psoleado media alta -- Nsoleado xxx normal -- Plluvia media normal -- Psoleado media normal -- Pnublado media alta -- Pnublado alta normal -- Plluvia media alta -- N

Page 172: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 172

Datos incompletos

Existen varias alternativas:1. Considerar un nuevo valor “desconocido”2. Tomar el valor más probable (promedio) de la variable3. Considerar el valor más probable en base a las otras

variables4. Considerar la probabilidad de los diferentes valores en

base a las otras variables

Page 173: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 173

Datos incompletos

Valor más probable:1. Asignar todas las variables observables.

2. Propagar su efecto y obtener las probabilidadesposteriores de las no observables.

3. Para las variables no observables, asumir el valor conprobabilidad mayor como observado.

4. Actualizar las probabilidades previas y condicionales deacuerdo a las fórmulas anteriores.

5. Repetir 1 a 4 para cada observación.

Page 174: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 174

Datos incompletos

Ambiente Temp. Humedad Viento Jugarsoleado xxx alta -- Nsoleado alta alta -- Nnublado alta alta -- Plluvia media alta -- Plluvia baja normal -- Plluvia baja normal -- Nnublado baja normal -- Psoleado media alta -- Nsoleado xxx normal -- Plluvia media normal -- Psoleado media normal -- Pnublado media alta -- Pnublado alta normal -- Plluvia media alta -- N

P(T|sol,alta,N)

P(T|sol,nor,P)

Page 175: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 175

Datos incompletos

Ambiente Temp. Humedad Viento Jugarsoleado media alta -- Nsoleado alta alta -- Nnublado alta alta -- Plluvia media alta -- Plluvia baja normal -- Plluvia baja normal -- Nnublado baja normal -- Psoleado media alta -- Nsoleado media normal -- Plluvia media normal -- Psoleado media normal -- Pnublado media alta -- Pnublado alta normal -- Plluvia media alta -- N

P(T|sol,alta,N)

P(T|sol,nor,P)

Page 176: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 176

Nodos ocultos – algoritmo EM• El algoritmo EM es un método estadístico muy

utilizado para estimar probabilidades cuando hayvariables no observables (un caso especial es elalgoritmo de Baum-Welch en HMM)

• Consiste básicamente de 2 pasos que se repiten enforma iterativa:

1. Paso E: se estiman los datos faltantes en base a losparámetros (P) actuales

2. Paso M: se estiman las probabilidades (parámetros)considerando los datos estimados

Page 177: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 177

EM para RB con nodos ocultos1. Iniciar los parámetros desconocidos (CPTs) con

valores aleatorios (o estimaciones de expertos)2. Utilizar los datos conocidos con los parámetros

actuales para estimar los valores de lavariable(s) oculta(s)

3. Utilizar los valores estimados para completar latabla de datos

4. Re-estimar los parámetros con los nuevos datos5. Repetir 24 hasta que no haya cambios

significativos en las probabilidades

Page 178: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 178

Ejemplo

• V es un nodo oculto• Se seleccionan valores aleatorios para P(V|J)• Se calcula la probabilidad de V para cada caso, dados los

valores de A, T, H, J• Cada caso se “pesa” de acuerdo a las probabilidades

posteriores de V (un caso puede representar “n” datos)• Se recalculan los parámetros ( P(V|J) ) en base a los casos

obtenidos• Se repite el proceso hasta que converja

A T

J

H V

Page 179: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 179

EM: inicio

Ambiente Temp. Humedad Viento Jugarsoleado media alta -- Nsoleado alta alta -- Nnublado alta alta -- Plluvia media alta -- Plluvia baja normal -- Plluvia baja normal -- Nnublado baja normal -- Psoleado media alta -- Nsoleado media normal -- Plluvia media normal -- Psoleado media normal -- Pnublado media alta -- Pnublado alta normal -- Plluvia media alta -- N

“Adivinar”P(V | J):

0.50.5si

0.50.5noPNV\J

Page 180: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 180

EM: paso E

Ambiente Temp. Humedad Viento Jugarsoleado media alta no Nsoleado alta alta no Nnublado alta alta no Plluvia media alta no Plluvia baja normal si Plluvia baja normal si Nnublado baja normal si Psoleado media alta no Nsoleado media normal no Plluvia media normal no Psoleado media normal si Pnublado media alta si Pnublado alta normal si Plluvia media alta si N

Estimar valores de V en base aP(V | J) y los datos

Page 181: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 181

EM: paso M

Ambiente Temp. Humedad Viento Jugarsoleado media alta no Nsoleado alta alta no Nnublado alta alta no Plluvia media alta no Plluvia baja normal si Plluvia baja normal si Nnublado baja normal si Psoleado media alta no Nsoleado media normal no Plluvia media normal no Psoleado media normal si Pnublado media alta si Pnublado alta normal si Plluvia media alta si N

Re-estimar P(V | J) con losNuevos datos:

0.660.4si

0.440.6noPNV\J

Page 182: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 182

EM

• Limitaciones:– Puede caer en máximos locales (depende del

valor inicial)– Complejidad computacional

Page 183: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 183

Aprendizaje Estructural

Diversos métodos:• Aprendizaje de árboles• Aprendizaje de poliárboles• Aprendizaje de redes multiconectadas

– Métodos basados en medidas– Métodos basados en relaciones de dependencia

Page 184: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 184

Aprendizaje de árboles• Algoritmo desarrollado por Chow y Liu para

aproximar una distribución de probabilidad porun producto de probabilidades de segundoorden (árbol).

• La probabilidad conjunta de n variables sepuede representar como:

• donde Xj(i) es la causa o padre de Xi.

( ) ( )( )!=

=n

iijin XXPXXXP

121 |,...,,

Page 185: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 185

Aprendizaje de árboles• Se plantea el problema como uno de

optimización - obtener la estructura quemás se aproxime a la distribución "real".

• Medida de la diferencia de informaciónentre la distribución real (P) y laaproximada (P*):

• El objetivo es minimizar I.

( ) ( )!=x XP

XPXPPPI)()(log, *

*

Page 186: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 186

Aprendizaje de árboles• Se puede definir dicha diferencia en función de la

información mutua entre pares de variables, que se definecomo:

• Se puede demostrar (Chow 68) que la diferencia deinformación es una función del negativo de la suma de lasinformaciones mutuas (pesos) de todos los pares devariables que constituyen el árbol

• Encontrar el árbol más próximo equivale a encontrar elárbol con mayor peso.

( ) ( ) ( )( ) ( )!=

ji xx ji

jijiji XPXP

XXPXXPXXI

,

,log,,

Page 187: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 187

Aprendizaje de árboles - algoritmo1. Calcular la información mutua entre todos los pares de

variables (n(n - 1)/2).2. Ordenar las informaciones mutuas de mayor a menor.3. Seleccionar la rama de mayor valor como árbol inicial.4. Agregar la siguiente rama mientras no forme un ciclo, si es así,

desechar.5. Repetir (3-4) hasta que se cubran todas las variables (n -1

ramas).

• El algoritmo NO provee la dirección de los arcos, por lo queésta se puede asignar en forma arbitraria o utilizandosemántica externa (experto).

Page 188: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 188

Ejemplo (golf)• Informaciones mutuas ordenadasNo. Var 1 Var 2 I.M.

1 temp. ambiente .28562 juega ambiente .07433 juega humedad .04564 juega viento .00745 humedad ambiente .00606 viento temp. .00527 viento ambiente .00178 juega temp. .00039 humedad temp. 010 viento humedad 0

Page 189: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 189

Ejemplo (golf)

AH

J

V

T

Page 190: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 190

Aprendizaje de poliárboles• Parte del esqueleto (estructura sin direcciones)

obtenido con el algoritmo anterior• Determina la dirección de los arcos utilizando

pruebas de dependencia entre tripletas de variables.

• Dadas 3 variables, existen 3 casos posibles:• Arcos divergentes• Arcos secuenciales• Arcos convergentes

• Los primeros dos casos son indistinguibles, pero eltercero es diferente, ya que las dos variables "padre"son marginalmente independientes.

Page 191: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 191

Prueba de Tripletas

• Tripleta de variables:X – Z – Y

• Si X – Y son independientes dado Z, entonces pueden sersecuenciales o divergentes

X Z Y; X Z Y• Si X – Y no son independientes dado Z, entonces son

arcos convergentesX Z Y

Page 192: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 192

Aprendizaje de poliárboles - algoritmo1.1. Obtener esqueleto utilizando el algoritmo de Obtener esqueleto utilizando el algoritmo de Chow Chow y y LiuLiu

2. 2. Recorrer la red hasta encontrar una tripleta de nodos queRecorrer la red hasta encontrar una tripleta de nodos quesean convergentes (tercer caso) - nodo sean convergentes (tercer caso) - nodo multipadre-multipadre-

3. 3. A partir de un nodo A partir de un nodo multipadre multipadre determinar las direccionesdeterminar las direccionesde los arcos utilizando la prueba de tripletas hasta dondede los arcos utilizando la prueba de tripletas hasta dondesea posible (base causal).sea posible (base causal).

4. 4. Repetir 2-3 hasta que ya no se puedan descubrir másRepetir 2-3 hasta que ya no se puedan descubrir másdirecciones.direcciones.

5. 5. Si quedan arcos sin Si quedan arcos sin direccionardireccionar, utilizar semántica, utilizar semánticaexterna para obtener su dirección (o fijar direcciones).externa para obtener su dirección (o fijar direcciones).

Page 193: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 193

Ejemplo

AH

J

V

T

~I(H,J,V)I(H,J,A)I(J,A,T)

Page 194: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 194

Aprendizaje de redesmulticonectadas

Existen dos tipos de métodos para elaprendizaje genérico de redes bayesianas:

1. Métodos basados en medidas de ajuste ybúsqueda

2. Métodos basados en pruebas deindependencia

Page 195: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 195

Métodos basados en medidas

Se generan diferentes estructuras y se evalúanrespecto a los datos utilizando algunamedida

Dos aspectos principales:• Medida de “ajuste” de la estructura a los

datos• Búsqueda de la “mejor” estructura

Page 196: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 196

Medidas

• Evalúan que tan “buena” es una estructurarespecto a los datos

• Hay varias posibles medidas, las dos máscomunes son:– Medida bayesiana– Medida basada en el principio de longitud de

descripción mínima (MDL)

Page 197: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 197

MDL

• La “calidad” de la estructura se basa en elprincipio de “descripción de longitudmínima” (MDL):– Tamaño de la descripción de la red

(complejidad)– Tamaño de error de predicción de los datos por

la red (exactitud)• Se hace una búsqueda heurística de la

estructura en base al MDL

Page 198: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 198

MDL

Compromiso entre exactitud y complejidad-minimizar: long. de descripción del modelo +

descripción de lo datos dado el modelo

Ejemplo – ajustar un polinomio a un conjunto depuntos:

Page 199: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 199

MDL

Para redes bayesianas:

Complejidad:L= Σi [ ki log2n + d(Si - 1) ΠFi si]n-# de nodos, k-# padres por nodo, Si-# de valorespor variable, Fi-conj. de padres, d-# de bits

Exactitud: w(xi, Fxi) = Σ P(xi, Fxi) log2 [P(xi,Fxi)/P(xi)P(Fxi)] W = Σi w(xi, Fxi)

Page 200: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 200

Buscando la mejor estructura

• Búsqueda de ascenso de colinas (hillclimbing)

• Se inicia con una estructura simple (árbol)y se van agregando arcos hasta llegar a unmínimo local

“óptimo”

Page 201: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 201

Ejemplo - ¿Cuándo jugar golf?

Ambiente Temp. Humedad Viento Jugarsoleado alta alta no Nsoleado alta alta si Nnublado alta alta no Plluvia media alta no Plluvia baja normal no Plluvia baja normal si Nnublado baja normal si Psoleado media alta no Nsoleado baja normal no Plluvia media normal no Psoleado media normal si Pnublado media alta si Pnublado alta normal no Plluvia media alta si N

Page 202: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 202

AH

J

V

T

Ejemplo

AH

J

V

TAH

J

V

T

Page 203: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 203

Variantes

• Utilizar otros métodos de búsqueda:– Algoritmos genéticos– “Beam search”– Etc.

• Considerar sólo estructuras que seandiferentes estadísticamente, buscando sobreestructuras equivalentes (se llega a unaestructura parcial)

Page 204: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 204

Estructuras Equivalentes

• Cuando ciertos arcos no se pueden determinar por pruebasestadísticas, por ejemplo:

Page 205: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 205

Métodos basados en medidas

• Se genera la estructura en base a iragregando/eliminando arcos de acuerdo amedidas de dependencia entre variables

• Ejemplos:– Árboles – método de Chow y Liu– Poliárboles – método de Rebane y Pearl– Multiconectadas – existen varios algoritmos

basados en diferentes medidas

Page 206: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 206

Algoritmo PC

• Se basa en pruebas de independencia entrevariables:

I (Xi, Xj | A)• Donde A es un subconjunto de variables• Asume que:

– Se tienen suficientes datos– Las pruebas estadísticas no tienen errores

Page 207: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 207

Prueba de Independencia

• Para probar si X, Y son independientes dado A se utiliza laentropía cruzada condicional:

CE(X,Y | Z) = Σz P(z) Σx,y P(x,y|z) log [P(x,y|z) / P(x|z) P(y|z)]• Si es cero o cercana a cero, quiere decir que son

independientes (se puede usar un umbral o una pruebaestadística con cierto nivel de significancia)

Page 208: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 208

Algoritmo

1. Encontrar un “esqueleto” (grafo nodirigido)

2. Encontrar arcos convergentes en tripletasde variables por pruebas de independencia

3. Orientar el resto de las ligas de forma queno se produzcan ciclos

Page 209: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 209

Esqueleto• La idea básica para determinar el esqueleto es

iniciar con un grafo completo (conectando todosvs. todos los nodos) y eliminar el arco entre X –Y si hay un subconjunto de nodos en G (exceptoX, Y) que los hace independientes

• En principio se consideran todos los posiblessubconjuntos de variables, de tamaño 1 hasta detamaño N-1 (N es el número de nodos adyacentesa X)

• El considerar todos los posibles subconjuntos esmuy ineficiente, y normalmente se limita aconsiderar sólo subconjuntos de 1, 2, …, k nodos

Page 210: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 210

Ejemplo

AH

J

V

T

Probar si H,V sonIndependientes dados:1: J, A, T2: JA, JT, AT3: JAT si

Page 211: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 211

Ejemplo

AH

J

V

T

Probar si H,T sonIndependientes dados:1: J, A2: JA si

Page 212: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 212

Ejemplo

AH

J

V

T

Probar si H,A sonIndependientes dados:1: J si

Page 213: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 213

Ejemplo

AH

J

V

T

Probar si H,J sonIndependientes dados:0, no

Page 214: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 214

Ejemplo

AH

J

V

T

Probar si A,J sonIndependientes dados:1: T, V2: TV no

Page 215: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 215

Ejemplo

AH

J

V

T

Probar si A,V sonIndependientes dados:1: T, J2: TJ si

Page 216: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 216

Ejemplo

AH

J

V

T

Probar si A,T sonIndependientes dados:1: J no

Page 217: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 217

Ejemplo

AH

J

V

T

Probar si J,V sonIndependientes dados:1: T no

Page 218: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 218

Ejemplo

AH

J

V

T

Probar si J,T sonIndependientes dados:1: A,V2: AV si

Page 219: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 219

Ejemplo

AH

J

V

T

Probar si V,T sonIndependientes dados:1: 0 no

Page 220: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 220

Arcos convergentes

• Se verifica cada tripleta de variables paraencontrar arcos convergentes mediantepruebas de independencia:

X – Z – Y• Si X – Y no son independientes dado Z,

entonces son arcos convergentesX Z Y

Page 221: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 221

Ejemplo

AH

J

V

T

H,V no sonIndependientes dado J

Page 222: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 222

Ejemplo

AH

J

V

T

A,V no sonIndependientes dado T

Page 223: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 223

Otras orientaciones

• En base a los arcos existentes, se orientanlos demás con pruebas de independencia,evitando crear ciclos

• Si quedan al final arcos sin orientar, sedireccionan en forma aleatoria, evitandociclos

Page 224: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 224

Ejemplo

AH

J

V

T

H, A sonIndependientes dado J

Page 225: Parte I: MGPs

HUGIN

Aprendizaje de RB

Page 226: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 226

Referencias

• Pearl 88 – Cap. 8• Neapolitan 90 – Cap. 10• Darwiche 09 - Caps. 17,18• T. Mitchell, Machine Learning, McGraw-

Hill, 1997 – Cap. 6

Page 227: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 227

Referencias• W. Lam, F. Bacchus, "Learning Bayesian Belief

Networks: An Approach based on the MDLPrinclple", Computational Intelligence, Vol. 10(1994) 269-293.

• G. Cooper, E. Herskovits, “A Bayesian method forthe induction of probabilistic networks from data”,Machine Learning, Vol 9, 1992.

• G. Cooper, E. Herskovits, “A Bayesian method forthe induction of probabilistic networks from data”,Machine Learning, Vol 9, 1992.

• L. E. Sucar, D. F. Gillies, D. A. Gillies, "ObjectiveProbabilities in Expert Systems", ArtificialIntelligence Journal, Vol. 61 (1993) 187-208.

• W. Buntine, “A guide to the literature on learningprobabilistic networks form data”, IEEE TKDE.

Page 228: Parte I: MGPs

I.6: Campos de Markov

Page 229: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 229

Campos de Markov (CAM)

• Ciertos procesos, como un campo magnético o unaimagen, se pueden ver como una serie de estadosen el espacio o una malla de estados.

• A este tipo de modelos se les conoce como Camposde Markov.

• Estos procesos son una extensión de las cadenasde Markov en los cuales el índice de tiempo sesubstituye por un índice espacial

Page 230: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 230

Modelo de Ising• Surgen del problema de modelar materiales

ferromagnéticos en lo que se conoce como elModelo Ising.

• Se tiene una serie de dipolos en una línea quepueden estar orientados hacia “arriba” (+) o hacia“abajo” (-).

• El estado de cada dipolo se ve influenciado por losdipolos cercanos - probabilidad para cada estadodepende de los estado de los puntos vecinos.

Page 231: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 231

Modelo de Ising

q1 q2 q4q3

Posibles configuraciones:+ + + ++ + + -+ + - +....

Page 232: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 232

Modelo de Ising

• Un campo de Markov asigna probabilidad a cadaconfiguración en el espacio de posiblesconfiguraciones.

• Se considera que la probabilidad del estado de unavariable es independiente de los demás dados sus 2vecinos (para una cadena), es decir que tiene lapropiedad Markoviana

( ) ( )knjninkjin qSqSqSPqSqSqSP ======= +! 11....21 ,|,|

Page 233: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 233

Configuración más probable• Dadas las probabilidades locales, el problema

central en es encontrar la probabilidad de cada unalas posibles configuraciones, y en particular cual esla configuración más probable.– + + + +– + + + -– + + - +– …– - - + +– …– - - - -

Page 234: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 234

Probabilidades

• Podemos distinguir dos factores quedeterminan la probabilidad de unaconfiguración:

• la P a priori de cada estado,• la P conjunta con sus vecinos.

• En el modelo de Ising, estos corresponden ala influencia de un campo magnético externo,y a las interacciones entre los dipolos vecinos.

Page 235: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 235

Campos en 2-D

• Esto lo podemos extender de una dimensióna dos dimensiones. En este caso tenemosuna malla de puntos, donde el estado decada punto depende del estado de susvecinos (4, 8, etc).

Page 236: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 236

Ejemplo

q1 q2

q4 q3

q2 q3

q5 q6q4 q2

q7 q3

q5 q6

q8 q9

Page 237: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 237

Representación• Un campo aleatorio es una colección de variables

aleatorias indexadas por sitios.

• Se considera un conjunto de variables aleatorias F ={F1,….., FM}, asociadas a cada sitio del sistema desitios S. Cada variable toma un valor fi de un unconjunto de posibles valores L. Entonces F es uncampo aleatorio.

• Un campo aleatorio de Markov (CAM) es un campoaleatorio con la propiedad de “localidad”.

Page 238: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 238

PropiedadesUn CAM debe satisfacer las siguientes propiedades:

( )( ) ( )( )iiisi fvecfPffP

positivofP||

0=•

!>•

!

Donde vec( fi ) son los vecinos de fi

Page 239: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 239

Vecindad

{ }SVV ii !"= |

Un sistema de vecindad para S se define como:

• Cumple con las siguientes dos propiedades:1. Un sitio no es vecino de si mismo.

2. La relación de vecindad es mutua.

• Se pueden tener diferentes “vecindades” (primerorden, segundo orden, etc.).

Page 240: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 240

VecindadPara una malla regular, la vecindad de orden i conradio r se define como:

( ) ( )( ){ }rividistSvV ii !"= ,|

Donde dist(x,y) es la distancia euclidiana entre x y y.

En un sistema de vecindad de primer orden,cada, sitio (interior) tiene 4 vecinos; en uno desegundo orden, 8 vecinos: en uno de tercerorden, 12 vecinos, etc.

Page 241: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 241

Ejemplo – 1er orden

q1 q2

q4 q3

q2 q3

q5 q6q4 q2

q7 q3

q5 q6

q8 q9

Page 242: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 242

Ejemplo – 2do orden

q1 q2

q4 q3

q2 q3

q5 q6q4 q2

q7 q3

q5 q6

q8 q9

Page 243: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 243

Conjuntos CompletosEl conjunto de sitios junto con las vecindades nosdefinen un grafo no-dirigido: G=(S, V).

Un conjunto completo (C) se define como unsubconjunto de sitios de forma que están todosconectado contra todos

Un conjunto completo puede ser un solo sitio, C1, unpar de sitios vecinos, C2, una tripleta de vecinos, C3, yasí sucesivamente. De forma que la colección de Cpara un grafo esta dada por:

...321 !!!= CCCC

Page 244: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 244

Configuración más probableUna aplicación típica de CAMs es para obtener laconfiguración más probable dadas ciertasrestricciones representadas por las probabilidadeslocales (potenciales)

Podemos expresar la probabilidad conjunta, comoel producto de las probabilidades de lasvecindades:

( ) ccGF PkfP !=/

Page 245: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 245

Configuración más probable

Dichas probabilidades de las vecindades(potenciales) se pueden ver como “restricciones”que van a favorecer o desfavorecer ciertasconfiguraciones.

De esta forma, la configuración más probable sepuede ver como aquella que tiene una mayorcompatibilidad con las probabilidades locales.

Page 246: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 246

Configuración más probablePodemos expresar los potenciales en forma deexponenciales (de esta forma pueden ser cualquiernúmero real):

Pot(xc) = exp{-Uc (xc)}Así que el producto se vuelve una suma:

Up(f) = Σ Uc (xc)Por lo que la probabilidad conjunta se puede expresar como:

( ) ( ) ( )[ ]fUZfP pGF != exp1/

Page 247: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 247

Campo de GibbsLo anterior también se puede obtener mediante unaanalogía entre los CAM y los Campo Aleatorio deGíbbs (CAG).

Una distribución de Gibbs tiene la siguiente forma (Zes una constante de normalización):

( ) ( ) ( )

( )!"#

$%&'(=

!"#

$%&'=

) TfUZ

Donde

TfU

zfP

Ff exp

:

exp1

Page 248: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 248

Campo de GibbsU(f) se conoce como la función de energía y seobtiene como la suma de los potenciales de todoslos C:

U ( f ) = Σc Vc ( f )

La configuración más probable corresponde a la deenergía mínima.

La función de energía se puede expresar entérminos de los C de cada tamaño:

( ) ( ) ( ) ( ) .....,,, 332211 +!+!+!= kjicjicic fffVffVfVfU

Page 249: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 249

Campo de Gibbs

Se puede demostrar que un CAM y elcorrespondiente CAG son equivalentes.

Esto permite que se pueda expresar laprobabilidad conjunta especificando lospotenciales de los C. En la práctica seseleccionan los potenciales de acuerdo alcomportamiento deseado – con los potencialesse codifica el conocimiento a priori del problema.

Page 250: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 250

Configuración más probable• Entonces, para especificar un CAM se

requiere:– Definir el esquema de vecindad– Especificar las probabilidades

(potenciales) para cada uno de losconjuntos completos de nodos

Para el caso de vecindad de primer orden:

( ) ( ) ( )fVfVfU OOccp !+!= "

Page 251: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 251

Configuración más probable• Vc corresponde a PF o la información del dominio

dada por los vecinos y VO corresponde a PG/F o lainformación de las observaciones; λ es unaconstante que da el peso relativo entre ambas.

• Bajo este enfoque, la solución a un problemaparticular corresponde en encontrar la configuracióndel CAM de mayor probabilidad o de “energía” (UP)mínima. La función que se logre depende de laforma de las funciones para VC y V0.

Page 252: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 252

Ejemplo• Por ejemplo, podemos querer “suavizar”

una imagen; es decir, minimizar la“distancia” de cada pixel a sus vecinos,pero también mantenerlo cercano a suvalor en la imagen (observación):

( ) ( )( ) ( )20

2

gffV

uffVc!=

!=

Page 253: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 253

Ejemplo

Fimagen “suavizada”

Gimagen “original”

q1 q2

q4 q3

q2 q3

q5 q6q4 q2

q7 q3

q5 q6

q8 q9

Page 254: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 254

Analogía Física

Page 255: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 255

Analogía Física- más peso a las observaciones -

Page 256: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 256

Analogía Física- más peso a los vecinos -

Page 257: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 257

Algoritmos• El obtener la configuración de mayor

probabilidad (mínima energía) en formadirecta (exhaustiva) prácticamenteimposible (excepto para problemas muypequeño), por lo que se plantea como unproblema de búsqueda. Se busca laconfiguración de mayor probabilidad, sintener que calcular directamente lasprobabilidades de cada configuración.

Page 258: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 258

AlgoritmosEl problema incluye 3 aspectos:

1. Representación: CAM con un esquema devecindad y los potenciales asociados

2. Función objetivo: Función de energía aminimizar.

3. Algoritmo de optimización: simulaciónestocástica (Metropolis)

Page 259: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 259

Algoritmo básico• Inicializar con un valor aleatorio cada variable.• Repetir para cada variable en el campo:

- Calcular el valor de energía (potencial) de cadavariable en base a la función deseada y los valoresde los vecinos. - Si el valor de energía es menor al anterior cambiar de valor. - Si no, con cierta probabilidad también cambiar de valor.

• Hasta que se cumplan N iteraciones o ya nohaya cambios (convergencia)

• Obtener configuración “óptima”

Page 260: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 260

Variantes

Cálculo del óptimo:

• MAP: se toma el valor para cada variable al final delas iteraciones.

• MPM: se toma el valor de mayor frecuencia deacuerdo a su ocurrencia durante la simulación.

Page 261: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 261

VariantesForma de optimización:

• Metrópolis: con probabilidad fija se puedepasar a estados de mayor energía.

• Recocido simulado: se va disminuyendo laprobabilidad de pasar a estados de mayorenergía (temperatura).

• ICM: tomar siempre el estado de menorenergía.

Page 262: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 262

Probabilidades de transición

• Probabilidad de transición a estado demayor energía:

• Donde δV es la diferencia de energía yT es la temperatura

TVeP /!"=

Page 263: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 263

Ejemplo

• Dada la siguienteimagen:

• Consideramos:– Configuración inicial

de ceros– Vecindad de primer

orden– Potenciales de

suavizamiento con l =4 1110

1010

1110

0000

Page 264: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 264

Ejemplo

1era iteración:• 1er sitio:

V1 (0) = 0V1(1) = 2 + 4 (1) = 6

• …• …

0000

0000

0000

0000

Page 265: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 265

Ejemplo

• …• …• 11vo sitio:

V11(0) = 2V11(1) = 6

• …

0000

0010

1110

0000

Page 266: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 266

Ejemplo

2da iteración• …• 11ovo sitio:

V11(0) = 4V11(1) = 4

• …

1110

1110

1110

0000

Page 267: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 267

Aplicaciones

• Procesamiento de imágenes– Eliminación de ruido– Filtrado de una imagen– Segmentación de texturas– Visión estereoscópica– Recuperación de forma (3-D)– Reconocimiento de objetos– Etiquetado de imágenes

Page 268: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 268

Ejemplo – eliminación de ruido

Page 269: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 269

Ejemplo – eliminación de ruido

Page 270: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 270

Ejemplo – eliminación de ruido

Page 271: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 271

Referencias• Li, “Markov Random Fields Models in Computer

Vision”, Springer-Verlag• Chellapa, Jain, “Markov Random Fields: Theory

and Models”, Academic Press.

Page 272: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 272

Sumario

• Los modelos gráficos probabilistaspermiten representar una distribución deprobabilidad en forma compacta y másentendible

• A partir de estas representaciones podemosobtener la probabilidad de ciertas variablesdadas otras, mediante lo que se conocecomo razonamiento probabilista

Page 273: Parte I: MGPs

© E. Sucar, PGM: 1 Introducción 273

Sumario

• Existen varios tipos de modelos:clasificadores bayesianos, redes bayesianas,campos de Markov, etc.

• El tipo del modelo más adecuado dependede la aplicación

• Hay diversas técnicas para aprender estosmodelos a partir de datos