inteligencia artificial sistemas de razonamiento probabilístico

Inteligencia Artificial

Sistemas de Razonamiento Probabilístico

SISTEMAS DE RAZONAMIENTO PROBABILISTICO

Son sistemas de razonamiento basados en modelos de redes y, con base en las leyes de la teoría de la probabilidad, se emplean para razonar en situaciones de incertidumbre.

La principal ventaja del razonamiento probabilístico en comparación con el razonamiento lógico es que el agente lógico puede tomar decisiones racionales aún si disponer de suficiente información para probar que una acción dada funcionará.

REPRESENTACIÓN DEL CONOCIMIENTO EN UN DOMINIO INCIERTO

Si bien la distribución de probabilidad conjunta puede dar respuesta a cualquier pregunta relacionada con un dominio determinado, conforme aumenta la cantidad de variables, su magnitud se convierte intratablemente extensa.

Además, no resulta muy natural la especificación de probabilidades de eventos atómicos y puede volverse bastante complicada, a menos de contar con una gran cantidad de datos que permita recopilar estimaciones estadísticas.


También, las relaciones de independencia condicional que existen entre las variables permiten simplificar el cálculo de los resultados de una consulta y reducir también la cantidad de probabilidades condicionales que es necesario especificar.

Para representar la dependencia que existe entre determinadas variables, se usa una estructura de datos conocida como red bayesiana (red de creencia, red probabilística, red causa, mapa de conocimiento).


La red bayesiana es una gráfica en la que se cumple lo siguiente:

– Los nodos de la red están formados por un conjunto de variables aleatorias.

– Cada par de nodos se conecta entre sí mediante un conjunto de enlaces o flechas. El significado implícito de una flecha que vaya del nodo X al nodo Y es el de que X ejerce una influencia directa sobre Y.

– Por cada nodo hay una tabla de probabilidad condicional que sirve para cuantificar los efectos de los padres sobre el nodo. Los padres de un nodos son aquellos cuyas flechas apuntan hacia éste.

– La gráfica no tiene ciclos dirigidos (es acíclica).


RoboRobo TerremotoTerremoto

AlarmaAlarma

JuanllamaJuanllama MaryllamaMaryllama


Tabla de Probabilidad Condicional para la Alarma

P(Alarma | Robo, Terremoto) Robo Terremoto true false

true true 0.950 0.050 true true 0.950 0.050 false true 0.290 0.710 false false 0.001 0.999


RoboRobo TerremotoTerremoto

AlarmaAlarma

JuanllamaJuanllama MaryllamaMaryllama

P(B)P(B).001.001

P(E)P(E).002.002

B E P(A)B E P(A)T T .95T T .95T F .94T F .94F T .29F T .29F F .001F F .001

A P(J)A P(J)T .90T .90F .05F .05

A P(M)A P(M)T .70T .70F .01F .01

LA SEMANTICA DE LAS REDES BAYESIANAS

Hay dos maneras de interpretar las redes bayesianas:– Considerar la red como una representación de

la distribución de probabilidad conjunta. Esto es útil para poder saber cómo construir redes.

– Considerar la red como la codificación de un conjunto de aseveraciones de independencia condicional. Esto es útil para el diseño de procedimientos de inferencia.

Representación de la distribución de probabilidad conjunta

La red bayesiana permite obtener una descripción completa del dominio.

Una entrada genérica en la probabilidad conjunta es la probabilidad de que se de la conjunción de determinadas asignaciones a cada una de las variables:

P(X1=x1 ... Xn=xn)

Que se abrevia como:P(x1, ... , xn)

Se calcula como:

n

iiin XPadresxPxxP

11 )(|(),...,((1)

Representación de la distribución de probabilidad conjunta

Ejemplo: Se puede calcular la probabilidad del evento de que suene la alarma sin que se hayan producido ni el robo ni el terremoto, habiendo llamado tanto Juan como Mary.

00062.0)998.0)(999.0)(001.0)(7.0)(9.0(

)()()|()|()|(

)(

TPRPTRAPAMPAJP

TRAMJP

Un método para construir redes bayesianas

La ecuación (1) define el significado de una determinada red bayesiana. Sin embargo, no explica cómo construir una red bayesiana de manera que la distribución conjunta resultante sea una buena representación de un determinado dominio.

La ecuación (1) implica ciertas relaciones de independencia condicional que pueden servir a un ingeniero de conocimiento como guías para construir la topología de la red.


Reescribiendo la conjunción en función de una probabilidad condicional, se tiene que:

Repitiendo este procedimiento, reduciendo cada una de las probabilidades conjuntivas a una probabilidad condicional y a una conjunción más pequeña, se obtiene al final:

),...,(),...,|(),...,( 11111 xxPxxxPxxP nnnn

n

iii

nnnnn

xxxP

xPxxPxxxPxxxPxxP

111

112121111

),...,|(

)()|()...,...,|(),...,|(),...,(


Si comparamos lo anterior con la ecuación (1), tenemos:

Suponiendo que Padres(Xi){xi-1,...,x1}. Esta última condición se puede satisfacer sin mayor problema identificando los nodos de acuerdo con un orden congruente con el orden parcial implícito en la estructura de la gráfica.

))(|(),...,|( 11 iiii XPadresXPXXX P(2)


La ecuación anterior significa que la red bayesiana será la representación correcta del dominio si cada uno de los nodos tiene independencia condicional respecto de sus predecesores en la secuencia de nodos, tomando como referencia a sus padres.

Por lo tanto, si se desea construir una red bayesiana cuya estructura sea la adecuada para el dominio, hay que escoger los padres de cada nodo de manera que se satisfaga la propiedad anterior.


Procedimiento general para construir una red bayesiana:– Escoger el conjunto de variables Xi que sirvan para describir el

dominio.– Definir la manera como se van a ordenar las variables.– Siempre que haya variables:

• Por cada variable Xi que se escoja, añadir a la red un nodo• Asignar Padres(Xi) a un conjunto mínimo de nodos que esté presente

en la red, para de esta manera satisfacer la propiedad de independencia condicional (2).

• Elaborar la tabla de probabilidad condicional correspondiente a Xi

Este método evita la construcción de redes con ciclos y con él además es imposible violar los axiomas de probabilidad.

Compactación y ordenamiento de nodos

La compactación de las redes bayesianas es un ejemplo de una

propiedad muy general de los sistemas localmente estructurados.

En estos sistemas, los subcomponentes interactúan directamente

sólo con una cantidad limitada de otros componentes,

independientemente de cuál sea la cantidad total de componentes.

La complejidad de la estructura local es de tipo lineal, no

exponencial. En el caso de las redes bayesianas, es razonable

suponer que en la mayoría de los dominios, cada una de las

variables recibe influencia de cuando mucho otras k variables

aleatorias, siendo k un valor constante.


Aún en el caso de un dominio de estructuración local, el construir una red bayesiana no es un problema trivial.

También es necesario que la topología de la red refleje en realidad tales influencias directas a través del conjunto de padres adecuado.

La manera correcta de añadir los nodos consiste en poner primero las “causas raíz” y después las variables sobre las que tienen influencia y así sucesivamente, hasta llegar a la parte de las “hojas”, las que no ejercen ninguna ingluencia causal sobre las otras variables.


Red Bayesiana resultado de un orden equivocado al agregar nodos: Maryllama Juanllama Terremoto Robo Alarma

MaryllamaMaryllama JuanllamaJuanllama

TerremotoTerremoto

RoboRobo AlarmaAlarma

Representación de las tablas de probabilidad condicional

Dada la cantidad de posibles casos de condicionamiento, para llenar la tabla se necesita bastante tiempo y mucha experiencia.

En realidad esto sucede en el peor de los casos, cuando la relación que existe entre padres e hijos es totalmente arbitraria. Por lo general, la relación padre-hijo corresponde a una de varias categorías que tienen distribuciones canónicas, es decir, un patrón estandar.

El ejemplo más sencillo son los nodos deterministas, donde su valor está definido exactamente por los nodos de los padres, sin lugar a incertidumbre.

Representación de las tablas de probabilidad condicional

Ejemplos de nodos deterministas:– El nodo norteamericano es una disyunción de

sus padres canadiense, estadounidense y mexicano.

– Si los nodos padres son precios en distintas tiendas y el hijo es el precio final a pagar, el hijo es el mínimo de los padres.

Relaciones de independencia condicional en las redes bayesianas

Dada una red, ¿es posible “saber” si un conjunto de nodos X es independiente de otro conjunto Y, con base en el conjunto de los nodos de evidencia E?

La respuesta es sí, y el método se deriva del concepto de separación dependiente de la dirección o separación d.

Si la ruta no dirigida (independiente de la dirección de las flechas) que va de un nodo que está en X a un nodo que está en Y tiene una separación dependiente de la dirección (d) por E, entonces tanto X como Y son condicionalmente independientes en función de E.


El conjunto de nodos E separa con dependencia de la dirección (d) dos conjuntos de nodos X y Y cuando todas las rutas no dirigidas que van de un nodo que está en X a un nodos que está en Y están bloqueadas, en función de E.

Una ruta está bloqueada en función de un conjunto de nodos E si en la ruta existe un nodo Z en el cual se cumple una de las tres condiciones siguientes:

– Z está en E y una de las flechas entra y la otra sale de Z– Z está en E y las dos flechas de la ruta salen de Z– Ni Z ni sus descendientes están en E, y las dos flechas de la ruta

entran a Z.


ZZ

ZZ

ZZ

11

22

33

XXEE YY

Rutas Bloqueadas

YY


Ejemplo para demostrar que los nodos con separación dependiente de la dirección (d) son condicionalmente independientes:

BateríaBatería

RadioRadio IgniciónIgnición

ArranqueArranque

GasGas

MovimientoMovimiento


Ejemplo para demostrar que los nodos con separación dependiente de la dirección (d) son condicionalmente independientes:

– 1. El que el carro tenga Gasolina y que se oiga el Radio son independientes si se cuenta con evidencia de que las bujías están flameadas (la Ignición no funciona).

– 2. Gasolina y Radio son independientes cuando se sabe que la Batería funciona.

– 3. La Gasolina y el Radio son independientes cuando no se cuenta con ninguna evidencia. Serán dependientes cuando hay alguna evidencia acerca del Arranque del auto. Por ejemplo, si el carro no arranca, el que se escuche el radio es evidencia mayor de que nos hemos quedado sin gasolina. La Gasolina y el Radio son dependientes cuando se cuenta con evidencia acerca del Movimiento del auto, puesto que esto se produce con el arranque del carro.

LA INFERENCIA EN LAS REDES BAYESIANAS

El principal objetivo de un sistema de inferencia probabilista es el cálculo de la distribución de probabilidad posterior de un conjunto de variables de consulta, con base en determinadas variables de evidencia.

Es decir, el sistema calcula P(Consulta|Evidencia). En general, el agente asigna valores a las variables de

evidencia basándose en sus percepciones (o en otro tipo de razonamientos) y solicita el posible valor de otras variables de manera que le permita decidir qué tipo de acción a emprender.

La naturaleza de las inferencias probabilistas

Las redes bayesianas no se limitan a un razonamiento de diagnóstico; de hecho efectúan cuatro tipos de inferencia:

– Inferencias por diagnóstico (de los efectos a las causas).• Con base en que JuanLlama, calcular P(Robo|JuanLlama)

– Inferencias causales (de las causas a los efectos).• Con base en Robo, calcular P(JuanLlama|Robo) y P(MaryLlama|Robo)

– Inferencias intercausales (entre las causas de un efecto común)• Con base en Alarma, calcular P(Robo|Alarma). Al añadir Temblor,

calcular la nueva P(Robo|Alarma Temblor)– Inferencias mixtas (combinación de una o varias de las anteriores)

• Dados JuanLlama y Temblor, calcular P(Alarma|JuanLlama Temblor) y P(Robo| JuanLlama Temblor)

La naturaleza de las inferencias probabilistas

Tipos de inferencias

QQ

EE

EE

QQ

QQ EE EE

QQ

EE

diagnósticadiagnóstica causalcausal mixtamixtaintercausalintercausal

inteligencia artificial sistemas de razonamiento probabilístico

Documents