análisis del desempeño de métodos avanzados de clasificación bayesiana

8/17/2019 Análisis del Desempeño de Métodos Avanzados de Clasificación Bayesiana

1/8

CONTECSI7, 8 Y 9 DE SEPTIEMBRE 2005INSTITUTO TECNOLÓGICO DE LEÓN

1

Resumen — El presente documento aborda métodos avanzado de clasificación bayesiana, los cuales

han llamado mucho la atención a los investigadores del área de aprendizaje automático. Los métodos

que se analizan son: el clasificador bayesiano basado en el teorema de Bayes; dos métodos que debilitan

la suposición de independencia, como son el “One Dependece Estimators” (AODE) y el K2 usado para

construir redes bayesianas; y el clasificador Selective Neighborhood Naive Bayes (SNNB) basado en

aprendizaje local. La exactitud de estos métodos se analizó con un conjunto muy conocido de casos de

entrenamiento estándar. Los métodos que mostraron mejores resultaron son los que debilitan la

suposición de independencia.

Abstract — This paper is focused to review advanced methods of Bayesian classification, which have gotten so

much attention of machine learning researchers. The analyzed methods are: the Bayesian classifiers (NB); two

methods that debilitate the assumption of independence, which are “One Dependence Estimators” (AODE) and

K2, the last one builds a Bayesian network; and the SNNB classifiers based on local learning. The accuracy of these

methods is validated with a well-known benchmark. The best results was obtained with the methods that debilitate

the assumption of independence.

Palabras clave — Naive Bayes, clasificador bayesiano, SNNB, AODE, K2, EMD, cross-validation.

Análisis del Desempeño de MétodosAvanzados de Clasificación Bayesiana

Laura Cruz Reyesa, Joaquín Pérez Ortega b, Claudia Guadalupe Gómez Santillánc, VanesaLandero Najerad, Victor M. Alvarez Hernándeze, Ernesto Ferat Gonzálezf

a Instituto Tecnológico de Ciudad Madero, 1o. de Mayo y Sor Juana I. de la Cruz S/N C.P.89440, Tamaulipas, México. Tel. 01 (833) 357 4820, [email protected]

b

Centro Nacional de Investigación y Desarrollo Tecnológico, Interior Internado Palmiras/n, Col. Palmira. Cuernavaca, Morelos, México, Tels. 01 (777) 318 - 7741, 312 - 2314,312- 2434 C.P. 62490, [email protected] c Instituto Tecnológico de Ciudad Madero, 1o. de Mayo y Sor Juana I. de la Cruz S/N C.P.89440, Tamaulipas, México. Tel. 01 (833) 357 4820, [email protected] Instituto Tecnológico de Ciudad Madero, 1o. de Mayo y Sor Juana I. de la Cruz S/N C.P.89440, Tamaulipas, México. Tel. 01 (833) 357 4820, [email protected] e Instituto Tecnológico de Ciudad Madero, 1o. de Mayo y Sor Juana I. de la Cruz S/N C.P.89440, Tamaulipas, México. Tel. 01 (833) 357 4820, [email protected] f Instituto Tecnológico de Ciudad Madero, 1o. de Mayo y Sor Juana I. de la Cruz S/N C.P.89440, Tamaulipas, México. Tel. 01 (833) 357 4820, [email protected]

ConTECSI

PRIMER CONGRESO NACIONAL DE TECNOLOGÍASCOMPUTACIONALES Y SISTEMAS DE INFORMACIÓNLeón, Gto., 7, 8 y 9 de Septiembre del 2005


2/8


2

I. INTRODUCCIÓN

a presente investigación presenta un análisis experimental de algunos métodos bayesianos, loscuales han mostrado un buen desempeño en una amplia variedad de dominios, incluyendodominios que no cumplen las condiciones requeridas para su aplicación, es decir, en

situaciones donde hay clara dependencia entre atributos.

El trabajo de investigación sobre Naive Bayes ha llamado mucho la atención de científicos delárea de aprendizaje automático, y de acuerdo con [1], se puede dividir en tres categorías. En una delas categorías sólo se ubica el clasificador Bayesiano básico (NB, Naive Bayes), y en las otras seencuentran los métodos que son mejoras a éste.

Las categorías restantes son: los que debilitan la suposición de independencia, como el OneDependece Estimators (AODE) y las redes Bayesianas (BN, Bayesian Net); y a la otra categoría pertenecen aquellos métodos que realizan un aprendizaje local como es el Selective Neighborhood Naive Bayes (SNNB).

II. MÉTODOS BAYESIANOS

Estos métodos utilizan el teorema bayesiano para generar un modelo de probabilidades de pertenencia a grupos, de manera que con este modelo se pueda clasificar objetos desconocidos [1].

A. Clasificador Bayesiano Básico

La clasificación NB consiste en que: Dado un caso X ={ x1 , x2 , x3 , … xt } , con clase desconocida,es posible predecir la clase de X usando la más alta probabilidad condicional P (C i /X ), donde C i es lai-ésima clase. Estas probabilidades son calculadas con el teorema de Bayes. Como P ( X ) esconstante, solo es necesario maximizar el producto P ( X/C i) ! P (C i), donde:

• P (C i) es la razón del número de casos de entrenamiento de la clase C i y el número total decasos de entrenamiento.

• ( ) ( )!

=

=

n

t

it i C x P C X P

1

, asumiendo una independencia entre los n atributos.

A la máxima probabilidad condicional se le llama MAP(maximum posteriori), que se muestra enla expresión 1.

)()(maxarg)(maxarg,..,2,1,..,2,1

ii

mi

i

mi

MAP C P C X P X C P C

==

== (1)

Donde m es el número de clases

B.

Debilitadores de IndependenciaEstos métodos bayesianos debilitan la suposición de independencia, es decir, se modifican las

expresiones de cálculo de probabilidades para que se considere que los atributos tienen ciertarelación entre ellos.

Algunos de estos métodos son: Averaged One Dependece Estimators (AODE) [2], y algunosmétodos de clasificación basados en redes bayesianas [3, 4].


3/8


3

B.1. One Dependece Estimators (AODE)

En la expresión 2 se muestra la formula del clasificador AODE; esta técnica promedia todos losmodelos de una clase restringida de los clasificadores de una dependencia, es decir, la clase detodos aquellos clasificadores que tienen todos los atributos que dependen de un atributo en común yla clase. La clase que se predice para un caso nuevo, es aquella con el más alto promedio calculado

Durante el tiempo de entrenamiento, AODE produce una tabla de frecuencias de los diferentesvalores de los atributos, dependiendo cada uno de ellos de otro atributo y la clase. En el tiempo declasificación, AODE calcula las probabilidades condicionales de las frecuencias de la tabla.

( ) ( )( )

k x y x P x y P SE yclasen

m x F i

ik j

n

jik yk

i

k !""#

$%%&

'(== )

*+==

1

1 ,|,max

Donde:m = número de ocurrencias mínima de un valor del atributo xin = número de atributos yk = clase k xi = atributo i F ( xi) = frecuencias del atributo xi

(2)

B.2. K2: Constructor de una Red Bayesiana

El algoritmo K2, mostrado en [5], hace una búsqueda heurística ascendente a fin de obtener unared bayesiana. La búsqueda comienza con una red de un arco y posteriormente para cada nodoagrega padres que incrementen la probabilidad de la red.

El algoritmo requiere un orden total entre las variables, que es usado para reducir el espacio de búsqueda de grafos acíclicos (AGs). El algoritmo no considera aquellos grafos acíclicos dirigidos(DAGs) donde un nodo precede, en orden, a uno de sus padres.

El algoritmo usa la función (3) para obtener por tanteo los padres de cada variable.

! != =

"+

"=

i iq

j

r

k

ijk

iij

iii N

r N

r Pa X g

1 1

!)!1(

)!1(),( (3)

Donde:

• i

X es la variable i.

• i

r son el número de posibles valores dei

X .

• ik

v es el k-esímo valor dei

X .

• i

Pa es el conjunto de padres dei

X .

• i

w es el conjunto de casos, sin repetición, con solo las variables contenidas eni

Pa .

• iq es el número de casos de

iw .


4/8


4

• ijw es el j-esímo caso de iw .

• ijk N es el número de casos donde ik i v X = y iji w Pa = .

• !=

=

ir

k

ijk ij N N 1

, o sea es el número de casos donde iji w Pa = .

El algoritmo K2 construye un árbol de probabilidades condicionales que se utiliza paraclasificar un nuevo caso con clase desconocida. Se calculan las probabilidades de que el caso pertenezca a cada clase, y la clase predicha será la que mayor probabilidad arroje.

Algoritmo K2

Entrada: D, base de datos con un conjunto de n variables X ,

Pred , orden entre las variables

u, un máximo número de padres por nodo

Salida: Los padres Pa para cada variable de X

1 Pa1 = {} 2 Para i = 2 hasta n hacer

3 Pai = {}

4 P old = g ( X i , Pai)

5 OkToProceed = verdadero

6 Mientras OkToProceed y |Pai| < u hacer

7 Sea z ! Pred ( X i) – Pai el nodo que maximize g ( X i , Pai " { z })

8 P new = g ( X i , Pai " { z })

9 Si P new > P old entonces

10 P old = P new

11 Pai = Pai " { z }

12 Sino

13 OkToProceed = falso

C. Con Aprendizaje Local

Estos métodos se basan en el principio de aprendizaje local para extender NB. Es aceptado que para bases de datos grandes y complejas, no siempre es adecuado utilizar un enfoque único declasificación [1]. Uno de estos métodos es el SNNB.

El algoritmo del clasificador SNNB consta de 3 pasos generales. En el paso 1 se calcula ladistancia entre una nuevo caso X y cada caso t de entrenamiento en el conjunto T , y se almacenantodas los casos de entrenamiento en orden a sus distancias. En los pasos 4 y 5 se obtiene unclasificador NB con todos los datos de entrenamiento y se registra como clasificador candidato. Enlos pasos 6 a 15, se construye una serie de clasificadores NB sobre subconjuntos diferentes de casosde entrenamiento. El parámetro # regula el tamaño de cada subconjunto (o vecindad), el cualdisminuye en cada nueva etapa de construcción.


5/8


5

Algoritmo SNNBEntrada: T , conjunto de casos de entrenamiento

A, conjunto de atributosCLSglobal , clasificador global Naive Bayes de entrenamiento X : nuevo caso

Salida: clase, etiqueta de la clase predicha

1 Agregar t a OWD[distancia(t , X )] para cada t ! T 2 k =| A|, ban=verdadero3 total =|T | 4 K_NB=CLSglobal , NHk =T 5 candidatos={CLSglobal } 6 Mientras (ban=verdadero)7 count =08 Mientras (count


6/8


6

recursivo, esto es el conjunto de datos se divide a su vez en dos subconjuntos, a partir del primer punto de corte identificado, llamados derecho e izquierdo, y se aplica otra vez el procedimiento aéstos, identificando los mejores puntos de corte para cada partición. El proceso se repite hasta queun criterio de paro es alcanzado, el cual es Minimal Description Length (MDL) descrito en [9]. Los puntos de corte identificados se utilizan para formar los intervalos del atributo.

A.2.

Validación cruzadaPara validar el modelo se utiliza el método de validación cruzada [8]. En la figura 1 se muestra un

ejemplo gráfico del procedimiento. Primero se particiona la muestra en subconjuntos de 10 casos(paso 1), y se elimina el primer subconjunto de casos. Enseguida se formula un clasificador de todoslos datos restantes (paso 2). Cada clasificador se valida con el subconjunto de datos que no seutilizó en su construcción (paso3), se promedian las exactitudes de clasificación de los modelos ycomo resultado se obtiene un porcentaje promediado de la calidad del clasificador global.

FIGURA 1. EJEMPLO GRÁFICO DEL MÉTODO DE VALIDACIÓN CRUZADA.

B. Análisis de Resultados

Como se muestra en la tabla 1, los clasificadores que mejor resultado dieron fueron los quedebilitan la suposición de independencia, pero se observa que los constructores de redes bayesinas superan al resto.

Es importante mencionar que el K2 es un método básico para la construcción de una red bayesiana, y que existen otros métodos más sofisticados [5].

TABLA IPORCENTAJES DE EXACTITUD DE CLASIFICACIÓN

Muestra

Datos de

entrenamiento

Paso1

Particionamiento

Paso2

Generación de

clasificadores

Paso3

Prueba de

clasificadores

1

2

3

4

5

30

..

..

..

1

10

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

Subconjunto 1 de datos

( S 1)

..

..

..

11

20

..

..

..

..

..

..

21

30

..

..

..

Sea: ci! C

d k ! D

P(d k | ci)

Clasificador 1

S 2


( S 2)


( S 3)

S 3

Sea:

Clasificador 2

S 1

Sea:

Clasificador 3

P(d k | 2)=0.5*0.25=0.125

P(d k | 6)=0.33*0.18=0.019

clase=2

S1

S2

S3

Clasificador 2

Clasificador 3

=50 %

=63 %

=78 %

=64 %Porcentaje de exactitudde clasificación

Clasificador 1

S 3

S 2 S 1

ci! C

d k ! D

P(d k

| ci)

ci! C

d k ! D

P(d k

| ci)

P(d k | 2)=0.5*0.25=0.125

P(d k | 6)=0.33*0.18=0.019

clase=2

P(d k | 2)=0.5*0.25=0.125

P(d k | 6)=0.33*0.18=0.019

clase=2

Muestra

Datos de

entrenamiento

Paso1

Particionamiento

Paso2

Generación de

clasificadores

Paso3

Prueba de

clasificadores

1

2

3

4

5

30

..

..

..

1

10

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..

..


( S 1)

..

..

..

11

20

..

..

..

..

..

..

21

30

..

..

..

Sea: ci! C

d k ! D

P(d k | ci)

Clasificador 1

S 2


( S 2)


( S 3)

S 3

Sea:

Clasificador 2

S 1

Sea:

Clasificador 3

P(d k | 2)=0.5*0.25=0.125

P(d k | 6)=0.33*0.18=0.019

clase=2

S1

S2

S3

Clasificador 2

Clasificador 3

=50 %

=63 %

=78 %

=64 %Porcentaje de exactitudde clasificación

Clasificador 1

S 3

S 2 S 1

ci! C

d k ! D

P(d k

| ci)

ci! C

d k ! D

P(d k

| ci)

P(d k | 2)=0.5*0.25=0.125

P(d k | 6)=0.33*0.18=0.019

clase=2

P(d k | 2)=0.5*0.25=0.125

P(d k | 6)=0.33*0.18=0.019

clase=2


7/8


7

Conjunto deentrenamiento NB SNNB AODE K2Austral 85.6522 83.0435 85.9420 85.9420Breast 97.4249 97.4249 96.8526 97.2818Crx 86.5217 82.1739 86.3768 86.6667Diabetes 76.8229 73.1771 78.9063 77.7344

German 75.7000 71.7000 76.7000 74.1000Glass 71.9626 73.3645 73.3645 75.2336Heart 83.7037 81.4815 83.7037 82.5926Hepatic 85.1613 85.1613 85.1613 88.3871Horse 80.9783 75.8152 82.8804 80.9783Hypo 98.6405 95.9532 98.9883 99.0515Iono 90.3134 88.6040 93.1624 93.1624Iris 96.6667 96.6667 96.6667 96.6667Labor 92.9825 91.2281 94.7368 98.2456led7 73.3750 72.8750 73.4375 73.4063Lymph 87.1622 70.9459 87.8378 87.1622Pima 76.6927 73.3073 78.9063 77.6042

Sonar 84.6154 84.1346 87.5000 83.6538tic-tac 70.0418 36.8476 74.0084 77.8706Vehicle 64.5390 49.8818 71.8676 73.2861Wine 99.4382 96.0674 99.4382 98.8764Cleve 84.1584 82.8383 84.4884 81.1881Zoo 93.0693 93.0693 95.0495 97.0297Promedio 84.3465 79.8073 85.7262 85.7327

IV. CONCLUSIONES

Los métodos bayesianos resultaron buenos para la mayoría de los conjuntos de entrenamiento,

pero se observa que los métodos que debilitan la suposición de independencia son mejores, sobretodo el que construye una red bayesiana, el K2, que superan al Niave Bayes en más del 1% deexactitud.

Por lo tanto, una buena alternativa en el área de los clasificadores bayesianos, son los queconstruyen una red bayesiana. El K2 es un método básico, por lo que seria de gran utilidad explorarmétodos constructores de redes bayesianas más sofisticados.

También se observó que el clasificador SNNB presentó un comportamiento inferior a NB, por loque sería recomendable explorar otros métodos que realicen aprendizaje local como el LazyBayesian Rule (LBR) [10].

Una sugerencia es explorar técnicas de preprocesamiento, ya que aquí sólo utilizamos una paradiscretizar, pero existen para eliminar valores perdidos, mantener balanceo de datos y elegiratributos importantes, los cuales podrían mejorar la calidad de los conjuntos de entrenamiento.

REFERENCIAS[1]

Zhipeng XIE Wynne HSU Zongtian LIU Mong Li LEE :SNNB : A Selective Neighborhood based Naïve Bayes for Lazy Learning,2002.

[2]

Webb, Geoffrey; Boughton, Janice; Wang, Zhihai: Averaged One-Dependence Estimators: Preliminar Results, 2003.[3]

Friedman, N., & Goldszmidt, M. Building classifiers using Bayesian networks. Proceedings of the Thirteenth National Conference onArtificial Intelligence, pp. 1277-1284, 1996.


8/8


8

[4]

Cheng, J., & Greiner, R. Comparing Bayesian network classifiers. in Proceedings of the fifteenth conference on uncertainty in artificialintelligence, 1999.

[5] Roure J.: Incremental Methods for Bayesian Network Structure Learning. Tesis de Doctorado, Departament de Llenguatges iSistemes d'Informació,Universitat Politècnica de Catalunya,(2004).

[6]

Hettich, S. & Blake, C.L. & Merz, C.J.: UCI Repository of machine learning databaseshttp://www.ics.uci.edu/~mlearn/MLRepository.html . .Irvine, CA: University of California, Department of Information andComputer Science, 1998.

[7]

Dougherty, J., Kohavi, R., and Sahami, M.: Supervised and unsupervised discretization of continuous features. In Proceedings ofthe Twelfth Internationa Conference on Machine Learning, pp. 194-202, 1995.

[8]

Dallas, Johnson: Métodos Multivariados Aplicados al Análisis de Datos, International Thomson Editores, 1998.[9] Dougherty, James, Kohavi, Ron, Sahami, Mehran: Supervised and Unsupervised Discretization of Continuos Features, 1995.[10]

Zheng, Z. and Webb, G.I. Lazy Learning of Bayesian Rules. Machine Learning, 2000, Vol. 41(1), Kluwer Academic Publishers, pp.53-84

análisis del desempeño de métodos avanzados de clasificación bayesiana

Documents