inteligencia artificial. revista iberoamericana de ... · algoritmos de estimaciÓn de...

Inteligencia Artificial. Revista Iberoamericana de Inteligencia ArtificialAsociación Española para la Inteligencia [email protected] ISSN (Versión impresa): 1137-3601ISSN (Versión en línea): 1988-3064ESPAÑA

2003 Pedro Larrañaga / Jose A. Lozano / H. Mühlenbein

ALGORITMOS DE ESTIMACIÓN DE DISTRIBUCIONES EN PROBLEMAS DE OPTIMIZACIÓN COMBINATORIA

Inteligencia Artificial. Revista Iberoamericana de Inteligencia Artificial, año/vol. 7, número 019

Asociación Española para la Inteligencia Artificial Valencia, España

Red de Revistas Científicas de América Latina y el Caribe, España y Portugal

Universidad Autónoma del Estado de México

http://redalyc.uaemex.mx

mailto:[email protected]

http://redalyc.uaemex.mx/

http://redalyc.uaemex.mx/

Inteligencia Artificial, Revista Iberoamericana de Inteligencia Artificial. No.19 (2003),pp. 149-168 ISSN: 1137-3601. © AEPIA (http://www.aepia.org/revista).

Estimation of Distribution Algorithms Applied To Combinatorial Optimization Problems

Pedro Larrañaga (1), José A. Lozano (1), H. Mühlenbein (2)

(1) Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco - Euskal Herriko Unibertsitatea

Spain

(2) GMD Forschungszentrum Informationstechnik Sank Agustin

Germany

e-mail: [email protected], [email protected], [email protected] Estimation of Distribution Algorithms (EDAs) are a new tool for Evolutionary Computation. Based on Genetic Algorithms (GAs) this new class of algorithms generalizes GAs by replacing the crossover and mutation operators by learning and sampling the probability distribution of the best individuals of the population at each iteration. In this paper we present an introduction to EDAs in the field of combinatorial optimization. The algorithms are organised taking the complexity of the probabilistic model used into account. We also provide some points to the literature.

Algoritmos de Estimacion de Distribuciones en

Problemas de Optimizacion Combinatoria

Pedro Larranaga *

Departamento de Ciencias de la Computacion e Inteligencia Artificial

Universidad del Paıs Vasco-Euskal Herriko Unibertsitatea. Spain

[email protected]

Jose Antonio Lozano

Departamento de Ciencias de la Computacion e Inteligencia Artificial

Universidad del Paıs Vasco-Euskal Herriko Unibertsitatea. Spain

[email protected]

Heinz Muhlenbein

GMD Forschungszentrum Informationstechnik

Sank Agustin. Germany

[email protected]

Resumen

Los algoritmos de estimacion de distribuciones son un conjunto de metodos englobados dentro delparadigma de la computacion evolutiva. Estos metodos se basan principalmente en sustituir el crucey la mutacion por la estimacion y posterior muestreo de una distribucion de probabilidad aprendida apartir de los individuos seleccionados. Este conjunto de algoritmos ha sido objeto de gran atencion porparte de la comunidad cientıfica alrededor de la computacion evolutiva y los modelos graficos proba-bilısticos. El presente artıculo pretende introducir los algoritmos de estimacion de distribuciones en elcampo de la optimizacion combinatoria, al mismo tiempo que realizar una revision exhaustiva de la bib-liografıa. La presentacion de los diferentes algoritmos se realizara ordenandolos en base a la complejidadde las interrelaciones que son capaces de expresar los modelos probabilısticos que genera cada algoritmo.

1. Introduccion

El comportamiento de los algoritmos de com-putacion evolutiva mas habituales (algoritmosgeneticos y estrategias evolutivas) depende devarios parametros asociados a los mismos (ope-radores de cruce y mutacion, probabilidades

*Este trabajo ha sido subvencionado por el Minis-terio de Ciencia y Tecnologıa, bajo la ayuda TIC2001-2973-C05-03

de cruce y mutacion, tamano de la poblacion,numero de generaciones, tasa de reemplaza-miento generacional, etc.). Si no se tiene ex-periencia en el uso del algoritmo evolutivo enel problema de optimizacion que se pretenderesolver, la determinacion de los valores ade-cuados para los parametros anteriores se con-vierte en si mismo en un problema de opti-mizacion, tal y como fue expuesto por Grefen-stette (1986). Este motivo, junto con el he-cho de que la prediccion de los movimientos

1

de la poblacion de individuos en el espacio debusqueda sea extremadamente difıcil, ha mo-tivado el nacimiento de un tipo de algoritmosconocidos como algoritmos de estimacion dedistribuciones (Estimation of Distribution Al-gorithms (EDAs)). Los EDAs fueron introduci-dos en el ambito de la computacion evolutivapor Muhlenbein y Paaß (1996). Aproximacionessimilares previas pueden encontrarse en el librode Zhigljavsky (1991).

Holland (1975) se percato de que el teneren consideracion las variables que interactua-ban podıa ser beneficioso para los algoritmosgeneticos. El explotar este tipo de informacionse conoce bajo el termino de linkage learning.Estas mismas ideas han sido seguidas por otrosautores, tales como Goldberg y col. (1989),Goldberg y col. (1993), Kargupta (1996), Kar-gupta y Goldberg (1997), Bandyopadyay y col.(1998), Lobo y col. (1998), van Kemenade(1998) y Bosman y Thierens (1999b). En losanteriores trabajos, los algoritmos geneticos seextienden para procesar los denominados build-ing blocks, entendiendo por los mismos agrupa-ciones de variables que conviene que el algorit-mo genetico no destruya en su proceso evoluti-vo.

En contraposicion con los algoritmos geneticos,los EDAs no requieren de operadores de cruce nide mutacion. La nueva poblacion de individuosse obtiene por simulacion de una distribucionde probabilidad, la cual es estimada a partir deuna base de datos conteniendo los individuosseleccionados en la generacion anterior. Mien-tras que en el resto de algoritmos evolutivoslas interrelaciones entre las variables (genes oposiciones de los individuos) se mantienen im-plıcitas, en los EDAs dichas interrelaciones seexpresan de manera explıcita a traves de la dis-tribucion de probabilidad conjunta asociada alos individuos seleccionados en cada generacion.De hecho, dicha estimacion de la distribucionde probabilidad conjunta de los individuos se-leccionados es (tal y como se vera a lo largo deltrabajo) el verdadero cuello de botella de estanueva aproximacion.

El objetivo fundamental de este trabajo es elpresentar una revision de las distintas apro-ximaciones desarrolladas para los EDAs en elcampo combinatorio. Para una revision exhaus-tiva de los EDAs tanto en el campo combi-natorio como en el continuo, el lector puede

consultar los siguientes trabajos Larranaga ycol. (1999a, 1999b), y Pelikan y col. (1999b),ası como el reciente libro de Larranaga y Lozano(2002). Vease Gonzalez y col. (2001) para unarevision de resultados teoricos relacionados conEDAs.

2. Un ejemplo sencillo

Con el objetivo de entender los distintos com-ponentes y pasos de los EDAs, vamos a aplicarla version mas simple de los mismos a un ejem-plo trivial de optimizacion.

Supongamos que estamos tratando de maxi-mizar la funcion OneMax definida en un espa-cio de dimension 6. Es decir, estamos tratandode obtener el maximo de la funcion: h(x) =∑6

i=1 xi con xi = 0, 1.

La poblacion inicial se obtiene al azar muestre-ando la siguiente distribucion de probabilidad:p0(x) =

∏6i=1 p0(xi), donde p0(Xi = 1) =

0,5 para i = 1, . . . , 6. Esto significa que la dis-tribucion de probabilidad de la que estamosmuestreando se factoriza como el producto deseis distribuciones de probabilidad marginalesunivariantes, cada una de las cuales sigue unadistribucion de Bernouilli con un parametrop = 0,5. Denotamos por D0 el fichero de 20 ca-sos –vease Cuadro 1– obtenido a partir de estasimulacion.

En un segundo paso, seleccionamos algunos in-dividuos de D0. Esto puede hacerse usandocualquiera de los metodos estandar de seleccionhabituales en computacion evolutiva. Supong-amos que nuestro metodo de seleccion es trun-cacion, y que seleccionamos la mitad de lapoblacion. Denotamos por DSe

0 el fichero de ca-sos conteniendo a los individuos seleccionados.En caso de empates en la funcion de evalua-cion de varios individuos (por ejemplo los in-dividuos numerados como 1, 9, 12, 18 y 20),la seleccion se efectua de manera probabilısti-ca mediante una distribucion uniforme. En esteejemplo, necesitamos escoger 3 individuos delconjunto de individuos cuya funcion de evalua-cion es 3.

Una vez que tenemos los 10 individuos seleccio-nados, DSe

0 , –vease Cuadro 2– se trata de ex-presar de manera explıcita, usando la distribu-

Cuadro 1: La poblacion inicial, D0.X1 X2 X3 X4 X5 X6 h(x)

1 1 0 1 0 1 0 32 0 1 0 0 1 0 23 0 0 0 1 0 0 14 1 1 1 0 0 1 45 0 0 0 0 0 1 16 1 1 0 0 1 1 47 0 1 1 1 1 1 58 0 0 0 1 0 0 19 1 1 0 1 0 0 310 1 0 1 0 0 0 211 1 0 0 1 1 1 412 1 1 0 0 0 1 313 1 0 1 0 0 0 214 0 0 0 0 1 1 215 0 1 1 1 1 1 516 0 0 0 1 0 0 117 1 1 1 1 1 0 518 0 1 0 1 1 0 319 1 0 1 1 1 1 520 1 0 1 1 0 0 3

cion de probabilidad conjunta, las caracterısti-cas de dichos individuos seleccionados. Aunquesomos conscientes de que es una buena ideaque dicha distribucion de probabilidad conjuntatenga en cuenta todas las interdependencias en-tre las variables, en este ejemplo vamos a cons-truir el modelo probabilıstico mas sencillo. Enel mismo, cada variable se considera indepen-diente del resto de las variables. Usando no-tacion matematica, tenemos:

p1(x) = p1(x1, . . . , x6) =

6∏

i=1

p(xi|DSe0 ).

Por tanto tan solo necesitamos 6 parametrospara especificar el modelo. Cada parametro,p(xi|D

Se0 ) con i = 1, ..., 6, se estimara a par-

tir del fichero de casos DSe0 por medio de sus

frecuencias relativas correspondientes, p(Xi =1|DSe

0 ).

Se obtienen los siguientes valores para losparametros:

p(X1 = 1|DSe0 ) = 0,7 p(X2 = 1|DSe

0 ) = 0,7p(X3 = 1|DSe

0 ) = 0,6 p(X4 = 1|DSe0 ) = 0,6

p(X5 = 1|DSe0 ) = 0,8 p(X6 = 1|DSe

0 ) = 0,7.

Muestreando esta distribucion de probabi-lidad conjunta, p1(x), obtenemos una nueva

Cuadro 2: Los individuos seleccionados de lapoblacion inicial DSe

0 .X1 X2 X3 X4 X5 X6

1 1 0 1 0 1 04 1 1 1 0 0 16 1 1 0 0 1 17 0 1 1 1 1 111 1 0 0 1 1 112 1 1 0 0 0 115 0 1 1 1 1 117 1 1 1 1 1 018 0 1 0 1 1 019 1 0 1 1 1 1

Cuadro 3: La poblacion de individuos en laprimera generacion, D1.

X1 X2 X3 X4 X5 X6 h(x)1 1 1 1 1 1 1 62 1 0 1 0 1 1 43 1 1 1 1 1 0 54 0 1 0 1 1 1 45 1 1 1 1 0 1 56 1 0 0 1 1 1 47 0 1 0 1 1 0 38 1 1 1 0 1 0 49 1 1 1 0 0 1 410 1 0 0 1 1 1 411 1 1 0 0 1 1 412 1 0 1 1 1 0 413 0 1 1 0 1 1 414 0 1 1 1 1 0 415 0 1 1 1 1 1 516 0 1 1 0 1 1 417 1 1 1 1 1 0 518 0 1 0 0 1 0 219 0 0 1 1 0 1 320 1 1 0 1 1 1 5

Cuadro 4: Los individuos seleccionados, DSe1 ,

de la poblacion en su primera generacion.X1 X2 X3 X4 X5 X6

1 1 1 1 1 1 12 1 0 1 0 1 13 1 1 1 1 1 05 1 1 1 1 0 16 1 0 0 1 1 18 1 1 1 0 1 09 1 1 1 0 0 115 0 1 1 1 1 117 1 1 1 1 1 020 1 1 0 1 1 1

poblacion de individuos, D1. En la Cuadro 3se puede consultar los 20 individuos obtenidos,cada uno de los cuales es evaluado por medio deh(x). De nuevo seleccionamos los 10 mejores in-dividuos de D1, obteniendo –tal y como puedeverse en Cuadro 4– el fichero de casos DSe

1 .

A partir de este fichero de casos podemos obte-ner

p2(x) = p2(x1, . . . , x6) =

6∏

i=1

p(xi|DSe1 )

donde p(xi|DSe1 ) con i = 1, ..., 6 es estimada

a partir de DSe1 por medio de las frecuencias

relativas correspondientes, p(Xi = 1|DSe1 ).

En este caso los valores de los parametros son:

p(X1 = 1|DSe1 ) = 0,9 p(X2 = 1|DSe

1 ) = 0,8p(X3 = 1|DSe

1 ) = 0,8 p(X4 = 1|DSe1 ) = 0,7

p(X5 = 1|DSe1 ) = 0,8 p(X6 = 1|DSe

1 ) = 0,7.

Estos tres pasos consistentes en (i) seleccionaralgunos individuos de la poblacion de indivi-duos presente, (ii) estimar la distribucion deprobabilidad de los individuos seleccionados, y(iii) muestrear de la distribucion de probabi-lidad estimada, se repiten hasta que se veri-fique un criterio de parada previamente estable-cido. En el pseudocodigo de la Figura 1, pode-mos consultar un esquema de la aproximacionEDA. Al comienzo se generan M individuos alazar, por ejemplo a partir de una distribucionuniforme para cada variable. Estos M indivi-duos constituyen la poblacion inicial, D0, y ca-da uno de ellos es evaluado. En un primer paso,un numero N (N ≤ M) de individuos es se-leccionado (normalmente aquellos con mejores

EDAD0 ← Generar M individuos al azar

Repetir for l = 1, 2, . . . hastaque se cumpla el criterio de parada

DSel−1 ← Seleccionar N ≤M individuos

de Dl−1 acorde con el metodo de seleccion

pl(x) = p(x|DSel−1) ← Estimar la

distribucion de probabilidadde los individuos seleccionados

Dl ← Muestrear M individuos (la nuevapoblacion) a partir de pl(x)

Figura 1: Pseudocodigo de la aproximacionEDA.

valores de funcion objetivo). A continuacion, seefectua la induccion del modelo probabilısticon–dimensional que mejor refleja las interdepen-dencias entre las variables. En un tercer pa-so, se obtienen M nuevos individuos (la nue-va poblacion) a partir de la simulacion de ladistribucion de probabilidad que se ha apren-dido en el paso previo. Los tres pasos anterio-res se repiten hasta que se verifique la condi-cion de parada. Ejemplos de la misma son: eva-luacion de un numero fijo de individuos o depoblaciones, uniformidad en la poblacion gene-rada, no mejora en relacion con el mejor in-dividuo obtenido en la generacion previa, etc.El problema principal con los EDAs radica

en como estimar la distribucion de probabili-dad pl(x). Obviamente, la computacion de to-dos los parametros necesarios para especificarla distribucion de probabilidad n–dimensionalconjunta no es practica, a nada que n crezca.La manera de abordar el problema es considerarque la distribucion de probabilidad se factorizade acuerdo a un modelo de probabilidad sim-plificado.

3. EDAs en optimizacion

combinatoria

3.1. Introduccion

En esta seccion vamos a revisar distintas pro-puestas de EDAs para la optimizacion combi-natoria. Hemos organizado la seccion en basea la complejidad del modelo probabilıstico usa-do para aprender las interdependencias entrelas variables a partir de la base de datos conte-niendo a los individuos seleccionados.

3.2. Sin dependencias

En todos los trabajos pertenecientes a esta ca-tegorıa se asume que la distribucion de pro-babilidad n–dimensional conjunta factoriza co-mo un producto de n distribuciones de proba-bilidad univariantes e independientes. Es de-cir, pl(x) =

∏ni=1 pl(xi) –vease Figura 5 para

una representacion grafica. Obviamente estahipotesis de independencia esta muy alejada delo que ocurre en un problema difıcil de opti-mizacion combinatoria, en el cual existen inter-dependencias entre las variables.

3.2.1. UMDA

Muhlenbein (1998) introdujo el UnivariateMarginal Distribution Algorithm (UMDA).UMDA generaliza trabajos previos de Syswerda(1993), Eshelman y Schaffer (1993) y Muhlen-bein y Voigt (1996).

El pseudocodigo para el UMDA puede consul-tarse en Figura 2. Como puede verse en la Figu-ra 2 el modelo usado para estimar en cada gen-eracion la distribucion de probabilidad conjuntaa partir de los individuos seleccionados, pl(x),es lo mas simple posible. De hecho la distribu-cion de probabilidad conjunta se ha factorizadocomo producto de distribuciones univariantesindependientes. Es decir:

pl(x) = p(x|DSel−1) =

n∏

i=1

pl(xi).

Cada distribucion de probabilidad univariante

UMDAD0 ← Generar M individuos (lapoblacion inicial) al azar

Repetir para l = 1, 2, . . . hasta que severifique el criterio de parada


de Dl−1 de acorde con unmetodo de seleccion


∏ni=1 pl(xi) =

∏ni=1

∑ Nj=1

δj(Xi=xi|DSel−1)

N←

Estimar la distribucion de probabilidadconjunta

Dl ← Muestrear M individuos (la nuevapoblacion) a partir de pl(x)

Figura 2: Pseudocodigo para UMDA.

se estima a partir de las frecuencias marginales:

pl(xi) =

∑Nj=1 δj(Xi = xi|D

Sel−1)

N

donde

δj(Xi = xi|DSel−1) =

1 si en el j-esimo casode DSe

l−1, Xi = xi

0 en otro caso.

Se pueden consultar Santana y Ochoa (1999) ySantana y col. (2000) para modificaciones en lafase de simulacion del UMDA. En Inza y col.(2000) se puede ver una aplicacion al problemade la seleccion de variables, mientras que Rivera(1999) aplica el UMDA para la busqueda de unsistema clasificador. Analisis matematicos delUMDA pueden consultarse en los trabajos deMahnig y Muhlenbein (2000) y Muhlenbein yMahnig (2000).

3.2.2. PBIL

El algoritmo PBIL (Population Based Incre-mental Learning) fue introducido por Baluja(1994), y posteriormente mejorado por Balujay Caruana (1995), con el objetivo de obtener el

optimo de una funcion definida en un espaciobinario n–dimensional: Ω = 0, 1n. En cadageneracion, la poblacion de individuos se repre-senta como un vector de probabilidades:

pl(x) = (pl(x1), . . . , pl(xi), . . . , pl(xn))

donde pl(xi) denota la probabilidad de obtenerel valor 1 en la i-esima componente de Dl, esdecir en la poblacion de individuos de la l-esimageneracion.

El algoritmo funciona de la siguiente manera.En cada generacion, usando el vector de pro-babilidades, pl(x), se obtienen M individuos.Cada uno de estos M individuos es evaluadoy los N mejores (N ≤ M) son seleccionados.Denotamos los mismos de la siguiente manera:

xl1:M , . . . ,xl

i:M , . . . ,xlN :M .

Estos individuos seleccionados son usados paraactualizar el vector de probabilidades, usandouna regla Hebbiana:

pl+1(x) = (1− α)pl(x) + α1

N

N∑

k=1

xlk:M

donde α ∈ (0, 1] es un parametro del algoritmo.Notese que PBIL tan solo puede verse como unainstancia de los EDAs en el caso en que α = 1.En tal caso PBIL coincide con UMDA.

La Figura 3 muestra un pseudocodigo del al-goritmo PBIL. El algoritmo PBIL ha recibidomucha atencion por parte de la comunidad in-vestigadora. Prueba de ello es el gran numerode trabajos existentes en la literatura.

Baluja (1995) compara el algoritmo PBIL conotros seis heurısticos en diferentes problemasde optimizacion. Tambien en Monmarche y col.(1999, 2000) pueden consultarse distintas com-paraciones empıricas. Galic y Hohfeld (1996),Maxwell y Anderson (1999) y Gallagher (2000)aplican PBIL al problema de obtener los pe-sos optimos en una red neuronal. Servais y col.(1997) y Kvasnicka y col. (1996) proponen unaextension de PBIL a espacios de busqueda decardinalidad generica. Otros trabajos en los quese pueden ver modificaciones del metodo basicoson Schmidt y col. (1999), Fyfe (1999) y Balu-ja (1997). Sukthankar y col. (1997) muestranuna aplicacion a un problema relacionado convehıculos inteligentes, Salustowicz y Schmidhu-ber (1997, 1998) muestran aplicaciones de PBIL

Obtener un vector inicial deprobabilidades p0(x)

while no convergencia do

begin

Usando pl(x) obtener M individuos:x

l1, . . . ,x

lk, . . . ,xl

M

Evaluar y ordenar xl1, . . . ,x

lk, . . . ,xl

M

Seleccionar los N (N ≤M) mejoresindividuos: x

l1:M , . . . ,xl

k:M , . . . ,xlN :M

Actualizar el vector de probabilidadespl+1(x) = (pl+1(x1), . . . , pl+1(xn))

for i = 1, . . . n do

pl+1(xi) =

(1− α)pl(xi) + α 1N

∑Nk=1 xl

i,k:M

end

Figura 3: Pseudocodigo del algoritmo PBIL.

a la programacion genetica e Inza y col. (2001c)presentan una aplicacion en un dominio medi-co.

Trabajo teorico relacionado con el algoritmoPBIL incluye las siguientes referencias: Hohfeldy Rudolph (1997) demuestran la convergen-cia en media para funciones lineales, Berny(2000a) deriva el algoritmo desde un punto devista de un sistema dinamico, Gonzalez y col.(2001a) prueban la fuerte dependencia del algo-ritmo con respecto a los valores iniciales de losparametros, y Gonzalez y col. (2001b) analizanel algoritmo usando un sistema dinamico dis-creto. Tambien puede consultarse la tesis doc-toral de Juels (1997). Es resenable asimismoque Thathachar y Sastry (1987) introducen afinales de los ochenta un algoritmo muy similara PBIL.

3.2.3. cGA

Harik y col. (1998) presentan un algoritmo de-nominado compact Genetic Algorithm (cGA)

1. Inicializar el vector de probabilidades p0(x)p0(x) = p0(x1, . . . , xi, . . . , xn) =

(p0(x1), . . . , p0(xi), . . . , p0(xn)) =(0,5, . . . , 0,5, . . . , 0,5)

2. l = l + 1. Muestrear pl(x) con l = 0, 1, . . .

obtener dos individuos: l1,x

l2

3. Evaluar y ordenar xl1 y x

l2 obteniendo:

xl1:2 (el mejor de los dos) y

xl2:2 (el peor de los dos)

4. Actualizar el vector de probabilidadespl(x) hacia x

l1:2

for i = 1 to n do

if xli,1:2 6= xl

i,2:2 then

if xli,1:2 = 1 then pl(xi) = pl−1(xi) + 1

K

if xli,1:2 = 0 then pl(xi) = pl−1(xi)−

1K

5. Comprobar si el vector de probabilidadespl(x) ha convergido

for i = 1 to n do

if pl(xi) > 0 y pl(xi) < 1 then

volver al Paso 2

6. pl(x) representa la solucion final

Figura 4: Pseudocodigo del algoritmo cGA.

que puede verse como un ejemplo de EDA uni-variado. El algoritmo (para una representacionbinaria) comienza inicializando un vector deprobabilidades donde cada componente sigueuna distribucion de Bernouilli con parametrop = 0,5. A continuacion se generan dos indivi-duos al azar a partir de este vector de probabili-dades. Una vez evaluados los dos individuos, seefectua una competicion entre ambos. La com-peticion se lleva a cabo a nivel de cada variableunidimensional, de tal manera que si para la i-esima posicion el individuo con mejor funcionde evaluacion toma un valor diferente del quetiene el individuo con peor valor, entonces la i-esima componente del vector de probabilidadesincrementa o disminuye en una constante la i-esima posicion del vector de probabilidades enfuncion de que la i-esima componente del indi-viduo vencedor sea respectivamente un uno oun cero. Este proceso de adaptacion del vectorde probabilidades hacia el individuo vencedor

continua hasta que el vector de probabilidadeshaya convergido. La Figura 4 muestra un pseu-docodigo para el cGA.

La Figura 5 muestra una representacion grafi-ca de los distintos modelos probabilısticos sininterdependencias.

Figura 5: Representacion grafica de los modelosprobabilısticos propuestos para los EDAs en op-timizacion combinatoria sin considerar interde-pendencias entre las variables (UMDA, PBIL,cGA).

3.3. Dependencias bivariadas

La estimacion de la distribucion de probabili-dad conjunta puede hacerse de manera rapiday sin necesidad de asumir independencia entrelas variables, por medio de la consideracion dedependencias entre pares de variables. En talcaso es suficiente con considerar estadısticos deorden dos. Mientras que en los algoritmos de laseccion previa tan solo se llevaba a cabo una es-timacion de los parametros, ya que la estructurapermanecıa fija, en este apartado el aprendizajeparametrico se extiende a estructural.

3.3.1. MIMIC

En De Bonet y col. (1997) se presenta un al-goritmo voraz denominado MIMIC (Mutual In-formation Maximization for Input Clustering).MIMIC busca en cada generacion la mejor per-mutacion entre las variables con el objetivo deencontrar en cada generacion la distribucion deprobabilidad pπ

l (x), que se encuentra mas cer-cana en divergencia de Kullback-Leibler a la

1. Seleccionar in = arg mınj hl(Xj)

2. for k = n− 1, . . . , 1

Escoger ik = arg mınj hl(Xj | Xik+1)

j 6= ik+1, . . . , in

3. pπl (x) =

pl(xi1 | xi2) · · · pl(xin−1| xin

) · pl(xin)

Figura 6: La aproximacion MIMIC para la esti-macion de la distribucion de probabilidad en lageneracion l. Los sımbolos hl(X) y hl(X | Y )denotan respectivamente la entropıa empıricade X y la entropıa empırica de X dado Y . Am-bas son estimadas a partir de DSe

l .

distribucion empırica del conjunto de indivi-duos seleccionados.

pπl (x) = pl(xi1 | xi2) · · · pl(xin−1

| xin) · pl(xin

)

donde π = (i1, i2, . . . , in) denota una per-mutacion de los ındices 1, 2, . . . , n.

Se puede demostrar que la divergencia deKullback-Leibler entre dos distribuciones deprobabilidad, pl(x) y pπ

l (x), se puede expresarcomo:

Hπl (x) = hl(Xin

) +

n−1∑

j=1

hl(Xij| Xij+1

)

donde h(X) = −∑

x p(X = x) log p(X = x)denota la entropıa de Shannon de la variableX, y h(X | Y ) =

∑

y h(X | Y = y)p(Y = y),donde h(X | Y = y) = −

∑

x p(X = x | Y =y) log p(X = x|Y = y), denota la incertidumbremedia en X dado Y . El problema de buscar lamejor pπ

l (x) es equivalente a la busqueda de lapermutacion π∗ que minimiza Hπ

l (x). Para en-contrar π∗, De Bonet y col. (1997) proponen unalgoritmo voraz hacia adelante que evita el bus-car en todo el espacio de permutaciones, cuyadimension es n!. La idea es seleccionar Xin

co-mo la variable con menor entropıa estimada,para a continuacion en pasos sucesivos, selec-cionar la variable –del conjunto de variables noseleccionadas hasta el momento– cuya entropıacondicional media condicionada a la variable se-leccionada en el paso anterior es mınima. La

Figura 6 muestra el pseudocodigo para la esti-macion de la distribucion de probabilidad con-junta efectuada por el algoritmo MIMIC.

3.3.2. COMIT

Baluja y Davies (1997a) propusieron un algorit-mo que utiliza distribuciones de probabilidadbasadas en relaciones bivariantes entre varia-bles, para de esta forma generar un arbol dedependencia optimo en terminos de verosimili-tud.

En este apartado nos vamos a concentrar enun algoritmo denominado COMIT (CombiningOptimizers with Mutual Information Trees) elcual hibridiza la aproximacion EDA con un op-timizador local. COMIT se introdujo por Balu-ja y Davies (1997b, 1998). Puede consultarsesu pseudocodigo en Figura 7. Notese la diferen-cia entre esta aproximacion y la presentada enla Figura 1 donde la estimacion de la distribu-cion de probabilidad conjunta es a traves delos individuos seleccionados de la poblacion us-ando el modelo estimado en la generacion pre-via. La estimacion de la distribucion de proba-bilidad de los individuos seleccionados en ca-da generacion se efectua por medio de una redBayesiana aprendida por medio del algoritmopropuesto por Chow y Liu (1968). Una vezque se ha aprendido el modelo probabilıstico,la nueva generacion de individuos se obtienepor muestreo del mismo. Los mejores de dichosindividuos se consideran como puntos inicialespara llevar a cabo un procedimiento de busque-da rapida. Algunos de los mejores individuosobtenidos como resultados de estas busquedasrapidas se anaden a los individuos selecciona-dos en la generacion previa para crear la nuevageneracion de individuos.

3.3.3. BMDA

Pelikan y Muhlenbein (1999) proponen una fac-torizacion de la distribucion de probabilidadconjunta que tan solo necesita de estadısticosde orden dos. Su aproximacion, denominadaBMDA (Bivariate Marginal Distribution Algo-rithm), esta basada en la construccion de ungrafo dirigido de dependencias acıclico, pero nonecesariamente conectado. De hecho el grafo dedependencia puede verse como un conjunto de

COMITD0 ← Generar M individuos al azar

Repetir for l = 1, 2, . . . hasta que se verifiqueun criterio de parada

DSel−1 ← Seleccionar N ≤M individuos deDl−1 acorde con el metodo de seleccion


∏ni=1 pl(xi | xj(i)) ←

Estimar la distribucion de probabilidadde los individuos seleccionados usando elalgoritmo MWST de Chow and Liu (1968)

DSal ← Muestrear M1 individuos de pl(x)

DF−Sl ← Obtener M −N individuospor medio de un procedimiento rapidoinicializado con la mejor solucion de DSa

l

Dl ← DF−Sl ∪DSe

l−1

Figura 7: Pseudocodigo del algoritmo COMIT.

arboles que no estan necesariamente conectadosentre sı.

La idea basica subyacente a la construccion delgrafo de dependencia es simple. En primer lu-gar se escoge una variable arbitraria y se anadela misma como un nodo del grafo. A continua-cion se introduce aquella variable que presentemayor dependencia –medida la misma a par-tir del estadıstico χ2 de Pearson– con respectoa la seleccionada en el paso previo. En el si-guiente paso, necesitamos anadir al grafo la va-riable –que perteneciendo al conjunto de varia-bles no seleccionadas hasta el momento– tengamayor dependencia en relacion a cualquiera delas variables previamente incorporadas al grafo.Este paso se repite hasta que todas las medi-das de dependencias entre pares de variables–una de las cuales esta en el grafo, mientrasque la otra pertenece al conjunto de variablesno seleccionadas– no superen un umbral previa-mente determinado. En tal momento, se debeseleccionar al azar una variable de entre el con-junto de variables que no pertenecen al grafo enese momento. Todo el proceso se debe de repe-tir hasta que todas las variables se anadan algrafo.

a) MIMIC structure

b) Tree structure c) BMDA

Figura 8: Representacion grafica de los modelosprobabilısticos para EDAs con dependencias apares (MIMIC, COMIT, BMDA).

En cada generacion la factorizacion obtenidapor el BMDA es de la forma siguiente:

pl(x) =∏

Xr∈Rl

pl(xr)∏

Xi∈V \Rl

pl(xi | xj(i))

donde V denota el conjunto de n variables, Rl

denota el conjunto conteniendo la variable raız–en la generacion l– por cada una de las com-ponentes conectadas del grafo de dependencia,y Xj(i) representa la variable conectada a la va-riable Xi y anadida antes que Xi.

Las probabilidades de los nodos raıces, pl(xr),al igual que las probabilidades condicionadas,pl(xi | xj(i)), se estiman a partir de la basede datos, DSe

l−1, conteniendo los individuos se-leccionados.

La Figura 8 presenta una representacion de losEDAs con dependencias a pares.

3.4. Dependencias multiples

En la literatura se han propuesto varios algo-ritmos EDAs en los cuales la factorizacion de ladistribucion de probabilidad conjunta requierede estadısticos de orden superior a dos.

El primer trabajo en el que se contempla laposibilidad de adaptar los metodos usados enla induccion de modelos graficos probabilısticosa partir de datos en un algoritmo EDA fuepresentando por Baluja y Davies (1997a). Sinembargo los autores no muestran ningunaevidencia de implementacion de su propuesta.

La mayorıa de estos algoritmos utilizan redesBayesianas para codificar las distribucion deprobabilidad en cada paso. El lector interesadoen los modelos graficos probabilısticos puedeconsultar Castillo y col.(1999) para una ampliaintroduccion a los mismos.

3.4.1. EcGA

Harik (1999) presenta un algoritmo –Extendedcompact Genetic Algorithm (EcGA)– cuya ideabasica consiste en usar en cada generacionun modelo de factorizacion de la distribucionde probabilidad conjunta como producto demarginales de tamano variable. Dicho modelose inducirıa en cada generacion del conjunto deindividuos seleccionados. Las distribuciones deprobabilidad marginales de tamano variable serelacionan con las variables que estan en el mis-mo grupo. El agrupamiento de variables se llevaa cabo por medio de un algoritmo voraz haciaadelante gracias al cual se obtiene una particionde las n variables. Cada grupo de variables seconsidera que es independiente del resto –tal ycomo se muestra en la Figura 11–. De esta ma-nera la factorizacion de la distribucion de pro-babilidad conjunta de las n variables es de laforma:

pl(x) =∏

c∈Cl

pl(xc)

donde Cl denota el conjunto de grupos de va-riables en la l-esima generacion, y pl(xc) repre-senta la distribucion de probabilidad marginalde las variables Xc, es decir de las variablesque pertenecen al c-esimo grupo en la l-esimageneracion.

Como el algoritmo EcGA obtiene una particiondel conjunto de las n variables, se tiene que paratodo l y para todo c, k ∈ Cl:

⋃

c∈Cl

Xc = X1, . . . ,Xn, Xc ∩Xk = ∅.

El algoritmo voraz que busca los grupos de va-riables comienza con una particion con n gru-pos (una variable en cada grupo). A continua-cion el algoritmo lleva a cabo la union de lasdos variables que proporcionan la mayor reduc-cion de una medida que conjuga la suma de lasentropıas de las distribuciones marginales conuna penalizacion de la complejidad basada en

el principio de descripcion de longitud mınima(Rissanen, 1978).

La medida que EcGA trata de minimizar encada generacion tiene dos componentes:

La complejidad de la poblacion comprimi-da definida usando las entropıas de las dis-tribuciones marginales, como sigue:

N∑

c∈Cl

h(Xc) =

−N∑

c∈Cl

∑

xc

p(Xc = xc) log p(Xc = xc)

y

La complejidad del modelo la cual tiene encuenta la dimension del modelo de la ma-nera siguiente:

log N∑

c∈Cl

dim Xc

donde dimXc representa el numero deparametros necesarios para especificar ladistribucion marginal Xc. En el caso deque todas las variables unidimensionalespertenecientes al grupo c-esimo fuesen bi-

narias, se obtendrıa dimXc = 2|Xc| − 1.

Teniendo en cuenta ambos componentes, la me-dida que EcGA trata de minimizar en cada gen-eracion es:

−N∑

c∈Cl

∑

xc

p(Xc = xc) log p(Xc = xc)+

log N∑

c∈Cl

dimXc.

Esta medida fue denominada complejidad com-binada por Harik (1999). El algoritmo debusqueda voraz utilizado por EcGA comien-za cada generacion suponiendo que todas lasvariables son independientes. En cada paso elalgoritmo trata de juntar los dos grupos cuyaunion tiene un valor en complejidad combinadamenor. Este proceso continua hasta que ningu-na posible union es capaz de proporcionar unareduccion en la anterior medida. El modelo deproducto marginal resultante es el que sera usa-do en esa generacion.

Tal y como puede verse en la Figura 9, la se-leccion por torneo se utiliza en cada generacion

EcGAD0 ← Generar M individuos al azar

Repetir for l = 1, 2, . . . hasta que se verifiqueel criterio de parada


de Dl−1 usando el metodo de seleccionpor torneo


∏

c∈Clpl(xc|D

Sel−1)

Estimar la distribucion de probabilidadde los individuos seleccionados por mediode un modelo de producto de marginales.El modelo se busca de manera voraztratando de minimizar:−N

∑

c∈Cl

∑

xcp(Xc = xc) log p(Xc = xc)+

log N∑

c∈CldimXc

Dl ← Muestrear M individuos de pl(x)

Figura 9: Pseudocodigo del algoritmo EcGA.

para obtener el conjunto de individuos seleccio-nados.

En Sastry y Goldberg (2000) se pueden con-sultar resultados experimentales relacionandoel tamano de la poblacion con el tiempo de con-vergencia del EcGA.

3.4.2. Algoritmo FDA

En el trabajo de Muhlenbein y col.(1999) seintroduce el algoritmo FDA (Factorized Dis-tribution Algorithm). Este algoritmo se aplicaa funciones aditivamente descomponibles paralas cuales usando la running intersection prop-erty (Lauritzen,1996), se obtiene una factoriza-cion de la distribucion de probabilidad conjuntabasada en residuales xbi

, y separadores, xci.

Una funcion h(x) es aditivamente descom-ponible si:

h(x) =∑

si∈S

hi(xsi)

donde el conjunto S = s1, . . . sk, consi ⊂ 1, . . . , n, constituye un cubrimiento de

1, . . . , n, y los siguientes conjuntos:

di = ∪ij=1sj

bi = si\di−1

ci = si ∩ di−1

satisfacen las tres condiciones siguientes:

bi 6= ∅ para todo i = 1, . . . , k

dk = 1, 2, . . . , n

∀ i ≥ 2 ∃ j < i tal que ci ⊆ sj .

En este caso la distribucion de probabilidadconjunta puede factorizarse de la siguiente ma-nera:

pl(x) =

k∏

i=1

pl(xbi|xci

).

Esta factorizacion permanece valida para todaslas iteraciones. Tan solo se efectuan cambios enla estimacion de las probabilidades las cualesen cada generacion se efectuan de una base dedatos conteniendo a los individuos selecciona-dos. En cualquier caso el requerimiento de laespecificacion de la factorizacion de la distribu-cion de probabilidad conjunta es una desventajaen el momento de aplicar el algoritmo FDA aproblemas de optimizacion genericos. En talescasos ademas de un aprendizaje parametrico esdeseable un aprendizaje estructural.

Resultados teoricos para el FDA pueden consul-tarse en Muhlenbein y Mahnig (1999a, 1999b,1999c, 2000), Zhang y Muhlenbein (1999) yMahnig y Muhlenbein (2000).

3.4.3. PADA

En Soto y col. (1999) la factorizacion se lle-va a cabo por medio de una red Bayesianacon estructura de poliarbol (no existe mas deun camino no dirigido entre cada par de va-riables). El algoritmo propuesto se denomi-na PADA (Polytree Approximation of Distri-bution Algorithms) y puede ser considerado unhıbrido entre los metodos basados en detectar(in)dependencias condicionales y aquellos quese engloban dentro de los metodos denomina-dos score + busqueda.

3.4.4. EBNAPC , EBNAK2+pen, EBNABIC

En el trabajo de Etxeberria y Larranaga (1999)y Larranaga y col. (2000a) la factorizacion de ladistribucion de probabilidad conjunta se codifi-ca por medio de una red Bayesiana que se in-duce en cada generacion a partir de la base dedatos conteniendo los individuos seleccionados.El algoritmo se denomina EBNA (Estimationof Bayesian Networks Algorithm). Tal y comopuede verse en la Figura 10, la red Bayesianaque corresponde a la primera iteracion tiene co-mo estructura un grafo sin arcos. En este casola factorizacion de la distribucion de probabili-dad conjunta se obtiene a partir del producto delas n distribuciones uniformes de probabilidadmarginales. Esto significa que la red Bayesianainicial, BN0, asigna la misma probabilidad atodos los puntos del espacio de busqueda.

Teniendo en cuenta que necesitamos encontraruna estructura de modelo adecuada lo mas rapi-do posible, es deseable un algoritmo simple quedevuelva una buena estructura –aunque esta nosea la optima–. Un algoritmo con estas carac-terıisticas es el algoritmo B (Buntine, 1991). Elalgoritmo B es un algoritmo voraz que comien-za con una estructura sin arcos y en cada pasoanade el arco que proporciona la mayor mejo-ra en la medida de bondad que se este uti-lizando. El algoritmo para cuando la adicion decualquier arco no incrementa la medida de bon-dad utilizada. Otra posibilidad para encontrarbuenos modelos de manera rapida es el uso deestrategias de busqueda local. En contraposi-cion con el algoritmo B que comienza en cadapaso desde el grafo sin arcos, las estrategias debusqueda local comienzan la busqueda con elmodelo obtenido en la anterior generacion. Sehan implementado distintos criterios para guiarla busqueda de buenas estructuras basados endiferentes scores –BIC, K2+pen– ası como en eltesteo de (in)dependencias condicionales entretripletas de variables –algoritmo PC–, obtenien-do de esta forma distintas instanciaciones deEBNA: EBNABIC , EBNAK2+pen, EBNAPC .

Notese que el algoritmo EBNAK2+pen, –Larranaga y col. (2000a)– establece una cotasuperior al numero de padres que la mejor es-tructura puede llegar a tener, para de esta for-ma controlar automaticamente la complejidaddel modelo.

EBNAPC , EBNAK2+pen, EBNABIC

BN0 ← (S0,θ0) con S0 DAG sin arcos y θ

0

uniforme. p0(x) =∏n

i=1 p(xi) =∏n

i=11ri

D0 ← Muestrear M individuos de p0(x)

Repetir for l = 1, 2, . . . hasta que se satisfaga elcriterio de terminacion

DSel−1 ← Seleccionar N individuos de Dl−1

S∗l ← Encontrar la mejor estructura

acorde con un criterio:tests de (in)dependencia condicional

(EBNAPC)Score Bayesiano penalizado + busqueda

(EBNAK2+pen)Maxima verosimilitud penalizada + busqueda

(EBNABIC)

θl ← Calcular θl

ijk usando DSel−1 como

conjunto de datos

BNl ← (S∗l ,θl)

Dl ← Muestrear M individuos deBNl using PLS

Figura 10: Pseudocodigo de los algoritmosEBNAPC , EBNAK2+pen, and EBNABIC .

Aplicaciones del algoritmo EBNA a diferen-tes problemas pueden consultarse en Ben-goetxea y col. (2000, 2001a) –macheo inex-acto de grafos–, Blanco y Lozano (2001) –optimizacion combinatoria–, de Campos y col.(2001) –inferencia abductiva parcial en redesBayesianas–, Inza y col. (2000, 2001a, 2001c)–seleccion de subconjuntos de variables–, Inzay col. (2001b) –pesado de variables en K-NN–,Lozano y Mendiburu (2001) –planificacion detrabajos–, Sierra y col. (2001) –induccion dereglas–, Robles y col. (2001) –problema delviajante de comercio– Roure y col. (2001) –agrupamiento particional– y Sagarna y Lar-ranaga (2001) –problema de la mochila–. Veaseasimismo una version paralela de EBNA enSagarna (2000) y Lozano y col. (2001).

3.4.5. BOA

Pelikan y col. (1999a, 2000a, 2000b) y Pelikany Goldberg (2000c) propusieron el algoritmoBOA (Bayesian Optimization Algorithm). BOAusa la metrica BDe (Bayesian Dirichlet equiv-alence) para evaluar la bondad de cada estruc-tura. Esta metrica Bayesiana tiene la propiedadde que asigna el mismo valor a estructurasque reflejan las mismas (in)dependencias condi-cionales. La busqueda de la mejor estructura esvoraz y comienza en cada generacion en el grafosin arcos. Tratando de reducir la cardinalidaddel espacio de busqueda se asume la restriccionde que cada nodo en la red Bayesiana tiene co-mo mucho k padres. En Schwarz y Ocenasek(1999) se presentan comparaciones empıricasentre BOA y BMDA.

Vease Pelikan y Goldberg (2000b) para unamodificacion del algoritmo BOA para proble-mas jerarquicos usando un modelo hıbrido de-nominado red de Huffman. En Pelikan y col.(2000c) BOA se adapta para incluir estructuraslocales por medio de grafos de decision, loscuales sirven para guiar la construccion de lared Bayesiana.

Otros trabajos que usan aproximacionesBayesianas en la aproximacion EDA –aunqueen este caso el paradigma de red Bayesiana nose usa– son Zhang (1999), Zhang y Cho (2000)y Zhang y Shin (2000).

FDA EBNA, BOA EcGA

Figura 11: Representacion grafica de los mode-los de probabilidad para los EDAs propuestosen optimizacion combinatoria con dependenciasmultiples (FDA, EBNA, BOA y EcGA).

3.4.6. LFDA, FDAL, FDA-BC, FDA-

SC

Muhlenbein y Mahnig (1999c) introdujeron elalgoritmo LFDA (Learning Factorized Distribu-tion Algorithm) que basicamente sigue la mismaaproximacion que EBNABIC . La diferencia ra-dica en que en LFDA la complejidad del mode-lo aprendido se controla por la metrica BIC enconjuncion con una restriccion acerca del maxi-mo numero de padres que cada variable puedellegar a tener en la red Bayesiana.

Ochoa y col. (1999) propone un algoritmoinicial FDAL, para aprender –por medio detests de (in)dependencia condicional– un arbolde union a partir de una base de datos.La idea subyacente es obtener el arbol deunion que mejor satisface las (in)dependenciascondicionales detectadas por los tests de(in)dependencia condicional.

En Ochoa y col. (2000a) se presenta un algorit-mo de aprendizaje de estructura que tiene encuenta cuestiones relativas a la fiabilidad y alcoste computacional. El algoritmo se denomi-na FDA-BC (Factorized Distribution Algorithmwith Bayesian networks of Bounded Complexi-ty).

Ideas similares pueden consultarse en el al-goritmo FDA-SC propuesto por Ochoa y col.(2000b). En este caso la factorizacion de la dis-tribucion de probabilidad conjunta se lleva acabo por medio de estructuras simples (arboles,poliarboles, o bosques).

3.5. Modelos mixtos

Pelikan y Goldberg (2000a) proponen el uso demodelos probabilısticos mas flexibles para es-timar la distribucion de probabilidad conjuntaa partir de los individuos seleccionados. Paraproblemas simetricos y multimodales efectuanun agrupamiento de los individuos selecciona-dos en cada generacion. Este agrupamiento selleva a cabo en cada generacion por medio deun metodo rapido (Forgy, 1965). El modeloobtenido puede escribirse como:

pl(x) =k

∑

i=1

πl,ipl,i(x)

donde en cada generacion l, πl,i denota el pe-so de la i-esima componente de la mixtura ypl,i(x) es la distribucion de probabilidad del i--esimo grupo obtenido a partir de los indivi-duos seleccionados. Una de las restricciones delmetodo –la cual puede ser resuelta por mediode la consideracion de metodos de agrupamien-to mas sofisticados– es la determinacion a prioridel numero de grupos. Tal y como comentan losautores, en problemas donde los picos de la fun-cion que se optimiza tienen tamanos desiguales,el metodo es muy sensible a metodos de selec-cion que ejercen mucha presion.

En la misma lınea, vease tambien el trabajo dePena y col. (2001) en el cual una aproximacionEDA basada en modelos mixtos, donde cadamixtura es una red Bayesiana y su correspon-diente peso se obtiene a partir del algoritmoEM.

4. A modo de conclusion

En este trabajo se ha presentado una revisionde distintas aproximaciones EDAs en proble-mas de optimizacion combinatoria. Las distin-tas propuestas se han presentado usando unanotacion unificada y han sido organizadas desdeel punto de vista de la complejidad del mode-lo grafico probabilıstico que aprenden en cadageneracion a partir de los datos.

El artıculo ha pretendido al mismo tiempoponer al lector en disposicion de comenzar arealizar trabajos de investigacion sobre EDAs.Al ser estos un paradigma de optimizacion

relativamente nuevo, existen muchas camposabiertos donde llevar a cabo esta tarea deinvestigacion. Dentro de estos campos po-drıamos destacar: modelado matematico deEDAs, optimizacion multiobjetivo utilizandoEDAs, algoritmos EDAs paralelos, EDAs enfunciones multimodales, nuevos campos deaplicacion de EDAs, utilizacion de diferentesmetodos a la hora de codificar la distribucionde probabilidad, etc.

Referencias

[1] E. Alba, R. Santana, A. Ochoa, andM. Lazo. Finding typical testors by us-ing an evolutionary strategy. In Proceed-ings of the Fifth Ibero American Sympo-sium on Pattern Recognition, pages 267–278, 2000.

[2] S. Baluja. Population-based incrementallearning: A method for integrating genet-ic search based function optimization andcompetitive learning. Technical ReportCMU-CS-94-163, Carnegie Mellon Uni-versity, 1994.

[3] S. Baluja. An empirical comparison ofseven iterative and evolutionary functionoptimization heuristics. Technical ReportCMU-CS-95-193, Carnegie Mellon Uni-versity, 1995.

[4] S. Baluja. Genetic algorithms and explicitsearch statistics. Advances in Neural In-formation Processing Systems, 9:319–325,1997.

[5] S. Baluja and R. Caruana. Removing thegenetics from standard genetic algorithm.In A. Prieditis and S. Russell, editors,Proceedings of the International Confer-ence on Machine Learning, pages 38–46.Morgan Kaufmann, 1995.

[6] S. Baluja and S. Davies. Combining mul-tiple optimization runs with optimal de-pendency trees. Technical Report CMU-CS-97-157, Carnegie Mellon University,1997.

[7] S. Baluja and S. Davies. Using optimaldependency-trees for combinatorial opti-mization: Learning the structure of the

search space. Technical Report CMU-CS-97-107, Carnegie Mellon University, 1997.

[8] S. Baluja and S. Davies. Fast probabilisticmodeling for combinatorial optimization.In AAAI-98, 1998.

[9] S. Bandyopadhyay, H. Kargupta, andG. Wang. Revisiting the gemga: Scalableevolutionary optimization through link-age learning. In Proceedings of the 1998IEEE International Conference on Evo-lutionary Computation, pages 603–608.IEEE Press, 1998.

[10] E. Bengoetxea, P. Larranaga, I. Bloch,and A. Perchant. Solving graph matchingwith EDAs using a permutation–basedrepresentation. In P. Larranaga and J. A.Lozano, editors, Estimation of Distribu-tion Algorithms. A New Tool for Evolu-tionary Computation. Kluwer AcademicPublishers, 2001.

[11] E. Bengoetxea, P. Larranaga, I. Bloch,A. Perchant, and C. Boeres. Inexactgraph matching using learning and sim-ulation of Bayesian networks. An em-pirical comparison between different ap-proaches with synthetic data. In Work-shop Notes of CaNew2000: Workshop onBayesian and Causal Networks: From In-ference to Data Mining, 2000. FourteenthEuropean Conference on Artificial Intel-ligence, ECAI2000. Berlin.

[12] A. Berny. Selection and reinforcementlearning for combinatorial optimization.In M. Schoenauer, K. Deb, G. Rudolph,X. Yao, E. Lutton, J. J. Merelo, andH.-P. Schwefel, editors, Parallel ProblemSolving from Nature – PPSN VI. LectureNotes in Computer Science 1917, pages601–610, 2000.

[13] R. Blanco and J. A. Lozano. Empiri-cal comparison of Estimation of Distri-bution Algorithms in combinatorial op-timization. In P. Larranaga and J. A.Lozano, editors, Estimation of Distribu-tion Algorithms. A New Tool for Evolu-tionary Computation. Kluwer AcademicPublishers, 2001.

[14] P. A.N. Bosman and D. Thierens. Link-age information processing in distributionestimation algorithms. In W. Banzhaf,

J. Daida, A. E. Eiben, M. H. Gar-zon, V. Honavar, M. Jakiela, and R. E.Smith, editors, Proceedings of the Genet-ic and Evolutionary Computation Con-ference GECCO-99, volume 1, pages 60–67. Morgan Kaufmann Publishers, 1999.San Francisco, LA.

[15] W. Buntine. Theory refinement inBayesian networks. In Proceedings ofthe Seventh Conference on Uncertainty inArtificial Intelligence, pages 52–60, 1991.

[16] E. Castillo, J. M. Gutierrez, and A. S. Ha-di. Expert Systems and Probabilistic Net-work Models. Springer-Verlag, New York,1997.

[17] C. Chow and C. Liu. Approximating dis-crete probability distributions with de-pendence trees. IEEE Transactions onInformation Theory, 14:462–467, 1968.

[18] J. S. De Bonet, C. L. Isbell, and P. Vio-la. MIMIC: Finding optima by estimatingprobability densities. Advances in NeuralInformation Processing Systems, Vol. 9,1997.

[19] L. M. de Campos, J. A. Gamez, P. Lar-ranaga, S. Moral, and T. Romero. Par-tial abductive inference in Bayesian net-works: an empirical comparison betweenGAs and EDAs. In P. Larranaga and J. A.Lozano, editors, Estimation of Distribu-tion Algorithms. A New Tool for Evolu-tionary Computation. Kluwer AcademicPublishers, 2001.

[20] L. J. Eshelman and J. D. Schaffer. Pro-ductive recombination and propagatingand preserving schemata. Foundations ofGenetic Algorithms, 3:299–314, 1993.

[21] R. Etxeberria and P. Larranaga. Globaloptimization with Bayesian networks. InII Symposium on Artificial Intelligence.CIMAF99. Special Session on Distri-butions and Evolutionary Optimization,pages 332–339, 1999.

[22] E. Forgy. Cluster analysis of multivariatedata: Efficiency versus interpretability ofclassifications. Biometrics, 21:768, 1965.

[23] C. Fyfe. Structured population-basedincremental learning. Soft Computing,2(4):191–198, 1999.

[24] E. Galic and M. Hohfeld. Improvingthe generalization performance of multi-layer-perceptrons with population-basedincremental learning. In Parallel ProblemSolving from Nature. PPSN-IV, pages740–750, 1996.

[25] M. R. Gallagher. Multi-layer percep-tron error surfaces: Visualization, struc-ture and modelling. Technical ReportDoctoral Thesis, Department of Com-puter Science and Electrical Engineering,University of Queensland, 2000.

[26] D. E. Goldberg, K. Deb, H. Kargupta,and G. Harik. Rapid, accurate optimiza-tion of difficult problems using fast messygenetic algorithms. In S. Forrest, edi-tor, Proceedings of the Fifth InternationalConference on Genetic Algorithms, pages56–64. Morgan Kauffman, 1993.

[27] D. E. Goldberg, B. Korb, and K. Deb.Messy genetic algorithms: Motivation,analysis and first results. Complex Sys-tems, 3(5):493–530, 1989.

[28] C. Gonzalez, J. A. Lozano, and P. Lar-ranaga. Analyzing the PBIL algorithmby means of discrete dynamical systems.Complex Systems, In press, 2001.

[29] C. Gonzalez, J. A. Lozano, and P. Lar-ranaga. The converge behavior of PBILalgorithm: a preliminar approach. InV. Kurkova, N. C. Steel, R.Neruda, andM. Karny, editors, International Con-ference on Artificial Neural Networksand Genetic Algorithms. ICANNGA-2001, pages 228–231. Springer, 2001.

[30] C. Gonzalez, J. A. Lozano, and P. Lar-ranaga. Mathematical modeling of Es-timation of Distribution Algorithms. InP. Larranaga and J. A. Lozano, editors,Estimation of Distribution Algorithms. ANew Tool for Evolutionary Computation.Kluwer Academic Publishers, 2001.

[31] J. J. Grefenstette. Optimization of con-trol parameters for genetic algorithms.IEEE Transactions on Systems, Man,and Cybernetics, 16(1):122–128, 1986.

[32] G. Harik. Linkage learning in via proba-bilistic modeling in the ECGA. TechnicalReport 99010, IlliGAL Technical Report,1999.

[33] G. Harik, F. G. Lobo, and D. E. Golberg.The compact genetic algorithm. In Pro-ceedings of the IEEE Conference on Evo-lutionary Computation, pages 523–528,1998.

[34] M. Hohfeld and G. Rudolph. Towardsa theory of population-based incremen-tal learning. In Proceedings of the 4thInternational Conference on Evolution-ary Computation, pages 1–5. IEEE Press,1997.

[35] J. H. Holland. Adaptation in Naturaland Artificial Systems. The University ofMichigan Press, 1975.

[36] I. Inza, P. Larranaga, and B. SierraR. Etxeberria. Feature subset selectionby Bayesian networks based optimization.Artificial Intelligence, 123(1–2):157–184,2000.

[37] I. Inza, P. Larranaga, and B. Sierra. Fea-ture subset selection by Estimation ofDistribution Algorithms. In P. Larranagaand J. A. Lozano, editors, Estimation ofDistribution Algorithms. A New Tool forEvolutionary Computation. Kluwer Aca-demic Publishers, 2001.

[38] I. Inza, P. Larranaga, and B. Sierra. Fea-ture weighting in K-NN by means of Es-timation of Distribution Algorithms. InP. Larranaga and J. A. Lozano, editors,Estimation of Distribution Algorithms. ANew Tool for Evolutionary Computation.Kluwer Academic Publishers, 2001.

[39] I. Inza, M. Merino, P. Larranaga,J. Quiroga, B. Sierra, and M. Girala.Feature subset selection by population-based incremental learning. A case studyin the survival of cirrhotic patients withTIPS. Artificial Intelligence in Medicine,In press, 2001.

[40] A. Juels. Topics in black-box combi-natorial optimization. Technical ReportDoctoral Thesis, University of California–Berkeley, 1997.

[41] H. Kargupta. The gene expression messygenetic algorithm. In Proceedings of the1996 IEEE International Conference onEvolutionary Computation, pages 631–636. IEEE Press, 1996.

[42] H. Kargupta and D. E. Goldberg. Search,blackbox optimization, and sample com-plexity. In R. W. Belew and M. Vose, ed-itors, Foundations of Genetic Algorithms4. Morgan Kaufmann, 1997. San Mateo,CA.

[43] V. Kvasnicka, M. Pelikan, andJ. Pospichal. Hill climbing with learning(an abstraction of genetic algorithms).Neural Network World, 6:773–796, 1996.

[44] P. Larranaga, R. Etxeberria, J. A.Lozano, and J. M. Pena. Optimizationby learning and simulation of Bayesianand Gaussian networks. Technical ReportKZZA-IK-4-99, Department of Comput-er Science and Artificial Intelligence, Uni-versity of the Basque Country, 1999.

[45] P. Larranaga, R. Etxeberria, J. A.Lozano, and J. M. Pena. Combinatorialoptimization by learning and simulationof Bayesian networks. In Proceedings ofthe Sixteenth Conference on Uncertaintyin Artificial Intelligence, pages 343–352,2000. Stanford.

[46] P. Larranaga, R. Etxeberria, J. A.Lozano, B. Sierra, I. Inza, and J. M. Pena.A review of the cooperation between evo-lutionary computation and probabilisticgraphical models. In Second Symposiumon Artificial Intelligence. Adaptive Sys-tems. CIMAF 99, pages 314–324, 1999.La Habana.

[47] P. Larranaga and J.A. Lozano. Es-timation of Distribution Algorithms. ANew Tool for Evolutionary Computation.Kluwer Academic Publishers, 2001.

[48] S. L. Lauritzen. Graphical Models. OxfordUniversity Press, 1996.

[49] F. G. Lobo, K. Deb, D. E. Goldberg,G. R. Harik, and L. Wang. Compressedintrons in a linkage learning genetic al-gorithm. In Genetic Programming 1998:Proceedings of the Third Annual Confer-ence, pages 551–558. Morgan Kauffman,1998.

[50] J. A. Lozano, R. Sagarna, and P. Lar-ranaga. Parallel Estimation of Distri-bution Algorithms. In P. Larranagaand J. A. Lozano, editors, Estimation

of Distribution Algorithms. A New Toolfor Evolutionary Computation. KluwerAcademis Publishers, 2001.

[51] T. Mahnig and H. Muhlenbein. Mathe-matical analysis of optimization methodsusing search distributions. In A. S. Wu,editor, Proceedings of the 2000 Geneticand Evolutionary Computation Confer-ence Workshop Program, pages 205–208,2000.

[52] B. Maxwell and S. Anderson. Traininghidden Markov models using population-based learning. In Genetic and Evolution-ary Computation Conference, GECCO-99, 1999.

[53] A. Mendiburu and J. A. Lozano. Solvingjob schedulling with Estimation of Dis-tribution Algorithms. In P. Larranagaand J. A. Lozano, editors, Estimation ofDistribution Algorithms. A New Tool forEvolutionary Computation. Kluwer Aca-demic Publishers, 2001.

[54] N. Monmarche, E. Ramat, L. Desbarats,and G. Venturini. Probabilistic searchwith genetic algorithms and ant colonies.In A. S. Wu, editor, Proceedings of the2000 Genetic and Evolutionary Com-putation Conference Workshop Program,pages 209–211, 2000.

[55] N. Monmarche, E. Ramat, G. Dromel,M. Slimane, and G. Venturini. Onthe similarities between AS, BSC andPBIL: toward the birth of a new meta–heuristics. Technical Report 215, E3i,Universite de Tours, 1999.

[56] H. Muhlenbein. The equation for re-sponse to selection and its use for predic-tion. Evolutionary Computation, 5:303–346, 1998.

[57] H. Muhlenbein and T. Mahnig. Conver-gence theory and applications of the fac-torized distribution algorithm. Journal ofComputing and Information Technology,7:19–32, 1999.

[58] H. Muhlenbein and T. Mahnig. TheFactorized Distribution Algorithm for ad-ditively decomposed functions. In Sec-ond Symposium on Artificial Intelligence.Adaptive Systems. CIMAF 99, pages 301–313, 1999. La Habana.

[59] H. Muhlenbein and T. Mahnig. FDA- a scalable evolutionary algorithm forthe optimization of additively decom-posed functions. Evolutionary Computa-tion, 7(4):353–376, 1999.

[60] H. Muhlenbein and T. Mahnig. Evolu-tionary algorithms: From recombinationto search distributions. Theoretical As-pects of Evolutionary Computing. NaturalComputing, pages 137–176, 2000.

[61] H. Muhlenbein, T. Mahnig, andA. Ochoa. Schemata, distributionsand graphical models in evolutionaryoptimization. Journal of Heuristics,5:215–247, 1999.

[62] H. Muhlenbein and G. Paaß. From re-combination of genes to the estimationof distributions I. Binary parameters. InLecture Notes in Computer Science 1411:Parallel Problem Solving from Nature -PPSN IV, pages 178–187, 1996.

[63] H. Muhlenbein and H.-M. Voigt. Genepool recombination in genetic algorithms.Metaheuristics: Theory and applications,pages 53–62, 1996.

[64] A. Ochoa, H. Muhlenbein, and M. Soto.Factorized Distribution Algorithm usingBayesian networks. In A. S. Wu, editor,Proceedings of the 2000 Genetic and Evo-lutionary Computation Conference Work-shop Program, pages 212–215, 2000.

[65] A. Ochoa, H. Muhlenbein, and M. Soto.A Factorized Distribution Algorithm us-ing single connected Bayesian networks.In M. Schoenauer, K. Deb, G. Rudolph,X. Yao, E. Lutton, J. J. Merelo, andH.-P. Schwefel, editors, Parallel ProblemSolving from Nature – PPSN VI. LectureNotes in Computer Science 1917, pages787–796, 2000.

[66] A. Ochoa, M. Soto, R. Santana,J. Madera, and N. Jorge. The Fac-torized Distribution Algorithm and thejunction tree: A learning perspective. InSecond Symposium on Artificial Intel-ligence. Adaptive Systems. CIMAF 99,pages 368–377, 1999. La Habana.

[67] M. Pelikan and D. E. Goldberg. Geneticalgorithms, clustering, and the breaking

of symmetry. In M. Schoenauer, K. Deb,G. Rudolph, X. Yao, E. Lutton, J. J.Merelo, and H.-P. Schwefel, editors, Par-allel Problem Solving from Nature – PP-SN VI. Lecture Notes in Computer Sci-ence 1917, pages 385–394, 2000.

[68] M. Pelikan and D. E. Goldberg. Hierar-chical problem solving and the Bayesianoptimization algorithm. In D. Whitley,D. Goldberg, E. Cantu-Paz, L. Spector,I. Parmee, and H.-G. Beyer, editors, Pro-ceedings of the Genetic and EvolutionaryComputation Conference, pages 267–274.Morgan Kaufmann, 2000.

[69] M. Pelikan and D. E. Goldberg. Re-search on the Bayesian optimization algo-rithm. In A. S. Wu, editor, Proceedings ofthe 2000 Genetic and Evolutionary Com-putation Conference Workshop Program,pages 212–215, 2000.

[70] M. Pelikan, D. E. Goldberg, andE. Cantu-Paz. BOA: The Bayesianoptimization algorithm. In W. Banzhaf,J. Daida, A. E. Eiben, M. H. Garzon,V. Honavar, M. Jakiela, and R. E. Smith,editors, Proceedings of the Genetic andEvolutionary Computation ConferenceGECCO-99, volume 1, pages 525–532.Morgan Kaufmann Publishers, SanFrancisco, CA, 1999. Orlando, FL.

[71] M. Pelikan, D. E. Goldberg, andE. Cantu-Paz. Bayesian optimizationalgorithm, population sizing, and time toconvergence. In D. Whitley, D. Goldberg,E. Cantu-Paz, L. Spector, I. Parmee, andH.-G. Beyer, editors, Proceedings of theGenetic and Evolutionary ComputationConference, pages 275–282. MorganKaufmann, 2000.

[72] M. Pelikan, D. E. Goldberg, andE. Cantu-Paz. Linkage problem, dis-tribution estimation and Bayesiannetworks. Evolutionary Computation,8(3):311–340, 2000.

[73] M. Pelikan, D. E. Goldberg, and F. Lobo.A survey of optimization by building andusing probabilistic models. Technical Re-port IlliGAL Report 99018, University ofIllinois at Urbana-Champaing, 1999.

[74] M. Pelikan, D. E. Goldberg, and K. Sas-try. Bayesian optimization algorithm, de-cision graphs, and Occam’s razor. Tech-nical Report IlliGAL Report 200020, Uni-versity of Illinois at Urbana-Champaing,2000.

[75] M. Pelikan and H. Muhlenbein. The bi-variate marginal distribution algorithm.Advances in Soft Computing-EngineeringDesign and Manufacturing, pages 521–535, 1999.

[76] J. M. Pena, J. A. Lozano, and P. Lar-ranaga. Benefits of data clustering in mul-timodal function optimization via EDAs.In P. Larranaga and J. A. Lozano, editors,Estimation of Distribution Algorithms. ANew Tool for Evolutionary Computation,2001.

[77] J. Rissanen. Modeling by shortest datadescription. Automatica, pages 465–471,1978.

[78] J. Rivera. Using Estimation of Distribu-tion Algorithms as an evolutive compo-nent of the XCS classifier system. Tech-nical report, University of La Habana (Inspanish), 1999.

[79] V. Robles, P. de Miguel, and P. Lar-ranaga. Solving the travelling salesmanproblem with Estimation of DistributionAlgorithms. In P. Larranaga and J. A.Lozano, editors, Estimation of Distribu-tion Algorithms. A New Tool for Evolu-tionary Computation. Kluwer AcademicPublishers, 2001.

[80] J. Roure, R. Sanguesa, and P. Larranaga.Partitional clustering by means of Esti-mation of Distribution Algorithms. InP. Larranaga and J. A. Lozano, editors,Estimation of Distribution Algorithms. ANew Tool for Evolutionary Computation.Kluwer Academic Publishers, 2001.

[81] R. Sagarna. Parallelization of Estima-tion of Distribution Algorithms. Techni-cal Report Master Thesis, University ofthe Basque Country, Department of Com-puter Science and Artificial Intelligence(In spanish), 2000.

[82] R. Sagarna and P. Larranaga. Solvingthe knapsack problem with Estimation

of Distribution Algorithms. In P. Lar-ranaga and J. A. Lozano, editors, Es-timation of Distribution Algorithms. ANew Tool for Evolutionary Computation.Kluwer Academis Publishers, 2001.

[83] R. Salustowicz and J. Schmidhuber.Probabilistic incremental program evo-lution. Evolutionary Computation,5(2):123–141, 1997.

[84] R. Salustowicz and J. Schmidhuber.Learning to predict trough probabilisticincremental program evolution and auto-matic task decomposition. Technical Re-port Technical Report IDSIA–11–98, Uni-versity of Lugano, 1998.

[85] R. Santana and A. Ochoa. Dealing withconstraints with Estimation of Distri-bution Algorithms: The univariate case.In Second Symposium on Artificial In-telligence. Adaptive Systems. CIMAF 99,pages 378–384, 1999. La Habana.

[86] R. Santana, A. Ochoa, M. Soto, F. B.Pereira, P. Machado, E. Costa, andA. Cardoso. Probabilistic evolution andthe busy beaver problem. In D. Whitley,D. Goldberg, E. Cantu-Paz, L. Spector,I. Parmee, and H.-G. Beyer, editors, Pro-ceedings of the Genetic and EvolutionaryComputation Conference, pages 380–380.Morgan Kaufmann, 2000.

[87] K. Sastry and D. E. Goldberg. On ex-tended compact genetic algorithm. InGECCO-2000, Late Breaking Papers, Ge-netic and evolutionary Computation Con-ference, pages 352–359, 2000.

[88] M. Schmidt, K. Kristensen, and T.R.Jensen. Adding genetics to the standarPBIL algorithm. In Congress on Evolu-tionary Computation. CEC’99, 1999.

[89] J. Schwarz and J. L. Ocenasek. Exper-imental study: Hypergraph partitioningbased on the simple and advanced algo-rithms BMDA and BOA. In Proceed-ings of the Fifth International Conferenceon Soft Computing, pages 124–130, 1999.Brno, Czech Republic.

[90] M. P. Servais, G. de Jaer, and J. R.Greene. Function optimization usingmultiple-base population based incremen-tal learning. In Proceedings of the

Eight South African Workshop on Pat-tern Recognition, 1997.

[91] B. Sierra, E. Jimenez, I. Inza, P. Lar-ranaga, and J. Muruzabal. Rule induc-tion using Estimation of Distribution Al-gorithms. In P. Larranaga and J. A.Lozano, editors, Estimation of Distribu-tion Algorithms. A New Tool for Evolu-tionary Computation. Kluwer AcademicPublishers, 2001.

[92] M. Soto, A. Ochoa, S. Acid, and L. M.de Campos. Introducing the polytreeaproximation of distribution algorithm.In Second Symposium on Artificial In-telligence. Adaptive Systems. CIMAF 99,pages 360–367, 1999. La Habana.

[93] R. Sukthankar, S. Baluja, and J. Han-cock. Evolving an intelligent vehicle fortactical reasoning in traffic. In Interna-tional Conference on Robotics and Au-tomation, 1997.

[94] G. Syswerda. Simulated crossover in ge-netic algorithms. Foundations of GeneticAlgorithms 2, pages 239–255, 1993.

[95] M. Thathachar and P. S. Sastry. Learningoptimal discriminant functions througha cooperative game of automata. IEEETransactions on Systems, Man, and Cy-bernetics, 17(1), 1987.

[96] C. H. M. van Kemenade. Building blockfiltering and mixing. In Proceedings of the1998 International Conference on Evolu-tionary Computation. IEEE Press, 1998.

[97] B.-T. Zhang. A Bayesian framework forevolutionary computation. In Proceedingsof the Congress on Evolutionary Compu-tation (CEC99), IEEE Press, pages 722–727, 1999.

[98] B.-T. Zhang and D.-Y. Cho. Evolvingneural trees for time series prediction us-ing Bayesian evolutionary algorithms. InProceedings of the First IEEE Workshopon Combinations of Evolutionary Com-putation and Neural Networks (ECNN-2000), 2000.

[99] B.-T. Zhang and S.-Y. Shin. Bayesianevolutionary optimization usingHelmholtz machines. In M. Schoe-nauer, K. Deb, G. Rudolph, X. Yao,

E. Lutton, J. J. Merelo, and H.-P. Schwe-fel, editors, Lecture Notes in ComputerScience, 1917. Parallel Problem Solvingfrom Nature – PPSN VI, pages 827–836,2000.

[100] Q. Zhang and H. Muhlenbein. On glob-al convergence of FDA with proportion-ate selection. In Second Symposium onArtificial Intelligence. Adaptive Systems.CIMAF 99, pages 340–343, 1999. La Ha-bana.

[101] A. A. Zhigljavsky. Theory of Global Ran-dom Search. Kluwer Academic Publish-ers, 1991.

inteligencia artificial. revista iberoamericana de ... · algoritmos de estimaciÓn de...

Documents