segmentación y clasificación de células con leucemia a ... · segmentación y...

Segmentacion y clasificacion de celulas con

leucemia a partir de informacion contextual

en imagenes digitales

Por

Carolina Reta Castro

Tesis

sometida como requisito parcial

para obtener el grado de

MAESTRA EN CIENCIAS EN EL AREA DE CIENCIAS

COMPUTACIONALES

en el

Instituto Nacional de Astrofısica, Optica y Electronica

Octubre 2009

Tonantzintla, Puebla

Supervisada por:

Dr. Leopoldo Altamirano Robles

Dr. Jesus Antonio Gonzalez Bernal

c©INAOE 2009

Derechos reservados

El autor otorga al INAOE el permiso de

reproducir y distribuir copias de esta tesis

en su totalidad o en partes.

A mis Padres.

i

Agradecimientos

A Dios por proporcionarme salud y permitirme terminar un proyecto mas en mi vida.

A mis padres por el amor y el apoyo que me brindan siempre y por la educacion que

me facilitaron y los valores que me inculcaron para llegar a ser quien soy.

A Eva, Velia y Arturo por brindarme su amor y apoyo incondicional en todo momento.

A mis asesores de tesis, Dr. Leopoldo Altamirano y Dr. Jesus A. Gonzalez, por haberme

compartido su tiempo y conocimiento y por dirigirme para desarrollar este trabajo de

investigacion.

A los doctores Ariel Carrasco, Miguel Arias y Manuel Montes por el tiempo dedicado

a la revision de esta tesis y sus valiosos comentarios.

A mis amigos del INAOE quienes me han apoyado en situaciones difıciles y con quienes

he compartido noches de estudio, momentos de nerviosismo y estres en presentaciones

de examenes y avances de tesis.

A los doctores Ivan Olmos y Jose E. Alonso Chavez por compartir su conocimiento

sobre cuestiones medicas y por dedicar su tiempo en ayudarme a crear la coleccion

etiquetada de imagenes de celulas con leucemia.

Al CONACyT por otorgarme una beca para realizar mis estudios de Maestrıa y a

los investigadores de la coordinacion de ciencias computacionales del INAOE por la

formacion academica que me dieron.

Carolina Reta Castro.

Puebla, Mexico. 26 de octubre de 2009.

ii

Resumen

En este trabajo de tesis se propone una metodologıa de analisis contextual de celulas

de medula osea para la deteccion de subtipos de leucemia aguda. La primera fase de la

metodologıa se centra en la segmentacion e identificacion de los elementos celulares de

imagenes de medula osea. En la segunda fase se realiza la extraccion de caracterısticas

de las imagenes de celulas identificadas en la primera fase, para clasificarlas en subtipos

de leucemia y diagnosticar al paciente.

El algoritmo de segmentacion que se propone utiliza la informacion contextual del

color y textura de los pıxeles de la imagen para extraer el nucleo y citoplasma de

celulas sanguıneas en imagenes digitales de frotis de medula osea que presentan tinciones

heterogeneas en color y textura, ası como una alta poblacion de celulas. Las regiones

resultantes de la segmentacion se analizan posteriormente para identificar las celulas en

la imagen.

El algoritmo de identificacion de celulas que se propone utiliza la informacion con-

textual del color, la forma y la relacion de contenido entre regiones para determinar

si la ROI (Region de Interes - Region of Interest) analizada es una celula, un nucleo,

probablemente sea un nucleo o una celula traslapada con otros elementos o bien la

region no es de interes. Si el algoritmo de identificacion de celulas determina que la

ROI presenta traslapes con otros elementos, esta es dividida mediante el algoritmo de

separacion de regiones que se diseno en esta tesis. Una vez que se identificaron todas

las ROI se asocia el nucleo a la celula para verificar que esta ultima realmente lo es y

se obtiene el citoplasma de la misma.

La evaluacion de la segmentacion de las regiones identificadas se compara con la

segmentacion manual realizada por el experto. En promedio se obtuvo una precision

del 95 % en el nucleo y la celula al utilizar imagenes reales de celulas de medula osea.

La precision alcanzada en esta evaluacion es considerada muy buena ya que tiene un

alto impacto en el proceso de clasificacion automatica de subtipos de leucemias agudas.

En el proceso de clasificacion, se extrajeron caracterısticas morfologicas, estadısti-

cas, de textura, de proporcion de tamano y valores propios del nucleo y citoplasma

iii

para representar a las celulas de manera descriptiva. Estas caracterısticas fueron ana-

lizadas utilizando distintos algoritmos de clasificacion y de seleccion de atributos para

generar los modelos que permitieron identificar el tipo y subtipo de leucemia aguda

perteneciente a cada una de las celulas de la coleccion.

En la evaluacion de la clasificacion se aplico la tecnica de validacion cruzada con la

finalidad de proporcionar un porcentaje de confiabilidad en la clasificacion de imagenes

nuevas, permitiendo obtener una precision global del 92 % en la clasificacion por tipos

de leucemias agudas. La precision alcanzada para los subtipos de la lınea linfoblastica:

L1 y L2 es del 84 % y para la mieloblastica: M2, M3 y M5 del 92 %.

Tambien se propone en esta tesis un algoritmo de desicion que fusiona distintos

clasificadores de celulas con leucemia con la finalidad de proporcionar un diagnostico

automatico mediante el analisis de todas las muestras de celulas pertenecientes a un

paciente. Este algoritmo alcanza precisiones del 95 % en el diagnostico de tipos de

leucemias y del 90 % en el diagnostico de subtipos.

Palabras claves: Segmentacion de celulas, separacion de celulas, clasificacion de

leucemias, diagnostico medico, campos aleatorios de Markov, fusion de datos, extraccion

de caracterısticas.

iv

Abstract

In this thesis, we propose a bone marrow cell contextual analysis methodology for

the detection of acute leukemia subtypes. The first phase of the methodology focuses

on the segmentation and identification of cellular elements from bone marrow images.

In the second phase we perform feature extraction to the cells images obtained in the

first phase and use this information to classify the cells into leukemia subtypes. This

classification can be used to diagnose patients.

The segmentation algorithm uses as contextual information the color and texture of

the image pixels to be able to separate the nucleus and cytoplasm of blood cells from

bone marrow smear images, which show heterogeneous color and texture staining and

a high cell population. The regions obtained from segmentation are later analyzed to

identify the cells in the image.

An additional algorithm to identify cells is proposed in this work. This algorithm

also uses contextual information related to the color, shape, and containment proportion

among regions to determine whether an analyzed ROI (Region of Interest) is labeled as

a probable cell, nuclei, an overlapped nuclei or cell with other image elements or decide

it is not a region of interest. If the cell identification algorithm determines that the

ROI is overlapped with other elements, it divides the ROI by using a cell separation

algorithm also proposed in this thesis. Once all of the ROIs are labeled, the cell is

identified by associating its respective nuclei and cytoplasm, which is easily obtained

by applying difference-set operations.

The evaluation of the segmentation algorithm is carried out by comparing the iden-

tified regions with a manual segmentation. In general, an average accuracy of 95 % was

achieved in nucleus and cell segmentation using real bone marrow cells images. The

accuracy is considered pretty good due to its high impact on the process of automatic

classification of acute leukemia cells subtypes.

In the cell classification phase we extract descriptive features (morphological, statis-

tical, texture, size ratio and eigenvalues), to the nucleus and cytoplasm. These features

were the input to several attribute selection and classification algorithms in order to

v

generate patterns that facilitate the identification of the type and subtype of each acute

leukemia cell in the image collection.

The evaluation of the cells classification algorithm is carried out using 10-fold cross-

validation in order to provide a reliable accuracy for the classification of new images.

This allows achieving an overall accuracy of 92 % in the classification of acute leukemia

types. The accuracy reached in lymphoblastic subtypes was 84 % and 92 % for the

myeloblastic subtypes.

Finally, we created a decision algorithm that fuses different leukemia cell classifiers

in order to provide an automatic diagnosis for a patient by analyzing the information

of all the available samples of the patient’s cells. This algorithm achieves accuracies of

95% in the diagnosis of leukemia types and 90 % in the diagnosis of leukemia subtypes.

Keywords: cell segmentation, cell separation, leukemia classification, medical diag-

nosis, Markov random fields, data fusion, feature extraction.

vi

Indice general

1. Introduccion 1

1.1. Descripcion del Problema . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1.1. Motivacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.1.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2. Solucion Propuesta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2.1. Segmentacion de elementos celulares . . . . . . . . . . . . . . . 3

1.2.2. Identificacion de celulas. . . . . . . . . . . . . . . . . . . . . . . 4

1.2.3. Clasificacion de celulas con leucemia aguda . . . . . . . . . . . . 4

1.2.4. Diagnostico de leucemias agudas . . . . . . . . . . . . . . . . . . 4

1.3. Metodologıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.4. Alcance de la Tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.5. Organizacion de la Tesis . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2. Fundamentos Teoricos 9

2.1. Conceptos Medicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.1.1. Leucemias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.1.2. Tipos de leucemia . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.1.3. Examen morfologico . . . . . . . . . . . . . . . . . . . . . . . . 10

2.1.4. Clasificacion de leucemias agudas (FAB) . . . . . . . . . . . . . 11

2.2. Vision por Computadora . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.2.1. Espacios de color . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.2.2. Modelo de descomposicion de textura Wold . . . . . . . . . . . 17

2.2.3. Modelo de segmentacion con CAM . . . . . . . . . . . . . . . . 20

2.3. Extraccion de Caracterısticas . . . . . . . . . . . . . . . . . . . . . . . 26

2.3.1. Caracterısticas morfologicas . . . . . . . . . . . . . . . . . . . . 26

2.3.2. Caracterısticas estadısticas . . . . . . . . . . . . . . . . . . . . . 29

vii

2.3.3. Caracterısticas de textura . . . . . . . . . . . . . . . . . . . . . 30

2.3.4. Analisis de componentes principales . . . . . . . . . . . . . . . . 32

2.4. Minerıa de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.4.1. Algoritmos de clasificacion . . . . . . . . . . . . . . . . . . . . . 37

2.4.2. Seleccion de atributos . . . . . . . . . . . . . . . . . . . . . . . 40

2.4.3. Manejo de clases no balanceadas . . . . . . . . . . . . . . . . . 40

2.5. Evaluacion de Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 42

2.5.1. Validacion cruzada . . . . . . . . . . . . . . . . . . . . . . . . . 42

2.5.2. Matriz de confusion binaria . . . . . . . . . . . . . . . . . . . . 43

2.5.3. Curvas ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3. Trabajo previo 47

3.1. Analisis de Imagenes Digitales . . . . . . . . . . . . . . . . . . . . . . . 47

3.2. Segmentacion Celulas Sanguıneas . . . . . . . . . . . . . . . . . . . . . 48

3.3. Clasificacion de Leucemias Agudas . . . . . . . . . . . . . . . . . . . . 51

3.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4. Metodo Propuesto 53

4.1. Coleccion de Imagenes . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.2. Modelo de Segmentacion Contextual . . . . . . . . . . . . . . . . . . . 56

4.2.1. Analisis de color . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.2.2. Analisis de textura . . . . . . . . . . . . . . . . . . . . . . . . . 60

4.2.3. Modelado de caracterısticas de color y textura con CAM . . . . 62

4.3. Identificacion de Celulas . . . . . . . . . . . . . . . . . . . . . . . . . . 66

4.3.1. Transformacion de coordenadas de la forma . . . . . . . . . . . 66

4.3.2. Relacion de contencion de regiones . . . . . . . . . . . . . . . . 67

4.3.3. Analisis de forma para separacion de celulas . . . . . . . . . . . 68

4.3.4. Identificacion de nucleos y citoplasmas . . . . . . . . . . . . . . 69

4.4. Clasificacion de Celulas con Leucemia Aguda . . . . . . . . . . . . . . . 71

4.4.1. Extraccion de caracterısticas . . . . . . . . . . . . . . . . . . . . 71

4.4.2. Clasificacion de celulas . . . . . . . . . . . . . . . . . . . . . . . 74

4.5. Algoritmo de Diagnostico . . . . . . . . . . . . . . . . . . . . . . . . . 77

5. Evaluacion de Resultados 81

5.1. Modelo de Segmentacion . . . . . . . . . . . . . . . . . . . . . . . . . . 82

viii

5.2. Clasificacion de Celulas . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

5.3. Algoritmo de Diagnostico . . . . . . . . . . . . . . . . . . . . . . . . . 101

5.4. Discusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

5.4.1. Comparacion con trabajos previos . . . . . . . . . . . . . . . . . 103

6. Conclusiones y Trabajo Futuro 107

6.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

6.2. Trabajo Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

Bibliografıa 109

ix

Indice de figuras

2.1. Espacio de color CIE L∗a∗b∗. . . . . . . . . . . . . . . . . . . . . . . . 16

2.2. Sistemas de vecinos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.3. Cliques de 1◦ y 2◦ orden. . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.4. Fases del proceso de minerıa de datos . . . . . . . . . . . . . . . . . . . 37

2.5. Matriz de confusion binaria . . . . . . . . . . . . . . . . . . . . . . . . 43

2.6. Curva ROC para dos clasificadores . . . . . . . . . . . . . . . . . . . . 44

4.1. Metodo propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.2. Frotis de sangre en el espacio RGB y CIE L∗a∗b∗. . . . . . . . . . . . . 57

4.3. Formacion de grupos en una imagen utilizando caracterısticas de simili-

tud de intensidad del canal L∗. . . . . . . . . . . . . . . . . . . . . . . 59

4.4. Descomposicion de textura Wold . . . . . . . . . . . . . . . . . . . . . 60

4.5. Parametrizacion del campo armonico . . . . . . . . . . . . . . . . . . . 61

4.6. Parametrizacion del campo evanescente generalizado . . . . . . . . . . 62

4.7. Relacion de las coordenadas del espacio cartesiano y polar . . . . . . . 66

4.8. Analisis del contorno de las regiones para encontrar relaciones de con-

tencion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

4.9. Separacion de regiones utilizando interpolacion lineal. . . . . . . . . . . 70

4.10. Proceso de clasificacion de subtipos de leucemia aguda . . . . . . . . . 75

4.11. Combinacion de clasificadores binarios para el diagnostico de leucemias

agudas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

4.12. Combinacion de clasificadores multiclase para el diagnostico de leucemias

agudas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

5.1. Ejemplo de la segmentacion contextual de celulas sanguıneas utilizando

imagenes reales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

xi

5.2. Ejemplos de la segmentacion contextual de celulas sanguıneas utilizando

imagenes sinteticas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

5.3. Evaluacion de los resultados del algoritmo de segmentacion contextual

de celulas sanguıneas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

5.4. Curva ROC de la clasificacion por tipos: LLA y LMA. . . . . . . . . . . 97

5.5. Curva ROC de la clasificacion por subtipos: L1 y L2. . . . . . . . . . . 97

5.6. Curva ROC de la clasificacion por subtipos: M2 y el resto de Ms. . . . 97



5.9. Curva ROC de la clasificacion por subtipos: M2, M3 y M5. . . . . . . . 98

5.10. Curva ROC de la clasificacion por subtipos: L1, L2, M2, M3 y M5. . . 99

xii

Indice de tablas

2.1. Clasificacion FAB de LLAs . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.2. Clasificacion FAB de LMAs . . . . . . . . . . . . . . . . . . . . . . . . 13

4.1. Muestras por subtipos . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.2. Pacientes por subtipos . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.3. Caracterısticas morfologicas . . . . . . . . . . . . . . . . . . . . . . . . 72

4.4. Caracterısticas estadısticas . . . . . . . . . . . . . . . . . . . . . . . . . 73

4.5. Caracterısticas de textura . . . . . . . . . . . . . . . . . . . . . . . . . 73

4.6. Caracterısticas de proporcion de tamano . . . . . . . . . . . . . . . . . 73

4.7. Valores propios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.1. Comparacion de los resultados de la segmentacion de celulas reales y

sinteticas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

5.2. Resultados de la clasificacion de las celulas con leucemia aguda por fa-

milia: LLA y LMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

5.3. Resultados de la clasificacion de las celulas con leucemia aguda por sub-

tipos: L1 y L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88


tipos: M2 y el resto de Ms . . . . . . . . . . . . . . . . . . . . . . . . . 89






tipos: M2, M3 y M5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92


tipos: L1, L2, M2, M3 y M5 . . . . . . . . . . . . . . . . . . . . . . . . 93

xiii

5.9. Comportamiento de los mejores clasificadores que analizan unicamente

la informacion de la celula al agregar caracterısticas del nucleo y citoplasma 94

5.10. Mejores resultados en la clasificacion de las celulas con leucemia aguda. 96

5.11. Comportamiento de los mejores clasificadores utilizando datos balanceados100

5.12. Evaluacion del algoritmo de diagnostico para tipos y subtipos de leuce-

mias agudas fusionando la informacion de clasificadores binarios. . . . . 101

5.13. Evaluacion del algoritmo de diagnostico para tipos y subtipos de leuce-

mias agudas fusionando la informacion de clasificadores multiclase. . . . 101

5.14. Tabla comparativa del metodo propuesto con trabajos previos en el pro-

ceso de segmentacion de celulas . . . . . . . . . . . . . . . . . . . . . . 104

5.15. Tabla comparativa del metodo propuesto con trabajos previos en el pro-

ceso de clasificacion de subtipos de leucemias agudas . . . . . . . . . . 105

xiv

Capıtulo 1

Introduccion

1.1. Descripcion del Problema

La leucemia es un tipo de cancer que afecta a los tejidos que constituyen el sistema

hematopoyetico: medula osea, bazo y ganglios linfaticos [Fau08]. En el desarrollo de la

enfermedad la medula comienza a producir un numero anormal de celulas cancerosas

inmaduras llamadas blastos que invaden el torrente sanguıneo, el sistema linfatico y

otros organos como la columna vertebral, los testıculos y el cerebro.

Sin tratamiento, este tipo de cancer es causante de muchas muertes. En Mexico, de

acuerdo con estadısticas realizadas por el Instituto Nacional de Estadıstica, Geografıa

e Informatica en el ano 2006, el cancer de sangre presenta una tasa de mortalidad de

7.0% para hombres y 5.8 % para mujeres. En distintas poblaciones de personas con

cancer, los grupos mas afectados con leucemia son ninos de 1 a 4 anos de edad (48.5 %),

ninos de 5 a 14 anos (52.2 %), jovenes de 15 a 24 anos (38.1 %) y varones de 24 a 34

anos (18.7 %) [INE08].

La deteccion temprana de la leucemia aguda permite prescribir al paciente un tra-

tamiento adecuado, esto es muy importante debido a que la enfermedad se desarrolla

rapidamente.

En el diagnostico de leucemia, ademas de considerar los signos y sıntomas que

presenta el paciente, es necesario efectuar una serie de analisis clınicos para detectar la

presencia de celulas anormales. A traves de una Biometrıa Hematica, estudio realizado

con muestras de sangre periferica, se obtienen las cantidades y porcentanjes de los

diferentes tipos de celulas en la sangre (globulos rojos, globulos blancos y plaquetas).

Si estos resultados presentan anormalidades se procede a un estudio de Microscopıa

1

2 CAPITULO 1. INTRODUCCION

Optica en el cual el experto analiza la morfologıa de las celulas extraıdas de la medula

osea a traves de la observacion de un frotis de sangre por medio de un microscopio

optico. En este estudio el experto puede detectar anomalıas en los globulos blancos y

con su conocimiento, pronosticar la presencia de leucemia y su subtipo asociado. Este

diagnostico de leucemia puede ser confirmado mediante el analisis de los resultados de

un examen de inmunofenotipo por Citometrıa de Flujo [Gal08].

El estudio de Microscopıa Optica presenta una tasa de error entre el 30 y 40 % la

cual esta relacionada con la experiencia del medico y la dificultad de distinguir entre

distintos subtipos de celulas de leucemia [Mor06]. La prueba de Citometrıa de Flujo

tiene una alta precision pero es muy costosa y presenta el inconveniente de que no todos

los hospitales tienen el equipo de laboratorio necesario para realizarla [Gal08].

1.1.1. Motivacion

Debido a los errores presentados en el diagnostico de leucemias y a que los hospita-

les no cuentan con la infraestructura adecuada para realizar estudios precisos para la

deteccion de esta patologıa, este trabajo de investigacion propone un analisis morfologi-

co en el estudio de Microscopıa Optica mediante tecnicas de vision por computadora

y minerıa de datos con la finalidad de proveer el fundamento teorico requerido pa-

ra el desarrollo posterior de un software que detecte y clasifique distintos subtipos de

leucemias agudas y permita la prescripcion de un tratamiento adecuado al paciente.

Para lograr que la interpretacion de la imagen medica sea confiable, durante el diseno

y desarrollo de los algoritmos computacionales que permiten su analisis automatico, se

requiere de la continua interaccion y asesoramiento de medicos expertos en el area.

1.1.2. Objetivos

Objetivo General

Desarrollar un algoritmo de segmentacion de celulas con leucemia a partir de in-

formacion contextual que permita clasificar subtipos de leucemias agudas en imagenes

digitales.

Objetivos Especıficos

1. Desarrollar un algoritmo de segmentacion de celulas sanguıneas con base en la

informacion contextual de los pıxeles de la imagen.

1.2. SOLUCION PROPUESTA 3

2. Desarrollar un algoritmo que identifique celulas de sangre mediante el uso de

informacion contextual de los objetos contenidos en la imagen.

3. Clasificar subtipos de leucemias agudas a partir del analisis de caracterısticas que

describen el nucleo y citoplasma de la celula.

4. Implementar un algoritmo de diagnostico que determine el subtipo de leucemia

aguda de un paciente considerando todas sus imagenes disponibles.

1.2. Solucion Propuesta

En este trabajo de investigacion se propone analizar la informacion contenida en las

imagenes digitales de celulas con leucemia desde un enfoque contextual para la clasifica-

cion y diagnostico de 5 subtipos de leucemias agudas. Este enfoque permitira interpretar

la informacion visual de los elementos que constituyen las imagenes de celulas de manera

similar a la que usamos los humanos para identificar objetos.

La solucion que se propone para analizar la morfologıa de las celulas utiliza tecnicas

de vision por computadora y minerıa de datos e incluye la segmentacion de elementos

celulares, identificacion de celulas, clasificacion por subtipos de celulas con leucemia

aguda y diagnostico de leucemias agudas.

1.2.1. Segmentacion de elementos celulares

Un pixel por si mismo carece de significado, sin embargo cuando es visto en un

contexto1 puede expresar muchas cosas.

Debido a que la intensidad de color de un pixel considerada individualmente no es

suficiente para desarrollar satisfactoriamente la segmentacion de celulas en imagenes

con variaciones de color, en este trabajo se utiliza la informacion contextual de los

pixeles de la imagen para generar una mejor segmentacion. La clasificacion de cada

pixel sera resultado de sus caracterısticas propias ası como de las caracterısticas de los

pixeles vecinos.

Algunas caracterısticas contextuales que se pueden tomar en cuenta durante el pro-

ceso de segmentacion son: niveles de gris, color, movimiento, textura, etc. En este tra-

bajo de tesis se propone modelar la informacion contextual del color y textura de los

1En esta investigacion definimos el contexto como el conjunto de elementos relacionados con unobjeto que permiten interpretar adecuadamente el significado del mismo.


pixeles de la imagen para generar regiones homogeneas utilizando la teorıa de campos

aleatorios de Markov.

1.2.2. Identificacion de celulas.

La informacion contextual de los objetos relacionados con un objeto puede pro-

veer informacion mas relevante en el reconocimiento del objeto que las caracterısticas

intrınsecas del mismo.

En esta tesis se propone identificar las celulas explotando las relaciones contextuales

(espaciales y geometricas) de los objetos que constituyen la imagen. La idea de usar

informacion contextual de las regiones (objetos) de la imagen es identificar celulas a

traves del reconocimiento y asociacion de los elementos que la constituyen, es decir, su

nucleo y citoplasma.

La informacion contextual que se puede utilizar para identificar las celulas, es por

ejemplo la posicion, el color y la forma de las regiones que representan las celulas y

nucleos. El uso de esta informacion es util debido a que resaltan regularidades de la

celula permitiendo la identificacion de regiones correctamente clasificadas como nucleos

y celulas, la discriminacion de las regiones mal clasificadas como elementos celulares y

la deteccion de celulas traslapadas.

1.2.3. Clasificacion de celulas con leucemia aguda

En este trabajo de investigacion se propone realizar la clasificacion de celulas con

leucemia por subtipos de leucemias agudas utilizando distintas caracterısticas de las

celulas y de sus respectivos nucleos y citoplasmas.

1.2.4. Diagnostico de leucemias agudas

Para realizar el diagnostico de leucemias agudas, los medicos previamente analizan

mediante un estudio de microscopıa optica distintas celulas afectadas con leucemia.

De manera similar al analisis que el experto realiza para el diagnostico de subtipos

de leucemias, en este trabajo de tesis se propone utilizar un algoritmo de decision

que fusione los resultados de la clasificacion de las muestras de celulas con leucemia

pertenecientes a un paciente.

1.3. METODOLOGIA 5

1.3. Metodologıa

La metodologıa a seguir es la siguiente:

1. Definicion de la informacion contextual de los pıxeles en imagenes digitales de

celulas sanguıneas.

2. Segmentacion de celulas utilizando informacion contextual de los pıxeles de la

imagen.

3. Definicion del contexto de la estructura patologica de celulas sanguıneas para el

reconocimiento de nucleos y citoplasmas.

4. Identificacion de las celulas a partir de informacion contextual de los objetos que

conforman la imagen.

5. Evaluacion de los resultados de la segmentacion.

6. Extraccion de distintas caracterısticas descriptivas del nucleo y citoplasma de las

celulas.

7. Clasificacion de las celulas aplicando distintos algoritmos de seleccion de atributos

y clasificadores.

8. Evaluacion de los resultados de la clasificacion.

9. Diagnostico del subtipo de leucemia utilizando la informacion de todas las celulas

sanguıneas identificadas.

10. Evaluacion de los resultados del diagostico de leucemias agudas.

1.4. Alcance de la Tesis

Este trabajo de investigacion esta orientado unicamente a la identificacion de celulas

con leucemia en imagenes digitales de frotis de medula osea. Sin embargo, las tecnicas

utilizadas permitiran modelar situaciones de interes relacionadas con la identificacion

de objetos y la toma de decisiones en aplicaciones de diagnostico medico, vision robotica

y vision industrial, entre otras.


Algunas tareas importantes que se realizaran en esta tesis seran: la extraccion del

nucleo y citoplasma de las celulas en imagenes de frotis de sangre que presentan tin-

ciones heterogeneas; la deteccion de celulas traslapadas en imagenes con alta poblacion

celular; y la determinacion de las caracterısticas morfologicas, estadısticas, de textu-

ra y de proporcion de tamano del nucleo y citoplasma que describen a las diferentes

celulas sanguıneas. Las caracterısticas descriptivas de las celulas permitiran la gene-

racion modelos de clasificacion para el reconocimiento de leucemias agudas, los cuales

seran integrados en un algoritmo de decision para el diagnostico de tipos y subtipos de

leucemias agudas.

Es importante mencionar que en este trabajo no se cubre todo el conjunto de las

patologıas de leucemias agudas, sino aquellas directamente vinculadas con muestras de

imagenes proporcionadas por el IMSS San Jose en Puebla en el periodo de 2000 a 2001,

las cuales corresponden a 5 distintos subtipos de leucemias agudas.

Los resultados que se obtendran con esta tesis mostraran la importancia de utilizar

la informacion contextual en el analisis de imagenes reales aplicando tecnicas de vision

por computadora, minerıa de datos y fusion de datos a nivel decision. Ası mismo,

estas tecnicas podran ser aplicadas en el sector medico en el area hematologica para la

deteccion de subtipos de leucemias agudas.

1.5. Organizacion de la Tesis

A continuacion se presenta un panorama general de la organizacion del presente

documento.

En el capıtulo 2 se exponen los fundamentos teoricos sobre las leucemias, vision por

computadora, y minerıa de datos, ası mismo, se incluyen las definiciones de las carac-

terısticas extraıdas a las regiones de interes, se describen los algoritmos de clasificacion

utilizados en el proceso de minerıa de datos y se explican las tecnicas utilizadas para la

evaluacion de resultados. En el capıtulo 3 se presenta el estudio del estado del arte en el

cual se describen los algoritmos de segmentacion que han sido utilizados para reconocer

elementos celulares, ası como los algoritmos de clasificacion que permiten identificar

distintos tipos de celulas con leucemia aguda. En el capıtulo 4 se detalla el metodo

propuesto para realizar la segmentacion y clasificacion de celulas con leucemia. Aquı se

puntualizan los algoritmos creados para la segmentacion, separacion e identificacion de

celulas mediante el uso de informacion contextual, ası como los algoritmos utilizados en

1.5. ORGANIZACION DE LA TESIS 7

la etapa de clasificacion de celulas con leucemias y el modelo de diagnostico propuesto.

En el capıtulo 5 se presentan los resultados obtenidos y en el capıtulo 6 se exponen las

conclusiones y trabajos futuros de la presente investigacion. Por ultimo se encuentran

las referencias utilizadas en este trabajo de tesis.

Capıtulo 2

Fundamentos Teoricos

Este trabajo de investigacion propone una metodologıa para realizar el estudio de

microscopia optica para la deteccion de subtipos de leucemias agudas aplicando tecnicas

de vision por computadora y minerıa de datos.

Los conceptos relacionados con estas areas y con el area medica sobre los que se

basa este trabajo se encuentran organizados en este capıtulo de la siguiente manera:

En la seccion 2.1 se presenta los conceptos medicos relacionados con la descripcion

de las leucemias y las caracterısticas morfologicas de las celulas que ayudan a diferenciar

entre subtipos de leucemias aguda.

En la seccion 2.2 se describen algunos conceptos de vision por computadora, especıfi-

camente se explican los modelos de color y textura que seran utilizados en un modelo

de segmentacion para extraer regiones de interes en las imagenes de medula osea.

En la seccion 2.3 se definen las caracterısticas que seran extraıdas al nucleo y ci-

toplasma de la celula para diferenciar entre subtipos de leucemias. En este trabajo se

utilizan distintas caracterısticas: morfologicas, estadısticas, de textura y valores propios.

En la seccion 2.4 se describen brevemente los algoritmos de clasificacion, evaluadores

de atributos y tecnicas de re-muestreo utilizadas en el proceso de minerıa de datos.

Finalmente en la seccion 2.5 se presentan las metricas obtenidas a partir de la matriz

de confusion binaria empleadas para evaluar la segmentacion y clasificacion de celulas

y se explican las tecnicas de validacion cruzada y analisis de curvas ROC empleadas en

la evaluacion de la clasificacion de celulas.

9

10 CAPITULO 2. FUNDAMENTOS TEORICOS

2.1. Conceptos Medicos

2.1.1. Leucemias

La leucemia es un cancer de la sangre que se caracteriza por el aumento permanente,

anormal y desordenado del numero de leucocitos, lo que da lugar a una invasion de la

medula osea e impide a su vez el desarrollo normal de las celulas progenitoras de la

sangre, y consecuentemente falta de globulos rojos y plaquetas. Esta situacion provoca

que el cuerpo del afectado quede expuesto a un gran numero de enfermedades sin

posibilidad de que el organismo pueda luchar contra ellas por la carencia de defensas

[Loz02].

2.1.2. Tipos de leucemia

Se pueden distinguir distintos tipos de leucemias, segun el tipo de celulas afectadas

y el progreso de la enfermedad [Loz02]:

• Leucemia aguda linfoblastica.

• Leucemia aguda mieloblastica.

• Leucemia mieloide cronica.

• Leucemia linfatica cronica.

Los terminos agudo y cronico se refieren al hecho de que sin tratamiento, estas

neoplasias malignas pueden matar al sujeto en periodos de semanas a meses (aguda)

o en periodos de meses a anos (cronica). Con respecto a la celula que afecta existen

dos familias principales de leucemia, la mieloide y la linfoide. En la leucemia linfoide

las celulas, que normalmente se transforman en linfocitos, se hacen cancerosas y rapi-

damente reemplazan a las celulas normales que se encuentran en la medula osea. En la

leucemia mieloide, los granulocitos no se desarrollan sino que se convierten en celulas

cancerosas que invaden la medula osea [HEM09b].

2.1.3. Examen morfologico

No obstante que las tinciones especiales, los marcadores de superficie, el inmunofe-

notipo, la citometrıa de flujo y el cariotipo han contribuido notablemente para lograr

el diagnostico de las leucemias en forma mas precisa, los estudios basicos, como son el

2.1. CONCEPTOS MEDICOS 11

cuidadoso examen de los frotis de sangre periferica y de medula osea, siguen teniendo

una gran importancia [RASM96].

En el examen morfologico debe ponerse especial atencion en las caracterısticas del

nucleo: su grado de inmadurez determinado por la finura de la cromatina, la presencia o

no de nucleolos y la forma y contorno del mismo nucleo. La naturaleza de las inclusiones

citoplasmicas (particularmente granulos primarios o secundarios, granulacion azurofila,

vacuolas y cuerpos de Auer) son puntos claves en el diagnostico. Igualmente, la pro-

porcion del citoplasma basofılico es importante para juzgar el grado de inmadurez; un

citoplasma abundante que no es azul es caracterıstico de mayor madurez [RASM96].

En el estudio morfologico de celulas de medula osea es muy importante recono-

cer celulas neoplasicas (anormales) que ayuden al diagnostico de padecimientos hema-

tologicos. En la deteccion de tipos y subtipos de leucemias agudas la precision en estos

estudios es de vital importancia ya que permite brindar un tratamiento adecuado al

paciente.

2.1.4. Clasificacion de leucemias agudas (FAB)

La mejor clasificacion que puede efectuarse para identificar con precision subtipos

de leucemias agudas es la clasificacion MIC (morfologica, inmunologica y citogeneti-

ca). Cuando se emplea la observacion morfologica convencional como medio unico pa-

ra efectuar la clasificacion de las leucemias agudas, se pueden cometer errores en los

diagnosticos, y en consecuencia errores terapeuticos aproximadamente en 20 % de los

casos de leucemia aguda [HEM09d].

La clasificacion de las leucemias agudas basada en el examen morfologico de las

celulas de la sangre y de la medula osea con la ayuda de las tecnicas histoquımicas,

permite el reconocimiento de dos grandes grupos: las leucemias linfoblasticas agudas

(LLA) y las leucemias mieloblasticas agudas (LMA) [Loz02].

De las muchas clasificaciones propuestas, la clasificacion morfologica FAB especi-

ficada por el grupo cooperativo Franco-Americano-Britanico es en la actualidad la de

mas amplia aceptacion. La clasificacion FAB reconoce 11 subtipos de leucemia agu-

da. Esta clasificacion morfologica de leucemias agudas incluye 3 subtipos de leucemias

linfoblastica y 8 subtipos de leucemias mieloblastica [HEM09d].

Las tablas 2.1 y 2.2 describen las caracterısticas morfologicas de las celulas que se

presentan en las LLAs y LMAs, respectivamente [HEM09c, HEM09a].


Tabla 2.1: Clasificacion FAB de LLAs

SUBTIPO DE LLA CARACTERISTICAS MORFOLOGICAS

L1 • Predominio de celulas pequenas.

• Citoplasma escaso.

• Predominio de celulas pequenas.

• Citoplasma escaso.

• Nucleolos visibles, en ocasiones no llamativos.

• Cromatina nuclear homogenea.

• Nucleo regular, puede estar hendido o indentado.

• Basofilia citoplasmatica variable.

• Vacuolizacion citoplasmatica variable.

L2 • Predominio de celulas grandes y heterogeneas.

• Citoplasma variable, con frecuencia mas o menos

abundante.

• Uno o mas nucleolos, frecuentemente de tamano

grande.

• Cromatina nuclear variable, heterogenea en cada caso.

• Nucleo irregular, por lo general hendido o indentado.

• Basofilia citoplasmatica variable.

• Vacuolizacion citoplasmatica variable.

L3 • Predominio de celulas grandes y homogeneas.

• Citoplasma moderadamente abundante.

• Uno o mas nucleolos, prominentes.

• Cromatina nuclear finamente punteada, homogenea.

• Forma del nucleo regular, ovalado y tambien redondo.

• Basofilia citoplasmatica intensa.

• Vacuolizacion citoplasmatica prominente.

2.1. CONCEPTOS MEDICOS 13

Tabla 2.2: Clasificacion FAB de LMAs

SUBTIPO DE LMA CARACTERISTICAS MORFOLOGICAS

M0 • Blastos de tamano mediano con cromatina nuclear

(Mınimamente dispersa.

Diferenciada) • Citoplasma agranular.

• Blastos ocasionalmente pequenos que se asemejan

a linfoblastomas.

M1 • Mieloblastos constituyen un 90 % de las celulas no

(sin Maduracion) eritroides en la medula osea.

• Mieloblastos que pueden tener granulos azurofılicos

o bastones de Auer.

• Mieloblastos que se asemejan a linfoblastos.

M2 • Mieloblastos con granulos azurofılicos y sin ellos.

(con Maduracion) • Bastones de Auer.

• Promielocitos, mielocitos y neutrofilos constituyen

un 10 % de las celulas de la medula osea.

M3 • Nucleos en forma de rinon o bilobulados.

(Promielocıtica • Citoplasma densamente poblado con granulos grandes

Aguda) (rosa brillante, rojo o purpura en tinciones de

Romanowsky).

• Fascıculos de bastones de Auer dentro del citoplasma

(celulas en haz). Bastones de Auer mas grandes que

• en otros tipos de LMA.

esta tabla continua en la siguiente pagina


Tabla 2.2 - continuacion de la pagina anterior

SUBTIPO DE LMA CARACTERISTICAS MORFOLOGICAS

M4 • Monoblastos grandes con nucleos redondos,

(Mielomonocıtica 20% de blastos en la medula osea.

Aguda) • Citoplasma abundante.

• Nucleolos prominentes.

M5a • Monoblastos basofılicos grandes.

(Monoblastica • Citoplasma abundante.

Aguda) • Nucleos redondos.

• Uno o mas nucleolos.

• Bastones de Auer poco corrientes.

M5b • Promonocitos de configuracion nuclear irregular.

(Monoblastica • Citoplasma moderadamente basofılico.

Aguda) • Granulos azurofılicos citoplasmicos.

M6a y M6b • Eritroblastos de tamano mediano a grande.

(Eritroides • Nucleos redondos.

agudas) • Cromatina fina.

• Uno o mas nucleolos.

• Citoplasma profundamente basofılico.

• Vacuolas coalescentes ocasionales.

M7 • Megacarioblastos de tamano mediano a grande.

(Megacarioblastica • Nucleo redondo o dentado.

Aguda) • Uno o mas nucleolos.

• Citoplasma agranular, basofılico con formacion

de pseudo vaina.

• Morfologıa similar a la de los linfoblastos.

• Relacion nucleo-citoplasma alta en algunos casos.

2.2. VISION POR COMPUTADORA 15

2.2. Vision por Computadora

El presente trabajo de investigacion incorpora caracterısticas de color y textura

en un modelo de segmentacion de celulas sanguıneas que utilizan informacion contex-

tual. El modelo de segmentacion esta basado en la teorıa de probabilidad de Campos

Aleatorios de Markov (CAM), la cual permite modelar de manera consistente las de-

pendencias espaciales o contextuales de los pıxeles de la imagen y sus caracterısticas

correlacionadas.

En esta seccion se describen los fundamentos teoricos de los conceptos y tecnicas

utilizadas en el diseno del algoritmo de segmentacion de celulas sanguıneas desarrollado

en esta tesis.

2.2.1. Espacios de color

Un espacio de color es un modelo matematico que representa la informacion de

color en terminos de valores de intensidad de manera multidimensional en donde cada

dimension o componente es conocido como un canal de color [CS09a].

Existen distintos espacios de color: los basicos (RGB, RGB normalizado, CIEXYZ ),

los perceptuales (HSI, HSV, HSL, TSL), los ortogonales (YCbCr, YIQ, YUV, YES ) y

los perceptualmente uniformes (CIEL∗a∗b∗, CIE Luv) [KMB06].

El espacio de color RGB es universalmente aceptado por la comunidad del procesa-

miento de imagenes como medio para representar color, sin embargo es un espacio de

color no uniforme en el sentido de que la diferencia entre dos colores no corresponde a

la diferencia percibida por los humanos [Pas01].

En este trabajo de investigacion el espacio de color CIE L∗a∗b∗ es utilizado debido

a que proporciona exactitud y un enfoque perceptual en el calculo de la diferencia de

color.

Espacio de Color CIEL∗a∗b∗

En 1976, la Commission Internationale de lEclairage (CIE) desarrollo el modelo de

espacio de color CIE L∗a∗b∗. Este modelo fue disenado para ser un espacio de color

perceptualmente uniforme. El termino perceptual se refiere a la forma en que los seres

humanos perciben los colores, y uniforme implica que la diferencia de percepcion en-

tre dos coordenadas (dos colores) esta relacionada con una medida de distancia, que


comunmente es la distancia euclidiana. Por tanto, las diferencias de color se pueden

medir de una manera relacionada a la percepcion humana de colores [LVBV05].

Como el conjunto de datos de las imagenes fueron adquiridas originalmente en el

espacio de color RGB, una conversion al espacio CIE L∗a∗b∗ es necesaria. Esta con-

version se realiza utilizando una transformacion lineal del espacio RGB a un sistema

intermedio conocido como el espacio CIE XYZ de la siguiente manera [Pas01, Gmb07]:

X

Y

Z

=

0,412453 0,357580 0,180423

0,212671 0,715160 0,072169

0,019334 0,119193 0,950227

R

G

B

(2.1)

Basado en la definicion del espacio CIE XYZ, el espacio de color CIE L∗a∗b∗ es

formulado como:L∗ = 116 ∗ f( Y

Yw) − 16

a∗ = 500 ∗ (f( XXw

) − f( YYw

))

b∗ = 200 ∗ (f( YYw

) − f( ZZw

))

(2.2)

En dondef(t) = t

13 , para t > ( 24

116)3

f(t) = (841108

) ∗ t + 16116

, en caso contrario.(2.3)

Xw, Yw, y Zw son las componentes del blanco de referencia obtenido a partir de la

ecuacion 2.1 con Rw = Gw = Bw = 255.

El espacio de color CIE L∗a∗b∗ incluye todos los colores visibles para el ojo hu-

mano, los cuales estan representados en un modelo tridimensional que contiene tres

ejes primarios: el eje de luminosidad L∗ y los ejes a∗ y b∗ que forman el color [CS09b].

Figura 2.1: Espacio de color CIE L∗a∗b∗.


La figura 2.1 muestra el modelo en 3D del espacio de color CIE L∗a∗b∗. El eje de

luminosidad L∗ simboliza la reflexion del color con variacion de 0 a 100, en correspon-

dencia a la no reflexion (color negro) y alta reflexion (color blanco), respectivamente.

Los ejes a∗ y b∗ contienen 256 niveles de graduacion (de -128 a +127) para describir

distintos colores. El eje a∗ incluye las tonalidades del verde (−a) al rojo (+a) mientras

que el eje b∗ comprende la gama de colores que va del azul (−b) al amarillo (+b) [Kla05].

En esta seccion se presentaron los conceptos relacionados con el espacio de color

que se utilizara en este trabajo de investigacion. En el siguiente apartado se presentan

los fundamentos teoricos del modelo de textura que se empleara conjuntamente con

las caracterısticas de color en el diseno de un algoritmo de segmentacion de celulas

sanguıneas basado en CAM.

2.2.2. Modelo de descomposicion de textura Wold

Introduccion

La textura es una propiedad que describe la superficie y estructura de una imagen.

A diferencia de la propiedad de color, la textura se presenta sobre una region en la

imagen en lugar de sobre un punto [SG08]. En general, las texturas son patrones vi-

suales complejos compuestos por entidades o subpatrones que tienen caracterısticas de

brillo, color, inclinacion, tamano, etc. [RK82]. Por tanto, la textura puede ser conside-

rada como una agrupacion de similitud en una imagen que puede percibirse a traves

de las propiedades locales de los subpatrones como: luminosidad, uniformidad, den-

sidad, rugosidad, regularidad, linealidad, frecuencia, fase, direccionalidad, tosquedad,

aleatoriedad, finura, suavidad, granulacion, etc. [Lev85].

Existen tres enfoques principales para la descripcion de texturas: estadıstico, es-

tocastico y estructural. En el enfoque estadıstico la textura es representada mediante

las propiedades estadısticas de los valores de intensidad de los pıxeles de la imagen.

En el enfoque estocastico la textura es considerada como la realizacion de un proceso

estocastico el cual es controlado por algunos parametros. El analisis se efectua mediante

la definicion de un modelo y la estimacion de los parametros que lo definen, de modo

que el proceso estocastico pueda ser reproducido a partir estos. En el enfoque estruc-

tural la textura es vista como un patron bidimensional que consiste de un conjunto de

primitivas o subpatrones que estan ordenados de acuerdo a ciertas reglas de colocacion

[Lew01, MS82].


En este trabajo de investigacion se utiliza el modelo de descomposicion de textura

Wold 2D el cual unifica el enfoque estructural y estocastico para describir la textura

[Lew01]. La motivacion de elegir este modelo es su interesante relacion de similaridad

con la percepcion visual humana [RL93] y sus propiedades invariantes a traslacion,

rotacion y escala [ZT01].

Modelo de descomposicion Wold 2D

La teorıa Wold 2D interpreta la textura de una imagen mediante la suma de tres

componentes mutuamente ortogonales: un campo armonico, un campo evanescente ge-

neralizado y un campo puramente determinista [Fra93]. Las caracterısticas perceptuales

de estos componentes pueden ser descritos como: periodicidad, direccionalidad y aleato-

riedad respectivamente, de acuerdo con las tres dimensiones de la percepcion humana

de textura mas importantes identificadas en el trabajo de investigacion de Ravishankar

Rao y G. LT Lohse [RL93].

Considere un campo aleatorio homogeneo y regular {y(n,m) | (n,m) ∈ Z2}. La

teorıa Wold 2D permite que el campo sea descompuesto en dos componentes mutua-

mente ortogonales:

y(n,m) = v(n,m) + w(n,m) (2.4)

donde {v(n,m)} es el componente determinista y {w(n,m)} es el componente no

determinista. Del mismo modo, el componente determinista es representado por la

siguiente descomposicion ortogonal:

v(n,m) = h(n,m) + g(n,m) (2.5)

donde {h(n,m)} es el campo aleatorio armonico y {g(n,m)} es llamado el campo alea-

torio evanescente generalizado. El campo evanescente generalizado es una combinacion

lineal de un numero contable de campos evanescentes mutuamente ortogonales.

En el dominio de las frecuencias, la funcion de distribucion espectral (FDS) Fy(w, v)

de y(n,m) puede ser expresada por las FDS de sus campos componentes:

Fy(w, v) = Fv(w, v) + Fw(w, v) (2.6)

donde Fv(w, v) = Fh(w, v)+Fg(w, v) y Fw(w, v) son las FDS del componente determinis-


ta y no determinista, respectivamente. Y las funciones Fh(w, v) y Fg(w, v) corresponden

a las FDS del componente armonico y evanescente generalizado, respectivamente.

Parametrizacion del campo determinista

Extraccion del campo armonico: El campo aleatorio armonico {h(n,m)} esta re-

presentado por una sumatoria contable de sinusoidales pesadas aleatoriamente:

h(n,m) =P

∑

k=1

{Ck cos 2π(nwk + mvk) + Dk sin 2π(nwk + mvk)} (2.7)

donde las Cks y Dks son variables aleatorias mutuamente ortogonales, y (wk, vk)

son las frecuencias espaciales de las k armonicas.

Debido a que generalmente solo una realizacion del campo aleatorio es observada, se

tienen que estimar los valores particulares en los cuales Cks y Dks llevan a la realizacion

dada. Ya que las Cks y Dks son tratadas como constantes desconocidas y los valores de

(wk, vk) son desconocidos, el numero de componentes armonicas tambien es desconocido.

Joseph M. Francos, 1993 [Fra93] propone un algoritmo para estimar los parametros

de los componentes armonicos. Primero se resuelven las sinusoidales utilizando la trans-

formada discreta de Fourier (TDF), luego utilizando un periodograma como estimador

de frecuencias se obtienen los componentes periodicos desconocidos mediante la iden-

tificacion de las frecuencias de los picos aislados mas grandes. En el procedimiento de

localizacion de picos armonicos, se establece como umbral el valor de amplitud maxima

del periodograma, este umbral de amplitud va decreciendo gradualmente hasta que se

encuentran todos los picos que se consideran componentes armonicos. El numero de

picos espectrales detectados es denotado por P en la ecuacion 2.7.

La parte de la parametrizacion se efectua mediante la evaluacion de los valores de

amplitud y fase de la TDF en las frecuencias identificadas como maximas.

Extraccion del campo evanescente generalizado: El campo evanescente genera-

lizado {g(n,m)} es definido mediante la combinacion lineal de un numero contable de

campos evanescentes e(n,m) mutuamente ortogonales de la forma:

e(n,m) = s(n)I

∑

i=1

{Ai cos 2πmvi + Bi sin 2πmvi} (2.8)

donde {s(n)} es un proceso no determinista puro en 1D, I es el numero de compo-


nentes evanescentes con inclinacion (α, β), Ai y Bi son variables aleatorias ortogonales

y vi es la frecuencia del i-esimo componente evanescente.

Fang Liu and Rosalind W. Picard, 1999 [LP99] proponen un metodo para estimar el

campo evanescente generalizado. De la TDF sin componentes armonicos se localizan las

lıneas evanescentes utilizando la transformada de Hough. La parte de parametrizacion

se realiza evaluando los valores de amplitud y fase de la TDF en las frecuencias de las

lıneas evanescentes identificadas.

Parametrizacion del campo no determinista

El campo aleatorio no determinista se describe como:

w(n,m) = −∑

(0,0)≺(k,l)

b(k, l)w(n − k, m − l) + u(n,m) (2.9)

en donde {u(n,m)} es el campo de innovacion blanco 2D con varianza σ2.

En la parametrizacion del componente no determinista se evaluan los valores de am-

plitud y fase sobre la TDF residual una vez eliminados los componentes determinısticos

de la textura.

2.2.3. Modelo de segmentacion con CAM

La segmentacion de imagenes es una tarea de vision de bajo nivel en donde los pıxe-

les con caracterısticas similares son agrupados en regiones homogeneas. Hay muchas

caracterısticas que pueden tomarse en cuenta durante el proceso de segmentacion: ni-

veles de gris, color, movimiento, textura, etc. Sin embargo, la mayorıa de los algoritmos

de segmentacion estan basados en solo una de las caracterısticas anteriores.

Los Campos Aleatorios de Markov (CAM) permiten efectuar una tarea de vision

de bajo nivel considerando una o varias de las caracterısticas mencionadas. En el area

de vision por computadora, los CAM han sido aplicados ampliamente para solucionar

problemas de analisis de imagenes en distintos niveles.

La mayorıa de los modelos CAM se utilizan en el procesamiento de bajo nivel.

Esto incluye la restauracion de imagenes, segmentacion, reconstruccion de superficie,

deteccion de lados, analisis de textura, flujo optico y fusion de datos. El uso de los CAM

en tareas de vision de alto nivel como el reconocimiento de objetos ya se ha estudiado

[Li00].


Problema de etiquetado

Muchos de los problemas de vision pueden ser expresados como problemas de eti-

quetado, de manera que la solucion del problema es la asignacion de un conjunto de

etiquetas a los pıxeles de la imagen o a las caracterısticas de la misma. Los problemas

de etiquetado son una representacion natural para el estudio de los CAM [Bes74].

Un problema de etiquetado es especificado en terminos de un conjunto de estados y

un conjunto de etiquetas.

Sea S el conjunto de estados para una imagen 2D de tamano m × n el cual puede

describirse como:

S = {(i, j)|1 ≤ i ≤ m, 1 ≤ j ≤ n} (2.10)

En donde el estado s(i,j) representa al pıxel (i, j) de la imagen.

Sea L el conjunto de M posibles etiquetas que pueden ser asignadas a un estado.

L = {l1, . . . , lM} (2.11)

Entonces, el etiquetado de los estados consiste en la definicion del conjunto f

f = {f1, . . . , fm} (2.12)

En donde a cada estado s ∈ S se le asocia una unica etiqueta l ∈ L mediante la funcion

de mapeo f : S → L.

Sistema de Vecinos y Cliques

Los CAM se utilizan en problemas de etiquetado para establecer distribuciones

probabilısticas de interaccion entre etiquetas.

Los estados en S estan relacionados con otros por medio de un sistema de vecinos

N definido como:

N = {Ni | ∀i ∈ S} (2.13)

donde Ni es el conjunto de estados vecinos a i.

La relacion de vecindad tiene las siguientes propiedades:

1. Un sitio (pıxel) no es vecino de si mismo: i /∈ Ni

2. La relacion de vecindad es mutua: i ∈ Ni′ ⇔ i′ ∈ Ni


Para una rejilla regular S, el conjunto de vecinos de i puede ser expresado como:

Ni = {i′ ∈ S | dist(pıxeli′ , pıxeli)2 ≤ r, i′ 6= i} (2.14)

donde dist(A,B) denota la distancia euclidiana entre A y B, y r es un numero entero

que representa el radio que delimita el conjunto de vecinos de i.

Las figuras 2.2(a) y 2.2(b) ilustran el sistema de vecinos de primer orden (4-vecinos)

y de segundo orden (8-vecinos), respectivamente. La figura 2.2(c) muestra sistemas de

vecinos de distinto orden para una rejilla regular S. Los numeros n = {1, 2, . . . , n}indican los estados de los vecinos de orden n. Observe que los pıxeles en la frontera o

cercanos a ella tienen pocos vecinos.

(a) Sistema de vecinosde primer orden

(b) Sistema de vecinosde segundo orden

(c) Sistema de vecinosde orden n={1, 2, . . . , 5}

Figura 2.2: Sistemas de vecinos

El par (S, N) , G por definicion es un grafo en donde S contiene los nodos y N

determina las relaciones entre los nodos de acuerdo con el sistema de vecinos establecido.

Un clique para (S, N) se define como un subconjunto de S tal que c consiste en

un unico estado c = {i} o un par de estados vecinos c = {i, i′}, o tres estados vecinos

c = {i, i′, i′′} y ası sucesivamente.

En otras palabras, un clique C es un estado simple (pıxel) o un conjunto de estados

tales que todos los estados que pertenecen a C son mutuamente vecinos.

Denotamos el conjunto de cliques de un solo estado, de dos estados y de tres estados

por C1,C2,C3 respectivamente, donde:

C1 = {i | i ∈ S} (2.15)

C2 = {{i, i′} | i′ ∈ Ni, i ∈ S} (2.16)

C3 = {{i, i′, i′′} | i, i′, i′′ son vecinos dos a dos} (2.17)


Los estados en un clique estan ordenados, por tanto {i, i′} no es lo mismo que {i′, i}.El conjunto de todos los cliques para (S, N) es

C = C1 ∪ C2 ∪ C3, . . . (2.18)

en donde ”. . . ”denota posibles conjuntos de cliques mas grandes.

El tipo de clique para {S,N} de una rejilla regular, esta determinado por su tamano,

dimension y orientacion. La figura 2.3 muestra distintos tipos de cliques para sistemas

de vecinos de primer y segundo orden. A medida que aumenta el orden del sistema de

vecinos, el numero de cliques crece rapidamente y tambien el costo computacional de

procesamiento asociado.

Figura 2.3: Cliques de 1◦ y 2◦ orden.

Campos Aleatorios de Markov (CAM)

Sea F = {F1, . . . , Fm} una familia de variables aleatorias definidas en el conjunto

de estados S, en donde cada variable aleatoria Fi toma un valor fi en el conjunto de

etiquetas discretas L. Se dice que F es un Campo Aleatorio de Markov en S con respecto

a un sistema de vecinos N si satisface la condicion de positividad (ecuacion 2.19) y la

condicion markoviana (ecuacion 2.20):

P (f) > 0,∀f ∈ F (2.19)

P (fi | fS−{i}) = P (fi | fNi) (2.20)

En donde f es una configuracion de F , P (f) mide la probabilidad de ocurrencia

de la configuracion f , P (fi) es la probabilidad de que la variable aleatoria Fi tome el

valor fi, S −{i} es el conjunto diferencia, fS−{i} denota el conjunto de etiquetas en los

estados de S − {i} y fNi= {fi′ | i′ ∈ Ni} denota el conjunto de etiquetas en los estados

vecinos Ni de i.

Se dice que un conjunto de variables aleatorias F es un Campo Aleatorio de Gibbs


en el conjunto de estados S con respecto a un sistema de vecinos N si y solo sı sus

configuraciones siguen una distribucion de Gibbs. Una distribucion de Gibbs toma la

siguiente forma:

P (f) =1

Zexp[− 1

TU(f)] (2.21)

Z =∑

f∈F

exp[− 1

TU(f)] (2.22)

U(f) =∑

c∈C

Vc(f) (2.23)

donde P (f) mide la probabilidad de ocurrencia de la configuracion f , Z es una

constante de normalizacion, T es una constante que controla la forma de la distribucion

y U(f) es una funcion de energıa. La funcion de energıa U(f) es la suma de todos las

funciones de cliques potenciales Vc(f) definidas para todas las cliques C en el sistema

de vecindad.

Es importante mencionar que para una funcion de probabilidad de ocurrencia P (f)

las configuraciones mas probables son aquellas con energıas U(f) mas bajas y que cuando

la temperatura T es alta todas las configuraciones tienden a estar igualmente distri-

buidas mientras que con una temperatura proxima a cero, la distribucion se concentra

alrededor de los mınimos globales de energıa.

Un campo aleatorio de Markov se caracteriza por sus propiedades locales mientras

que un campo aleatorio de Gibbs se caracteriza por sus propiedades globales (la dis-

tribucion de probabilidad de Gibbs). El teorema de Hammersley-Clifford establece la

equivalencia entre estos dos tipos de caracterısticas.

De acuerdo al teorema de Hammersley-Clifford, F es un campo Aleatorio de Markov

en los estados de S con respecto a un sistema de vecinos N si y solo si F es un campo

Aleatorio de Gibbs en S con respecto a N . Existen muchas pruebas de este teorema,

una de ellas puede ser consultada en [Li00].

Etiquetado Bayesiano basado en CAM

El objetivo del problema de etiquetado es la estimacion de una etiqueta correcta

l ∈ L para cada estado s ∈ S. El principal inconveniente para la mayorıa de las aplica-

ciones consiste en encontrar el etiquetado f que maximice la probabilidad del etiquetado

P (f | d) dados los datos u observaciones d . Para problemas de segmentacion basada en


CAM, la estimacion de probabilidad puede formularse dentro del enfoque Bayesiano,

de manera que la solucion optima del problema es definida como la estimacion de pro-

babilidad maxima a posteriori (MAP) f∗ y es calculada por maximizar la probabilidad

posterior [Li00].

f∗ = arg maxf∈F

P (f | d) (2.24)

De acuerdo con el teorema de equivalencia Markov-Gibbs de Hammersley-Clifford,

la probabilidad apriori del etiquetado P (f) obedece a una distribucion de Gibbs con

energıa a priori U(f) (Ecuaciones 2.21 y 2.23).

La probabilidad P (d | f) depende de como los datos d son observados. Comunmente

esta probabilidad es representada por:

P (d | f) =1

Zexp−U(d | f) (2.25)

donde U(d | f) es la energıa de probabilidad.

De aquı la probabilidad posterior es una distribucion de Gibbs

P (f | d) =1

Zexp−U(f | d) (2.26)

con energıa posterior

U(f | d) =U(f)

T+ U(d | f) (2.27)

Por tanto, dada una observacion d, un etiquetado f de estados en S y tambien un

CAM en S con respecto a N . La solucion MAP es equivalente a minimizar la energıa

posterior [Li00]:

f ∗ = arg mınf∈F

U(f | d) (2.28)


2.3. Extraccion de Caracterısticas

Una imagen es interpretada mediante los objetos contenidos en ella. En aplicacio-

nes de vision por computadora, la extraccion de caracterısticas de los objetos permite

describir de manera natural a cada uno de ellos e incluso diferenciar objetos de interes

entre los demas objetos que conforman la imagen.

Las caracterısticas extraıdas de los objetos de interes son dependientes de la apli-

cacion. Estas pueden ser utilizadas simplemente para medir la morfologıa o estructura

del objeto mediante la definicion de sus propiedades en terminos de area, perımetro,

intensidad, color, forma, etc [WMC08].

En esta seccion se presentan las definiciones de las caracterısticas utilizadas en esta

investigacion para el reconocimiento de elementos celulares en imagenes digitales de

frotis de sangre de medula osea.

2.3.1. Caracterısticas morfologicas

Las caracterısticas morfologicas de un objeto permiten describir su estructura me-

diante sus propiedades de tamano, forma geometrica o a traves de su distancia con

otros objetos [WMC08]. La extraccion de las caracterısticas morfologicas en imagenes

de celulas sanguıneas es muy importante ya que mucha de la informacion de la celula

esta contenida en la forma geometrica de la misma.

Propiedades de tamano

El tamano de un objeto puede definirse en terminos de su area y su perımetro.

El area es una medida de tamano global. El perımetro es particularmente util para

discriminar entre los objetos con formas simples y con formas complejas.

En comparacion con los objetos irregulares que tienen estructuras complejas, un

objeto con una forma simple requiere menos perımetro para encerrar su area [WMC08].

Area: Considere que la funcion In(i, j) describe el mapa de los objetos etiquetados

de una imagen de tamano M × N .

In(i, j) =

1 si I(i, j) = n-esimo objeto

0 en caso contrario(2.29)

2.3. EXTRACCION DE CARACTERISTICAS 27

El area en pıxeles del n-esimo objeto esta dada por:

An =M

∑

i=1

N∑

j=1

In(i, j) (2.30)

Perimetro: Una forma sencilla de calcular el perımetro de una region en una imagen

binaria es extraer los bordes de esta y posteriormente contar el numero de pixeles que

pertenecen al borde de la region de interes.

Propiedades de forma

Las propiedades de algunas formas se utilizan cada vez mas en aplicaciones de

reconocimiento y clasificacion de objetos. Estas propiedades son invariantes a traslacion,

rotacion y escala y pueden ser usadas de manera independiente o en conjunto con las

propiedades de area y perımetro [WMC08].

Relacion de compacidad: La relacion de compacidad determina la regularidad de

un objeto. Dada el area A y perımetro P del objeto, la relacion de compacidad T se

calcula como:

T = 4π

(

A

P 2

)

(2.31)

Esta relacion toma el valor maximo de 1,0 para un cırculo. Un objeto con forma

regular tiene una relacion de compacidad mayor que uno similar con forma irregular.

Circularidad: Esta propiedad mide la complejidad del perımetro del objeto circular.

Dada el area A y perımetro P del objeto, la circularidad C se define como:

C =P 2

4πA(2.32)

Las formas circulares tienen el valor de circularidad mınimo de 1,0 y los valores se

incrementan para formas complejas. El recıproco de la circularidad es la relacion de

compacidad definida anteriormente en la ecuacion 2.31.

Elongacion: Mide el crecimiento en una sola direccion de un objeto. La elongacion

puede ser calculada comparando la longitud y anchura del objeto por medio del


cociente entre ambos:

Elongacion =Longitud

Anchura(2.33)

Excentricidad: La excentricidad determina el grado de desviacion de una seccion

conica con respecto a una circunferencia. Es un parametro importante en la definicion

de las elipses. La excentricidad de una elipse de semieje mayor a y semieje menor

b esta definida en la ecuacion 2.34.

Excentricidad =

√

1 − b2

a2(2.34)

La excentricidad permite la reconstruccion de las conicas ya que por definicion es el

lugar geometrico de un punto que se mueve en el plano de tal manera que la razon de

su distancia focal y su distancia a una recta directriz es siempre igual a una constante

positiva. El valor de la excentricidad de una circunferencia es cero, el de una elipse es

mayor que cero y menor que 1, el de una parabola es 1 y el de una hiperbola es mayor

que 1 [Wik09].

Extension: Es la proporcion de los pixeles del objeto que tambien estan en el rectangu-

lo que inscribe al objeto. La extension se calcula como:

Extension =Area

Longitud ∗ Anchura(2.35)

Diametro equivalente: Es el diametro del cırculo equivalente al area A del objeto.

Esta determinado por la siguiente formula:

Diametro Equivalente =

√

4 ∗ A

π(2.36)

Numero de Euler: El numero de Euler es la diferencia que existe entre el numero

de componentes conectadas y el numero de huecos en una region y se utiliza para medir

la completitud de un objeto.

Area convexa: Es el area del polıgono convexo mas pequeno que contiene al objeto.

Solidez: Es la proporcion de la superficie convexa de la zona, que es de 1,0 para una

forma convexa perfecta y disminuye si hay hendiduras en la superficie.


2.3.2. Caracterısticas estadısticas

Propiedades de intensidad

Las imagenes muy a menudo contienen regiones que tienen distribuciones de inten-

sidad heterogeneas. Las propiedades estadısticas basadas en intensidad son utilizadas

para cuantificar la variacion de intensidad del objeto de interes ası como para medir las

variaciones de intensidad entre objetos [WMC08].

Densidad optica integrada y promedio de densidad optica: La densidad optica

integrada (DOI) mide la ”masa” o ”peso” de un objeto. Numericamente la DOI es

la suma de los niveles de gris de todos los pıxeles del objeto. Sean (i, j) los ındices

espaciales, I(i, j) el nivel de gris y A el area del objeto, entonces

DOI =∑

i,j∈A

I(i, j) (2.37)

Por tanto, el promedio de densidad optica (PDO) esta dado por:

PDO =DOI

A(2.38)

Propiedades de histograma

El histograma de la imagen de un objeto provee una descripcion de la distribucion

de los valores de intensidad dentro del objeto. Cuando se normaliza por tamano un

objeto, el histograma es la funcion de probabilidad de densidad de los niveles de gris.

Las medidas derivadas del histograma normalizado de la imagen del objeto proveen

descriptores estadısticos que caracterizan la distribucion del nivel de gris del objeto.

Considere la probabilidad de la funcion de densidad dada como:

P (g) =h(g)

M(2.39)

Donde h(g) es el numero de pıxeles con nivel de gris g y M es el numero total de

pıxeles en la imagen.

A partir de la funcion de probabilidad de densidad se pueden calcular las siguien-

tes estadısticas de primer orden para describir a la imagen a partir de sus niveles de

intensidad.


Nivel de gris promedio: El nivel de gris promedio es la cantidad total de los va-

lores de grises distribuidos en partes iguales entre cada observacion. El promedio de la

intensidad del objeto es calculado como:

g =L

∑

g=1

P (g) · g (2.40)

donde L es el numero de los niveles de gris presentes en el objeto. Esto es lo mismo

que el promedio de densidad optica definido en la ecuacion 2.38.

Moda de los niveles de gris: La funcion moda estima el valor del nivel de gris

que corresponde al pico mas alto de la funcion de densidad. La moda puede calcularse

como:

moda = argmaxg{h(g)},∀g ∈ L (2.41)

Desviacion estandar y varianza: La desviacion estandar es una medida del grado

de dispersion de los datos del valor promedio; es decir, es simplemente la variacion

esperada con respecto a la media aritmetica. Una desviacion estandar grande indica

que los puntos estan lejos de la media y una desviacion pequena senala que los datos

estan agrupados cerca de la media. La desviacion estandar es formulada como:

σg =

√

√

√

√

L∑

g=1

(g − g)2 · P (g) (2.42)

La varianza σ2g se calcula elevando al cuadrado la desviacion estandar σg.

2.3.3. Caracterısticas de textura

En analisis de imagenes, la textura es un atributo que representa el orden espacial

de los niveles de gris de los pıxeles en una region local.

Las propiedades de textura cuantifican las variaciones del nivel de intensidad dentro

de un objeto. Normalmente estas mediciones son independiente de la posicion, orienta-

cion, tamano, forma, y el promedio de brillo del objeto [WMC08].


Matriz de co-ocurrencia de niveles de gris

La matriz de co-ocurrencia de niveles de gris (GLCM) proporciona un numero de

estadısticas de segundo orden del nivel de gris de un pıxel relacionado con su vecino.

El calculo de las estadısticas de la GLCM es un proceso de dos pasos. El primer paso

consiste en crear la matriz GLCM, para luego calcular las estadısticas de textura a

partir de esta.

La matriz GLCM denotada como Pd, es un histograma 2D que especifica que tan a

menudo ocurren dos niveles de gris en pares de pıxeles separados por cierta distancia.

En primer lugar, se establece un desplazamiento de distancia y direccion. Luego a cada

entrada (i, j), en Pd le corresponde un numero de ocurrencias en los niveles de gris i

y j, en pares de pıxeles que estan separados en la imagen por la distancia y direccion

elegida. Una vez que la matriz Pd esta formada, se calculan los valores estadısticos que

describen la textura. Seleccionar un desplazamiento de distancia y direccion diferentes

genera una nueva matriz GLMC.

Las caracterısticas que describen la textura de manera estadıstica a traves del uso

de la GLMC Pd son [WMC08, Mat08]:

Entropıa: La entropıa mide la suavidad de la imagen en terminos de los valores de

los niveles de gris. Entre mas alto sea el nivel de entropıa existen mas niveles de gris

en la imagen. La entropıa puede ser calculada como:

Entropıa = −∑

i,j

Pd(i, j) log2(Pd(i, j)) (2.43)

Energıa: La energıa, tambien conocida como segundo momento angular, es otra me-

dida que muestra como los valores del nivel de gris se distribuyen dentro de la imagen.

La energıa tiene una relacion inversa a la entropıa. La energıa de una imagen es la mas

alta si tiene solo un valor de nivel de gris; entre mas niveles de gris haya en un objeto,

menor sera la energıa. La energıa esta definida por:

Energıa =∑

i,j

[Pd(i, j)]2 (2.44)


Correlacion: La correlacion mide la probabilidad conjunta de ocurrencia para pares

de pıxeles especificados. La correlacion esta dada por:

Correlacion =1

σiσj

∑

i,j

(i − µi)(j − µj)Pd(i, j) (2.45)

Contraste: La medida de constraste de un objeto es la diferencia de brillo entre el

objeto y el fondo que lo rodea. El contraste mide las variaciones locales de los niveles

de gris en la matriz de co-ocurrencia y es formulado como:

Contraste =∑

i,j

(i − j)2Pd(i, j) (2.46)

Homogeneidad: La homogeneidad mide la cercanıa de la distribucion de los elemen-

tos en la matriz de co-ocurrencia hacia la diagonal de la misma y es calculada como:

Homogeneidad =∑

i,j

1

1 + (i − j)2Pd(i, j) (2.47)

2.3.4. Analisis de componentes principales

El Analisis de Componentes Principales (PCA) es un metodo estadıstico de sıntesis

de informacion cuyo objetivo es obtener una representacion mas simple (y en menor

dimension) de un conjunto de variables correlacionadas.

Para examinar las relaciones entre un conjunto de p variables correlacionadas, se

transforma el conjunto original de variables a un nuevo conjunto no correlacionado

usando una rotacion ortogonal en el espacio p-dimensional. Estas nuevas variables son

llamadas componentes principales, y son obtenidas en un orden decreciente de impor-

tancia, de modo que las primeras componentes principales resumen la mayor cantidad

posible de la variabilidad de los datos originales.

Si un numero pequeno de las primeras componentes resume la mayor parte de la

variacion de los datos, se puede considerar que la dimensionalidad real de los datos

es menor que p. En tal caso, se espera que estas componentes resulten significativas,

ayuden a entender mejor los datos y sean utiles para simplificar analisis posteriores

[Per09].


Fundamentos teoricos del PCA

Sea XT = (X1, X2, . . . , Xp) una variable aleatoria p-dimensional con media µ y

matriz de covarianza Σ. Se desea encontrar un nuevo conjunto de variables Y1, Y2, . . . , Yp

no correlacionadas y cuyas varianzas sean decrecientes. Cada Yj es una combinacion

lineal de las Xs:

Yj = a1jX1 + a2jX2 + · · · + apjXp

= aTj X

(2.48)

con aTj = (a1j, a2j, . . . , apj). La expresion anterior contiene un factor de escala arbi-

trario; para resolver este problema, se impone la condicion ‖a‖ = 1.

La primera componente principal, Y1 se calcula escogiendo a1 tal que V ar(Y1) sea

la mayor posible, sujeta a la restriccion aTj aj = 1. Como

V ar(Y1) = V ar(aT1 X)

= aT1 Σa1

(2.49)

la funcion a maximizar es aT1 Σa1.

Usando el metodo de multiplicadores de Lagrange, resolver este problema equivale

a maximizar la funcion:

L(a1) = aT1 Σa1 − λ(aT

1 a1 − 1) (2.50)

en la cual se buscan sus puntos estacionarios (puntos donde el gradiente es 0). Como

∂L

∂a1

= 2Σa1 − 2λa1 (2.51)

la ecuacion a resolver es:

(Σ − λI)a1 = 0 (2.52)

Para que esta ecuacion tenga una solucion no trivial, es necesario que la matriz

Σ − λI sea singular, es decir, λ debe ser un valor propio de Σ; en otras palabras, se

debe tener solucion a la ecuacion:

|Σ − λI| = 0 (2.53)


Generalmente, Σ tiene p valores propios, los cuales deben ser no negativos. Estos

valores propios son denotados como: λ1 ≥ λ2 ≥ · · · ≥ λp ≥ 0. Para saber cual de ellos

se debe utilizar para resolver el problema se toma en cuenta que:

V ar(aT1 X) = aT

1 Σa1

= aT1 λIa1

= λ

(2.54)

Como se desea maximizar esta varianza, se elige λ como el maximo valor propio;

esto implica ademas que a1 debe ser el vector propio asociado con λ1. Es decir, los

coeficientes correspondientes a la primera componente principal corresponden al vector

propio asociado al maximo valor propio, y la varianza de dicha componente es el valor

del maximo valor propio. Argumentos semejantes permiten ver que los coeficientes de

la j-esima componente principal corresponden al vector propio asociado con el j-esimo

valor propio.

La ortogonalidad de los vectores propios garantiza que los valores propios son no

correlacionados. En efecto,

Cov(Yi, Yj) = Cov(aTi X, aT

j X)

= E[aTi (X − µ)(X − µ)T aj]

= aTi Σaj

= aTi λjaj = 0

(2.55)

Este argumento puede aplicarse aunque existan valores propios de Σ repetidos, siem-

pre y cuando los vectores propios asociados con raıces multiples sean ortogonales entre

sı.

Si A = [a1, . . . , ap] es la matriz p × p de vectores propios de A, y Y el vector p × 1

de componentes principales, se puede escribir

Y = AT X (2.56)

La matriz de covarianza de Y esta denotada por:

Λ =

λ1 0 . . . 0

0 λ2 . . . 0...

0 0 . . . λp

(2.57)


Ademas, Λ y Σ se relacionan mediante la siguiente expresion:

Λ = AT ΣA (2.58)

Como A es una matriz ortogonal, esta ultima expresion puede escribirse como

Σ = AΛAT .

Otra propiedad importante es que∑p

i=1 V ar(Yi) =∑p

i=1 V ar(Xi). En efecto,

∑p

i=1 V ar(Yi) = traza(Λ) = traza(AT ΣA) = traza(ΣAT A)

= traza(Σ) =∑p

i=1 V ar(Xi)(2.59)

Es decir, pueden hacerse afirmaciones como ”la i-esima componente principal repre-

senta una proporcion λi/Σjλj de la variacion total de los datos originales”.

Es muy comun calcular las componentes principales luego de estandarizar las va-

riables. Esto equivale a calcular los valores propios de la matriz de correlacion P , en

lugar de usar Σ. Es importante destacar que los valores propios y vectores propios de

P no seran, en general, los mismos que los de Σ, de modo que analizar P en lugar de

Σ implica tomar conscientemente la decision de darle a todas las variables la misma

importancia.

Para la matriz de correlacion P , traza(P ) = p, la proporcion de la variacion total

representada por la j-esima componente es λj/p.


2.4. Minerıa de Datos

La minerıa de datos es un proceso analıtico disenado para explorar grandes volume-

nes de datos con el objeto de descubrir patrones y modelos de comportamiento o relacio-

nes entre diferentes variables. Por esto, la minerıa de datos se utiliza como herramienta

de analisis y descubrimiento de conocimiento a partir de datos de observacion o de

resultados de experimentos [BC05].

El proceso de la minerıa de datos se puede dividir en las siguientes fases [GPE09]:

Filtrado de datos: El formato de los datos contenidos en la fuente de datos

muchas veces no es el correcto, y en la mayorıa de las ocasiones no es posible

ni siquiera utilizar algun algoritmo de minerıa sobre los datos iniciales sin que

requieran alguna transformacion. En este paso se filtran los datos con el objetivo

de eliminar valores incorrectos, no validos o desconocidos; segun las necesidades y

el algoritmo a utilizar. Ademas se obtienen muestras de los datos o se reducen el

numero de valores posibles de los atributos de analisis para mejorar la velocidad

y eficiencia de los algoritmos.

Seleccion de variables: Despues de realizar la limpieza de los datos, en la ma-

yorıa de los casos se tiene una gran cantidad de variables o atributos. La seleccion

de caracterısticas reduce el tamano de los datos seleccionando las variables mas

influyentes en el problema sin sacrificar la calidad del modelo de conocimiento

obtenido del proceso de minerıa.

Extraccion de conocimiento: Mediante una tecnica de minerıa de datos, se

obtiene un modelo de conocimiento, que representa patrones de comportamiento

observados en los valores de las variables del problema o relaciones de asociacion

entre dichas variables.

Interpretacion y evaluacion: Una vez obtenido el modelo, se procede a su

validacion, comprobando que las conclusiones que arroja son validas y suficiente-

mente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso

de distintas tecnicas, se deben comparar los modelos para buscar el que se ajuste

mejor al problema. Si ninguno de los modelos alcanza los resultados esperados,

debe alterarse alguno de los pasos anteriores para generar nuevos modelos.

2.4. MINERIA DE DATOS 37

La figura 2.4 muestra graficamente el proceso de minerıa de datos.

Figura 2.4: Fases del proceso de minerıa de datos

2.4.1. Algoritmos de clasificacion

Los algoritmos de clasificacion tienen como meta inducir un modelo para predecir

la clase que identifica un objeto dados los valores de los atributos o caracterısticas que

lo representan. Existen distintos algoritmos que se utilizan en minerıa de datos para

generar modelos de clasificacion. En el presente trabajo de investigacion se utilizan al-

goritmos del tipo descriptivo y predictivo. Los algoritmos del tipo descriptivo permiten

descubrir patrones que describen a los datos, tales como arboles de clasificacion y reglas

de decision; mientras que los algoritmos predictivos permiten pronosticar el compor-

tamiento de los patrones. Enseguida se describen los algoritmos de minerıa de datos

utilizados en esta tesis para clasificar los distintos subtipos de leucemias.

Clasificadores perezosos

IB-K: consiste unicamente en almacenar los datos presentados. Cuando una nueva

instancia es encontrada, un conjunto de instancias similares relacionadas es devuelto

desde la memoria y usado para clasificar la instancia consultada. Este metodo de apren-

dizaje se basa en que los modulos de clasificacion mantienen en memoria una seleccion

de ejemplos sin crear ningun tipo de abstraccion en forma de reglas o de arboles de

decision (de ahı su nombre, lazy, perezosos). Cada vez que una nueva instancia es en-

contrada, se calcula su relacion con los ejemplos previamente guardados con el proposito

de asignar un valor de la funcion objetivo para la nueva instancia. La idea basica sobre

la que se fundamenta este algoritmo es que un nuevo caso se va a clasificar en la clase

mas frecuente a la que pertenecen sus K vecinos mas cercanos. De ahı que sea tambien

conocido como metodo K-NN: K Nearest Neighbours [BC05].


Kstar (K∗): es un clasificador basado en instancias por tanto la clasificacion de un

nuevo ejemplo esta basada en un conjunto de instancias de entrenamiento similares de-

terminadas por alguna funcion de similitud. Se diferencıa de otros algoritmos perezosos

en que este usa una funcion de distancia basada en entropıa [AAS04].

Clasificadores basados en arboles de decision

J4.8: Se trata de una implementacion propia de Weka para el algoritmo C4.5 la cual

utiliza el criterio de ganancia de informacion (gain ratio) al seleccionar los atributos

mas representativos para construir el arbol de decision. La caracterıstica fundamental

de este algoritmo es que, una vez que el arbol de decision es construido, las ramas del

arbol con menor capacidad predictiva son podadas [BC05].

RandomForest: Para el algoritmo RandomForest en cada nodo se seleccionan de

forma aleatoria algunas de las variables de entre todas las disponibles. La decision se

realizara en funcion de las variables seleccionadas. Este algoritmo se basa en el desarrollo

de muchos arboles de clasificacion. Para clasificar un nuevo objeto desde un vector de

entrada, ponemos dicho vector bajo cada uno de los arboles del bosque. Cada arbol

genera una clasificacion, es decir cada arbol vota por una clase. El bosque escoge la

clasificacion que tiene mas votos considerando todos los arboles del bosque. Cada arbol

crece de la forma mas extensa posible, sin ningun tipo de poda [Gal08].

LMT: El modelo de arbol logıstico (LMT) basicamente consiste en una estructura

de arbol de decision estandar con funciones de regresion logısticas en las hojas. Como

en arboles de decision ordinarios, una prueba sobre uno de los atributos esta asociada

con cada nodo interior. Para atributos numericos, el nodo tiene dos nodos hijos y la

prueba consiste en comparar el valor de un atributo a un umbral: una instancia es

colocada debajo de la rama izquierda si su valor para aquel atributo es mas pequeno

que el umbral y colocada debajo de la rama derecha en caso contrario (ramificaciones

binarias) [Gal08].

ADTree: Es una aplicacion del metodo de amplificacion (boosting) a los arboles

de decision. Representa los arboles en una estructura alterna que permite ver cada

nodo como un tronco. Un tronco (stump) es un arbol truncado que solo contiene una

bifurcacion. Las dos ramas de cada tronco son los nodos de prediccion, que contienen


un valor numerico. Estos valores son utilizados luego en una votacion en el momento

de clasificar una nueva instancia [San07].

Clasificadores bayesianos

NaiveBayes: Este algoritmo se basa en la hipotesis de que las variables que describen

a las instancias son estadısticamente independientes. A partir del conjunto de entrena-

miento se calcula la probabilidad a priori de que una instancia cualquiera pertenezca

a una clase, tambien se calcula la probabilidad condicional de que un atributo tome un

valor si la instancia pertenece a una determinada clase, luego con estos datos se puede

calcular utilizando la formula de Bayes y asumiendo independencia entre las variables,

la probabilidad de que una instancia pertenezca a una clase si sus atributos toman

determinados valores. La clasificacion de la instancia dada sera la que haga maxima

esta probabilidad [San07].

Clasificadores basados en funciones

SMO: El algoritmo SMO es un metodo rapido para entrenar maquinas SVMs. El

entrenamiento de un SVM requiere la solucion a un gran problema de optimizacion de

programacion cuadratica. SMO divide este problema en una serie de problemas mas

pequenos que se resuelven de forma analıtica. Se trata de un tipo de red caracterizado

por tener un aprendizaje no supervisado competitivo y una salida bidimensional. A

partir de un patron de entrada, cada neurona de la capa de salida calcula la similitud

entre su propio vector de pesos y el vector de entrada segun una medida de distancia

establecida. Se considera vencedora a la neurona cuya similitud sea mayor.[MB09]

Ensambles de clasificadores

AdaBoost (Adapting Boosting): En este algoritmo se genera un conjunto de cla-

sificadores secuencialmente. Combina la decision de los clasificadores por votos ponde-

rados, es decir a todos los ejemplos, les asigna inicialmente un peso igual (1/m). El

nuevo clasificador que se cree debe prestar mas atencion a aquellos ejemplos en los que

los anteriores han producido errores. Cada vez que se genera un clasificador, se cambian

los pesos de los nuevos ejemplos usados para el siguiente clasificador. La idea es forzar

al nuevo clasificador a minimizar el error esperado. Para esto se les asigna mas peso a

los ejemplos mal clasificados y menos a los bien clasificados [Gal08].


2.4.2. Seleccion de atributos

Uno de los aspectos mas importantes para resolver los problemas de clasificacion es

la seleccion de atributos relevantes que ayuden a identificar los ejemplos de la clase de

interes [Men08].

La seleccion de atributos se realiza haciendo una busqueda en el espacio de subcon-

juntos de caracterısticas y evaluando cada uno de ellos. Existen distintos evaluadores de

subconjuntos y metodos de busqueda implementados en Weka1 [HFH+], a continuacion

se describen brevemente los evaluadores de atributos utilizados en este trabajo de tesis.

ChiSquaredAttributeEval: calcula el valor estadıstico Chi-cuadrado de cada

atributo con respecto a la clase y ası obtiene el nivel de correlacion entre la clase

y cada atributo [MRGG07].

GainRatioAttributeEval: evalua cada atributo midiendo su razon de beneficio

con respecto a la clase [MRGG07].

InfoGainAttributeEval: evalua los atributos midiendo la ganancia de informa-

cion de cada uno con respecto a la clase. Antes discretiza los atributos numericos

[MRGG07].

OneRAttributeEval: evalua la calidad de cada atributo utilizando el clasificador

OneR, el cual usa el atributo de mınimo error para predecir, discretizando los

atributos numericos [MRGG07].

2.4.3. Manejo de clases no balanceadas

Los clasificadores estandares han demostrado un buen desempeno en conjuntos de

datos balanceados. Esta es la razon por la cual los primeros enfoques dirigidos a resolver

el problema de clases no balanceadas han tratado de balancear la distribucion de las

clases. Estas soluciones utilizan diferentes formas de re-muestreo, las dos principales

tecnicas son el sub-muestreo (under-sampling) y sobre-muestreo (over-sampling). La

primera consiste en eliminar ejemplos de la clase mayoritaria, mientras que la segunda

anade ejemplos a la clase minoritaria. Existen algunas variantes para ambos enfoques,

la variante mas simple es el re-muestreo aleatorio.

1Weka (Waikato Environment for Knowledge Analysis) es una coleccion de algoritmos de aprendi-zaje automatico para el analisis de datos y modelado predictivo.


El sub-muestreo aleatorio elimina ejemplos de la clase mayoritaria en forma aleato-

ria, mientras que el sobre-muestreo aleatorio duplica ejemplos de la clase minoritaria

en forma aleatoria. Una estrategia mas robusta es el re-muestreo dirigido, en este caso

la seleccion de los ejemplos eliminados o agregados es dirigida en vez de ser de for-

ma aleatoria, pero el sobre-muestreo dirigido continua duplicando ejemplos de la clase

minoritaria, es decir no se crean ejemplos nuevos.

Una estrategia mas efectiva es el re-muestreo avanzado, la cual esta dirigida en forma

mas inteligente. El sub-muestreo avanzado consiste en eliminar ejemplos redundantes

localizados lejos de las regiones que contienen ejemplos de la clase minoritaria, mientras

que el sobre-muestreo avanzado genera nuevos ejemplos de la clase minoritaria (no

duplica). Generalmente cada ejemplo es generado a partir de ejemplos cercanos de la

clase minoritaria, incluso en algunos casos solo son tomados en cuenta ejemplos de

la clase minoritaria que se encuentran en la frontera cercana a la clase mayoritaria

[Men08].

SMOTE (Synthetic Minority Over-sampling Technique) es una tecnica de sobre-

muestreo que ha tenido mucho exito en la clasifcacion de datos no balanceados. El

proceso de SMOTE agrega ejemplos a la clase minoritaria. Para cada ejemplo de cla-

se minoritaria, introduce ejemplos sinteticos a lo largo de los segmentos que unen a

cualquiera (o a todos) los vecinos cercanos de la clase minoritaria [Gal08].


2.5. Evaluacion de Resultados

En la seccion anterior se introdujeron los conceptos de minerıa de datos que per-

mitiran crear los modelos de clasificacion para los datos extraıdos de las estructuras

celulares, los cuales podran diferenciar entre celulas con distintos subtipos de leucemias

agudas.

En esta seccion se describen las tecnicas de evaluacion utilizadas para medir la preci-

sion, exactitud y confiabilidad de los modelos de segmentacion y clasificacion propuestos

en esta tesis.

Los algoritmos de segmentacion de celulas generalmente se evaluan mediante la

comparacion de la segmentacion real realizada por el experto con la obtenida median-

te el algoritmo computacional. De manera similar, los algoritmos de clasificacion son

evaluados mediante la comparacion de la clase real con la clase asignada.

Existen distintas tecnicas de evaluacion que pueden ser aplicadas tanto a los resulta-

dos obtenidos en el proceso de clasificacion como en el de segmentacion. Estas tecnicas

estan basadas en el numero de pıxeles o instancias bien clasificadas y mal clasificadas

como es el caso de las curvas ROC y las metricas de evaluacion derivadas de la ma-

triz de confusion binaria. Para el caso en especıfico de los algoritmos de clasificacion,

comunmente se aplica una tecnica de validacion cruzada con n particiones para evaluar

los resultados de los ejemplos probados. En esta tecnica, los ejemplos son subsecuente-

mente intercalados para generar conjuntos distintos de entrenamiento y prueba.

A continuacion se detallan las tecnicas de evaluacion que permiten medir la precision

de los algoritmos de segmentacion y clasificacion propuestos para la identificacion de

subtipos de celulas con leucemia aguda.

2.5.1. Validacion cruzada

En la validacion cruzada con k particiones, los datos iniciales son particionados

aleatoriamente en k subconjuntos mutuamente excluyentes S1, S2, . . . , Sk, cada uno de

ellos con un tamano aproximadamente igual. La fase de entrenamiento y prueba se

lleva a cabo k veces. En la iteracion i, el subconjunto Si se reserva como conjunto de

prueba mientras que los subconjuntos restantes son usados colectivamente para entrenar

al clasificador. Es decir, el clasificador en la primera iteracion es entrenado con los

subconjuntos S2, . . . , Sk y probado con S1; en la segunda iteracion, el clasificador es

entrenado con los subconjuntos S1, S3, . . . , Sk y probado con S2; y ası sucesivamente.

2.5. EVALUACION DE RESULTADOS 43

La exactitud estimada de la clasificacion es el numero global de clasificaciones correctas

de las k iteraciones, dividido entre el numero total de muestras en los datos iniciales

[HK01].

2.5.2. Matriz de confusion binaria

La matriz de confusion binaria (Fig. 2.5) considera que los problemas de clasificacion

utilizan unicamente dos clases, por tanto, existen cuatro distintas formas de predecir la

clase perteneciente a una instancia determinada.

clase verdaderaV N

clase V VP FPasignada N FN VN

Figura 2.5: Matriz de confusion binaria

En la matriz de confusion binaria, los verdaderos positivos (VP) y los verdaderos

negativos (VN) son clasificaciones correctas. Mientras que los falsos positivos (FP) y

los falsos negativos (FN) son clasificaciones erroneas. Un FP es cuando el clasificador

asigna una clase como positiva cuando en realidad no lo es, mientras que un FN es

cuando el clasificador predice la clase como negativa cuando en realidad es positiva.

Algunas metricas para evaluar los resultados de la clasificacion pueden ser calculadas

a partir de la matriz de confusion binaria, tales como:

Exactitud =V P + V N

V P + V N + FP + FN(2.60)

Sensibilidad =V P

V P + FN(2.61)

Especificidad =V N

V N + FP(2.62)

Precision =V P

V P + FP(2.63)

Valor pronostico negativo =V N

V N + FN(2.64)


2.5.3. Curvas ROC

El analisis de curvas ROC (Receiver Operating Characteristic) permite evaluar el

desempeno de los clasificadores binarios. Este analisis considera que un clasificador es

mejor que otro si tiene una mayor area bajo la curva ROC que lo describe.

Las curvas ROC son graficas bidimensionales que incluyen todos los pares de sensi-

bilidad -especificidad resultantes al variar continuamente los umbrales de decision sobre

el rango completo de los resultados observados.

La figura 2.6 muestra las curvas ROC generadas para dos clasificadores binarios.

Figura 2.6: Curva ROC para dos clasificadores

El eje Y mide la fraccion de V P o sensibilidad (Ec. 2.61), es decir, mide la pro-

babilidad de obtener un resultado positivo cuando esta presente una enfermedad o

condicion y se calcula unicamente en el subgrupo afectado. El eje X mide la tasa de

FP , o 1-especificidad (Ec. 2.62) y es calculada utilizando unicamente el subgrupo no

afectado.

Debido a que las fracciones de V P y FP son calculadas de manera separada, es decir

usando resultados de prueba de dos subgrupos distintos, la grafica ROC es indepen-

diente de la prevalencia de enfermedad en las muestras. Cada punto en la grafica ROC

representa un par sensibilidad-especificidad correspondiente a un umbral de decision

particular. Este par de valores esta delimitado por las coordenadas (0, 0), (0, 1), (1, 1) y

(1, 0). Una prueba con discriminacion perfecta (sin traslape entre las dos distribucio-

nes de los resultados) tiene una curva ROC que pasa a traves de la esquina superior

izquierda (coordenada (0, 1)), en donde la fraccion de V P es 1,0, o 100 % (sensibilidad

perfecta) y la fraccion de FP es 0 (especificidad perfecta).

2.5. EVALUACION DE RESULTADOS 45

Existen clasificadores que producen salidas continuas que pueden ser consideradas

una estimacion de la probabilidad de que una instancia sea miembro de una clase

(positiva o negativa). Por tanto, si se varıa el umbral para el cual una instancia pertenece

a una clase, se pueden producir diferentes puntos ROC, los cuales al ser conectados

incluyendo los puntos (0, 0) y (1, 0) producen la curva ROC empırica para el clasificador.

En el caso de los clasificadores discretos que solo producen una etiqueta de la clase,

la tasa de VP y FP puede ser calculada a traves de cortes progresivos de los datos.

Otro metodo comunmente utilizado es la estimacion de la curva ROC suave, el cual

esta basado en la distribucion binomial y utiliza estimacion de maxima verosimilitud.

Capıtulo 3

Trabajo previo

En este capıtulo se describen los algoritmos de segmentacion que han sido utiliza-

dos para identificar elementos celulares, ası como los algoritmos de clasificacion que

permiten identificar entre distintos tipos de celulas con leucemia aguda.

3.1. Analisis de Imagenes Digitales

El analisis de imagenes permite la identificacion y clasificacion de los objetos con-

tenidos en una imagen a partir de la extraccion de propiedades y caracterısticas que

los definen. Este proceso implica llevar a cabo las siguientes tareas de procesamiento

digital de imagenes:

1. Adquisicion de una imagen digital.

2. Preprocesamiento de la imagen para mejorar su contraste y/o eliminar el ruido y

facilitar las tareas posteriores.

3. Segmentacion para extraer de la imagen objetos interesantes.

4. Representacion y descripcion de los objetos mediante la extraccion de caracterısti-

cas que permitan diferenciar entre ellos.

5. Reconocimiento e interpretacion de los objetos a traves de la asignacion de las

etiquetas que los representan.

El presente trabajo de investigacion aborda el problema de la segmentacion del

nucleo y citoplasma de celulas de medula osea para la identificacion de subtipos de

47

48 CAPITULO 3. TRABAJO PREVIO

leucemia aguda. A continuacion se describen los trabajos relacionados con el tema de

investigacion.

3.2. Segmentacion Celulas Sanguıneas

En Vision por Computadora, la segmentacion define como una imagen digital sera di-

vida en multiples regiones (grupos de pıxeles) no traslapadas que compartan ciertas

caracterısticas visuales de acuerdo al problema. De esta manera, los pıxeles en una re-

gion son similares con respecto a algunas caracterısticas o propiedades, como el color, la

intensidad o la textura; ası como los pıxeles en distintas regiones son significativamente

diferentes con respecto a las mismas caracterısticas.

La tendencia actual de la segmentacion de celulas de sangre consiste en la extraccion

de celulas de fondos complicados y en la separacion de sus componentes morfologicos

tales como nucleo, citoplasma, agujeros y otros organelos [KJS02]. Existen distintos al-

goritmos que han sido propuestos para la segmentacion de celulas de sangre periferica y

de medula osea. Debido a que no existe una solucion general a este problema, estos algo-

ritmos frecuentemente combinan metodos de segmentacion y tecnicas de procesamiento

de imagenes para resolverlo.

Los metodos mas populares para la segmentacion de celulas sanguıneas estan ba-

sados en tecnicas de umbralizacion, deteccion de lados, agrupacion y crecimiento de

regiones. A continuacion se describen algunos trabajos que utilizan estas tecnicas.

Chee Sun Won et al. 2004 [WNC04] proponen un algoritmo para separar las image-

nes con celulas sanguıneas en 4 regiones: nucleo y citoplasma de leucocitos, globulos

rojos y fondo. Primero, utilizando la tecnica de umbralizacion multiple se obtienen 3

regiones: nucleo, una mezcla de citoplasma y globulos rojos, y el fondo. Los umbrales

utilizados en la segmentacion se obtienen del histograma suavizado de los niveles de gris

de la imagen, el cual representa a las regiones de interes generalmente en 3 o 4 clusteres.

Posteriormente, se refina la umbralizacion mediante un modelo de segmentacion con un

estimador de probabilidad Maxima A Posteriori basada en campos aleatorios de Markov

que incorpora restricciones de suavidad y altos gradientes en los bordes de las regiones

que permiten que estas se expandan o contraigan hacia los bordes de las regiones con

altos gradientes. Por ultimo, se analiza el estado de conexion entre las regiones para

separar el citoplasma de los globulos rojos. Cuando hay globulos rojos que tocan los

leucocitos se utiliza un algoritmo de separacion que divide las regiones encontrando dos

3.2. SEGMENTACION CELULAS SANGUINEAS 49

puntos concavos y conectandolos a traves de una lınea recta para delinear el borde del

citoplasma.

Sara Colantonio et al. 2007 [CGS07] proponen un algoritmo de segmentacion que

permite distinguir entre distintas estructuras celulares: nucleo, citoplasma, fondo y ar-

tefactos. Las regiones homogeneas en color son identificadas en la imagen utilizando el

algoritmo de agrupacion difusa C-means para posteriormente extraer un conjunto de

caracterısticas de color de cada una de ellas y clasificarlas en la estructura celular que

les corresponda mediante una red neuronal multicapa entrenada con el algoritmo de

retropropagacion del error.

Nipon Theera-Umpon, 2005 [TU05] propone una tecnica para particionar una ima-

gen de celulas de globulos blancos en medula osea. Primero se forman 10 grupos simi-

lares en intensidad de gris aplicando el algoritmo difuso C-means, luego estos grupos

se combinan para formar 3 segmentos: nucleo, citoplasma, y fondo. Esta combinacion

se realiza con base en los centros de cada grupo. Por ultimo se aplican operaciones

morfologicas para eliminar grupos pequenos y suavizar los lados.

Leyza Baldo Dorini et al. 2007 [DML07] proponen un metodo para separar el nucleo

y citoplasma de celulas de globulos blancos. En la segmentacion del nucleo, primero se

extraen las marcas de los nucleos utilizando morfologıa matematica sobre una imagen

binaria creada por umbralizacion y posteriormente se aplica la transformada water-

shed sobre una imagen simplificada para extraer los contornos de estos. Para obtener

el citoplasma se aplica una umbralizacion, seguida de la operacion morfologica de aper-

tura y se descartan los componentes que no se intersectan con los nucleos previamente

identificados.

Kyungsu Kim et al. 2001 [KJC+01] aplican un esquema de segmentacion hıbrida

basada en regiones y lados para separar el nucleo y citoplasma de los globulos blancos.

Primero mejoran los lados de la imagen y remueven el ruido a traves de PCAs y un

algoritmo de difusion no lineal, posteriormente aplican una transformada watershed

y luego para prevenir la sobresegmentacion de la transformada se fusionan las regio-

nes mas cercanas utilizando un algoritmo k-means basado en informacion de valor de

intensidad.

Los trabajos de investigacion descritos anteriormente permitieron la extraccion de

nucleo y citoplasma en imagenes sanguıneas mediante la combinacion de distintas tecni-

cas de segmentacion. Las imagenes utilizadas en estos trabajos presentaron fondos uni-

formes y contrastes que definieron adecuadamente a los objetos de interes, facilitando


la creacion de regiones homogeneas que describen a estos objetos mediante el uso de

tecnicas de segmentacion basadas en informacion de los niveles de gris o color y de

deteccion de bordes.

En este trabajo de investigacion se utilizan imagenes digitales de celulas sanguıneas

que presentan variedad y heterogeneidad de colores y texturas, ası como alta poblacion

de celulas, lo cual dificulta la extraccion de los elementos celulares al aplicar tecnicas

tradicionales de segmentacion. Por este motivo, se propone un algoritmo de segmenta-

cion contextual que incorpora informacion de color y textura en los pıxeles de la imagen

para extraer la celula y su nucleo en imagenes con distintas tinciones y alta poblacion

de celulas.

La extraccion de elementos celulares en imagenes con una alta poblacion de celulas

es una tarea muy complicada, debido a que comunmente las celulas se tocan o traslapan

entre ellas. Los trabajos de Chee Sun Won et al. 2004 [WNC04] y Leyza Baldo Dorini

et al. 2007 [DML07] descritos con anterioridad enfrentan este problema para separar

leucocitos que se traslapan con globulos rojos. Otros trabajos interesantes que abordan

el problema de separacion de celulas o partıculas se describen a continuacion.

Weixing Wang y Hao Song, 2007 [WS07] proponen un algoritmo basado en informa-

cion de la forma para separar celulas traslapadas. Primero se suaviza y rellena la ROI

mediante el uso de operaciones morfologicas. Luego se identifican las celulas traslapadas

a traves de una aproximacion poligonal. Finalmente se detectan los puntos concavos en

los contornos y se determinan las lıneas de division.

Heiko Hengen et al. 2002 [HSP02] proponen un algoritmo de desagrupamiento para

separar las regiones de las celulas traslapadas. Primero se encuentran los bordes de

las celulas y se obtiene una imagen de la trasformada de distancias. Luego se aplica

la operacion morfologica de erosion para dividir las regiones conservando la forma.

Finalmente se aplica crecimiento de regiones hasta obtener las regiones separadas.

Leticia Guimaraes et al. 2001 [GSM01] proponen un algoritmo de descomposicion

en similaridad circular para separar partıculas conectadas en una imagen binaria. Par-

tiendo de la suposicion de que todos los objetos en la imagen son cırculos, el algoritmo

detecta las concavidades en imagenes con contornos cerrados basados en una medida de

similaridad circular sin utilizar una tecnica de aproximacion poligonal, enseguida busca

cırculos circunscritos y localiza el punto de maxima concavidad, posteriormente calcula

la similaridad circular para reconocer el cırculo y finalmente los mezcla para verificar

el modelo disenado con la imagen original.

3.3. CLASIFICACION DE LEUCEMIAS AGUDAS 51

Los trabajos anteriores proporcionan distintas alternativas para separar celulas y

son aceptados por generar aproximaciones aceptables de separacion, sin embargo, se

pueden obtener mejores resultados al utilizar informacion contextual de los objetos a

dividir. En este trabajo de tesis se propone un algoritmo de separacion de celulas el cual

esta basado en informacion contextual de las ROI . Este algoritmo utiliza informacion

de la forma del objeto para dividir las regiones mediante interpolacion lineal.

Los algoritmos de segmentacion y de separacion de celulas que se proponen en este

trabajo se describen detalladamente en el capıtulo 4.

3.3. Clasificacion de Leucemias Agudas

La clasificacion de celulas sanguıneas permite la deteccion y diagnostico de distintas

patologıas. Muchos de los trabajos de clasificacion de celulas estan aplicados a la pro-

blematica de reconocimiento de globulos blancos o leucocitos [WNC04, TU05, DML07,

KJC+01]. El presente trabajo de investigacion esta enfocado en la identificacion de

celulas con leucemia aguda.

En el trabajo de Blanca Aurora Morales, 2006 [Mor06] se realiza la clasificacion de

celulas de leucemia aguda por familia, es decir, se identifican 2 tipos de celulas de leuce-

mia aguda: mieloblastica y linfoblastica, obteniendo resultados del 89.80 % al clasificar

utilizando tecnicas estadısticas (Logistic) y 91.79 % utilizando una red neuronal multi-

capa con 6 neuronas en la capa de entrada, 6 neuronas en la capa oculta y 2 neuronas

en la capa de salida. Las caracterısticas utilizadas por los clasificadores, se definen en

su trabajo y se extraen de las celulas de interes segmentadas en la imagen. Cabe men-

cionar que en este trabajo se logran resultados del 99.15 % utilizando el algoritmo J48

al combinar informacion del expediente del paciente con las caracterısticas extraıdas de

las imagenes.

El trabajo de Marta Coral Galindo, 2008 [Gal08] presenta un metodo de generacion

de caracterısticas descriptivas para la clasificacion de celulas sanguıneas de subtipos de

leucemia aguda en imagenes digitales. Una variedad de caracterısticas morfologicas, de

textura, geometricas, estadısticas y valores propios son extraıdas de la celula de interes

para reconocer cinco subtipos de celulas con leucemia con una precision global de 88 %.

Este metodo logra una exactitud del 85 % para los subtipos L1 y L2 y 91 % para los

subtipos M2, M3, y M5.

A diferencia de los trabajos descritos anteriormente, en el presente trabajo de tesis


se identifican los distintos subtipos de leucemias agudas utilizando ademas de la infor-

macion de la celula completa, informacion de su nucleo y citoplasma. De esta manera

se mejora la representacion de los datos y esto nos llevara a mejorar la precision de la

clasificacion obtenida por [Gal08].

3.4. Conclusiones

La segmentacion es una importante y desafiante tarea en el analisis automatico de

imagenes de celulas sanguıneas, debido a que la precision obtenida tiene un alto impacto

en la identificacion y clasificacion automatica de patologıas.

Como se analizo en el estudio del estado del arte presentado en la seccion 3.2, no

existe un metodo de segmentacion que pueda considerarse bueno para la segmentacion

de celulas, por tanto, el presente trabajo de investigacion trata de encontrar una solucion

mas robusta a este problema.

Los algoritmos de segmentacion que se proponen en esta investigacion utilizan in-

formacion contextual para extraer el nucleo y citoplasma de celulas con leucemia en

imagenes digitales que presentan variaciones en color y textura, ası como una alta po-

blacion de celulas. Mediante la extraccion y analisis de caracterısticas del nucleo y

citoplasma de las celulas de interes, se espera superar los resultados de la clasificacion

de celulas de leucemia presentados en los trabajos previos.

Ademas, en este trabajo de tesis se propone un algoritmo de decision que analiza la

informacion de las celulas identificadas con leucemia en la etapa de clasificacion para

el diagnostico automatico de subtipos de leucemias agudas.

Capıtulo 4

Metodo Propuesto

En este capıtulo se describen los algoritmos propuestos para la segmentacion e iden-

tificacion de celulas, extraccion de caracterısticas de las ROI, clasificacion de las ROI

por subtipos de leucemias agudas, ası como el modelo de decision para el diagnostico

de las mismas.

De acuerdo a la metodologıa expuesta en la seccion 1.3 este capıtulo esta organizado

de la siguiente manera: en la seccion 4.1 se describe la coleccion de imagenes digitales

de frotis sanguıneos utilizada, posteriormente en la seccion 4.2 se presenta el modelo

de segmentacion que incorpora informacion contextual de las caracterısticas de color y

textura de la imagen para la obtencion de regiones de interes, enseguida en la seccion

4.3 se analiza la informacion contextual de estos objetos para reconocer el nucleo y

citoplasma de las celulas, luego en la seccion 4.4 se extraen las caracterısticas del nucleo,

citoplasma y de la celula para identificar el subtipo de leucemia aguda. Finalmente, en

la seccion 4.5 se presenta el algoritmo de decision para el diagnostico de leucemias

agudas considerando la informacion de todas las celulas disponibles para un paciente.

En la figura 4.1 se presenta graficamente el metodo propuesto en este trabajo de

investigacion.

53

54 CAPITULO 4. METODO PROPUESTO

Figura 4.1: Metodo propuesto

4.1. COLECCION DE IMAGENES 55

4.1. Coleccion de Imagenes

Los frotis de sangre fueron proporcionados por el Laboratorio de Especialidades del

Instituto Mexicano del Seguro Social (IMSS) en Puebla y digitalizadas por [MOG+05]

a traves de una camara digital conectada a un microscopio optico Carl Zeiss con un

objetivo 100x. Las imagenes digitales obtenidas tienen una resolucion de 800x600 pıxeles

con 24 bits de intensidad y estan representadas en el espacio de color RGB. Las celulas

de interes fueron seleccionadas y clasificadas manualmente en tipos de leucemias agudas

por el experto en el dominio. Esto permitio la creacion de una base de datos que contiene

1028 imagenes digitalizadas de celulas con leucemia aguda pertenecientes a 74 pacientes,

de las cuales 415 imagenes de celulas corresponden a LLA y 613 a LMA [Mor06, Gal08].

De la base de datos de imagenes digitales por grupos de leucemias agudas, se creo una

coleccion de imagenes para identificar subtipos de leucemias la cual incluye 633 image-

nes de celulas etiquetadas por el experto. Estas imagenes de celulas corresponden a 63

pacientes diagnosticados con distintos tipos y subtipos de leucemias agudas. Los subti-

pos de leucemias que se incluyen en la coleccion corresponden al L1, L2 de la leucemia

aguda linfoblastica y al M2, M3 y M5 de la leucemia aguda mieloblastica. La tabla 4.1

muestra el numero de ejemplos de cada subtipo de leucemia incluidos en la coleccion.

La tabla 4.2 muestra el numero de pacientes por cada subtipo.

Tabla 4.1: Muestras por subtipos

Tipo Subtipo No. muestras

LLA 295L1 102L2 135

sin subtipo 58

LMA 338M2 95M3 47M5 56

sin subtipo 140

Tabla 4.2: Pacientes por subtipos

Tipo Subtipo Total pacientes

LLA 34L1 14L2 15

sin subtipo 5

LMA 29M2 6M3 3M5 5

sin subtipo 15


4.2. Modelo de Segmentacion Contextual

El objetivo principal de esta tesis es el desarrollo de un algoritmo de segmentacion

de celulas de sangre que separe cada celula en sus 2 elementos mas importantes: nucleo

y citoplasma. El analisis de las caracterısticas presentadas en cada uno de ellos sera pri-

mordial para la observacion y deteccion de patologıas originadas en celulas sanguıneas.

El algoritmo de segmentacion de celulas que aquı se propone incorpora caracterısti-

cas contextuales de color y textura de los pıxeles de la imagen en el proceso de seg-

mentacion y permite ser aplicado en imagenes de frotis de sangre de medula osea que

muestran tinciones heterogeneas.

A continuacion se describe el algoritmo de segmentacion de celulas sanguıneas pro-

puesto, ası como las principales problematicas que se resolvieron durante el desarrollo

del mismo.

4.2.1. Analisis de color

Durante el periodo de diseno del modelo de segmentacion que se propone en esta

tesis se analizaron los colores de las imagenes de celulas tenidas de frotis de sangre

de medula osea. Las caracterısticas de color en las celulas facilitaron el estudio de los

elementos que la componen, ya que cuando una muestra de sangre es pigmentada, el

nucleo y citoplasma de las celulas ası como otras estructuras celulares son resaltadas,

simplificando la localizacion de las mismas.

Por ejemplo, cuando se tinen las celulas con leucemia utilizando el colorante de Ro-

manowsky, el color adquirido por el nucleo de la celula es de color similar al citoplasma,

sin embargo el primero tiene una apariencia mas oscura que el segundo. Generalmente

al aplicar este colorante en los frotis de sangre de medula osea, el nucleo de las celulas

exhibe modalidades de color purpura; el citoplasma manifiesta colores azules en linfoci-

tos y rosas en mielocitos; los nucleolos adquieren matices de color azul claro; ası como

las plaquetas presentan tonalidades de color purpura.

El analisis de esta informacion de color nos permite identificar los elementos celulares

de acuerdo a la tincion adquirida por el colorante aplicado.

Transformacion del espacio de color

En esta tesis se investigaron distintos espacios de color con la finalidad de encon-

trar una representacion mas adecuada a las distintas tinciones de las imagenes. De los

4.2. MODELO DE SEGMENTACION CONTEXTUAL 57

espacios de color estudiados el CIE L∗a∗b∗ permite la percepcion del color de manera

mas practica y eficiente ya que es mas facil identificar la diferencia visual entre dos

colores en este espacio de color. Para mas informacion de los espacios de color revise

los fundamentos teoricos presentados en la seccion 2.2.1.

Debido a que la coleccion de imagenes esta representada en el espacio de color

RGB, una transformacion del espacio RGB a CIE L∗a∗b∗ es efectuada en las imagenes

a segmentar para cambiar la representacion no perceptual del color de los pıxeles a una

perceptualmente uniforme. Esta transformacion de color se llevo a cabo utilizando las

ecuaciones 2.1, 2.2 y 2.3 presentadas en la seccion 2.2.1.

Las figuras 4.2(a) y 4.2(b) ilustran la representacion de una imagen de celula de

medula osea en el espacio de color RGB y CIE L∗a∗b∗, respectivamente.

(a) Frotis de sangre en RGB (b) Frotis de sangre en CIE L∗a∗b∗

Figura 4.2: Frotis de sangre en el espacio RGB y CIE L∗a∗b∗.

Estimacion de parametros estadısticos

Las caracterısticas de color se integraran junto con las caracterısticas de textura

en un modelo de segmentacion binaria basado en CAM. Las caracterısticas de color

que se incorporaran al modelo son los valores estadısticos de intensidad de color que

diferencian los pıxeles de los objetos de interes del resto.

Como se pudo observar en el modelo de color CIE L∗a∗b∗ ilustrado en la figura

4.2(b), el canal de luminosidad L∗ proporciona una adecuada representacion del color

para destacar las partes oscuras y claras de la imagen. Con base en el conocimiento a

priori que se tiene acerca de que en imagenes tenidas de frotis de sangre el color del

nucleo es mas oscuro que el del citoplasma, el canal L∗ fue seleccionado para identificar


facilmente los elementos con poca reflexion en la imagen. Por otro lado, el canal b∗ fue

elegido debido a que proporciona una representacion adecuada del color permitiendo

destacar facilmente las celulas, las cuales contienen tonalidades de color purpura y azul.

Los canales L∗ y b∗ mencionados anteriormente permiten formar grupos de pıxeles

que contienen informacion valiosa del nucleo y de la celula, respectivamente. Cuando se

utiliza el canal de luminosidad L∗, los pıxeles con caracterısticas de intensidad similares

al nucleo son agrupados en un subconjunto y aquellos cuya intensidad difiere permane-

cen en un segundo subconjunto. De la misma manera, cuando se utiliza el canal b∗, los

pıxeles correspondientes o similares al color de la celula quedan en un grupo y el resto

en un segundo grupo.

La formacion de los 2 subconjuntos se llevo a cabo utilizando el algoritmo k-means1

con k = 2 y como criterio de semejanza la distancia euclidiana. Cuando se formaron

los dos subconjuntos empleando las caracterısticas de intensidad del canal b∗, los gru-

pos obtenidos representaron de manera adecuada a las celulas en un subconjunto y al

resto en el otro. Sin embargo, cuando se agruparon los pıxeles de la imagen utilizando

caracterısticas de similitud de intensidad en el canal L∗, los 2 subconjuntos generados

no siempre representaron adecuadamente a los objetos de interes (nucleos) en un sub-

conjunto y al resto de los objetos en el otro. Por este motivo la obtencion de los 2

subconjuntos del canal L∗ se realizo mediante la generacion de un numero mayor de

grupos y la fusion de los mismos.

De manera pragmatica se fraccionaron algunas imagenes en 2, 3, 4 y 5 grupos,

de los cuales se observo que los objetos de la imagen quedaron mejor representados

mediante la formacion de 2 o 3 subconjuntos. Para determinar de manera automatica

el numero de grupos que se deben formar en cada imagen se genero un modelo de

clasificacion en Weka a partir de algunas caracterısticas estadısticas (media, varianza

y desviacion estandar) de los pıxeles de la imagen y de cada subconjunto generado al

aplicar el algoritmo de agrupacion k-means con k = 2 y k = 3. Cuando el modelo

decide dividir a la imagen en 3 subconjuntos, el subconjunto con media de intensidad

menor es seleccionado para representar los objetos oscuros en la imagen y los otros 2

subconjuntos se unen para representar el resto de los objetos en la imagen.

La figura 4.3 muestra graficamente un ejemplo de la obtencion de los dos grupos

representativos en una imagen de frotis de sangre utilizando caracterısticas de similitud

1k-means es un metodo de agrupamiento que divide un conjunto de datos de entrada en k grupos,asociando cada dato al grupo con la media mas cercana.


de intensidad del canal L∗. En la figura 4.3(a) se aprecia la obtencion de los grupos

despues de aplicar directamente el algoritmo k-means con k = 2 sobre el canal L∗

de la imagen. Observe que los grupos formados no representan adecuadamente a los

objetos que se desean obtener: nucleos y resto de objetos, puesto que el grupo 1 contiene

informacion adicional a la del nucleo. La figura 4.3(b) ilustra que despues de la formacion

de los grupos utilizando el algoritmo k-means con k = 3 y de la fusion de los grupos b

y c se obtiene una representacion adecuada de los objetos de interes: nucleo (grupo 1)

y resto de objetos (grupo 2).

Figura 4.3: Formacion de grupos en una imagen utilizando caracterısticas de similitudde intensidad del canal L∗.

Una vez que se obtienen los 2 grupos que proporcionan la mejor representacion de los

objetos en la imagen, se extraen las estadısticas del color de los objetos de interes tales

como: la media, varianza y desviacion estandar. Los valores estadısticos obtenidos de

cada grupo seran incorporados como informacion de color en el modelo de segmentacion

con CAM.


4.2.2. Analisis de textura

El analisis de la textura desarrollado en este trabajo de investigacion se lleva a ca-

bo utilizando el modelo de descomposicion Wold que unifica el enfoque estructural y

estocastico para describir la textura. Este modelo fue elegido debido a que las image-

nes de celulas sanguıneas presentan texturas heterogeneas, por consiguiente, se pueden

encontrar tanto texturas periodicas como aleatorias en dichas imagenes.

De acuerdo a la definicion del modelo de descomposicion Wold presentado en la sec-

cion 2.2.2 la textura esta representada por un componente estructural y uno estocastico.

El componente estructural a su vez esta compuesto por un componente armonico y un

componente evanescente generalizado. La figura 4.4 muestra un diagrama de la descom-

posicion Wold para un canal seleccionado.

Figura 4.4: Descomposicion de textura Wold

En esta seccion se presentara la parametrizacion de los componentes armonicos,

evanescentes, y estocasticos para obtener el campo determinista y no determinista de

la textura, los cuales seran incorporados posteriormente al modelo de segmentacion

CAM como caracterısticas de textura.

Para realizar el analisis de una textura utilizando el modelo de descomposicion

Wold primero se encuentran las caracterısticas periodicas de la textura, es decir, se

parametriza el campo armonico, luego se estima el componente evanescente de la textura

el cual representa las caracterısticas de direccionalidad y finalmente se estiman los

parametros del componente puramente no determinista del campo de textura.


Para obtener el componente determinista se utiliza un proceso de umbralizacion

global para estimar el campo de textura armonico y un procesamiento basado en la

transformada de Hough para obtener el componente evanescente. Una vez obtenido el

componente determinista, el componente no determinista es facilmente calculado.

La figura 4.5 muestra el algoritmo de parametrizacion del campo armonico. En este

algoritmo primero se resuelven las sinusoidales utilizando la transformada discreta de

Fourier (TDF). Luego se localizan los picos armonicos mediante la identificacion de

las frecuencias de los picos aislados mas grandes. En imagenes de celulas sanguıneas

se establece como umbral de amplitud un valor 10, el cual es suficiente para encontrar

todos los picos que se consideran componentes armonicos. Finalmente se efectua la

parametrizacion del campo mediante la evaluacion de los valores de amplitud y fase de

la TDF en las frecuencias identificadas como picos.

Figura 4.5: Parametrizacion del campo armonico

La figura 4.6 muestra el algoritmo de parametrizacion del campo evanescente ge-

neralizado. En este algoritmo, en la TDF sin componentes armonicos se encuentran 4

lıneas evanescentes utilizando la transformada de Hough para posteriormente llevar a

cabo la parametrizacion del campo evanescente mediante la evaluacion de los valores

de amplitud y fase de la TDF en las frecuencias de las lıneas evanescentes identificadas.

El componente determinista de la textura es la suma ortogonal de los campos

armonico y evanescente generalizado. La parametrizacion del componente no deter-

minista se efectua mediante la evaluacion de los valores de amplitud y fase sobre la

TDF residual una vez eliminado el componente determinista de la textura.


Figura 4.6: Parametrizacion del campo evanescente generalizado

4.2.3. Modelado de caracterısticas de color y textura con CAM

En esta tesis el modelo de segmentacion CAM propuesto por [LA08] es utilizado en

la segmentacion de celulas sanguıneas. Este modelo esta formulado dentro del enfoque

bayesiano e incorpora la informacion contextual de la intensidad del color y textura de

los pıxeles de la imagen.

Recordando brevemente los fundamentos teoricos de los CAM presentados en la

seccion 2.2.3, el modelado con CAM consiste en la definicion de un sistema de vecinos

y cliques, ası como en la definicion de una probabilidad a priori y de un modelo de

probabilidad los cuales permitiran derivar la probabilidad posterior.

A continuacion se define el modelo CAM utilizado para la segmentacion de celulas

sanguıneas.

Definicion de la probabilidad a priori

Las caracterısticas de intensidad de color y el campo estructural y estocastico de

la textura son modeladas a traves de la definicion de la energıa a priori Up(f) de la

siguiente manera:

Up(f) =∑

s∈S

(wsfs +∑

r∈fN(s)

vsrfsfr) (4.1)


en donde fs es la configuracion del etiquetado del estado s, fr es la configuracion

del etiquetado de los estados vecinos N(s) del estado s y los coeficientes ws y vsr son

los parametros de variacion espacial de los componentes estocastico W y estructural de

la textura V , respectivamente. Los parametros de variacion espacial ws y vsr quedan

definidos mediante funciones potenciales Vc(f) de la siguiente manera:

V1(f) = ws ∈ W

V2(f) =

vsr =| vs − vr | si s 6= r, s, r ∈ C2, vs, vr ∈ V

0 en caso contrario

(4.2)

De aquı la probabilidad a priori P (f) puede ser expresada como:

P (f) =1

Zexp[− 1

TUp(f)] (4.3)

en donde Z es una constante de normalizacion y T es una constante que controla

la forma de la distribucion de la probabilidad (para mas detalles vea los fundamentos

teoricos presentados en la seccion 2.2.3).

Definicion del modelo de probabilidad

El modelo de probabilidad P (d | f) se define mediante una distribucion Gaussiana

como sigue:

P (d | f) =∏

s∈S

P (ds | fs) (4.4)

P (ds | fs = k) =1

√

2πn | Covk |exp[−1

2(ds − µk)

T (Covk)−1(ds − µk)] (4.5)

donde ds representa el color observado del estado s, fs es la configuracion del etique-

tado de s, µk y Covk es la media y la matriz de covarianza de la clase k, respectivamente,

y n es el numero de canales del color de la imagen.


Probabilidad posterior

De acuerdo con la ecuacion 2.24 presentada en la seccion 2.2.3 para determinar

el etiquetado de f se maximiza la probabilidad posterior P (f | d). Considerando la

definicion de la probabilidad a priori P (f) (ecuacion 4.3) y del modelo de probabilidad

P (d | f) (ecuacion 4.5), la probabilidad posterior a maximizar f ∗ = P (f | d) es:

f∗ = arg maxf [ln P (d | f) + ln P (f)]

= arg maxf

∑

s∈S ln[ 1√2πn|Covk|

exp[−12(ds − µk)

T (Covk)−1(ds − µk)]]

+ ln[ 1Z

exp(−∑

s∈S(wsfs +∑

r∈fN(s)vsrfsfr))]

= arg maxf

∑

s∈S −[ln√

2πn | Covk | + 12(ds − µs)

T (Covk)−1(ds − µs)]

−[ 1Z(∑

s∈S(wsfs +∑

r∈fN(s)vsrfsfr))]

= arg mınf

∑

s∈S[ln√

2πn | Covk | + 12(ds − µs)

T (Covk)−1(ds − µs)]

+[ 1Z(∑

s∈S(wsfs +∑

r∈fN(s)vsrfsfr))]

(4.6)

De esta manera la energıa posterior incorpora los campos de textura estocastico ws

y estructural vsr de la descomposicion Wold dentro de la energıa a priori P (f) y agrega

informacion del color mediante la definicion del modelo de probabilidad P (d | f).

Estimacion MAP

Una vez que es definida la energıa posterior f ∗, un estimado Maximo A Posteriori

(MAP) puede ser determinado usando el algoritmo ICM (Iterated Conditional Mode).

La motivacion de elegir este algoritmo de optimizacion es que hace uso de la propiedad

markoviana del sistema, de modo que la energıa a posteriori es calculada de manera

local considerando los pixeles pertenecientes a un vecindario establecido, permitiendole

al algoritmo converger en un numero pequeno de iteraciones.

A continuacion se presenta el algoritmo ICM utilizado para la segmentacion de

celulas.

1. Inicializar la configuracion f0 y establecer k = 0

2. Para cada configuracion que difiere en al menos un vecino fN(k) de la configura-


cion fk calcular la energıa U(r)(r ∈ fN(k)).

3. De las configuraciones en fN(k), seleccionar aquella con energıa mınima.

fk+1 = argminr∈fN (k)(U(r)) (4.7)

4. Ir al paso 2 con k = k + 1 hasta que k = 10 o fk = fk+1.


4.3. Identificacion de Celulas

La identificacion de las celulas utilizando informacion contextual se llevo a cabo

mediante el reconocimiento de los elementos que la componen, es decir, mediante la

identificacion de su nucleo y citoplasma. Para esto se extrajeron caracterısticas de las

ROI y se diseno un algoritmo basado en reglas de decision para determinar si la ROI

analizada es una celula, un nucleo, probablemente es una celula, probablemente es un

nucleo o bien no es ninguna de las anteriores.

Las caracterısticas que se extrajeron de las ROI permitieron describir su forma

y color. Las regiones con forma aproximadamente redonda o elıptica tienen mayor

probabilidad de ser elementos celulares. Tambien se analizo la forma de las ROI para

determinar si un objeto esta contenido en otro. Por ejemplo, para confirmar que una

region es un nucleo este tiene que formar parte de otra region reconocida como celula.

A continuacion se describe el analisis de forma realizado, el cual fue muy util para

encontrar la relacion de contencion de las regiones y para separarlas cuando se tiene

creencia de que existe una ROI (celula o nucleo) que esta traslapada con otras regiones.

4.3.1. Transformacion de coordenadas de la forma

En esta tesis se analizo la forma de una celula en el espacio de coordenadas polares

puesto que como generalmente las celulas tienen forma aproximadamente redonda u

ovalada es mas simple su representacion en este espacio que en el cartesiano. La figura

4.7 muestra la representacion de una coordenada en los espacios cartesiano y polar.

(a) Relacion de un punto en elespacio cartesiano y polar.

(b) Representacion de uncırculo en el plano cartesianoy polar.

Figura 4.7: Relacion de las coordenadas del espacio cartesiano y polar

4.3. IDENTIFICACION DE CELULAS 67

La transformacion del espacio cartesiano a polar se lleva cabo mediante el grupo de

ecuaciones 4.8:

ρ =√

(x − x0)2 + (y − y0)2

θ =

2π + arctan(

y−y0

x−x0

)

, si (x − x0) < 0, (y − y0) < 0

π + arctan(

y−y0

x−x0

)

, si (x − x0) < 0

arctan(

y−y0

x−x0

)

, en caso contrario

(4.8)

La transformacion del espacio polar a cartesiano se realiza a traves de las formulas

4.9:x = ρ cos θ + x0

y = ρ sin θ + y0

(4.9)

El analisis de contorno se realizo en cada region de la imagen, siguiendo los siguientes

pasos:

1. Encontrar el centroide de la region en el espacio cartesiano. Trasladar esta region

al centro del origen de modo que el centroide de la region sea la coordenada (0, 0)

del espacio cartesiano.

2. Obtener los bordes de la region de interes.

3. Transformar cada punto que conforma el borde de la ROI del espacio cartesiano

al espacio polar.

La transformacion de coordenadas del contorno del espacio cartesiano a polar es

muy util para encontrar regiones que comparten el mismo espacio y para dividir una

region de interes que esta traslapada con otras.

4.3.2. Relacion de contencion de regiones

Despues de procesar las imagenes de celulas con CAM en el canal L∗ y b∗ se obtienen

2 conjuntos de ROIs. La relacion de contencion que tienen las ROIs de un conjunto con

el otro son analizadas para determinar la probabilidad de que una ROI sea un nucleo

o celula dependiendo de si es contenido o contiene a una ROI del otro subconjunto.

A continuacion se describen los pasos seguidos para llevar a cabo el analisis del

contorno de las ROIs para encontrar relaciones de contencion.


1. Para cada una de las regiones de la imagen del canal L∗, se obtiene su centroide,

se extrae su contorno y se convierten del espacio cartesiano a polar.

2. Se convierten todas las regiones que pertenecen a la imagen del canal b∗ utilizando

como centro del plano cartesiano el centroide obtenido en la region analizada del

canal L∗

3. Se determina si la region analizada en la imagen del canal L∗ acota superiormente

a la region de la imagen del canal b∗. Si esta incluye en un porcentaje alto a la otra,

entonces es probable que la region analizada sea una celula y la otra corresponda

a su nucleo.

4. Se repite el procedimiento anterior pero utilizando el canal b∗ como referencia y

se analizan todas las regiones del canal L∗ con respecto a esta.

La figura 4.8 muestra un ejemplo del analisis de contorno para encontrar relaciones

de contencion de la ROI del canal L∗ (figura 4.8(a)) con las ROIs del canal b∗(figura

4.8(b)) utilizando el proceso descrito anteriormente. Como se puede observar en las

curvas de la figura 4.8(c) no existe ninguna curva debajo de la curva de color azul que

en este caso representa a la ROI del canal L∗, por tanto esta no contiene a ninguna de

las ROIs del canal b∗.

(a) ROI del canalL∗.

(b) ROI del canalb∗.

(c) Relacion de la ROI del canal L∗ con las

ROIs del canal b∗.

Figura 4.8: Analisis del contorno de las regiones para encontrar relaciones de contencion.

4.3.3. Analisis de forma para separacion de celulas

El procedimiento propuesto para separar las regiones traslapadas utilizando interpo-

lacion lineal puede apreciarse graficamente en la figura 4.9. Este procedimiento consta

de los siguientes pasos:

4.3. IDENTIFICACION DE CELULAS 69

1. Una vez que se identifica la region que se quiere separar, se extraen los bordes de

esta y se obtiene su centroide (vea figura 4.9(a)).

2. Se identifican los puntos de separacion de la region (vea figura 4.9(a)), esto se

puede hacer de dos modos:

Encontrando los puntos concavos de la ROI utilizando el algoritmo propuesto

en el trabajo de [WS07].

Seleccionando manualmente estos puntos de separacion.

Debido a que en este trabajo se analizan imagenes de celulas de medula osea

donde existe mucha poblacion celular y en algunas ocasiones hay situaciones de

traslape entre celulas difıciles de separar, se prefirio seleccionar manualmente los

puntos de separacion para garantizar la deteccion de todos los puntos concavos

que deben unirse para separar la region traslapada, ya que el algoritmo propuesto

por [WS07] por la naturaleza de su diseno no garantiza encontrar todos los puntos

concavos de las regiones en situaciones difıciles de traslape.

3. Se convierten los puntos que integran los bordes de la imagen de cartesiano a

polar tomando como centro del plano cartesiano el centroide de la region (vea

figura 4.9(b)).

4. Se interpolan los puntos discontinuos utilizando interpolacion lineal (vea figura

4.9(b)). Esto permitira completar los bordes de la celula con forma de conica.

5. Se convierte de polar a cartesiano y se genera la nueva region que ha sido separada.

Para obtener esta nueva ROI se unen los bordes de la region utilizando operaciones

morfologicas de apertura y esqueleto (vea figura 4.9(c)) y finalmente se rellena la

region.

4.3.4. Identificacion de nucleos y citoplasmas

Las celulas son identificadas utilizando informacion contextual de los elementos que

las componen, es decir, de su nucleo y citoplasma. Las caracterısticas que se utilizaron

para reconocer una celula son: relacion de compacidad para determinar si el objeto tiene

forma regular, excentricidad para saber si la forma del objeto se aproxima a un cırculo,

intensidades del color para conocer si el objeto de interes es de color mas oscuro que los


Figura 4.9: Separacion de regiones utilizando interpolacion lineal.

otros y caracterısticas de relacion de contencion para establecer si una region de interes

contiene o esta contenida en otra region. Estas caracterısticas permiten identificar si la

ROI que se analiza es (o es probable que sea) un nucleo o una celula.

Con base en el conocimiento a priori que se tiene acerca de las caracterısticas de la

forma y color de los elementos celulares y sabiendo que un nucleo tiene que estar con-

tenido por una celula se disenaron algunas reglas de decision para identificar las celulas

y nucleos. Se selecciono un subconjunto de 20 regiones con formas aproximadamen-

te regulares (nucleo y celulas) y 20 regiones con formas aproximadamente irregulares

(regiones traslapadas) y se generaron en Weka algunas reglas de clasificacion que discri-

minaron entre estos tipos de formas. Las reglas generadas nos dieron una idea de una

separacion estandar de los umbrales que se tienen que utilizar para establecer cuando la

forma de una region determina que es probable que esta sea un elemento celular. Lue-

go se agregaron reglas contextuales sobre el color y la proporcion de contencion para

relacionar una celula con su respectivo nucleo. Al principio se establecio que el nucleo

tenıa que ser contenido ıntegramente por la celula pero luego se adapto el umbral de la

proporcion de contencion porque en algunos casos se pierden pıxeles en el proceso de

segmentacion de celulas o en el proceso de separacion de regiones traslapadas.

A continuacion se presentan las reglas de decision utilizadas para identificar nucleos

y celulas.

1. Si color(ROI1)<color(ROI2) y relacion(ROI1,ROI2)≥95 % entonces

Si excentricidad(ROI1)≤ 0,5 y circularidad(ROI1) ≤ 1,5

entonces ROI1 es una celula.

Si no la ROI1 probablemente es una celula traslapada.

4.4. CLASIFICACION DE CELULAS CON LEUCEMIA AGUDA 71

De lo contrario

Si excentricidad(ROI1)> 0,5 o circularidad(ROI1) > 1,5

entonces ROI1 no es region de interes.



2. Si color(ROI1)>color(ROI2) y relacion(ROI2,ROI1)≥95 % entonces

Si excentricidad(ROI2)≤ 0,5 y circularidad(ROI2) ≤ 1,5

entonces ROI1 es un nucleo.

Si no la ROI1 probablemente es un nucleo traslapado.

De lo contrario





Una vez que se tienen las ROIs etiquetadas se separan las regiones traslapadas

y se etiquetan nuevamente. Cuando ya se tienen todas las ROIs etiquetadas como

nucleo, celula o no es region de interes, se busca la asociacion de los pares de regiones

identificadas como nucleos y celulas para verificar que estas ultimas realmente lo sean.

Una vez que se identifica la celula y su respectivo nucleo se obtiene su citoplasma

mediante la diferencia del conjunto de la celula y del nucleo.

4.4. Clasificacion de Celulas con Leucemia Aguda

Despues de obtener las regiones de interes: nucleo, citoplasma y celula de cada

imagen en la coleccion, se efectua el analisis de las caracterısticas de estas regiones para

la identificacion de tipos de leucemias agudas y 5 subtipos derivados de estas.

4.4.1. Extraccion de caracterısticas

La categorizacion por subtipos se lleva a cabo mediante el analisis de las caracterısti-

cas descriptivas del nucleo, del citoplasma y de la celula. Las caracterısticas extraıdas


en estas regiones permiten representar un objeto mediante la descripcion de sus carac-

terısticas morfologicas, estadısticas, de textura y de proporcion de tamano. De la misma

manera, estas regiones pueden estar representadas por los valores propios obtenidos al

analizar sus componentes principales.

En la seccion 2.3 se definieron las caracterısticas que describen a un objeto. En

esta seccion unicamente se mencionan cuales son las caracterısticas que se extrajeron

de cada region de interes: celula, nucleo y citoplasma. Como se podra apreciar en las

siguientes tablas algunas caracterısticas no fueron extraıdas de la region del citoplasma

esto se debio a que esas caracterısticas, de acuerdo con el analisis morfologico realizado

por el experto, no son relevantes para la clasificacion de las celulas por tipos y subtipos

de leucemias agudas.

Caracterısticas morfologicas

En la tabla 4.3 se enlistan las caracterısticas utilizadas para describir la forma

geometrica de cada region de interes.

Tabla 4.3: Caracterısticas morfologicasCaracterısticas Morfologicas Nucleo Citoplasma Celula

Area si si siPerımetro si no si

Circularidad si no siAnchura si no siAltura si no si

Elongacion si no siEje mayor si no siEje menor si no si

Excentricidad si no siExtension si no si

Diametro Equivalente si no siNumero de Euler si no si

Area Convexa si no siSolidez si no si

Caracterısticas estadısticas

La tabla 4.4 presenta las caracterısticas estadısticas de los valores de intensidad

de los pıxeles que conforman cada ROI. Estas caracterısticas fueron extraıdas de cada


canal de la representacion de la ROI en RGB y en escala de grises.

Tabla 4.4: Caracterısticas estadısticasCaracterısticas Estadısticas Nucleo Citoplasma Celula

Moda si si siMedia si si si

Desviacion Estandar si si siVarianza si si si

Densidad Optica Integrada si no si

Promedio de Densidad Optica si no si

Caracterısticas de textura

Las caracterısticas de textura miden la variacion espacial de las intensidades de color

dentro de la region. En la tabla 4.5 se muestran las caracterısticas de textura extraıdas

en cada una de las ROI en RGB y en escala de grises.

Tabla 4.5: Caracterısticas de texturaCaracterısticas de Textura Nucleo Citoplasma Celula

Entropıa si no siContraste si no si

Correlacion si no siEnergıa si no si

Homogeneidad si no si

Caracterısticas de proporcion de tamano

La tabla 4.6 muestra las caracterısticas de proporcion de tamano extraıdas a las ROI.

Estas caracterısticas son muy utiles en este trabajo de tesis ya que permiten medir el

grado de madurez y la regularidad en la forma de las celulas con leucemias agudas.

Tabla 4.6: Caracterısticas de proporcion de tamanoCaracterıstica de Proporcion Nucleo/Celula Nucleo/Citoplasma

Area si siPerımetro si no


Extraccion de valores propios

La tabla 4.7 indica las ROI sobre las cuales se realizo el Analisis de Componentes

Principales. Este analisis unicamente se efectuo en cada canal de las ROI en RGB. Los

valores propios seleccionados para describir las ROI son los 10 primeros de cada banda

los cuales representan como mınimo el 80 % de variabilidad de la informacion de la

ROI. Segun [Gal08] este porcentaje de variabilidad es suficiente para utilizar los valores

propios como caracterısticas estadısticas para discriminar entre subtipos de leucemias.

Tabla 4.7: Valores propiosPCAs Nucleo Citoplasma CelulaPCAs si no si

4.4.2. Clasificacion de celulas

Despues de representar numericamente a cada ROI a traves de sus caracterısticas de

forma, color, textura, proporcion de tamano y valores propios, se llevo a cabo el analisis

de estas para la construccion de los modelos de clasificacion de celulas con leucemia

aguda que permitiran distinguir entre subtipos.

Para poder construir los modelos de clasificacion, se separaron los datos de las celulas

de acuerdo a su tipo y subtipo de leucemia aguda para generar distintos conjuntos de

entrenamiento y prueba.

Los conjuntos formados fueron agrupados segun las etiquetas de sus instancias de

la siguiente manera:

• LLA vs LMA • M5 vs (M2 y M3)

• L1 vs L2 • M2 vs M3 vs M5

• M2 vs (M3 y M5) • L1 vs L2 vs M2 vs M3 vs M5

• M3 vs (M2 y M5)

Cada grupo estuvo representado por atributos con distintas caracterısticas:

1. Morfologicas, estadısticas, de textura y de proporcion de tamano del nucleo, ci-

toplasma y de la celula.

2. Valores propios del nucleo y de la celula en RGB.

3. El conjunto de todas las caracterısticas mencionadas en 1 y 2.


El proceso de la construccion del modelo de clasificacion se realizo de manera su-

pervisada y consto de los siguientes pasos:

1. Para cada conjunto de datos se realizo un analisis de atributos para reordenar-

los segun su puntaje obtenido (Ranker). Los evaluadores de atributos utilizados

fueron: ChiSquaredAttributeEval, FilteredAttributeEval, GainRatioAttributeEval,

InfoGainAttributeEval y OneRAttributeEval. Una breve descripcion de estos eva-

luadores fue presentada en la seccion 2.4.2.

2. Los datos de entrenamiento y prueba fueron generados utilizando validacion cru-

zada de 10 particiones. Es decir, se separaron las instancias en 10 subconjuntos

de los cuales 9 se utilizaron en el entrenamiento para generar el modelo de clasi-

ficacion y el subconjunto restante fue utilizado como prueba. En la seccion 2.5.1

se presento la descripcion de la tecnica de validacion cruzada.

3. Se generaron distintos modelos de clasificacion utilizando clasificadores bayesia-

nos, basados en instancias, arboles y reglas, ası como ensambles de clasificadores.

Los clasificadores utilizados fueron descritos previamente en la seccion 2.4.1.

4. Se evaluaron los distintos clasificadores utilizando las metricas definidas en las

secciones 2.5.2 y 2.5.3. De estos, se selecciono el que obtuvo mejores resultados

en la clasificacion de acuerdo al porcentaje global de clasificacion, porcentaje de

verdaderos positivos y falsos positivos y al valor del area bajo la curva ROC.

La figura 4.10 ejemplifica el proceso de clasificacion realizado en Weka para un

conjunto de datos.

Figura 4.10: Proceso de clasificacion de subtipos de leucemia aguda

Es importante mencionar que tambien se realizaron experimentos balanceando los

datos utilizando tecnicas de sobremuestreo aleatorio y generacion de ejemplos artificiales


utilizando el algoritmo SMOTE (ver seccion 2.4.3), sin embargo, con estos experimen-

tos no se obtuvieron mejoras significativas en los resultados de la clasificacion. En la

seccion 5.2 se presentan los mejores resultados obtenidos en la clasificacion de celulas

al utilizar distintos tipos de atributos, ası como el comportamiento de estos al utilizar

datos balanceados.

4.5. ALGORITMO DE DIAGNOSTICO 77

4.5. Algoritmo de Diagnostico

Como se ha mencionado desde el principio, este trabajo de investigacion esta orienta-

do al analisis de celulas con leucemias agudas y uno de sus objetivos es la creacion de un

algoritmo que diagnostique esta enfermedad por subtipos a partir de las caracterısticas

morfologicas de las celulas.

El algoritmo de diagnostico automatico que se propone en esta tesis no pretende

sustituir el diagnostico clınico realizado por el experto, sino mas bien auxiliarlo en el

analisis de los resultados del examen morfologico de las celulas con leucemia aguda.

El experto ademas debera tomar en cuenta otros factores como la historia clınica, los

sıntomas, signos y los resultados del examen morfologico de las celulas para determinar

la enfermedad que padece una persona y proporcionarle un tratamiento adecuado.

La figura 4.11 presenta un diseno simple basado en la combinacion de clasificadores

binarios para realizar el diagnostico de leucemias agudas. En este esquema primero se

lleva a cabo la clasificacion por tipos de leucemias agudas y luego se realiza la clasifica-

cion por subtipos. Para determinar el tipo y subtipo de leucemia aguda que padece un

paciente se utiliza el criterio de voto mayoritario sobre las predicciones realizadas por

los clasificadores binarios en todas las muestras de celulas correspondientes al paciente.

Figura 4.11: Combinacion de clasificadores binarios para el diagnostico de leucemiasagudas.

Un inconveniente que presenta el diseno de la figura 4.11 es que las decisiones que

toman los clasificadores por subtipos son dependientes de la prediccion de los clasi-

ficadores tipos. De modo que, si el clasificador por tipos predice incorrectamente la

clasificacion por subtipos tambien sera incorrecta.


Para evitar este problema, en este trabajo se propone combinar distintos clasifica-

dores que realicen la prediccion de tipos y subtipos. La figura 4.12 muestra el esquema

de los clasificadores que fueron fusionados para determinar el diagnostico automatico

de leucemias agudas para un paciente.

Figura 4.12: Combinacion de clasificadores multiclase para el diagnostico de leucemiasagudas.

Como se puede apreciar en la figura 4.12, el esquema propuesto considera informa-

cion de todas las muestras de celulas del paciente y analiza los resultados de asignacion

de clase de distintos clasificadores para poder tomar una decision.

El algoritmo de decision determina el diagnostico del paciente con leucemia aguda

de acuerdo a un conjunto de reglas que fueron disenadas considerando las predicciones

consistentes en votos mayoritarios de las distintas clasificaciones para las celulas iden-

tificadas. Cuando las predicciones de los clasificadores en votos mayoritarios es contra-

dictoria el tipo y subtipo de leucemia aguda queda determinado por la prediccion del

clasificador con mas votos.

A continuacion se presentan los pasos a seguir por el algoritmo de diagnostico pro-

puesto para determinar tipos y subtipos de leucemias agudas:


1. Obtener la probabilidad clasica (numero de resultados favorables a la presentacion

de un evento dividido entre el numero total de resultados posibles) de cada uno

de los tipos y subtipos de los clasificadores Ci seleccionados:

- C1: LLA vs LMA - C5: M2 vs (M3 y M5)

- C2: L1 vs L2 vs M2 vs M3 vs M5 - C6: M3 vs (M2 y M5)

- C3: L1 vs L2 - C7: M5 vs (M2 y M3)

- C4: M2 vs M3 vs M5

2. Determinar el tipo de leucemia mediante la fusion de los clasificadores: C1 y C2

de la siguiente manera:

Si p(LLAC1) = 1 o p(LLAC2) = 1 entonces TIPO=LLA

Si p(LMAC1) = 1 o p(LMAC2) = 1 entonces TIPO=LMA

Si p(LLAC1) = p(LMAC1) entonces

Si p(LLAC2) = p(LMAC2) entonces TIPO=No se pudo determinar

Si p(LLAC2) ≥ p(LMAC2) entonces TIPO=LLA

Si p(LLAC2) < p(LMAC2) entonces TIPO=LMA

Si p(LLAC1) > p(LMAC1) entonces

Si p(LLAC2) ≥ p(LMAC2) entonces TIPO=LLA

Si p(LLAC2) < p(LMAC2) entonces

Si p(LLAC1) = p(LMAC2) entonces TIPO=No se pudo determinar

Si p(LLAC1) > p(LMAC2) entonces TIPO=LLA

Si p(LLAC1) < p(LMAC2) entonces TIPO=LMA

Si p(LLAC1) < p(LMAC1) entonces

Si p(LMAC2) ≥ p(LLAC2) entonces TIPO=LMA

Si p(LMAC2) < p(LLAC2) entonces

Si p(LMAC1) = p(LLAC2) entonces TIPO=No se pudo determinar

Si p(LMAC1) > p(LLAC2) entonces TIPO=LMA

Si p(LMAC1) < p(LLAC2) entonces TIPO=LLA

3. Una vez que se ha identificado el tipo de leucemia se obtiene el subtipo utilizando

las siguientes reglas de decision:


Si TIPO=LLA entonces

Si p(L1C3) = 1 o p(L1C2) = 1 entonces SUBTIPO=L1

Si p(L2C3) = 1 o p(L2C2) = 1 entonces SUBTIPO=L2

Si p(L1C3) = p(L2C3) entonces

Si p(L1C2) = p(L2C2) entonces SUBTIPO=No se pudo determinar

Si p(L1C2) ≥ p(L2C2) entonces SUBTIPO=L1

Si p(L1C2) < p(L2C2) entonces SUBTIPO=L2

Si p(L1C3) > p(L2C3) entonces


Si p(L1C2) < p(L2C2) entonces


Si p(L1C3) > p(L2C2) entonces SUBTIPO=L1






Si p(L2C3) > p(L1C2) entonces SUBTIPO=L2


Si TIPO=LMA entonces

Si p(M2C5) > p(M3M5C5) y p(M3C6) < p(M2M5C6)

y p(M5C7) < p(M2M3C7) entonces SUBTIPO=M2





Si p(M2C5 > p(M3C6) y p(M2C5 > p(M5C7) entonces SUBTIPO=M2



Si ninguna de las condiciones anteriores pudo ser satisfecha, entonces

SUBTIPO=No se pudo determinar

Capıtulo 5

Evaluacion de Resultados

En este capıtulo se presenta la evaluacion de los resultados de los distintos metodos

que se usan en este trabajo de investigacion.

Este capıtulo esta organizado de la siguiente manera:

En la seccion 5.1 se muestran los resultados obtenidos con el modelo de segmen-

tacion de celulas propuesto al utilizar distintas imagenes reales y sinteticas de celulas

sanguıneas con caracterısticas de color y textura heterogeneas.

En la seccion 5.2 se evaluan los resultados de los modelos de clasificacion generados

al catalogar las celulas sanguıneas por tipos y subtipos de leucemias agudas mediante

la utilizacion de distintas caracterısticas extraıdas del nucleo y citoplasma de la celula.

En la seccion 5.3 se mide la precision del algoritmo de decision propuesto para la

determinacion del diagnostico del tipo y subtipo de leucemia aguda que padece un

individuo con base en el analisis de la informacion de todas las imagenes de celulas que

le pertenecen.

Los algoritmos propuestos para la segmentacion de imagenes, identificacion de celu-

las y diagnostico de leucemias agudas fueron implementados en Matlab 7.6.0. Los mo-

delos de clasificacion fueron desarrollados en Weka 3.6.0. Los experimentos fueron rea-

lizados sobre una computadora con sistema operativo Windows XP, procesador AMD

Turion 64 a 1.58GHz y 1GB de RAM.

El banco de prueba para el algoritmo de segmentacion e identificacion de celulas

consistio de 633 imagenes de celulas sanguıneas. Los datos de prueba utilizados en la

clasificacion y diagnostico de leucemias agudas se describen en las tablas 4.1 y 4.2 de

la seccion 4.1.

81

82 CAPITULO 5. EVALUACION DE RESULTADOS

5.1. Modelo de Segmentacion

La evaluacion del algoritmo de segmentacion de celulas sanguıneas que utiliza infor-

macion contextual se realiza una vez que han sido separadas e identificadas las regiones

de interes: nucleo, citoplasma y celula en las imagenes de frotis de medula osea.

De manera cualitativa, este algoritmo presenta muy buenos resultados, ya que per-

mite extraer los nucleos y las celulas de las imagenes visualmente ıntegros en todas las

imagenes de la coleccion.

Para medir la precision del algoritmo de segmentacion contextual de celulas de

manera cuantitativa se compararon las regiones obtenidas por este con la segmentacion

manual de las mismas realizadas por el experto utilizando las siguientes metricas de

evaluacion obtenidas de la matriz de confusion binaria presentada en la seccion 2.5.

Precision = V PV P+FP

Tasa de FP = FPV P+FP

Tasa de FN = FNV N+FN

En donde V P corresponde al numero de pixeles correctamente clasificados como

positivos, FP es el numero de pixeles negativos incorrectamente clasificados como posi-

tivos, V N corresponde al numero de pixeles correctamente clasificados como negativos

y FN es el numero de pixeles negativos incorrectamente clasificados como negativos.

La evaluacion del algoritmo se llevo a cabo en imagenes reales de celulas sanguıneas

de frotis de sangre, ası como en imagenes artificiales creadas a partir de estas utilizan-

do un programa editor de imagenes. Enseguida se describen los conjuntos de celulas

utilizados para medir la precision del algoritmo y los resultados obtenidos en cada caso.

Imagenes de celulas reales

El subconjunto de imagenes de celulas reales para la evaluacion del algoritmo fue

obtenido de la coleccion de imagenes utilizada en esta tesis. Este subconjunto incluye 20

imagenes de tamano 256x256 de celulas con leucemia con variaciones en color y textura.

La figura 5.1 muestra un ejemplo de la segmentacion de celulas en imagenes reales

utilizando la metodologıa propuesta.

5.1. MODELO DE SEGMENTACION 83

Figura 5.1: Ejemplo de la segmentacion contextual de celulas sanguıneas utilizandoimagenes reales.

Imagenes de celulas sinteticas

El conjunto de evaluacion de celulas sinteticas fue creado a partir de las celulas

reales utilizando un programa editor de imagenes. Las imagenes de este conjunto tienen

tamano de 256x256 pıxeles y estan divididas en dos subconjuntos: imagenes sinteticas

con textura y color reales, e imagenes sinteticas con textura y color artificiales. El

subconjunto de evaluacion incluye 10 imagenes Sinteticas-Reales con caracterısticas

de color y textura similares a los presentados en celulas reales pero con tamano y

forma conocidos; de la misma manera, se crearon 10 imagenes Sinteticas-Sinteticas con

caracterısticas de tamano, forma, color y textura conocidos.

Las figuras 5.2(a) y 5.2(b) muestran un ejemplo de la segmentacion de celulas uti-

lizando imagenes Sinteticas-Reales e imagenes Sinteticas-Sinteticas, respectivamente.


(a) Segmentacion con-textual de celulas san-guıneas utilizando imagenesSinteticas-Reales

(b) Segmentacion con-textual de celulas san-guıneas utilizando imagenesSinteticas-Sinteticas.

Figura 5.2: Ejemplos de la segmentacion contextual de celulas sanguıneas utilizandoimagenes sinteticas.

Evaluacion de Resultados

La tabla 5.1 muestra la comparacion de los resultados obtenidos en la segmentacion

contextual de celulas reales y sinteticas.

Tabla 5.1: Comparacion de los resultados de la segmentacion de celulas reales y sinteti-cas.

Imagenes Reales Sinteticas-Reales Sinteticas-Sinteticasnucleo celula nucleo celula nucleo celula

Precision x 95.87 % 95.75 % 97.30 % 98.07 % 99.00 % 99.79 %σ 3.16 % 4.25 % 2.88% 2.14 % 1.11 % 0.20%

Tasa de FP x 4.13 % 4.34 % 0.90% 0.99 % 0.48 % 0.21%σ 3.16 % 4.69 % 1.19% 1.96 % 0.71 % 0.20%

Tasa de FN x 2.33 % 3.83 % 1.80% 0.94 % 0.52 % 0.00%σ 5.53 % 5.06 % 1.91% 1.68 % 0.86 % 0.00%

En la figura 5.3 se presenta graficamente la comparacion de los resultados obtenidos

5.1. MODELO DE SEGMENTACION 85

en la segmentacion contextual de celulas reales y sinteticas.

Figura 5.3: Evaluacion de los resultados del algoritmo de segmentacion contextual decelulas sanguıneas.

Los resultados experimentales muestran que la metodologıa propuesta permite la

extraccion de la celula y el nucleo de una manera muy precisa en imagenes sinteti-

cas, debido a que la forma de los nucleos y citoplasmas son conocidos. Como se puede

apreciar graficamente en la figura 5.3 los mejores resultados se obtienen al utilizar

imagenes Sinteticas-Sinteticas ya que la textura es conocida; la segmentacion en image-

nes Sinteticas-Reales se ve afectada por las texturas reales utilizadas; mientras que la

evaluacion de la segmentacion en imagenes reales se ve afectada tanto por la impre-

cision del algoritmo de segmentacion de celulas como por los errores presentes en la

segmentacion manual.


5.2. Clasificacion de Celulas

En esta seccion se presentan los resultados de los experimentos descritos en la seccion

4.4 de los mejores modelos de clasificacion de celulas con leucemia aguda por tipo y

subtipo.

Los experimentos se realizaron analizando las caracterısticas del nucleo y citoplasma

de la celula como se propone en esta tesis, o utilizando unicamente caracterısticas de

las celulas completas como se propuso en el trabajo de [Gal08].

Para cada caso, se experimento utilizando distintos tipos de caracterısticas:

1. morfologicas, estadısticas y de textura (MET)

2. valores propios (PCAs)

3. MET y PCAs

En cada experimento se ordenaron los atributos utilizando distintos evaluadores y se

realizo la clasificacion de las instancias empleando distintos algoritmos de clasificacion

disponibles en Weka. La evaluacion de la clasificacion se realizo aplicando validacion

cruzada de 10 particiones. Los criterios que se consideraron para evaluar los clasificado-

res son: el porcentaje general de clasificaciones correctas, el porcentaje de clasificaciones

correctas de la clase positiva (Tasa de VP), el porcentaje de clasificaciones correctas de

la clase negativa (Tasa de VN) y el area bajo la curva ROC.

Los resultados de las mejores clasificaciones para cada uno de los experimentos

realizados se presentan en las siguientes tablas.

Notas:

• En las tablas cuando se describe al evaluador de atributos que se utilizo ninguno

significa que se obtuvieron los mejores resultados cuando no se ordenaron los

atributos y no importa se refiere a que el clasificador genera el mismo resultado

si se ordenan o no se ordenan los atributos.

• Cuando se utilizan caracterısticas MET para describir la celula mediante carac-

terısticas de su nucleo y citoplasma, dentro de estas se consideran las caracterısti-

cas de proporcion de tamano.

5.2. CLASIFICACION DE CELULAS 87

Tabla 5.2: Resultados de la clasificacion de las celulas con leucemia aguda por familia:LLA y LMA

(a) Utilizando caracterısticas del nucleo y citoplasma de la celula

Clasificador CaracterısticasLLA y LMA MET PCAs MET y PCAsEvaluador de Atributos no importa GainRatio no importaClasificador functions.SMO meta.RC.RF functions.SMOPorcentaje Correcto 90.592 74.9524 92.1987Tasa de VP 0.894 0.7797 0.9197Tasa de VN 0.9181 0.7126 0.9237

Area bajo la curva ROC 0.9065 0.8127 0.9217

(b) Utilizando caracterısticas unicamente de la celula

Clasificador CaracterısticasLLA y LMA MET PCAs MET y PCAsEvaluador de Atributos ninguno ChiSquared no importaClasificador meta.RC.RF meta.RC.RF functions.SLPorcentaje Correcto 82.6818 73.8737 81.3232Tasa de VP 0.8170 0.7888 0.8217Tasa de VN 0.8389 0.6768 0.8032



Tabla 5.3: Resultados de la clasificacion de las celulas con leucemia aguda por subtipos:L1 y L2


Clasificador CaracterısticasL1 y L2 MET PCAs MET y PCAsEvaluador de Atributos no importa ninguno no importaClasificador lazy. IBk -K 3 meta. RC. RF lazy. IBk -K 3Porcentaje Correcto 84.4022 77.6268 84.0399Tasa de VP 0.8345 0.6682 0.7855Tasa de VN 0.8527 0.8588 0.8841



Clasificador CaracterısticasL1 y L2 MET PCAs MET y PCAsEvaluador de Atributos no importa no importa GainRatioClasificador functions.SL lazy.IBk -K 10 meta.RC.RFPorcentaje Correcto 76.7754 72.5906 75.9239Tasa de VP 0.6664 0.6564 0.6555Tasa de VN 0.8445 0.778 0.8379



Tabla 5.4: Resultados de la clasificacion de las celulas con leucemia aguda por subtipos:M2 y el resto de Ms


Clasificador CaracterısticasM2 y el resto de Ms MET PCAs MET y PCAsEvaluador de Atributos OneR OneR ChiSquaredClasificador meta.RC.RF trees.RF meta.RC.RFPorcentaje Correcto 92.4474 73.1316 91.9474Tasa de VP 0.8833 0.7911 0.9033Tasa de VN 0.9618 0.6809 0.9318



Clasificador CaracterısticasM2 y el resto de Ms MET PCAs MET y PCAsEvaluador de Atributos OneR OneR ningunoClasificador meta.RC.RF meta.RC.RF meta.RC.RFPorcentaje Correcto 74.2368 64.2105 75.3158Tasa de VP 0.7056 0.5600 0.7156Tasa de VN 0.7755 0.7182 0.7873





Clasificador CaracterısticasM3 y el resto de Ms MET PCAs MET y PCAsEvaluador de Atributos no importa ninguno no importaClasificador lazy.IBk -K 1 trees.RF lazy.IBk -K 5Porcentaje Correcto 91.8947 79.2105 89.3632Tasa de VP 0.8045 0.4800 0.6435Tasa de VN 0.9550 0.8879 0.9715



Clasificador CaracterısticasM3 y el resto de Ms MET PCAs MET y PCAsEvaluador de Atributos GainRatio GainRatio GainRatioClasificador meta.RC.RF meta.RC.RF meta.RC.RFPorcentaje Correcto 80.7895 81.3684 77.0947Tasa de VP 0.3900 0.3900 0.2330Tasa de VN 0.9400 0.9479 0.9377





Clasificador CaracterısticasM5 y el resto de Ms MET PCAs MET y PCAsEvaluador de Atributos no importa OneR InfoGainClasificador lazy.IBk -K 3 meta.RC.RF meta.RC.RFPorcentaje Correcto 91.8947 77.8158 90.8947Tasa de VP 0.8700 0.2867 0.7433Tasa de VN 0.9376 0.9714 0.9724



Clasificador CaracterısticasM5 y el resto de Ms MET PCAs MET y PCAsEvaluador de Atributos OneR no importa GainRatioClasificador trees.RandomForest lazy.IBk -K 9 meta.RC.RFPorcentaje Correcto 84.3684 76.7895 83.3421Tasa de VP 0.7300 0.3867 0.4967Tasa de VN 0.8895 0.9171 0.9662



Tabla 5.7: Resultados de la clasificacion de las celulas con leucemia aguda por subtipos:M2, M3 y M5


Clasificador CaracterısticasM2, M3 y M5 MET PCAs MET y PCAsEvaluador de Atributos OneR ChiSquared ChiSquaredClasificador meta.RC.RF trees.RF meta.RC.RFPorcentaje Correcto 88.3947 63.6316 84.8684Tasa de VP 0.9044 0.8544 0.9044Tasa de VN 0.8936 0.5918 0.8264



Clasificador CaracterısticasM2, M3 y M5 MET PCAs MET y PCAsEvaluador de Atributos InfoGain ninguno OneRClasificador meta.RC.RF meta.RC.RF trees.RandomForestPorcentaje Correcto 66.6316 59.6316 66.1316Tasa de VP 0.8011 0.8033 0.7922Tasa de VN 0.6118 0.5191 0.6018



Tabla 5.8: Resultados de la clasificacion de las celulas con leucemia aguda por subtipos:L1, L2, M2, M3 y M5


Clasificador CaracterısticasL1, L2, M2, M3 y M5 MET PCAs MET y PCAsEvaluador de Atributos GainRatio no importa ningunaClasificador meta.RC.RF functions.SMO meta.RC.RFPorcentaje Correcto 78.1712 52.648 77.4789Tasa de VP 0.7645 0.7164 0.7555Tasa de VN 0.9462 0.8859 0.943



Clasificador CaracterısticasL1, L2, M2, M3 y M5 MET PCAs MET y PCAsEvaluador de Atributos InfoGain no importa ChiSquaredClasificador meta.RC.RF functions.SL meta.RC.RFPorcentaje Correcto 57.0000 45.0859 55.8586Tasa de VP 0.7099 0.7121 0.7258Tasa de VN 0.8288 0.6798 0.8030



Tabla 5.9: Comportamiento de los mejores clasificadores que analizan unicamente lainformacion de la celula al agregar caracterısticas del nucleo y citoplasma

Clasificador CaracterısticasLLA y LMA Nucleo y citoplasma CelulaCaracterısticas MET y PCAs MET y PCAs MET y PCAsEvaluador de Atributos no importa no importa no importaClasificador functions.SMO functions.SL functions.SLPorcentaje Correcto 92.1987 91.0051 81.3232Tasa de VP 0.9197 0.9232 0.8217Tasa de VN 0.9237 0.8934 0.8032


Clasificador CaracterısticasL1 y L2 Nucleo y citoplasma CelulaCaracterısticas MET MET METEvaluador de Atributos no importa no importa no importaClasificador lazy. IBk -K 3 functions.SL functions.SLPorcentaje Correcto 84.4022 80.1087 76.7754Tasa de VP 0.8345 0.7536 0.6664Tasa de VN 0.8527 0.8368 0.8445


Clasificador CaracterısticasM2 y el resto de Ms Nucleo y citoplasma CelulaCaracterısticas MET MET METEvaluador de Atributos OneR OneR OneRClasificador meta.RC.RF meta.RC.RF meta.RC.RFPorcentaje Correcto 92.4474 92.4474 74.2368Tasa de VP 0.8833 0.8833 0.7056Tasa de VN 0.9618 0.9618 0.7755


Clasificador CaracterısticasM3 y el resto de Ms Nucleo y citoplasma CelulaCaracterısticas MET MET METEvaluador de Atributos no importa GainRatio GainRatioClasificador lazy.IBk -K 1 meta.RC.RF meta.RC.RFPorcentaje Correcto 91.8947 88.3947 80.7895Tasa de VP 0.8045 0.5850 0.3900Tasa de VN 0.9550 0.9804 0.9400

Area bajo la curva ROC 0.8797 0.9208 0.7882esta tabla continua en la siguiente pagina


Tabla 5.9 - continuacion de la pagina anterior

Clasificador Caracterısticas

M5 y el resto de Ms Nucleo y citoplasma Celula

Caracterısticas MET MET MET

Evaluador de Atributos no importa OneR OneR

Clasificador lazy. IBk -K 3 trees.RF trees.RF

Porcentaje Correcto 91.8947 89.8684 84.3684

Tasa de VP 0.8700 0.7267 0.7300

Tasa de VN 0.9376 0.9652 0.8895



M2, M3 y M5 Nucleo y citoplasma Celula


Evaluador de Atributos OneR InfoGain InfoGain

Clasificador meta.RC.RF meta.RC.RF meta.RC.RF


Tasa de VP 0.9044 0.8744 0.8011

Tasa de VN 0.8936 0.8755 0.6118



L1, L2, M2, M3 y M5 Nucleo y citoplasma Celula


Evaluador de Atributos GainRatio InfoGain InfoGain

Clasificador meta.RC.RF meta.RC.RF meta.RC.RF


Tasa de VP 0.7645 0.7455 0.7099

Tasa de VN 0.9462 0.9462 0.8288



En la tabla 5.10 se presentan de los resultados del mejor clasificador para cada

experimento realizado.

Tabla 5.10: Mejores resultados en la clasificacion de las celulas con leucemia aguda.

Nucleo y Citoplasma Unicamente de la celulaClasificador Caract. % Clasif. % Clasif. Caract.

LLA vs LMA MET y pcas 92.1987 82.6818 METL1 vs L2 MET 84.4022 76.7754 MET

M2 vs Ms MET 92.4474 75.3158 MET y pcasM3 vs Ms MET 91.8947 81.3684 pcasM5 vs Ms MET 91.8947 84.3684 MET

M2 vs M3 vs M5 MET 88.3947 66.6316 METL1 vs L2 vs M2 vs M3 vs M5 MET 78.1712 57.0000 MET

Si se comparan los resultados obtenidos en la clasificacion de celulas con carac-

terısticas del nucleo y citoplasma con los resultados obtenidos al utilizar unicamente

las caracterısticas de la celula, se puede apreciar claramente que el describir las celulas

mediante las caracterısticas de los elementos que la componen mejora la representacion

de los datos. De la misma manera se puede concluir que las caracteristicas que propor-

cionan la mejor descripcion de las celulas con leucemias agudas son las caracterısticas

MET (morfologicas, estadısticas y de textura).

A continuacion se presenta graficamente el analisis con curvas ROC de los mejores

clasificadores. Ponga atencion a la escala de las graficas para que pueda interpretar las

curvas ROC correctamente.


(a) Caracterısticas del nucleo y citoplasma (b) Caracterısticas de la celula

Figura 5.4: Curva ROC de la clasificacion por tipos: LLA y LMA.


Figura 5.5: Curva ROC de la clasificacion por subtipos: L1 y L2.


Figura 5.6: Curva ROC de la clasificacion por subtipos: M2 y el resto de Ms.







Figura 5.9: Curva ROC de la clasificacion por subtipos: M2, M3 y M5.



Figura 5.10: Curva ROC de la clasificacion por subtipos: L1, L2, M2, M3 y M5.


Es importante mencionar que tambien se realizaron algunos experimentos que uti-

lizan datos balanceados utilizando tecnicas de sobremuestreo aleatorio y generacion de

ejemplos artificiales utilizando el algoritmo SMOTE (seccion 2.4.3). Como se puede

apreciar en la tabla 5.11, la precision obtenida en la clasificacion no representa mejoras

significativas en los resultados de la clasificacion.

Tabla 5.11: Comportamiento de los mejores clasificadores utilizando datos balanceados

Clasificador Clases BalanceadasLLA y LMA Sin balanceo SMOTE SobremuestreoEvaluador de Atributos no importa no importa no importaClasificador functions.SMO functions.SMO functions.SMOPorcentaje Correcto 92.1987 93.3333 92.1839Tasa de VP 0.9197 0.9282 0.9156Tasa de VN 0.9237 0.9393 0.9292

Clasificador Clases BalanceadasL1 y L2 Sin balanceo SMOTE SobremuestreoEvaluador de Atributos no importa no importa no importaClasificador lazy. IBk -K 3 lazy. IBk -K 3 lazy. IBk -K 3Porcentaje Correcto 84.4022 84.8101 80.1687Tasa de VP 0.8345 0.8627 0.8431Tasa de VN 0.8527 0.8370 0.7703

Clasificador Clases BalanceadasM2 y Resto de Ms Sin balanceo SMOTE SobremuestreoEvaluador de Atributos OneR OneR OneRClasificador meta.RC.RF meta.RC.RF meta.RC.RFPorcentaje Correcto 92.4474 88.8888 91.4141Tasa de VP 0.8833 0.8631 0.8947Tasa de VN 0.9618 0.9126 0.9320


5.3. Algoritmo de Diagnostico

Las tablas 5.12 y 5.13 presentadas a continuacion muestran los resultados obtenidos

de los algoritmos que combinan distintos clasificadores binarios y multiclase, respec-

tivamente, para realizar el diagnostico de tipos y subtipos de leucemia aguda en las

muestras de frotis disponibles para un paciente.

Tabla 5.12: Evaluacion del algoritmo de diagnostico para tipos y subtipos de leucemiasagudas fusionando la informacion de clasificadores binarios.

Clasificacion No. ejemplos % correcto % no determinado % incorrecto

Por tipos 63 92.0635 % 4.7619 % 3.1746 %LLA 34 88.2352 % 5.8824 % 5.8824 %LMA 29 96.5517% 3.4483 % 0 %

Por subtipos 43 81.3954 % 11.6279 % 6.9767 %L1 15 80 % 13.3333 % 6.6667 %L2 14 78.5714 % 14.2857 % 7.1429 %M2 6 83.3333 % 16.6667 % 0 %M3 3 66.6667 % 33.3333 % 0 %M5 5 100 % 0 % 0 %

Tabla 5.13: Evaluacion del algoritmo de diagnostico para tipos y subtipos de leucemiasagudas fusionando la informacion de clasificadores multiclase.

Clasificacion No. ejemplos % correcto % no determinado % incorrecto

Por tipos 63 95.2381 % 3.1746 % 1.5873 %LLA 34 94.1176 % 2.9412 % 2.9412 %LMA 29 96.5517% 3.4483 % 0.0000 %

Por subtipos 43 90.6977 % 4.6512 % 4.6512 %L1 15 86.6667 % 6.6667 % 6.6667 %L2 14 85.7143 % 7.1429 % 7.1429 %M2 6 100 % 0 % 0 %M3 3 100 % 0 % 0 %M5 5 100 % 0 % 0 %


La evaluacion del algoritmo de diagnostico muestra que al conjuntar la informacion

de todos los clasificadores de todas las celulas del paciente se puede determinar el tipo

y subtipo de leucemias aguda con una precision mas adecuada.

No obstante, cuando se cuenta con muy pocas celulas de un ejemplo no es recomen-

dable utilizar el algoritmo de diagnostico, puesto que este es muy sensible a los errores

provenientes de la clasificacion incorrecta de las celulas.

5.4. Discusion

En este trabajo de tesis se propuso una metodologıa de analisis de celulas de medula

osea para la deteccion de subtipos de leucemia aguda.

El algoritmo de segmentacion de celulas propuesto presento robustez en los resulta-

dos ya que de manera no supervisada permitio la extraccion completa de los elementos

celulares contenidos en imagenes que muestran tinciones y texturas heterogeneas, ası co-

mo alta poblacion de celulas.

El espacio de color CIEL∗a∗b∗ utilizado en la segmentacion resalto en gran medida

las diferencias visuales de color entre los elementos de interes (celulas o nucleos) y el

resto de objetos en la imagen, permitiendo que estos elementos quedaran agrupados

adecuadamente en dos grupos. Esto permitio que las restricciones contextuales del co-

lor y textura de un canal de la imagen fueran incorporadas en un modelo binario de

segmentacion basado en CAM. De otro modo, si se utiliza otro espacio de color para

resolver este problema, el modelado con CAM se vuelve mas complejo puesto que pro-

bablemente requiere de la formacion de mas de 2 grupos e incluso de mas de una banda

de color para representar los elementos celulares de interes.

El diseno de un algoritmo de identificacion de celulas fue necesario debido a que las

regiones segmentadas resaltan regiones de la imagen similares a los elementos celulares

de interes, pero no se tiene seguridad de que realmente lo sean. Al incorporar infor-

macion contextual del color, posicion y forma de las regiones en la imagen se pudieron

detectar todas las celulas y discriminar las regiones que no son de interes, del mismo

modo se pudieron detectar uniones celulares. En este trabajo se propuso un algoritmo

de separacion de regiones traslapadas que completa el contorno de la estructura celular

con forma de conica, esto ocasiona que se tenga una mejor aproximacion del contorno

de la celula que el utilizar una lınea recta. Esta ventaja se vuelve mas notoria cuando

se incrementa la proporcion de traslape entre las celulas.

5.4. DISCUSION 103

La precision de la segmentacion en los elementos celulares identificados fue lo sufi-

cientemente buena para permitir una representacion mas completa de las celulas afec-

tadas mediante la descripcion de caracterısticas extraıdas de ella misma y de sus ele-

mentos que la conforman. Las caracterısticas descriptivas resultaron relevantes ya que

mejoraron los resultados en la clasificacion por subtipos de leucemias agudas.

Los resultados obtenidos en las distintas etapas de segmentacion e identificacion

de celulas, clasificacion y diagnostico fueron considerados suficientemente buenos para

pensar en automatizar el proceso de diagnostico de leucemias agudas.

Sin embargo, existen algunos detalles en el algoritmo de separacion que deben con-

siderarse para llegar a este fin. El algoritmo propuesto para la separacion de celulas

requiere de la intervencion manual del usuario que los puntos de separacion de traslape,

para automatizar este proceso se requiere disenar o emplear un algoritmo que detecte

todos los puntos concavos en donde existe traslape. Por otro lado, en el algoritmo pro-

puesto tampoco se mide el grado de traslape entre celulas, por lo que si las imagenes

que se separan estan muy traslapadas aunque la forma sea muy aproximada a la real,

se introduce ruido en la descripcion de las caracterısticas relacionadas con el color de

las otras regiones y puede afectar la precision alcanzada en el proceso de clasificacion.

5.4.1. Comparacion con trabajos previos

Debido a que los datos de prueba utilizados en este trabajo de tesis son distintos a los

manejados en otros trabajos previos y no se pudieron conseguir las imagenes procesadas

en estos ultimos, no fue posible evaluar los resultados de los algoritmos propuestos con

respecto a los presentados en trabajos previos. Sin embargo, nos podemos dar una idea

del desempeno de los algoritmos al analizar la informacion contenida en las tablas 5.14

y 5.15.


Tabla 5.14: Tabla comparativa del metodo propuesto con trabajos previos en el procesode segmentacion de celulas

[WNC04] [CGS07] [TU05] [DML07] Propuesto

Caracterısticasde las imagenes

Formatode la imagen Gris Color Gris Gris Color

Contraste entre alto variable alto alto variableel fondo y las ROI

Celulas traslapadas si no no si sicon globulos rojos

Celulas traslapadas no no no no sicon celulas

Tipo de separacion lineal - - morfologica con formade conica

Evaluacion

Imagenes 22 ≈ 1600 376 100 633segmentadas

Imagenes para 22 - 376 - 20la evaluacion

Precisionnucleo sup. al 60 % no reporta 90.38 % no reporta 95.87 %celula (traslapes) 91.18 % 95.75 %

Criterio de no se - seg. - seg.comparacion especıfica manual manual

Tabla 5.15: Tabla comparativa del metodo propuesto con trabajos previos en el procesode clasificacion de subtipos de leucemias agudas

Ref. No. muestras Clasificador Precision Caracterısticas

[Mor06] LLA (251) LLA vs LMA 84.53 % MET CelulaLMA (251)

[Gal08] LLA (95) LLA vs LMA 88.24 % MET y PCAs CelulaLMA (74) L1 vs L2 89.6 % MET y PCAsL1 (65) M2 vs Ms 92.3 % MET y PCAsL2 (30) M3 vs Ms 88.46 % MET y PCAsM2 (38) M5 vs Ms 99.23 % MET y PCAsM3 (26)M5 (10)

Propuesto LLA (295) LLA vs LMA 92.20 % MET y PCAs NucleoLMA (338) L1 vs L2 84.40 % MET y CitoplasmaL1 (102) M2 vs Ms 92.45 % METL2 (135) M3 vs Ms 91.89 % METM2 (95) M5 vs Ms 91.89 % METM3 (47)M5 (56)

Capıtulo 6

Conclusiones y Trabajo Futuro

6.1. Conclusiones

En el presente trabajo de investigacion se abordo el problema de la segmentacion

e identificacion de celulas sanguıneas desde un enfoque contextual para la clasificacion

y diagnostico de 5 subtipos de leucemias agudas. De acuerdo con los experimentos

realizados y los resultados alcanzados en este trabajo de investigacion se pueden hacer

las siguientes conclusiones:

En lo referente al algoritmo de segmentacion propuesto se confirmo que el emplear

la informacion contextual del color y textura de los pıxeles de la imagen permite ex-

traer el nucleo y citoplasma de la celula de una manera eficiente aun en imagenes que

presentaron alta poblacion de celulas y variaciones en color y textura.

Por otro lado, el enfoque contextual que se le dio al algoritmo de identificacion de

celulas permitio el reconocimiento de nucleos y citoplasmas de las mismas mediante el

analisis de la forma, el color y la relacion de contenido entre las regiones de interes.

Ademas este algoritmo permitio identificar uniones en las regiones de interes y sepa-

rarlas proporcionandole forma conica a la parte traslapada de la ROI. Los algoritmos

de reconocimiento y separacion de regiones permitieron completar el proceso de la seg-

mentacion de las celulas y su respectivo nucleo con una precision promedio del 95 % en

la segmentacion de imagenes de celulas sanguıneas reales cuando es comparada con la

segmentacion manual realizada por el experto. La precision que se alcanzo en la seg-

mentacion es considerada muy buena ya que origino que se tuvieran buenos resultados

en el proceso de clasificacion automatica de subtipos de leucemias agudas.

En lo que concierne al proceso de clasificacion de celulas se demostro que el uso de

107

108 CAPITULO 6. CONCLUSIONES Y TRABAJO FUTURO

las caracterısticas descriptivas del nucleo y citoplasma de las celulas mejoraron su repre-

sentacion, permitiendo incrementar el porcentaje en la identificacion del tipo y subtipo

de leucemia de manera significativa (7 % al 22 %) que cuando se utilizan unicamente

las caracterısticas descriptivas de la celula. La mejora en la precision de la clasificacion

de celulas permitio a su vez justificar el proceso de segmentacion, el cual cumplio con

uno de los objetivos planteados en un principio.

Los experimentos realizados al utilizar distintos clasificadores para categorizar el

subtipo de leucemia aguda manifestaron que las caracterısticas que mejor describen a

las celulas con leucemia son aquellas de naturaleza morfologica, estadıstica y de textura.

Este resultado confirmo que el analisis de las caracterısticas obtenidas en esta tesis

mediante el proceso de minerıa de datos es aproximado al analisis efectuado por el

experto en el estudio de microscopia optica para la deteccion de leucemias agudas, ya

que ambos analizan las caracterısticas morfologicas y las variaciones del color en el

nucleo y citoplasma de la celula para determinar el subtipo al que pertenecen. Ademas,

los expertos en el dominio consideran que la precision obtenida en la evaluacion de la

clasificacion es suficientemente buena para ser utilizada en el algoritmo de diagnostico.

Con lo que respecta al algoritmo de diagnostico se comprobo que al fusionar distintos

clasificadores fue posible reducir el numero de falsos positivos y negativos presentados en

los distintos clasificadores, esto permitio alcanzar una precision del 95 % en la prediccion

del diagnostico por tipos de leucemias y del 90 % en el diagnostico de subtipos. Ademas

se analizo que en los ejemplos en los que no se pudo determinar el tipo o subtipo de

leucemia aguda, parte del error generado se debio a que existen pocos ejemplos de

celulas del paciente y que algunos de estos fueron mal clasificados.

Los resultados anteriores mostraron que el uso de la informacion contextual en

el proceso de segmentacion, identificacion y clasificacion de celulas puede aplicarse

eficientemente en el diagnostico de tipos y subtipos de leucemias agudas.

6.2. TRABAJO FUTURO 109

6.2. Trabajo Futuro

Una posible lınea de investigacion es realizar mejoras al algoritmo de segmentacion

e identificacion de celulas que aquı se propuso, para esto se pueden realizar lo siguiente:

Refinar el proceso de separacion de celulas; en esta tesis completamos las regiones

utilizando una forma de conica, sin embargo, se puede utilizar la informacion del

propio contorno de la celula para completar la region.

Ampliar el algoritmo de identificacion celulas sanguıneas para que permita reco-

nocer globulos rojos, plaquetas y otros componentes de la sangre.

Proponer un algoritmo de segmentacion para encontrar los nucleolos y granuloci-

tos dentro del nucleo.

Otra posible lınea es trabajar en el proceso de clasificacion de celulas, aquı se puede:

Ampliar la coleccion de imagenes digitales para identificar otros subtipos de leu-

cemias o celulas normales.

Definir nuevos atributos con base en nuevas subregiones segmentadas como pue-

den ser los nucleolos y granulocitos.

Proponer caracterısticas de relacion espacial de los elementos y subsegmentos que

conforman la celula.

Aplicar nuevas tecnicas de seleccion de atributos y minerıa de datos para mejo-

rar la precision en la clasificacion por subtipos de leucemias agudas hasta ahora

alcanzada.

Aplicar las caracterısticas descriptivas del nucleo y citoplasma de las celulas apli-

cadas en este trabajo para reconocer tipos de globulos blancos.

Como trabajo futuro en la parte del algoritmo de diagnostico se sugiere obtener

un mayor numero de imagenes por paciente para mejorar la precision del algoritmo de

decision, y probar distintos clasificadores y teorıas de decision que generen resultados

mas confiables a los obtenidos hasta el momento.

Bibliografıa

[AAS04] Aurora Agudo, Juan Carlos Alonso, and Ruth Santana. Evaluacion de

modelos para prediccion meteorologica. Universidad Carlos III de Madrid,

2004.

[BC05] Alejandro Boris and Zaida Cebrian. Diagnostico cardiologıa. Inteligencia

en redes de comunicaciones, 2005.

[Bes74] J. Besag. Spatial interaction and the statistical analysis of lattice systems.

Journal of the Royal Statistical Society, 36:192–236, 1974.

[CGS07] Sara Colantonio, Igor Gurevich, and Ovidio Salvetti. Automatic fuzzy-

neural based segmentation of microscopic cell images. Advances in Mass

Data Analysis of Signals and Images in Medicine, Biotechnology and Che-

mistry, 4826:115–127, 2007.

[CS09a] Color-Spaces. Introduction to color and color management sys-

tems. http://developer.apple.com/dev/techsupport/insidema/ACI/ACI-

45.htm. fecha de consulta: 9 de Abril, 2009.

[CS09b] Color-Spaces. A practical guide and tutorial to digital color ma-

nagement for photographers. http://www.booksmartstudio.com/color

tutorial/colortheory4.html. fecha de consulta: 9 de Abril, 2009.

[DML07] Leyza Baldo Dorini, Rodrigo Minetto, and Neucimar Jeronimo Leite. Whi-

te blood cell segmentation using morphological operators and scale-space

analysis. XX Brazilian Symposium on Computer Graphics and Image Pro-

cessing. SIBGRAPI., 3118:294–304, 2007.

[Fau08] Fauci. Medicina interna. McGraw-Hill, ed. 17a, 2008.

111

112 BIBLIOGRAFIA

[Fra93] Joseph M. Francos. A unified texture model based on a 2-d wold-like de-

composition. IEEE Transactions on signal processing, 41:2665–2678, 1993.

[Gal08] Martha Coral Galindo. Obtencion de caracterısticas de subtipos de leucemia

en imagenes digitales de celulas sanguıneas para su clasificacion. Instituto

Nacional de Astrofısica, Optica y Electronica. Tesis de Maestria, 2008.

[Gmb07] MVTec Software GmbH. Halcon/hdevelop reference manual. Munchen,

Germany, May 2007.

[GPE09] Ernesto Gonzalez, Zady Perez, and Ivet Espinosa. Tecnicas de mi-

nerıa de datos. http://www.monografias.com/ trabajos55/mineria-de-

datos/mineria-de-datos.shtml fecha de consulta: 4 de Mayo, 2009.

[GSM01] Leticia Guimaraes, Altamiro Suzim, and Junji Maeda. A circle similarity

algorithm for an automatic circular decomposition of blood cell images.

Optical review, 6:436–443, 2001.

[HEM09a] HEMATOLOGIA. Association of cancer online resources. http://www.

acor.org/cnet/256696.html. fecha de consulta: 15 de Abril, 2009.

[HEM09b] HEMATOLOGIA. El mundo salud, leucemias agudas, tipos de leucemias.

http://www.elmundo.es/elmundosalud/especiales/cancer/leuc agudas2.html.

fecha de consulta: 27 de Mayo, 2009.

[HEM09c] HEMATOLOGIA. Leucemia y transtornos mieloproliferativos. http://

www.altillo.com/medicina/monografias/leucemia.asp. fecha de consulta: 15

de Abril, 2009.

[HEM09d] HEMATOLOGIA. Leucemias. programa de actualizacion continua para

medicina general. http://www.drscope.com/ pac/mg/a5/mga5 p23.htm. fe-

cha de consulta: 6 de Mayo, 2009.

[HFH+] Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer, Peter Reute-

mann, and Ian H. Witten. The weka data mining software: An update.

SIGKDD Explorations, Volume 11, Issue 1, 2009.

[HK01] Jiawei Han and Micheline Kamber. Data mining, concepts and techniques.

Morgan-Kaurmann. Academic Press, 2001.

BIBLIOGRAFIA 113

[HSP02] Heiko Hengena, Susanne Spoor, and Madhukar Pandi. Analysis of blood and

bone marrow smears using digital image processing techniques. Progress in

biomedical optics and imaging, 3:624–635, 2002.

[INE08] INEGI. Instituto nacional de estadıstica, geografıa e informatica. consulta

en lınea. http://www.inegi.gob.mx. fecha de consulta: 5 de Junio, 2008.

[KJC+01] Kyungsu Kim, Jeonghee Jeon, WanKyoo Choi, Pankoo Kim, and Yo-Sung

Ho. Automatic cell classification in human’s peripheral blood images ba-

sed on morphological image processing. Australian Joint Conference on

Artificial Intelligence, 2256:225–236, 2001.

[KJS02] B. R. Kumar, D. K. Joseph, and T.V Sreenivas. Teager energy based blood

cell segmentation. 14th International conference on digital signal processing,

2:619–622, 2002.

[Kla05] Dag Klaveness. Photography in limnology: documentation of lake color

using a ccd camera. Limnology, 6:131–136, 2005.

[KMB06] P. Kakumanu, S. Makrogiannis, and N. Bourbakis. A survey of skin-color

modeling and detection methods. Science Direct, Pattern Recognition,

40:1106 – 1122, 2006.

[LA08] Erika Danae Lopez and Leopoldo Altamirano. A method based on tree-

structured markov random field and a texture energy function for classifi-

cation of remote sensing images. 5th International Conference on Electrical

Engineering, Computing Science and Automatic Control, :540–544, 2008.

[Lev85] M. Levine. Vision in man and machine. McGraw-Hill, 1985.

[Lew01] Michael S. Lew. Principles of visual information retrieval. Series: Advances

in Pattern Recognition, 2001.

[Li00] Stan Z. Li. Modeling image analysis problems using markov random fields.

Handbook of Statistics Elsevier Science, 20:1–43, 2000.

[Loz02] Jose Antonio Lozano. Leucemias agudas. ONCOLOGIA OFFARM No.6

Junio, 21:117–122, 2002.

114 BIBLIOGRAFIA

[LP99] Fang Liu and Rosalind W. Picard. A spectral 2d wold decomposition al-

gorithm for homogeneous random fields. Proceedings of the International

Conference on Acoustics, Speech and Signal Processing, 6:3501–3504, 1999.

[LVBV05] Fernando Lopez, Jose Miguel Valiente, Ramon Baldrich, and Marya Vanrell.

Fast surface grading using color statistics in the cie lab space. Pattern

Recognition and Image Analysis, 3523:666–673, 2005.

[Mat08] Matlab. Image processing toolbox tm 6 user’s guide. The MathWorks, Inc.,

2008.

[MB09] David Medina and Pablo Barasoain. Diagnostico en cardiologıa.

www.it.uc3m.es/jvillena/irc/practicas/05-06/5mem.pdf fecha de consulta: 4

de Mayo, 2009.

[Men08] Luis Javier Mena. Aprendizaje automatico a partir de conjuntos no ba-

lanceados y su aplicacion en el diagnostico y pronostico medico. Instituto

Nacional de Astrofısica, Optica y Electronica. Tesis de Doctorado, 2008.

[MOG+05] Blanca A. Morales, Ivan Olmos, Jesus A. Gonzalez, Leopoldo Altamirano,

Jose E. Alonso, and Ruben Lobato. Digitalizacion de frotis de medula osea

de pacientes con leucemia aguda. Laboratorio de Especialidades del Instituto

Mexicano del Seguro Social, 2005.

[Mor06] Blanca Aurora Morales. Extraccion de caracterısticas en imagenes de celulas

de medula osea para la clasificacion de leucemias agudas. Instituto Nacional

de Astrofısica, Optica y Electronica. Tesis de Maestria, 2006.

[MRGG07] Roxana Martın, Rosa Marıa Ramos, Ricardo Grau, and Marıa Matilde

Garcıa. Aplicacion de metodos de seleccion de atributos para determinar

factores relevantes en la evaluacion nutricional de los ninos. Gaceta Medica

Espirituana, 2007.

[MS82] Andrzej Materka and Michal Strzelecki. Texture analysis methods – a re-

view. Academic Press, 1, 1982.

[Pas01] George Paschos. Perceptually uniform color spaces for color texture. IEEE

Transactions on Image Processing, 10:932–937, 2001.

BIBLIOGRAFIA 115

[Per09] Marıa Eglee Perez. Analisis de componentes principales.

http://www.cesma.usb.ve/ eglee/co5314/clases/clase4.pdf. fecha de consul-

ta: 20 de Septiembre, 2009.

[RASM96] Guillermo J. Ruiz-Argueles and Jesus San-Miguel. Actualizacion en leuce-

mias. Editorial medica panamericana, 1, 1996.

[RK82] A. Rosenfeld and A. Kak. Digital picture processing. Academic Press, 1,

1982.

[RL93] A. Ravishankar Rao and G. LT Lohse. Towards a texture naming system:

Identifying relevant dimensions of texture. IEEE Conference on Vizualiza-

tion, 36:220–227, 1993.

[SG08] G.N. Srinivasan and G.Shobha. Statistical texture analysis. Procedings

of World Academy of Science, Engineering and Technology, 36:1264–1269,

2008.

[San07] Danel Sanchez. Pronostico de supervivencia de infarto cerebral atero-

trombotico usando aprendizaje automatizado. VI Congreso Internacional

de Informatica en Salud, 2007.

[TU05] Nipon Theera-Umpon. White blood cell segmentation and classification in

microscopic bone marrow images. Fuzzy Systems and Knowledge Discovery,

3614:787–796, 2005.

[Wik09] Wikipedia. Wikipedia la enciclopedia libre. consulta en lınea.

http://es.wikipedia.org/wiki/Excentricidad (ciencias exactas). fecha de

consulta: 20 de Septiembre, 2009.

[WMC08] Qiang Wu, Fatima A. Merchant, and Kenneth R. Castleman. Microscope

image processing. Elsevier, 2008.

[WNC04] Chee Sun Won, Jae Yeal Nam, and Yoonsik Choe. Segmenting cell images:

a deterministic relaxation approach. Computer Vision and Mathematical

Methods in Medical and Biomedical Image Analysis, 3117:281–291, 2004.

[WS07] Weixing Wang and Hao Song. Cell cluster image segmentation on form

analysis. IEEE International Conference on Natural Computation, 4:833–

836, 2007.

116 BIBLIOGRAFIA

[ZT01] Jianguo Zhang and Tieniu Tan. Brief review of invariant texture analysis

methods. Pattern Recognition Society, 35:735–747, 2001.

segmentación y clasificación de células con leucemia a ... · segmentación y...

Documents