segmentaci´on y clasificaci´on de c´elulas con leucemia a ... · segmentaci´on y...
TRANSCRIPT
Segmentacion y clasificacion de celulas con
leucemia a partir de informacion contextual
en imagenes digitales
Por
Carolina Reta Castro
Tesis
sometida como requisito parcial
para obtener el grado de
MAESTRA EN CIENCIAS EN EL AREA DE CIENCIAS
COMPUTACIONALES
en el
Instituto Nacional de Astrofısica, Optica y Electronica
Octubre 2009
Tonantzintla, Puebla
Supervisada por:
Dr. Leopoldo Altamirano Robles
Dr. Jesus Antonio Gonzalez Bernal
c©INAOE 2009
Derechos reservados
El autor otorga al INAOE el permiso de
reproducir y distribuir copias de esta tesis
en su totalidad o en partes.
A mis Padres.
i
Agradecimientos
A Dios por proporcionarme salud y permitirme terminar un proyecto mas en mi vida.
A mis padres por el amor y el apoyo que me brindan siempre y por la educacion que
me facilitaron y los valores que me inculcaron para llegar a ser quien soy.
A Eva, Velia y Arturo por brindarme su amor y apoyo incondicional en todo momento.
A mis asesores de tesis, Dr. Leopoldo Altamirano y Dr. Jesus A. Gonzalez, por haberme
compartido su tiempo y conocimiento y por dirigirme para desarrollar este trabajo de
investigacion.
A los doctores Ariel Carrasco, Miguel Arias y Manuel Montes por el tiempo dedicado
a la revision de esta tesis y sus valiosos comentarios.
A mis amigos del INAOE quienes me han apoyado en situaciones difıciles y con quienes
he compartido noches de estudio, momentos de nerviosismo y estres en presentaciones
de examenes y avances de tesis.
A los doctores Ivan Olmos y Jose E. Alonso Chavez por compartir su conocimiento
sobre cuestiones medicas y por dedicar su tiempo en ayudarme a crear la coleccion
etiquetada de imagenes de celulas con leucemia.
Al CONACyT por otorgarme una beca para realizar mis estudios de Maestrıa y a
los investigadores de la coordinacion de ciencias computacionales del INAOE por la
formacion academica que me dieron.
Carolina Reta Castro.
Puebla, Mexico. 26 de octubre de 2009.
ii
Resumen
En este trabajo de tesis se propone una metodologıa de analisis contextual de celulas
de medula osea para la deteccion de subtipos de leucemia aguda. La primera fase de la
metodologıa se centra en la segmentacion e identificacion de los elementos celulares de
imagenes de medula osea. En la segunda fase se realiza la extraccion de caracterısticas
de las imagenes de celulas identificadas en la primera fase, para clasificarlas en subtipos
de leucemia y diagnosticar al paciente.
El algoritmo de segmentacion que se propone utiliza la informacion contextual del
color y textura de los pıxeles de la imagen para extraer el nucleo y citoplasma de
celulas sanguıneas en imagenes digitales de frotis de medula osea que presentan tinciones
heterogeneas en color y textura, ası como una alta poblacion de celulas. Las regiones
resultantes de la segmentacion se analizan posteriormente para identificar las celulas en
la imagen.
El algoritmo de identificacion de celulas que se propone utiliza la informacion con-
textual del color, la forma y la relacion de contenido entre regiones para determinar
si la ROI (Region de Interes - Region of Interest) analizada es una celula, un nucleo,
probablemente sea un nucleo o una celula traslapada con otros elementos o bien la
region no es de interes. Si el algoritmo de identificacion de celulas determina que la
ROI presenta traslapes con otros elementos, esta es dividida mediante el algoritmo de
separacion de regiones que se diseno en esta tesis. Una vez que se identificaron todas
las ROI se asocia el nucleo a la celula para verificar que esta ultima realmente lo es y
se obtiene el citoplasma de la misma.
La evaluacion de la segmentacion de las regiones identificadas se compara con la
segmentacion manual realizada por el experto. En promedio se obtuvo una precision
del 95 % en el nucleo y la celula al utilizar imagenes reales de celulas de medula osea.
La precision alcanzada en esta evaluacion es considerada muy buena ya que tiene un
alto impacto en el proceso de clasificacion automatica de subtipos de leucemias agudas.
En el proceso de clasificacion, se extrajeron caracterısticas morfologicas, estadısti-
cas, de textura, de proporcion de tamano y valores propios del nucleo y citoplasma
iii
para representar a las celulas de manera descriptiva. Estas caracterısticas fueron ana-
lizadas utilizando distintos algoritmos de clasificacion y de seleccion de atributos para
generar los modelos que permitieron identificar el tipo y subtipo de leucemia aguda
perteneciente a cada una de las celulas de la coleccion.
En la evaluacion de la clasificacion se aplico la tecnica de validacion cruzada con la
finalidad de proporcionar un porcentaje de confiabilidad en la clasificacion de imagenes
nuevas, permitiendo obtener una precision global del 92 % en la clasificacion por tipos
de leucemias agudas. La precision alcanzada para los subtipos de la lınea linfoblastica:
L1 y L2 es del 84 % y para la mieloblastica: M2, M3 y M5 del 92 %.
Tambien se propone en esta tesis un algoritmo de desicion que fusiona distintos
clasificadores de celulas con leucemia con la finalidad de proporcionar un diagnostico
automatico mediante el analisis de todas las muestras de celulas pertenecientes a un
paciente. Este algoritmo alcanza precisiones del 95 % en el diagnostico de tipos de
leucemias y del 90 % en el diagnostico de subtipos.
Palabras claves: Segmentacion de celulas, separacion de celulas, clasificacion de
leucemias, diagnostico medico, campos aleatorios de Markov, fusion de datos, extraccion
de caracterısticas.
iv
Abstract
In this thesis, we propose a bone marrow cell contextual analysis methodology for
the detection of acute leukemia subtypes. The first phase of the methodology focuses
on the segmentation and identification of cellular elements from bone marrow images.
In the second phase we perform feature extraction to the cells images obtained in the
first phase and use this information to classify the cells into leukemia subtypes. This
classification can be used to diagnose patients.
The segmentation algorithm uses as contextual information the color and texture of
the image pixels to be able to separate the nucleus and cytoplasm of blood cells from
bone marrow smear images, which show heterogeneous color and texture staining and
a high cell population. The regions obtained from segmentation are later analyzed to
identify the cells in the image.
An additional algorithm to identify cells is proposed in this work. This algorithm
also uses contextual information related to the color, shape, and containment proportion
among regions to determine whether an analyzed ROI (Region of Interest) is labeled as
a probable cell, nuclei, an overlapped nuclei or cell with other image elements or decide
it is not a region of interest. If the cell identification algorithm determines that the
ROI is overlapped with other elements, it divides the ROI by using a cell separation
algorithm also proposed in this thesis. Once all of the ROIs are labeled, the cell is
identified by associating its respective nuclei and cytoplasm, which is easily obtained
by applying difference-set operations.
The evaluation of the segmentation algorithm is carried out by comparing the iden-
tified regions with a manual segmentation. In general, an average accuracy of 95 % was
achieved in nucleus and cell segmentation using real bone marrow cells images. The
accuracy is considered pretty good due to its high impact on the process of automatic
classification of acute leukemia cells subtypes.
In the cell classification phase we extract descriptive features (morphological, statis-
tical, texture, size ratio and eigenvalues), to the nucleus and cytoplasm. These features
were the input to several attribute selection and classification algorithms in order to
v
generate patterns that facilitate the identification of the type and subtype of each acute
leukemia cell in the image collection.
The evaluation of the cells classification algorithm is carried out using 10-fold cross-
validation in order to provide a reliable accuracy for the classification of new images.
This allows achieving an overall accuracy of 92 % in the classification of acute leukemia
types. The accuracy reached in lymphoblastic subtypes was 84 % and 92 % for the
myeloblastic subtypes.
Finally, we created a decision algorithm that fuses different leukemia cell classifiers
in order to provide an automatic diagnosis for a patient by analyzing the information
of all the available samples of the patient’s cells. This algorithm achieves accuracies of
95% in the diagnosis of leukemia types and 90 % in the diagnosis of leukemia subtypes.
Keywords: cell segmentation, cell separation, leukemia classification, medical diag-
nosis, Markov random fields, data fusion, feature extraction.
vi
Indice general
1. Introduccion 1
1.1. Descripcion del Problema . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1. Motivacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Solucion Propuesta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1. Segmentacion de elementos celulares . . . . . . . . . . . . . . . 3
1.2.2. Identificacion de celulas. . . . . . . . . . . . . . . . . . . . . . . 4
1.2.3. Clasificacion de celulas con leucemia aguda . . . . . . . . . . . . 4
1.2.4. Diagnostico de leucemias agudas . . . . . . . . . . . . . . . . . . 4
1.3. Metodologıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4. Alcance de la Tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5. Organizacion de la Tesis . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2. Fundamentos Teoricos 9
2.1. Conceptos Medicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.1. Leucemias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.2. Tipos de leucemia . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.3. Examen morfologico . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.4. Clasificacion de leucemias agudas (FAB) . . . . . . . . . . . . . 11
2.2. Vision por Computadora . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.1. Espacios de color . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.2. Modelo de descomposicion de textura Wold . . . . . . . . . . . 17
2.2.3. Modelo de segmentacion con CAM . . . . . . . . . . . . . . . . 20
2.3. Extraccion de Caracterısticas . . . . . . . . . . . . . . . . . . . . . . . 26
2.3.1. Caracterısticas morfologicas . . . . . . . . . . . . . . . . . . . . 26
2.3.2. Caracterısticas estadısticas . . . . . . . . . . . . . . . . . . . . . 29
vii
2.3.3. Caracterısticas de textura . . . . . . . . . . . . . . . . . . . . . 30
2.3.4. Analisis de componentes principales . . . . . . . . . . . . . . . . 32
2.4. Minerıa de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.4.1. Algoritmos de clasificacion . . . . . . . . . . . . . . . . . . . . . 37
2.4.2. Seleccion de atributos . . . . . . . . . . . . . . . . . . . . . . . 40
2.4.3. Manejo de clases no balanceadas . . . . . . . . . . . . . . . . . 40
2.5. Evaluacion de Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.5.1. Validacion cruzada . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.5.2. Matriz de confusion binaria . . . . . . . . . . . . . . . . . . . . 43
2.5.3. Curvas ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3. Trabajo previo 47
3.1. Analisis de Imagenes Digitales . . . . . . . . . . . . . . . . . . . . . . . 47
3.2. Segmentacion Celulas Sanguıneas . . . . . . . . . . . . . . . . . . . . . 48
3.3. Clasificacion de Leucemias Agudas . . . . . . . . . . . . . . . . . . . . 51
3.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4. Metodo Propuesto 53
4.1. Coleccion de Imagenes . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.2. Modelo de Segmentacion Contextual . . . . . . . . . . . . . . . . . . . 56
4.2.1. Analisis de color . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2.2. Analisis de textura . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.2.3. Modelado de caracterısticas de color y textura con CAM . . . . 62
4.3. Identificacion de Celulas . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.3.1. Transformacion de coordenadas de la forma . . . . . . . . . . . 66
4.3.2. Relacion de contencion de regiones . . . . . . . . . . . . . . . . 67
4.3.3. Analisis de forma para separacion de celulas . . . . . . . . . . . 68
4.3.4. Identificacion de nucleos y citoplasmas . . . . . . . . . . . . . . 69
4.4. Clasificacion de Celulas con Leucemia Aguda . . . . . . . . . . . . . . . 71
4.4.1. Extraccion de caracterısticas . . . . . . . . . . . . . . . . . . . . 71
4.4.2. Clasificacion de celulas . . . . . . . . . . . . . . . . . . . . . . . 74
4.5. Algoritmo de Diagnostico . . . . . . . . . . . . . . . . . . . . . . . . . 77
5. Evaluacion de Resultados 81
5.1. Modelo de Segmentacion . . . . . . . . . . . . . . . . . . . . . . . . . . 82
viii
5.2. Clasificacion de Celulas . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.3. Algoritmo de Diagnostico . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.4. Discusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.4.1. Comparacion con trabajos previos . . . . . . . . . . . . . . . . . 103
6. Conclusiones y Trabajo Futuro 107
6.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
6.2. Trabajo Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
Bibliografıa 109
ix
Indice de figuras
2.1. Espacio de color CIE L∗a∗b∗. . . . . . . . . . . . . . . . . . . . . . . . 16
2.2. Sistemas de vecinos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3. Cliques de 1◦ y 2◦ orden. . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4. Fases del proceso de minerıa de datos . . . . . . . . . . . . . . . . . . . 37
2.5. Matriz de confusion binaria . . . . . . . . . . . . . . . . . . . . . . . . 43
2.6. Curva ROC para dos clasificadores . . . . . . . . . . . . . . . . . . . . 44
4.1. Metodo propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2. Frotis de sangre en el espacio RGB y CIE L∗a∗b∗. . . . . . . . . . . . . 57
4.3. Formacion de grupos en una imagen utilizando caracterısticas de simili-
tud de intensidad del canal L∗. . . . . . . . . . . . . . . . . . . . . . . 59
4.4. Descomposicion de textura Wold . . . . . . . . . . . . . . . . . . . . . 60
4.5. Parametrizacion del campo armonico . . . . . . . . . . . . . . . . . . . 61
4.6. Parametrizacion del campo evanescente generalizado . . . . . . . . . . 62
4.7. Relacion de las coordenadas del espacio cartesiano y polar . . . . . . . 66
4.8. Analisis del contorno de las regiones para encontrar relaciones de con-
tencion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.9. Separacion de regiones utilizando interpolacion lineal. . . . . . . . . . . 70
4.10. Proceso de clasificacion de subtipos de leucemia aguda . . . . . . . . . 75
4.11. Combinacion de clasificadores binarios para el diagnostico de leucemias
agudas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.12. Combinacion de clasificadores multiclase para el diagnostico de leucemias
agudas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.1. Ejemplo de la segmentacion contextual de celulas sanguıneas utilizando
imagenes reales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
xi
5.2. Ejemplos de la segmentacion contextual de celulas sanguıneas utilizando
imagenes sinteticas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.3. Evaluacion de los resultados del algoritmo de segmentacion contextual
de celulas sanguıneas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.4. Curva ROC de la clasificacion por tipos: LLA y LMA. . . . . . . . . . . 97
5.5. Curva ROC de la clasificacion por subtipos: L1 y L2. . . . . . . . . . . 97
5.6. Curva ROC de la clasificacion por subtipos: M2 y el resto de Ms. . . . 97
5.7. Curva ROC de la clasificacion por subtipos: M3 y el resto de Ms. . . . 98
5.8. Curva ROC de la clasificacion por subtipos: M5 y el resto de Ms. . . . 98
5.9. Curva ROC de la clasificacion por subtipos: M2, M3 y M5. . . . . . . . 98
5.10. Curva ROC de la clasificacion por subtipos: L1, L2, M2, M3 y M5. . . 99
xii
Indice de tablas
2.1. Clasificacion FAB de LLAs . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2. Clasificacion FAB de LMAs . . . . . . . . . . . . . . . . . . . . . . . . 13
4.1. Muestras por subtipos . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.2. Pacientes por subtipos . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3. Caracterısticas morfologicas . . . . . . . . . . . . . . . . . . . . . . . . 72
4.4. Caracterısticas estadısticas . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.5. Caracterısticas de textura . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.6. Caracterısticas de proporcion de tamano . . . . . . . . . . . . . . . . . 73
4.7. Valores propios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.1. Comparacion de los resultados de la segmentacion de celulas reales y
sinteticas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.2. Resultados de la clasificacion de las celulas con leucemia aguda por fa-
milia: LLA y LMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.3. Resultados de la clasificacion de las celulas con leucemia aguda por sub-
tipos: L1 y L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.4. Resultados de la clasificacion de las celulas con leucemia aguda por sub-
tipos: M2 y el resto de Ms . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.5. Resultados de la clasificacion de las celulas con leucemia aguda por sub-
tipos: M3 y el resto de Ms . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.6. Resultados de la clasificacion de las celulas con leucemia aguda por sub-
tipos: M5 y el resto de Ms . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.7. Resultados de la clasificacion de las celulas con leucemia aguda por sub-
tipos: M2, M3 y M5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.8. Resultados de la clasificacion de las celulas con leucemia aguda por sub-
tipos: L1, L2, M2, M3 y M5 . . . . . . . . . . . . . . . . . . . . . . . . 93
xiii
5.9. Comportamiento de los mejores clasificadores que analizan unicamente
la informacion de la celula al agregar caracterısticas del nucleo y citoplasma 94
5.10. Mejores resultados en la clasificacion de las celulas con leucemia aguda. 96
5.11. Comportamiento de los mejores clasificadores utilizando datos balanceados100
5.12. Evaluacion del algoritmo de diagnostico para tipos y subtipos de leuce-
mias agudas fusionando la informacion de clasificadores binarios. . . . . 101
5.13. Evaluacion del algoritmo de diagnostico para tipos y subtipos de leuce-
mias agudas fusionando la informacion de clasificadores multiclase. . . . 101
5.14. Tabla comparativa del metodo propuesto con trabajos previos en el pro-
ceso de segmentacion de celulas . . . . . . . . . . . . . . . . . . . . . . 104
5.15. Tabla comparativa del metodo propuesto con trabajos previos en el pro-
ceso de clasificacion de subtipos de leucemias agudas . . . . . . . . . . 105
xiv
Capıtulo 1
Introduccion
1.1. Descripcion del Problema
La leucemia es un tipo de cancer que afecta a los tejidos que constituyen el sistema
hematopoyetico: medula osea, bazo y ganglios linfaticos [Fau08]. En el desarrollo de la
enfermedad la medula comienza a producir un numero anormal de celulas cancerosas
inmaduras llamadas blastos que invaden el torrente sanguıneo, el sistema linfatico y
otros organos como la columna vertebral, los testıculos y el cerebro.
Sin tratamiento, este tipo de cancer es causante de muchas muertes. En Mexico, de
acuerdo con estadısticas realizadas por el Instituto Nacional de Estadıstica, Geografıa
e Informatica en el ano 2006, el cancer de sangre presenta una tasa de mortalidad de
7.0% para hombres y 5.8 % para mujeres. En distintas poblaciones de personas con
cancer, los grupos mas afectados con leucemia son ninos de 1 a 4 anos de edad (48.5 %),
ninos de 5 a 14 anos (52.2 %), jovenes de 15 a 24 anos (38.1 %) y varones de 24 a 34
anos (18.7 %) [INE08].
La deteccion temprana de la leucemia aguda permite prescribir al paciente un tra-
tamiento adecuado, esto es muy importante debido a que la enfermedad se desarrolla
rapidamente.
En el diagnostico de leucemia, ademas de considerar los signos y sıntomas que
presenta el paciente, es necesario efectuar una serie de analisis clınicos para detectar la
presencia de celulas anormales. A traves de una Biometrıa Hematica, estudio realizado
con muestras de sangre periferica, se obtienen las cantidades y porcentanjes de los
diferentes tipos de celulas en la sangre (globulos rojos, globulos blancos y plaquetas).
Si estos resultados presentan anormalidades se procede a un estudio de Microscopıa
1
2 CAPITULO 1. INTRODUCCION
Optica en el cual el experto analiza la morfologıa de las celulas extraıdas de la medula
osea a traves de la observacion de un frotis de sangre por medio de un microscopio
optico. En este estudio el experto puede detectar anomalıas en los globulos blancos y
con su conocimiento, pronosticar la presencia de leucemia y su subtipo asociado. Este
diagnostico de leucemia puede ser confirmado mediante el analisis de los resultados de
un examen de inmunofenotipo por Citometrıa de Flujo [Gal08].
El estudio de Microscopıa Optica presenta una tasa de error entre el 30 y 40 % la
cual esta relacionada con la experiencia del medico y la dificultad de distinguir entre
distintos subtipos de celulas de leucemia [Mor06]. La prueba de Citometrıa de Flujo
tiene una alta precision pero es muy costosa y presenta el inconveniente de que no todos
los hospitales tienen el equipo de laboratorio necesario para realizarla [Gal08].
1.1.1. Motivacion
Debido a los errores presentados en el diagnostico de leucemias y a que los hospita-
les no cuentan con la infraestructura adecuada para realizar estudios precisos para la
deteccion de esta patologıa, este trabajo de investigacion propone un analisis morfologi-
co en el estudio de Microscopıa Optica mediante tecnicas de vision por computadora
y minerıa de datos con la finalidad de proveer el fundamento teorico requerido pa-
ra el desarrollo posterior de un software que detecte y clasifique distintos subtipos de
leucemias agudas y permita la prescripcion de un tratamiento adecuado al paciente.
Para lograr que la interpretacion de la imagen medica sea confiable, durante el diseno
y desarrollo de los algoritmos computacionales que permiten su analisis automatico, se
requiere de la continua interaccion y asesoramiento de medicos expertos en el area.
1.1.2. Objetivos
Objetivo General
Desarrollar un algoritmo de segmentacion de celulas con leucemia a partir de in-
formacion contextual que permita clasificar subtipos de leucemias agudas en imagenes
digitales.
Objetivos Especıficos
1. Desarrollar un algoritmo de segmentacion de celulas sanguıneas con base en la
informacion contextual de los pıxeles de la imagen.
1.2. SOLUCION PROPUESTA 3
2. Desarrollar un algoritmo que identifique celulas de sangre mediante el uso de
informacion contextual de los objetos contenidos en la imagen.
3. Clasificar subtipos de leucemias agudas a partir del analisis de caracterısticas que
describen el nucleo y citoplasma de la celula.
4. Implementar un algoritmo de diagnostico que determine el subtipo de leucemia
aguda de un paciente considerando todas sus imagenes disponibles.
1.2. Solucion Propuesta
En este trabajo de investigacion se propone analizar la informacion contenida en las
imagenes digitales de celulas con leucemia desde un enfoque contextual para la clasifica-
cion y diagnostico de 5 subtipos de leucemias agudas. Este enfoque permitira interpretar
la informacion visual de los elementos que constituyen las imagenes de celulas de manera
similar a la que usamos los humanos para identificar objetos.
La solucion que se propone para analizar la morfologıa de las celulas utiliza tecnicas
de vision por computadora y minerıa de datos e incluye la segmentacion de elementos
celulares, identificacion de celulas, clasificacion por subtipos de celulas con leucemia
aguda y diagnostico de leucemias agudas.
1.2.1. Segmentacion de elementos celulares
Un pixel por si mismo carece de significado, sin embargo cuando es visto en un
contexto1 puede expresar muchas cosas.
Debido a que la intensidad de color de un pixel considerada individualmente no es
suficiente para desarrollar satisfactoriamente la segmentacion de celulas en imagenes
con variaciones de color, en este trabajo se utiliza la informacion contextual de los
pixeles de la imagen para generar una mejor segmentacion. La clasificacion de cada
pixel sera resultado de sus caracterısticas propias ası como de las caracterısticas de los
pixeles vecinos.
Algunas caracterısticas contextuales que se pueden tomar en cuenta durante el pro-
ceso de segmentacion son: niveles de gris, color, movimiento, textura, etc. En este tra-
bajo de tesis se propone modelar la informacion contextual del color y textura de los
1En esta investigacion definimos el contexto como el conjunto de elementos relacionados con unobjeto que permiten interpretar adecuadamente el significado del mismo.
4 CAPITULO 1. INTRODUCCION
pixeles de la imagen para generar regiones homogeneas utilizando la teorıa de campos
aleatorios de Markov.
1.2.2. Identificacion de celulas.
La informacion contextual de los objetos relacionados con un objeto puede pro-
veer informacion mas relevante en el reconocimiento del objeto que las caracterısticas
intrınsecas del mismo.
En esta tesis se propone identificar las celulas explotando las relaciones contextuales
(espaciales y geometricas) de los objetos que constituyen la imagen. La idea de usar
informacion contextual de las regiones (objetos) de la imagen es identificar celulas a
traves del reconocimiento y asociacion de los elementos que la constituyen, es decir, su
nucleo y citoplasma.
La informacion contextual que se puede utilizar para identificar las celulas, es por
ejemplo la posicion, el color y la forma de las regiones que representan las celulas y
nucleos. El uso de esta informacion es util debido a que resaltan regularidades de la
celula permitiendo la identificacion de regiones correctamente clasificadas como nucleos
y celulas, la discriminacion de las regiones mal clasificadas como elementos celulares y
la deteccion de celulas traslapadas.
1.2.3. Clasificacion de celulas con leucemia aguda
En este trabajo de investigacion se propone realizar la clasificacion de celulas con
leucemia por subtipos de leucemias agudas utilizando distintas caracterısticas de las
celulas y de sus respectivos nucleos y citoplasmas.
1.2.4. Diagnostico de leucemias agudas
Para realizar el diagnostico de leucemias agudas, los medicos previamente analizan
mediante un estudio de microscopıa optica distintas celulas afectadas con leucemia.
De manera similar al analisis que el experto realiza para el diagnostico de subtipos
de leucemias, en este trabajo de tesis se propone utilizar un algoritmo de decision
que fusione los resultados de la clasificacion de las muestras de celulas con leucemia
pertenecientes a un paciente.
1.3. METODOLOGIA 5
1.3. Metodologıa
La metodologıa a seguir es la siguiente:
1. Definicion de la informacion contextual de los pıxeles en imagenes digitales de
celulas sanguıneas.
2. Segmentacion de celulas utilizando informacion contextual de los pıxeles de la
imagen.
3. Definicion del contexto de la estructura patologica de celulas sanguıneas para el
reconocimiento de nucleos y citoplasmas.
4. Identificacion de las celulas a partir de informacion contextual de los objetos que
conforman la imagen.
5. Evaluacion de los resultados de la segmentacion.
6. Extraccion de distintas caracterısticas descriptivas del nucleo y citoplasma de las
celulas.
7. Clasificacion de las celulas aplicando distintos algoritmos de seleccion de atributos
y clasificadores.
8. Evaluacion de los resultados de la clasificacion.
9. Diagnostico del subtipo de leucemia utilizando la informacion de todas las celulas
sanguıneas identificadas.
10. Evaluacion de los resultados del diagostico de leucemias agudas.
1.4. Alcance de la Tesis
Este trabajo de investigacion esta orientado unicamente a la identificacion de celulas
con leucemia en imagenes digitales de frotis de medula osea. Sin embargo, las tecnicas
utilizadas permitiran modelar situaciones de interes relacionadas con la identificacion
de objetos y la toma de decisiones en aplicaciones de diagnostico medico, vision robotica
y vision industrial, entre otras.
6 CAPITULO 1. INTRODUCCION
Algunas tareas importantes que se realizaran en esta tesis seran: la extraccion del
nucleo y citoplasma de las celulas en imagenes de frotis de sangre que presentan tin-
ciones heterogeneas; la deteccion de celulas traslapadas en imagenes con alta poblacion
celular; y la determinacion de las caracterısticas morfologicas, estadısticas, de textu-
ra y de proporcion de tamano del nucleo y citoplasma que describen a las diferentes
celulas sanguıneas. Las caracterısticas descriptivas de las celulas permitiran la gene-
racion modelos de clasificacion para el reconocimiento de leucemias agudas, los cuales
seran integrados en un algoritmo de decision para el diagnostico de tipos y subtipos de
leucemias agudas.
Es importante mencionar que en este trabajo no se cubre todo el conjunto de las
patologıas de leucemias agudas, sino aquellas directamente vinculadas con muestras de
imagenes proporcionadas por el IMSS San Jose en Puebla en el periodo de 2000 a 2001,
las cuales corresponden a 5 distintos subtipos de leucemias agudas.
Los resultados que se obtendran con esta tesis mostraran la importancia de utilizar
la informacion contextual en el analisis de imagenes reales aplicando tecnicas de vision
por computadora, minerıa de datos y fusion de datos a nivel decision. Ası mismo,
estas tecnicas podran ser aplicadas en el sector medico en el area hematologica para la
deteccion de subtipos de leucemias agudas.
1.5. Organizacion de la Tesis
A continuacion se presenta un panorama general de la organizacion del presente
documento.
En el capıtulo 2 se exponen los fundamentos teoricos sobre las leucemias, vision por
computadora, y minerıa de datos, ası mismo, se incluyen las definiciones de las carac-
terısticas extraıdas a las regiones de interes, se describen los algoritmos de clasificacion
utilizados en el proceso de minerıa de datos y se explican las tecnicas utilizadas para la
evaluacion de resultados. En el capıtulo 3 se presenta el estudio del estado del arte en el
cual se describen los algoritmos de segmentacion que han sido utilizados para reconocer
elementos celulares, ası como los algoritmos de clasificacion que permiten identificar
distintos tipos de celulas con leucemia aguda. En el capıtulo 4 se detalla el metodo
propuesto para realizar la segmentacion y clasificacion de celulas con leucemia. Aquı se
puntualizan los algoritmos creados para la segmentacion, separacion e identificacion de
celulas mediante el uso de informacion contextual, ası como los algoritmos utilizados en
1.5. ORGANIZACION DE LA TESIS 7
la etapa de clasificacion de celulas con leucemias y el modelo de diagnostico propuesto.
En el capıtulo 5 se presentan los resultados obtenidos y en el capıtulo 6 se exponen las
conclusiones y trabajos futuros de la presente investigacion. Por ultimo se encuentran
las referencias utilizadas en este trabajo de tesis.
Capıtulo 2
Fundamentos Teoricos
Este trabajo de investigacion propone una metodologıa para realizar el estudio de
microscopia optica para la deteccion de subtipos de leucemias agudas aplicando tecnicas
de vision por computadora y minerıa de datos.
Los conceptos relacionados con estas areas y con el area medica sobre los que se
basa este trabajo se encuentran organizados en este capıtulo de la siguiente manera:
En la seccion 2.1 se presenta los conceptos medicos relacionados con la descripcion
de las leucemias y las caracterısticas morfologicas de las celulas que ayudan a diferenciar
entre subtipos de leucemias aguda.
En la seccion 2.2 se describen algunos conceptos de vision por computadora, especıfi-
camente se explican los modelos de color y textura que seran utilizados en un modelo
de segmentacion para extraer regiones de interes en las imagenes de medula osea.
En la seccion 2.3 se definen las caracterısticas que seran extraıdas al nucleo y ci-
toplasma de la celula para diferenciar entre subtipos de leucemias. En este trabajo se
utilizan distintas caracterısticas: morfologicas, estadısticas, de textura y valores propios.
En la seccion 2.4 se describen brevemente los algoritmos de clasificacion, evaluadores
de atributos y tecnicas de re-muestreo utilizadas en el proceso de minerıa de datos.
Finalmente en la seccion 2.5 se presentan las metricas obtenidas a partir de la matriz
de confusion binaria empleadas para evaluar la segmentacion y clasificacion de celulas
y se explican las tecnicas de validacion cruzada y analisis de curvas ROC empleadas en
la evaluacion de la clasificacion de celulas.
9
10 CAPITULO 2. FUNDAMENTOS TEORICOS
2.1. Conceptos Medicos
2.1.1. Leucemias
La leucemia es un cancer de la sangre que se caracteriza por el aumento permanente,
anormal y desordenado del numero de leucocitos, lo que da lugar a una invasion de la
medula osea e impide a su vez el desarrollo normal de las celulas progenitoras de la
sangre, y consecuentemente falta de globulos rojos y plaquetas. Esta situacion provoca
que el cuerpo del afectado quede expuesto a un gran numero de enfermedades sin
posibilidad de que el organismo pueda luchar contra ellas por la carencia de defensas
[Loz02].
2.1.2. Tipos de leucemia
Se pueden distinguir distintos tipos de leucemias, segun el tipo de celulas afectadas
y el progreso de la enfermedad [Loz02]:
• Leucemia aguda linfoblastica.
• Leucemia aguda mieloblastica.
• Leucemia mieloide cronica.
• Leucemia linfatica cronica.
Los terminos agudo y cronico se refieren al hecho de que sin tratamiento, estas
neoplasias malignas pueden matar al sujeto en periodos de semanas a meses (aguda)
o en periodos de meses a anos (cronica). Con respecto a la celula que afecta existen
dos familias principales de leucemia, la mieloide y la linfoide. En la leucemia linfoide
las celulas, que normalmente se transforman en linfocitos, se hacen cancerosas y rapi-
damente reemplazan a las celulas normales que se encuentran en la medula osea. En la
leucemia mieloide, los granulocitos no se desarrollan sino que se convierten en celulas
cancerosas que invaden la medula osea [HEM09b].
2.1.3. Examen morfologico
No obstante que las tinciones especiales, los marcadores de superficie, el inmunofe-
notipo, la citometrıa de flujo y el cariotipo han contribuido notablemente para lograr
el diagnostico de las leucemias en forma mas precisa, los estudios basicos, como son el
2.1. CONCEPTOS MEDICOS 11
cuidadoso examen de los frotis de sangre periferica y de medula osea, siguen teniendo
una gran importancia [RASM96].
En el examen morfologico debe ponerse especial atencion en las caracterısticas del
nucleo: su grado de inmadurez determinado por la finura de la cromatina, la presencia o
no de nucleolos y la forma y contorno del mismo nucleo. La naturaleza de las inclusiones
citoplasmicas (particularmente granulos primarios o secundarios, granulacion azurofila,
vacuolas y cuerpos de Auer) son puntos claves en el diagnostico. Igualmente, la pro-
porcion del citoplasma basofılico es importante para juzgar el grado de inmadurez; un
citoplasma abundante que no es azul es caracterıstico de mayor madurez [RASM96].
En el estudio morfologico de celulas de medula osea es muy importante recono-
cer celulas neoplasicas (anormales) que ayuden al diagnostico de padecimientos hema-
tologicos. En la deteccion de tipos y subtipos de leucemias agudas la precision en estos
estudios es de vital importancia ya que permite brindar un tratamiento adecuado al
paciente.
2.1.4. Clasificacion de leucemias agudas (FAB)
La mejor clasificacion que puede efectuarse para identificar con precision subtipos
de leucemias agudas es la clasificacion MIC (morfologica, inmunologica y citogeneti-
ca). Cuando se emplea la observacion morfologica convencional como medio unico pa-
ra efectuar la clasificacion de las leucemias agudas, se pueden cometer errores en los
diagnosticos, y en consecuencia errores terapeuticos aproximadamente en 20 % de los
casos de leucemia aguda [HEM09d].
La clasificacion de las leucemias agudas basada en el examen morfologico de las
celulas de la sangre y de la medula osea con la ayuda de las tecnicas histoquımicas,
permite el reconocimiento de dos grandes grupos: las leucemias linfoblasticas agudas
(LLA) y las leucemias mieloblasticas agudas (LMA) [Loz02].
De las muchas clasificaciones propuestas, la clasificacion morfologica FAB especi-
ficada por el grupo cooperativo Franco-Americano-Britanico es en la actualidad la de
mas amplia aceptacion. La clasificacion FAB reconoce 11 subtipos de leucemia agu-
da. Esta clasificacion morfologica de leucemias agudas incluye 3 subtipos de leucemias
linfoblastica y 8 subtipos de leucemias mieloblastica [HEM09d].
Las tablas 2.1 y 2.2 describen las caracterısticas morfologicas de las celulas que se
presentan en las LLAs y LMAs, respectivamente [HEM09c, HEM09a].
12 CAPITULO 2. FUNDAMENTOS TEORICOS
Tabla 2.1: Clasificacion FAB de LLAs
SUBTIPO DE LLA CARACTERISTICAS MORFOLOGICAS
L1 • Predominio de celulas pequenas.
• Citoplasma escaso.
• Predominio de celulas pequenas.
• Citoplasma escaso.
• Nucleolos visibles, en ocasiones no llamativos.
• Cromatina nuclear homogenea.
• Nucleo regular, puede estar hendido o indentado.
• Basofilia citoplasmatica variable.
• Vacuolizacion citoplasmatica variable.
L2 • Predominio de celulas grandes y heterogeneas.
• Citoplasma variable, con frecuencia mas o menos
abundante.
• Uno o mas nucleolos, frecuentemente de tamano
grande.
• Cromatina nuclear variable, heterogenea en cada caso.
• Nucleo irregular, por lo general hendido o indentado.
• Basofilia citoplasmatica variable.
• Vacuolizacion citoplasmatica variable.
L3 • Predominio de celulas grandes y homogeneas.
• Citoplasma moderadamente abundante.
• Uno o mas nucleolos, prominentes.
• Cromatina nuclear finamente punteada, homogenea.
• Forma del nucleo regular, ovalado y tambien redondo.
• Basofilia citoplasmatica intensa.
• Vacuolizacion citoplasmatica prominente.
2.1. CONCEPTOS MEDICOS 13
Tabla 2.2: Clasificacion FAB de LMAs
SUBTIPO DE LMA CARACTERISTICAS MORFOLOGICAS
M0 • Blastos de tamano mediano con cromatina nuclear
(Mınimamente dispersa.
Diferenciada) • Citoplasma agranular.
• Blastos ocasionalmente pequenos que se asemejan
a linfoblastomas.
M1 • Mieloblastos constituyen un 90 % de las celulas no
(sin Maduracion) eritroides en la medula osea.
• Mieloblastos que pueden tener granulos azurofılicos
o bastones de Auer.
• Mieloblastos que se asemejan a linfoblastos.
M2 • Mieloblastos con granulos azurofılicos y sin ellos.
(con Maduracion) • Bastones de Auer.
• Promielocitos, mielocitos y neutrofilos constituyen
un 10 % de las celulas de la medula osea.
M3 • Nucleos en forma de rinon o bilobulados.
(Promielocıtica • Citoplasma densamente poblado con granulos grandes
Aguda) (rosa brillante, rojo o purpura en tinciones de
Romanowsky).
• Fascıculos de bastones de Auer dentro del citoplasma
(celulas en haz). Bastones de Auer mas grandes que
• en otros tipos de LMA.
esta tabla continua en la siguiente pagina
14 CAPITULO 2. FUNDAMENTOS TEORICOS
Tabla 2.2 - continuacion de la pagina anterior
SUBTIPO DE LMA CARACTERISTICAS MORFOLOGICAS
M4 • Monoblastos grandes con nucleos redondos,
(Mielomonocıtica 20% de blastos en la medula osea.
Aguda) • Citoplasma abundante.
• Nucleolos prominentes.
M5a • Monoblastos basofılicos grandes.
(Monoblastica • Citoplasma abundante.
Aguda) • Nucleos redondos.
• Uno o mas nucleolos.
• Bastones de Auer poco corrientes.
M5b • Promonocitos de configuracion nuclear irregular.
(Monoblastica • Citoplasma moderadamente basofılico.
Aguda) • Granulos azurofılicos citoplasmicos.
M6a y M6b • Eritroblastos de tamano mediano a grande.
(Eritroides • Nucleos redondos.
agudas) • Cromatina fina.
• Uno o mas nucleolos.
• Citoplasma profundamente basofılico.
• Vacuolas coalescentes ocasionales.
M7 • Megacarioblastos de tamano mediano a grande.
(Megacarioblastica • Nucleo redondo o dentado.
Aguda) • Uno o mas nucleolos.
• Citoplasma agranular, basofılico con formacion
de pseudo vaina.
• Morfologıa similar a la de los linfoblastos.
• Relacion nucleo-citoplasma alta en algunos casos.
2.2. VISION POR COMPUTADORA 15
2.2. Vision por Computadora
El presente trabajo de investigacion incorpora caracterısticas de color y textura
en un modelo de segmentacion de celulas sanguıneas que utilizan informacion contex-
tual. El modelo de segmentacion esta basado en la teorıa de probabilidad de Campos
Aleatorios de Markov (CAM), la cual permite modelar de manera consistente las de-
pendencias espaciales o contextuales de los pıxeles de la imagen y sus caracterısticas
correlacionadas.
En esta seccion se describen los fundamentos teoricos de los conceptos y tecnicas
utilizadas en el diseno del algoritmo de segmentacion de celulas sanguıneas desarrollado
en esta tesis.
2.2.1. Espacios de color
Un espacio de color es un modelo matematico que representa la informacion de
color en terminos de valores de intensidad de manera multidimensional en donde cada
dimension o componente es conocido como un canal de color [CS09a].
Existen distintos espacios de color: los basicos (RGB, RGB normalizado, CIEXYZ ),
los perceptuales (HSI, HSV, HSL, TSL), los ortogonales (YCbCr, YIQ, YUV, YES ) y
los perceptualmente uniformes (CIEL∗a∗b∗, CIE Luv) [KMB06].
El espacio de color RGB es universalmente aceptado por la comunidad del procesa-
miento de imagenes como medio para representar color, sin embargo es un espacio de
color no uniforme en el sentido de que la diferencia entre dos colores no corresponde a
la diferencia percibida por los humanos [Pas01].
En este trabajo de investigacion el espacio de color CIE L∗a∗b∗ es utilizado debido
a que proporciona exactitud y un enfoque perceptual en el calculo de la diferencia de
color.
Espacio de Color CIEL∗a∗b∗
En 1976, la Commission Internationale de lEclairage (CIE) desarrollo el modelo de
espacio de color CIE L∗a∗b∗. Este modelo fue disenado para ser un espacio de color
perceptualmente uniforme. El termino perceptual se refiere a la forma en que los seres
humanos perciben los colores, y uniforme implica que la diferencia de percepcion en-
tre dos coordenadas (dos colores) esta relacionada con una medida de distancia, que
16 CAPITULO 2. FUNDAMENTOS TEORICOS
comunmente es la distancia euclidiana. Por tanto, las diferencias de color se pueden
medir de una manera relacionada a la percepcion humana de colores [LVBV05].
Como el conjunto de datos de las imagenes fueron adquiridas originalmente en el
espacio de color RGB, una conversion al espacio CIE L∗a∗b∗ es necesaria. Esta con-
version se realiza utilizando una transformacion lineal del espacio RGB a un sistema
intermedio conocido como el espacio CIE XYZ de la siguiente manera [Pas01, Gmb07]:
X
Y
Z
=
0,412453 0,357580 0,180423
0,212671 0,715160 0,072169
0,019334 0,119193 0,950227
R
G
B
(2.1)
Basado en la definicion del espacio CIE XYZ, el espacio de color CIE L∗a∗b∗ es
formulado como:L∗ = 116 ∗ f( Y
Yw) − 16
a∗ = 500 ∗ (f( XXw
) − f( YYw
))
b∗ = 200 ∗ (f( YYw
) − f( ZZw
))
(2.2)
En dondef(t) = t
13 , para t > ( 24
116)3
f(t) = (841108
) ∗ t + 16116
, en caso contrario.(2.3)
Xw, Yw, y Zw son las componentes del blanco de referencia obtenido a partir de la
ecuacion 2.1 con Rw = Gw = Bw = 255.
El espacio de color CIE L∗a∗b∗ incluye todos los colores visibles para el ojo hu-
mano, los cuales estan representados en un modelo tridimensional que contiene tres
ejes primarios: el eje de luminosidad L∗ y los ejes a∗ y b∗ que forman el color [CS09b].
Figura 2.1: Espacio de color CIE L∗a∗b∗.
2.2. VISION POR COMPUTADORA 17
La figura 2.1 muestra el modelo en 3D del espacio de color CIE L∗a∗b∗. El eje de
luminosidad L∗ simboliza la reflexion del color con variacion de 0 a 100, en correspon-
dencia a la no reflexion (color negro) y alta reflexion (color blanco), respectivamente.
Los ejes a∗ y b∗ contienen 256 niveles de graduacion (de -128 a +127) para describir
distintos colores. El eje a∗ incluye las tonalidades del verde (−a) al rojo (+a) mientras
que el eje b∗ comprende la gama de colores que va del azul (−b) al amarillo (+b) [Kla05].
En esta seccion se presentaron los conceptos relacionados con el espacio de color
que se utilizara en este trabajo de investigacion. En el siguiente apartado se presentan
los fundamentos teoricos del modelo de textura que se empleara conjuntamente con
las caracterısticas de color en el diseno de un algoritmo de segmentacion de celulas
sanguıneas basado en CAM.
2.2.2. Modelo de descomposicion de textura Wold
Introduccion
La textura es una propiedad que describe la superficie y estructura de una imagen.
A diferencia de la propiedad de color, la textura se presenta sobre una region en la
imagen en lugar de sobre un punto [SG08]. En general, las texturas son patrones vi-
suales complejos compuestos por entidades o subpatrones que tienen caracterısticas de
brillo, color, inclinacion, tamano, etc. [RK82]. Por tanto, la textura puede ser conside-
rada como una agrupacion de similitud en una imagen que puede percibirse a traves
de las propiedades locales de los subpatrones como: luminosidad, uniformidad, den-
sidad, rugosidad, regularidad, linealidad, frecuencia, fase, direccionalidad, tosquedad,
aleatoriedad, finura, suavidad, granulacion, etc. [Lev85].
Existen tres enfoques principales para la descripcion de texturas: estadıstico, es-
tocastico y estructural. En el enfoque estadıstico la textura es representada mediante
las propiedades estadısticas de los valores de intensidad de los pıxeles de la imagen.
En el enfoque estocastico la textura es considerada como la realizacion de un proceso
estocastico el cual es controlado por algunos parametros. El analisis se efectua mediante
la definicion de un modelo y la estimacion de los parametros que lo definen, de modo
que el proceso estocastico pueda ser reproducido a partir estos. En el enfoque estruc-
tural la textura es vista como un patron bidimensional que consiste de un conjunto de
primitivas o subpatrones que estan ordenados de acuerdo a ciertas reglas de colocacion
[Lew01, MS82].
18 CAPITULO 2. FUNDAMENTOS TEORICOS
En este trabajo de investigacion se utiliza el modelo de descomposicion de textura
Wold 2D el cual unifica el enfoque estructural y estocastico para describir la textura
[Lew01]. La motivacion de elegir este modelo es su interesante relacion de similaridad
con la percepcion visual humana [RL93] y sus propiedades invariantes a traslacion,
rotacion y escala [ZT01].
Modelo de descomposicion Wold 2D
La teorıa Wold 2D interpreta la textura de una imagen mediante la suma de tres
componentes mutuamente ortogonales: un campo armonico, un campo evanescente ge-
neralizado y un campo puramente determinista [Fra93]. Las caracterısticas perceptuales
de estos componentes pueden ser descritos como: periodicidad, direccionalidad y aleato-
riedad respectivamente, de acuerdo con las tres dimensiones de la percepcion humana
de textura mas importantes identificadas en el trabajo de investigacion de Ravishankar
Rao y G. LT Lohse [RL93].
Considere un campo aleatorio homogeneo y regular {y(n,m) | (n,m) ∈ Z2}. La
teorıa Wold 2D permite que el campo sea descompuesto en dos componentes mutua-
mente ortogonales:
y(n,m) = v(n,m) + w(n,m) (2.4)
donde {v(n,m)} es el componente determinista y {w(n,m)} es el componente no
determinista. Del mismo modo, el componente determinista es representado por la
siguiente descomposicion ortogonal:
v(n,m) = h(n,m) + g(n,m) (2.5)
donde {h(n,m)} es el campo aleatorio armonico y {g(n,m)} es llamado el campo alea-
torio evanescente generalizado. El campo evanescente generalizado es una combinacion
lineal de un numero contable de campos evanescentes mutuamente ortogonales.
En el dominio de las frecuencias, la funcion de distribucion espectral (FDS) Fy(w, v)
de y(n,m) puede ser expresada por las FDS de sus campos componentes:
Fy(w, v) = Fv(w, v) + Fw(w, v) (2.6)
donde Fv(w, v) = Fh(w, v)+Fg(w, v) y Fw(w, v) son las FDS del componente determinis-
2.2. VISION POR COMPUTADORA 19
ta y no determinista, respectivamente. Y las funciones Fh(w, v) y Fg(w, v) corresponden
a las FDS del componente armonico y evanescente generalizado, respectivamente.
Parametrizacion del campo determinista
Extraccion del campo armonico: El campo aleatorio armonico {h(n,m)} esta re-
presentado por una sumatoria contable de sinusoidales pesadas aleatoriamente:
h(n,m) =P
∑
k=1
{Ck cos 2π(nwk + mvk) + Dk sin 2π(nwk + mvk)} (2.7)
donde las Cks y Dks son variables aleatorias mutuamente ortogonales, y (wk, vk)
son las frecuencias espaciales de las k armonicas.
Debido a que generalmente solo una realizacion del campo aleatorio es observada, se
tienen que estimar los valores particulares en los cuales Cks y Dks llevan a la realizacion
dada. Ya que las Cks y Dks son tratadas como constantes desconocidas y los valores de
(wk, vk) son desconocidos, el numero de componentes armonicas tambien es desconocido.
Joseph M. Francos, 1993 [Fra93] propone un algoritmo para estimar los parametros
de los componentes armonicos. Primero se resuelven las sinusoidales utilizando la trans-
formada discreta de Fourier (TDF), luego utilizando un periodograma como estimador
de frecuencias se obtienen los componentes periodicos desconocidos mediante la iden-
tificacion de las frecuencias de los picos aislados mas grandes. En el procedimiento de
localizacion de picos armonicos, se establece como umbral el valor de amplitud maxima
del periodograma, este umbral de amplitud va decreciendo gradualmente hasta que se
encuentran todos los picos que se consideran componentes armonicos. El numero de
picos espectrales detectados es denotado por P en la ecuacion 2.7.
La parte de la parametrizacion se efectua mediante la evaluacion de los valores de
amplitud y fase de la TDF en las frecuencias identificadas como maximas.
Extraccion del campo evanescente generalizado: El campo evanescente genera-
lizado {g(n,m)} es definido mediante la combinacion lineal de un numero contable de
campos evanescentes e(n,m) mutuamente ortogonales de la forma:
e(n,m) = s(n)I
∑
i=1
{Ai cos 2πmvi + Bi sin 2πmvi} (2.8)
donde {s(n)} es un proceso no determinista puro en 1D, I es el numero de compo-
20 CAPITULO 2. FUNDAMENTOS TEORICOS
nentes evanescentes con inclinacion (α, β), Ai y Bi son variables aleatorias ortogonales
y vi es la frecuencia del i-esimo componente evanescente.
Fang Liu and Rosalind W. Picard, 1999 [LP99] proponen un metodo para estimar el
campo evanescente generalizado. De la TDF sin componentes armonicos se localizan las
lıneas evanescentes utilizando la transformada de Hough. La parte de parametrizacion
se realiza evaluando los valores de amplitud y fase de la TDF en las frecuencias de las
lıneas evanescentes identificadas.
Parametrizacion del campo no determinista
El campo aleatorio no determinista se describe como:
w(n,m) = −∑
(0,0)≺(k,l)
b(k, l)w(n − k, m − l) + u(n,m) (2.9)
en donde {u(n,m)} es el campo de innovacion blanco 2D con varianza σ2.
En la parametrizacion del componente no determinista se evaluan los valores de am-
plitud y fase sobre la TDF residual una vez eliminados los componentes determinısticos
de la textura.
2.2.3. Modelo de segmentacion con CAM
La segmentacion de imagenes es una tarea de vision de bajo nivel en donde los pıxe-
les con caracterısticas similares son agrupados en regiones homogeneas. Hay muchas
caracterısticas que pueden tomarse en cuenta durante el proceso de segmentacion: ni-
veles de gris, color, movimiento, textura, etc. Sin embargo, la mayorıa de los algoritmos
de segmentacion estan basados en solo una de las caracterısticas anteriores.
Los Campos Aleatorios de Markov (CAM) permiten efectuar una tarea de vision
de bajo nivel considerando una o varias de las caracterısticas mencionadas. En el area
de vision por computadora, los CAM han sido aplicados ampliamente para solucionar
problemas de analisis de imagenes en distintos niveles.
La mayorıa de los modelos CAM se utilizan en el procesamiento de bajo nivel.
Esto incluye la restauracion de imagenes, segmentacion, reconstruccion de superficie,
deteccion de lados, analisis de textura, flujo optico y fusion de datos. El uso de los CAM
en tareas de vision de alto nivel como el reconocimiento de objetos ya se ha estudiado
[Li00].
2.2. VISION POR COMPUTADORA 21
Problema de etiquetado
Muchos de los problemas de vision pueden ser expresados como problemas de eti-
quetado, de manera que la solucion del problema es la asignacion de un conjunto de
etiquetas a los pıxeles de la imagen o a las caracterısticas de la misma. Los problemas
de etiquetado son una representacion natural para el estudio de los CAM [Bes74].
Un problema de etiquetado es especificado en terminos de un conjunto de estados y
un conjunto de etiquetas.
Sea S el conjunto de estados para una imagen 2D de tamano m × n el cual puede
describirse como:
S = {(i, j)|1 ≤ i ≤ m, 1 ≤ j ≤ n} (2.10)
En donde el estado s(i,j) representa al pıxel (i, j) de la imagen.
Sea L el conjunto de M posibles etiquetas que pueden ser asignadas a un estado.
L = {l1, . . . , lM} (2.11)
Entonces, el etiquetado de los estados consiste en la definicion del conjunto f
f = {f1, . . . , fm} (2.12)
En donde a cada estado s ∈ S se le asocia una unica etiqueta l ∈ L mediante la funcion
de mapeo f : S → L.
Sistema de Vecinos y Cliques
Los CAM se utilizan en problemas de etiquetado para establecer distribuciones
probabilısticas de interaccion entre etiquetas.
Los estados en S estan relacionados con otros por medio de un sistema de vecinos
N definido como:
N = {Ni | ∀i ∈ S} (2.13)
donde Ni es el conjunto de estados vecinos a i.
La relacion de vecindad tiene las siguientes propiedades:
1. Un sitio (pıxel) no es vecino de si mismo: i /∈ Ni
2. La relacion de vecindad es mutua: i ∈ Ni′ ⇔ i′ ∈ Ni
22 CAPITULO 2. FUNDAMENTOS TEORICOS
Para una rejilla regular S, el conjunto de vecinos de i puede ser expresado como:
Ni = {i′ ∈ S | dist(pıxeli′ , pıxeli)2 ≤ r, i′ 6= i} (2.14)
donde dist(A,B) denota la distancia euclidiana entre A y B, y r es un numero entero
que representa el radio que delimita el conjunto de vecinos de i.
Las figuras 2.2(a) y 2.2(b) ilustran el sistema de vecinos de primer orden (4-vecinos)
y de segundo orden (8-vecinos), respectivamente. La figura 2.2(c) muestra sistemas de
vecinos de distinto orden para una rejilla regular S. Los numeros n = {1, 2, . . . , n}indican los estados de los vecinos de orden n. Observe que los pıxeles en la frontera o
cercanos a ella tienen pocos vecinos.
(a) Sistema de vecinosde primer orden
(b) Sistema de vecinosde segundo orden
(c) Sistema de vecinosde orden n={1, 2, . . . , 5}
Figura 2.2: Sistemas de vecinos
El par (S, N) , G por definicion es un grafo en donde S contiene los nodos y N
determina las relaciones entre los nodos de acuerdo con el sistema de vecinos establecido.
Un clique para (S, N) se define como un subconjunto de S tal que c consiste en
un unico estado c = {i} o un par de estados vecinos c = {i, i′}, o tres estados vecinos
c = {i, i′, i′′} y ası sucesivamente.
En otras palabras, un clique C es un estado simple (pıxel) o un conjunto de estados
tales que todos los estados que pertenecen a C son mutuamente vecinos.
Denotamos el conjunto de cliques de un solo estado, de dos estados y de tres estados
por C1,C2,C3 respectivamente, donde:
C1 = {i | i ∈ S} (2.15)
C2 = {{i, i′} | i′ ∈ Ni, i ∈ S} (2.16)
C3 = {{i, i′, i′′} | i, i′, i′′ son vecinos dos a dos} (2.17)
2.2. VISION POR COMPUTADORA 23
Los estados en un clique estan ordenados, por tanto {i, i′} no es lo mismo que {i′, i}.El conjunto de todos los cliques para (S, N) es
C = C1 ∪ C2 ∪ C3, . . . (2.18)
en donde ”. . . ”denota posibles conjuntos de cliques mas grandes.
El tipo de clique para {S,N} de una rejilla regular, esta determinado por su tamano,
dimension y orientacion. La figura 2.3 muestra distintos tipos de cliques para sistemas
de vecinos de primer y segundo orden. A medida que aumenta el orden del sistema de
vecinos, el numero de cliques crece rapidamente y tambien el costo computacional de
procesamiento asociado.
Figura 2.3: Cliques de 1◦ y 2◦ orden.
Campos Aleatorios de Markov (CAM)
Sea F = {F1, . . . , Fm} una familia de variables aleatorias definidas en el conjunto
de estados S, en donde cada variable aleatoria Fi toma un valor fi en el conjunto de
etiquetas discretas L. Se dice que F es un Campo Aleatorio de Markov en S con respecto
a un sistema de vecinos N si satisface la condicion de positividad (ecuacion 2.19) y la
condicion markoviana (ecuacion 2.20):
P (f) > 0,∀f ∈ F (2.19)
P (fi | fS−{i}) = P (fi | fNi) (2.20)
En donde f es una configuracion de F , P (f) mide la probabilidad de ocurrencia
de la configuracion f , P (fi) es la probabilidad de que la variable aleatoria Fi tome el
valor fi, S −{i} es el conjunto diferencia, fS−{i} denota el conjunto de etiquetas en los
estados de S − {i} y fNi= {fi′ | i′ ∈ Ni} denota el conjunto de etiquetas en los estados
vecinos Ni de i.
Se dice que un conjunto de variables aleatorias F es un Campo Aleatorio de Gibbs
24 CAPITULO 2. FUNDAMENTOS TEORICOS
en el conjunto de estados S con respecto a un sistema de vecinos N si y solo sı sus
configuraciones siguen una distribucion de Gibbs. Una distribucion de Gibbs toma la
siguiente forma:
P (f) =1
Zexp[− 1
TU(f)] (2.21)
Z =∑
f∈F
exp[− 1
TU(f)] (2.22)
U(f) =∑
c∈C
Vc(f) (2.23)
donde P (f) mide la probabilidad de ocurrencia de la configuracion f , Z es una
constante de normalizacion, T es una constante que controla la forma de la distribucion
y U(f) es una funcion de energıa. La funcion de energıa U(f) es la suma de todos las
funciones de cliques potenciales Vc(f) definidas para todas las cliques C en el sistema
de vecindad.
Es importante mencionar que para una funcion de probabilidad de ocurrencia P (f)
las configuraciones mas probables son aquellas con energıas U(f) mas bajas y que cuando
la temperatura T es alta todas las configuraciones tienden a estar igualmente distri-
buidas mientras que con una temperatura proxima a cero, la distribucion se concentra
alrededor de los mınimos globales de energıa.
Un campo aleatorio de Markov se caracteriza por sus propiedades locales mientras
que un campo aleatorio de Gibbs se caracteriza por sus propiedades globales (la dis-
tribucion de probabilidad de Gibbs). El teorema de Hammersley-Clifford establece la
equivalencia entre estos dos tipos de caracterısticas.
De acuerdo al teorema de Hammersley-Clifford, F es un campo Aleatorio de Markov
en los estados de S con respecto a un sistema de vecinos N si y solo si F es un campo
Aleatorio de Gibbs en S con respecto a N . Existen muchas pruebas de este teorema,
una de ellas puede ser consultada en [Li00].
Etiquetado Bayesiano basado en CAM
El objetivo del problema de etiquetado es la estimacion de una etiqueta correcta
l ∈ L para cada estado s ∈ S. El principal inconveniente para la mayorıa de las aplica-
ciones consiste en encontrar el etiquetado f que maximice la probabilidad del etiquetado
P (f | d) dados los datos u observaciones d . Para problemas de segmentacion basada en
2.2. VISION POR COMPUTADORA 25
CAM, la estimacion de probabilidad puede formularse dentro del enfoque Bayesiano,
de manera que la solucion optima del problema es definida como la estimacion de pro-
babilidad maxima a posteriori (MAP) f∗ y es calculada por maximizar la probabilidad
posterior [Li00].
f∗ = arg maxf∈F
P (f | d) (2.24)
De acuerdo con el teorema de equivalencia Markov-Gibbs de Hammersley-Clifford,
la probabilidad apriori del etiquetado P (f) obedece a una distribucion de Gibbs con
energıa a priori U(f) (Ecuaciones 2.21 y 2.23).
La probabilidad P (d | f) depende de como los datos d son observados. Comunmente
esta probabilidad es representada por:
P (d | f) =1
Zexp−U(d | f) (2.25)
donde U(d | f) es la energıa de probabilidad.
De aquı la probabilidad posterior es una distribucion de Gibbs
P (f | d) =1
Zexp−U(f | d) (2.26)
con energıa posterior
U(f | d) =U(f)
T+ U(d | f) (2.27)
Por tanto, dada una observacion d, un etiquetado f de estados en S y tambien un
CAM en S con respecto a N . La solucion MAP es equivalente a minimizar la energıa
posterior [Li00]:
f ∗ = arg mınf∈F
U(f | d) (2.28)
26 CAPITULO 2. FUNDAMENTOS TEORICOS
2.3. Extraccion de Caracterısticas
Una imagen es interpretada mediante los objetos contenidos en ella. En aplicacio-
nes de vision por computadora, la extraccion de caracterısticas de los objetos permite
describir de manera natural a cada uno de ellos e incluso diferenciar objetos de interes
entre los demas objetos que conforman la imagen.
Las caracterısticas extraıdas de los objetos de interes son dependientes de la apli-
cacion. Estas pueden ser utilizadas simplemente para medir la morfologıa o estructura
del objeto mediante la definicion de sus propiedades en terminos de area, perımetro,
intensidad, color, forma, etc [WMC08].
En esta seccion se presentan las definiciones de las caracterısticas utilizadas en esta
investigacion para el reconocimiento de elementos celulares en imagenes digitales de
frotis de sangre de medula osea.
2.3.1. Caracterısticas morfologicas
Las caracterısticas morfologicas de un objeto permiten describir su estructura me-
diante sus propiedades de tamano, forma geometrica o a traves de su distancia con
otros objetos [WMC08]. La extraccion de las caracterısticas morfologicas en imagenes
de celulas sanguıneas es muy importante ya que mucha de la informacion de la celula
esta contenida en la forma geometrica de la misma.
Propiedades de tamano
El tamano de un objeto puede definirse en terminos de su area y su perımetro.
El area es una medida de tamano global. El perımetro es particularmente util para
discriminar entre los objetos con formas simples y con formas complejas.
En comparacion con los objetos irregulares que tienen estructuras complejas, un
objeto con una forma simple requiere menos perımetro para encerrar su area [WMC08].
Area: Considere que la funcion In(i, j) describe el mapa de los objetos etiquetados
de una imagen de tamano M × N .
In(i, j) =
1 si I(i, j) = n-esimo objeto
0 en caso contrario(2.29)
2.3. EXTRACCION DE CARACTERISTICAS 27
El area en pıxeles del n-esimo objeto esta dada por:
An =M
∑
i=1
N∑
j=1
In(i, j) (2.30)
Perimetro: Una forma sencilla de calcular el perımetro de una region en una imagen
binaria es extraer los bordes de esta y posteriormente contar el numero de pixeles que
pertenecen al borde de la region de interes.
Propiedades de forma
Las propiedades de algunas formas se utilizan cada vez mas en aplicaciones de
reconocimiento y clasificacion de objetos. Estas propiedades son invariantes a traslacion,
rotacion y escala y pueden ser usadas de manera independiente o en conjunto con las
propiedades de area y perımetro [WMC08].
Relacion de compacidad: La relacion de compacidad determina la regularidad de
un objeto. Dada el area A y perımetro P del objeto, la relacion de compacidad T se
calcula como:
T = 4π
(
A
P 2
)
(2.31)
Esta relacion toma el valor maximo de 1,0 para un cırculo. Un objeto con forma
regular tiene una relacion de compacidad mayor que uno similar con forma irregular.
Circularidad: Esta propiedad mide la complejidad del perımetro del objeto circular.
Dada el area A y perımetro P del objeto, la circularidad C se define como:
C =P 2
4πA(2.32)
Las formas circulares tienen el valor de circularidad mınimo de 1,0 y los valores se
incrementan para formas complejas. El recıproco de la circularidad es la relacion de
compacidad definida anteriormente en la ecuacion 2.31.
Elongacion: Mide el crecimiento en una sola direccion de un objeto. La elongacion
puede ser calculada comparando la longitud y anchura del objeto por medio del
28 CAPITULO 2. FUNDAMENTOS TEORICOS
cociente entre ambos:
Elongacion =Longitud
Anchura(2.33)
Excentricidad: La excentricidad determina el grado de desviacion de una seccion
conica con respecto a una circunferencia. Es un parametro importante en la definicion
de las elipses. La excentricidad de una elipse de semieje mayor a y semieje menor
b esta definida en la ecuacion 2.34.
Excentricidad =
√
1 − b2
a2(2.34)
La excentricidad permite la reconstruccion de las conicas ya que por definicion es el
lugar geometrico de un punto que se mueve en el plano de tal manera que la razon de
su distancia focal y su distancia a una recta directriz es siempre igual a una constante
positiva. El valor de la excentricidad de una circunferencia es cero, el de una elipse es
mayor que cero y menor que 1, el de una parabola es 1 y el de una hiperbola es mayor
que 1 [Wik09].
Extension: Es la proporcion de los pixeles del objeto que tambien estan en el rectangu-
lo que inscribe al objeto. La extension se calcula como:
Extension =Area
Longitud ∗ Anchura(2.35)
Diametro equivalente: Es el diametro del cırculo equivalente al area A del objeto.
Esta determinado por la siguiente formula:
Diametro Equivalente =
√
4 ∗ A
π(2.36)
Numero de Euler: El numero de Euler es la diferencia que existe entre el numero
de componentes conectadas y el numero de huecos en una region y se utiliza para medir
la completitud de un objeto.
Area convexa: Es el area del polıgono convexo mas pequeno que contiene al objeto.
Solidez: Es la proporcion de la superficie convexa de la zona, que es de 1,0 para una
forma convexa perfecta y disminuye si hay hendiduras en la superficie.
2.3. EXTRACCION DE CARACTERISTICAS 29
2.3.2. Caracterısticas estadısticas
Propiedades de intensidad
Las imagenes muy a menudo contienen regiones que tienen distribuciones de inten-
sidad heterogeneas. Las propiedades estadısticas basadas en intensidad son utilizadas
para cuantificar la variacion de intensidad del objeto de interes ası como para medir las
variaciones de intensidad entre objetos [WMC08].
Densidad optica integrada y promedio de densidad optica: La densidad optica
integrada (DOI) mide la ”masa” o ”peso” de un objeto. Numericamente la DOI es
la suma de los niveles de gris de todos los pıxeles del objeto. Sean (i, j) los ındices
espaciales, I(i, j) el nivel de gris y A el area del objeto, entonces
DOI =∑
i,j∈A
I(i, j) (2.37)
Por tanto, el promedio de densidad optica (PDO) esta dado por:
PDO =DOI
A(2.38)
Propiedades de histograma
El histograma de la imagen de un objeto provee una descripcion de la distribucion
de los valores de intensidad dentro del objeto. Cuando se normaliza por tamano un
objeto, el histograma es la funcion de probabilidad de densidad de los niveles de gris.
Las medidas derivadas del histograma normalizado de la imagen del objeto proveen
descriptores estadısticos que caracterizan la distribucion del nivel de gris del objeto.
Considere la probabilidad de la funcion de densidad dada como:
P (g) =h(g)
M(2.39)
Donde h(g) es el numero de pıxeles con nivel de gris g y M es el numero total de
pıxeles en la imagen.
A partir de la funcion de probabilidad de densidad se pueden calcular las siguien-
tes estadısticas de primer orden para describir a la imagen a partir de sus niveles de
intensidad.
30 CAPITULO 2. FUNDAMENTOS TEORICOS
Nivel de gris promedio: El nivel de gris promedio es la cantidad total de los va-
lores de grises distribuidos en partes iguales entre cada observacion. El promedio de la
intensidad del objeto es calculado como:
g =L
∑
g=1
P (g) · g (2.40)
donde L es el numero de los niveles de gris presentes en el objeto. Esto es lo mismo
que el promedio de densidad optica definido en la ecuacion 2.38.
Moda de los niveles de gris: La funcion moda estima el valor del nivel de gris
que corresponde al pico mas alto de la funcion de densidad. La moda puede calcularse
como:
moda = argmaxg{h(g)},∀g ∈ L (2.41)
Desviacion estandar y varianza: La desviacion estandar es una medida del grado
de dispersion de los datos del valor promedio; es decir, es simplemente la variacion
esperada con respecto a la media aritmetica. Una desviacion estandar grande indica
que los puntos estan lejos de la media y una desviacion pequena senala que los datos
estan agrupados cerca de la media. La desviacion estandar es formulada como:
σg =
√
√
√
√
L∑
g=1
(g − g)2 · P (g) (2.42)
La varianza σ2g se calcula elevando al cuadrado la desviacion estandar σg.
2.3.3. Caracterısticas de textura
En analisis de imagenes, la textura es un atributo que representa el orden espacial
de los niveles de gris de los pıxeles en una region local.
Las propiedades de textura cuantifican las variaciones del nivel de intensidad dentro
de un objeto. Normalmente estas mediciones son independiente de la posicion, orienta-
cion, tamano, forma, y el promedio de brillo del objeto [WMC08].
2.3. EXTRACCION DE CARACTERISTICAS 31
Matriz de co-ocurrencia de niveles de gris
La matriz de co-ocurrencia de niveles de gris (GLCM) proporciona un numero de
estadısticas de segundo orden del nivel de gris de un pıxel relacionado con su vecino.
El calculo de las estadısticas de la GLCM es un proceso de dos pasos. El primer paso
consiste en crear la matriz GLCM, para luego calcular las estadısticas de textura a
partir de esta.
La matriz GLCM denotada como Pd, es un histograma 2D que especifica que tan a
menudo ocurren dos niveles de gris en pares de pıxeles separados por cierta distancia.
En primer lugar, se establece un desplazamiento de distancia y direccion. Luego a cada
entrada (i, j), en Pd le corresponde un numero de ocurrencias en los niveles de gris i
y j, en pares de pıxeles que estan separados en la imagen por la distancia y direccion
elegida. Una vez que la matriz Pd esta formada, se calculan los valores estadısticos que
describen la textura. Seleccionar un desplazamiento de distancia y direccion diferentes
genera una nueva matriz GLMC.
Las caracterısticas que describen la textura de manera estadıstica a traves del uso
de la GLMC Pd son [WMC08, Mat08]:
Entropıa: La entropıa mide la suavidad de la imagen en terminos de los valores de
los niveles de gris. Entre mas alto sea el nivel de entropıa existen mas niveles de gris
en la imagen. La entropıa puede ser calculada como:
Entropıa = −∑
i,j
Pd(i, j) log2(Pd(i, j)) (2.43)
Energıa: La energıa, tambien conocida como segundo momento angular, es otra me-
dida que muestra como los valores del nivel de gris se distribuyen dentro de la imagen.
La energıa tiene una relacion inversa a la entropıa. La energıa de una imagen es la mas
alta si tiene solo un valor de nivel de gris; entre mas niveles de gris haya en un objeto,
menor sera la energıa. La energıa esta definida por:
Energıa =∑
i,j
[Pd(i, j)]2 (2.44)
32 CAPITULO 2. FUNDAMENTOS TEORICOS
Correlacion: La correlacion mide la probabilidad conjunta de ocurrencia para pares
de pıxeles especificados. La correlacion esta dada por:
Correlacion =1
σiσj
∑
i,j
(i − µi)(j − µj)Pd(i, j) (2.45)
Contraste: La medida de constraste de un objeto es la diferencia de brillo entre el
objeto y el fondo que lo rodea. El contraste mide las variaciones locales de los niveles
de gris en la matriz de co-ocurrencia y es formulado como:
Contraste =∑
i,j
(i − j)2Pd(i, j) (2.46)
Homogeneidad: La homogeneidad mide la cercanıa de la distribucion de los elemen-
tos en la matriz de co-ocurrencia hacia la diagonal de la misma y es calculada como:
Homogeneidad =∑
i,j
1
1 + (i − j)2Pd(i, j) (2.47)
2.3.4. Analisis de componentes principales
El Analisis de Componentes Principales (PCA) es un metodo estadıstico de sıntesis
de informacion cuyo objetivo es obtener una representacion mas simple (y en menor
dimension) de un conjunto de variables correlacionadas.
Para examinar las relaciones entre un conjunto de p variables correlacionadas, se
transforma el conjunto original de variables a un nuevo conjunto no correlacionado
usando una rotacion ortogonal en el espacio p-dimensional. Estas nuevas variables son
llamadas componentes principales, y son obtenidas en un orden decreciente de impor-
tancia, de modo que las primeras componentes principales resumen la mayor cantidad
posible de la variabilidad de los datos originales.
Si un numero pequeno de las primeras componentes resume la mayor parte de la
variacion de los datos, se puede considerar que la dimensionalidad real de los datos
es menor que p. En tal caso, se espera que estas componentes resulten significativas,
ayuden a entender mejor los datos y sean utiles para simplificar analisis posteriores
[Per09].
2.3. EXTRACCION DE CARACTERISTICAS 33
Fundamentos teoricos del PCA
Sea XT = (X1, X2, . . . , Xp) una variable aleatoria p-dimensional con media µ y
matriz de covarianza Σ. Se desea encontrar un nuevo conjunto de variables Y1, Y2, . . . , Yp
no correlacionadas y cuyas varianzas sean decrecientes. Cada Yj es una combinacion
lineal de las Xs:
Yj = a1jX1 + a2jX2 + · · · + apjXp
= aTj X
(2.48)
con aTj = (a1j, a2j, . . . , apj). La expresion anterior contiene un factor de escala arbi-
trario; para resolver este problema, se impone la condicion ‖a‖ = 1.
La primera componente principal, Y1 se calcula escogiendo a1 tal que V ar(Y1) sea
la mayor posible, sujeta a la restriccion aTj aj = 1. Como
V ar(Y1) = V ar(aT1 X)
= aT1 Σa1
(2.49)
la funcion a maximizar es aT1 Σa1.
Usando el metodo de multiplicadores de Lagrange, resolver este problema equivale
a maximizar la funcion:
L(a1) = aT1 Σa1 − λ(aT
1 a1 − 1) (2.50)
en la cual se buscan sus puntos estacionarios (puntos donde el gradiente es 0). Como
∂L
∂a1
= 2Σa1 − 2λa1 (2.51)
la ecuacion a resolver es:
(Σ − λI)a1 = 0 (2.52)
Para que esta ecuacion tenga una solucion no trivial, es necesario que la matriz
Σ − λI sea singular, es decir, λ debe ser un valor propio de Σ; en otras palabras, se
debe tener solucion a la ecuacion:
|Σ − λI| = 0 (2.53)
34 CAPITULO 2. FUNDAMENTOS TEORICOS
Generalmente, Σ tiene p valores propios, los cuales deben ser no negativos. Estos
valores propios son denotados como: λ1 ≥ λ2 ≥ · · · ≥ λp ≥ 0. Para saber cual de ellos
se debe utilizar para resolver el problema se toma en cuenta que:
V ar(aT1 X) = aT
1 Σa1
= aT1 λIa1
= λ
(2.54)
Como se desea maximizar esta varianza, se elige λ como el maximo valor propio;
esto implica ademas que a1 debe ser el vector propio asociado con λ1. Es decir, los
coeficientes correspondientes a la primera componente principal corresponden al vector
propio asociado al maximo valor propio, y la varianza de dicha componente es el valor
del maximo valor propio. Argumentos semejantes permiten ver que los coeficientes de
la j-esima componente principal corresponden al vector propio asociado con el j-esimo
valor propio.
La ortogonalidad de los vectores propios garantiza que los valores propios son no
correlacionados. En efecto,
Cov(Yi, Yj) = Cov(aTi X, aT
j X)
= E[aTi (X − µ)(X − µ)T aj]
= aTi Σaj
= aTi λjaj = 0
(2.55)
Este argumento puede aplicarse aunque existan valores propios de Σ repetidos, siem-
pre y cuando los vectores propios asociados con raıces multiples sean ortogonales entre
sı.
Si A = [a1, . . . , ap] es la matriz p × p de vectores propios de A, y Y el vector p × 1
de componentes principales, se puede escribir
Y = AT X (2.56)
La matriz de covarianza de Y esta denotada por:
Λ =
λ1 0 . . . 0
0 λ2 . . . 0...
0 0 . . . λp
(2.57)
2.3. EXTRACCION DE CARACTERISTICAS 35
Ademas, Λ y Σ se relacionan mediante la siguiente expresion:
Λ = AT ΣA (2.58)
Como A es una matriz ortogonal, esta ultima expresion puede escribirse como
Σ = AΛAT .
Otra propiedad importante es que∑p
i=1 V ar(Yi) =∑p
i=1 V ar(Xi). En efecto,
∑p
i=1 V ar(Yi) = traza(Λ) = traza(AT ΣA) = traza(ΣAT A)
= traza(Σ) =∑p
i=1 V ar(Xi)(2.59)
Es decir, pueden hacerse afirmaciones como ”la i-esima componente principal repre-
senta una proporcion λi/Σjλj de la variacion total de los datos originales”.
Es muy comun calcular las componentes principales luego de estandarizar las va-
riables. Esto equivale a calcular los valores propios de la matriz de correlacion P , en
lugar de usar Σ. Es importante destacar que los valores propios y vectores propios de
P no seran, en general, los mismos que los de Σ, de modo que analizar P en lugar de
Σ implica tomar conscientemente la decision de darle a todas las variables la misma
importancia.
Para la matriz de correlacion P , traza(P ) = p, la proporcion de la variacion total
representada por la j-esima componente es λj/p.
36 CAPITULO 2. FUNDAMENTOS TEORICOS
2.4. Minerıa de Datos
La minerıa de datos es un proceso analıtico disenado para explorar grandes volume-
nes de datos con el objeto de descubrir patrones y modelos de comportamiento o relacio-
nes entre diferentes variables. Por esto, la minerıa de datos se utiliza como herramienta
de analisis y descubrimiento de conocimiento a partir de datos de observacion o de
resultados de experimentos [BC05].
El proceso de la minerıa de datos se puede dividir en las siguientes fases [GPE09]:
Filtrado de datos: El formato de los datos contenidos en la fuente de datos
muchas veces no es el correcto, y en la mayorıa de las ocasiones no es posible
ni siquiera utilizar algun algoritmo de minerıa sobre los datos iniciales sin que
requieran alguna transformacion. En este paso se filtran los datos con el objetivo
de eliminar valores incorrectos, no validos o desconocidos; segun las necesidades y
el algoritmo a utilizar. Ademas se obtienen muestras de los datos o se reducen el
numero de valores posibles de los atributos de analisis para mejorar la velocidad
y eficiencia de los algoritmos.
Seleccion de variables: Despues de realizar la limpieza de los datos, en la ma-
yorıa de los casos se tiene una gran cantidad de variables o atributos. La seleccion
de caracterısticas reduce el tamano de los datos seleccionando las variables mas
influyentes en el problema sin sacrificar la calidad del modelo de conocimiento
obtenido del proceso de minerıa.
Extraccion de conocimiento: Mediante una tecnica de minerıa de datos, se
obtiene un modelo de conocimiento, que representa patrones de comportamiento
observados en los valores de las variables del problema o relaciones de asociacion
entre dichas variables.
Interpretacion y evaluacion: Una vez obtenido el modelo, se procede a su
validacion, comprobando que las conclusiones que arroja son validas y suficiente-
mente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso
de distintas tecnicas, se deben comparar los modelos para buscar el que se ajuste
mejor al problema. Si ninguno de los modelos alcanza los resultados esperados,
debe alterarse alguno de los pasos anteriores para generar nuevos modelos.
2.4. MINERIA DE DATOS 37
La figura 2.4 muestra graficamente el proceso de minerıa de datos.
Figura 2.4: Fases del proceso de minerıa de datos
2.4.1. Algoritmos de clasificacion
Los algoritmos de clasificacion tienen como meta inducir un modelo para predecir
la clase que identifica un objeto dados los valores de los atributos o caracterısticas que
lo representan. Existen distintos algoritmos que se utilizan en minerıa de datos para
generar modelos de clasificacion. En el presente trabajo de investigacion se utilizan al-
goritmos del tipo descriptivo y predictivo. Los algoritmos del tipo descriptivo permiten
descubrir patrones que describen a los datos, tales como arboles de clasificacion y reglas
de decision; mientras que los algoritmos predictivos permiten pronosticar el compor-
tamiento de los patrones. Enseguida se describen los algoritmos de minerıa de datos
utilizados en esta tesis para clasificar los distintos subtipos de leucemias.
Clasificadores perezosos
IB-K: consiste unicamente en almacenar los datos presentados. Cuando una nueva
instancia es encontrada, un conjunto de instancias similares relacionadas es devuelto
desde la memoria y usado para clasificar la instancia consultada. Este metodo de apren-
dizaje se basa en que los modulos de clasificacion mantienen en memoria una seleccion
de ejemplos sin crear ningun tipo de abstraccion en forma de reglas o de arboles de
decision (de ahı su nombre, lazy, perezosos). Cada vez que una nueva instancia es en-
contrada, se calcula su relacion con los ejemplos previamente guardados con el proposito
de asignar un valor de la funcion objetivo para la nueva instancia. La idea basica sobre
la que se fundamenta este algoritmo es que un nuevo caso se va a clasificar en la clase
mas frecuente a la que pertenecen sus K vecinos mas cercanos. De ahı que sea tambien
conocido como metodo K-NN: K Nearest Neighbours [BC05].
38 CAPITULO 2. FUNDAMENTOS TEORICOS
Kstar (K∗): es un clasificador basado en instancias por tanto la clasificacion de un
nuevo ejemplo esta basada en un conjunto de instancias de entrenamiento similares de-
terminadas por alguna funcion de similitud. Se diferencıa de otros algoritmos perezosos
en que este usa una funcion de distancia basada en entropıa [AAS04].
Clasificadores basados en arboles de decision
J4.8: Se trata de una implementacion propia de Weka para el algoritmo C4.5 la cual
utiliza el criterio de ganancia de informacion (gain ratio) al seleccionar los atributos
mas representativos para construir el arbol de decision. La caracterıstica fundamental
de este algoritmo es que, una vez que el arbol de decision es construido, las ramas del
arbol con menor capacidad predictiva son podadas [BC05].
RandomForest: Para el algoritmo RandomForest en cada nodo se seleccionan de
forma aleatoria algunas de las variables de entre todas las disponibles. La decision se
realizara en funcion de las variables seleccionadas. Este algoritmo se basa en el desarrollo
de muchos arboles de clasificacion. Para clasificar un nuevo objeto desde un vector de
entrada, ponemos dicho vector bajo cada uno de los arboles del bosque. Cada arbol
genera una clasificacion, es decir cada arbol vota por una clase. El bosque escoge la
clasificacion que tiene mas votos considerando todos los arboles del bosque. Cada arbol
crece de la forma mas extensa posible, sin ningun tipo de poda [Gal08].
LMT: El modelo de arbol logıstico (LMT) basicamente consiste en una estructura
de arbol de decision estandar con funciones de regresion logısticas en las hojas. Como
en arboles de decision ordinarios, una prueba sobre uno de los atributos esta asociada
con cada nodo interior. Para atributos numericos, el nodo tiene dos nodos hijos y la
prueba consiste en comparar el valor de un atributo a un umbral: una instancia es
colocada debajo de la rama izquierda si su valor para aquel atributo es mas pequeno
que el umbral y colocada debajo de la rama derecha en caso contrario (ramificaciones
binarias) [Gal08].
ADTree: Es una aplicacion del metodo de amplificacion (boosting) a los arboles
de decision. Representa los arboles en una estructura alterna que permite ver cada
nodo como un tronco. Un tronco (stump) es un arbol truncado que solo contiene una
bifurcacion. Las dos ramas de cada tronco son los nodos de prediccion, que contienen
2.4. MINERIA DE DATOS 39
un valor numerico. Estos valores son utilizados luego en una votacion en el momento
de clasificar una nueva instancia [San07].
Clasificadores bayesianos
NaiveBayes: Este algoritmo se basa en la hipotesis de que las variables que describen
a las instancias son estadısticamente independientes. A partir del conjunto de entrena-
miento se calcula la probabilidad a priori de que una instancia cualquiera pertenezca
a una clase, tambien se calcula la probabilidad condicional de que un atributo tome un
valor si la instancia pertenece a una determinada clase, luego con estos datos se puede
calcular utilizando la formula de Bayes y asumiendo independencia entre las variables,
la probabilidad de que una instancia pertenezca a una clase si sus atributos toman
determinados valores. La clasificacion de la instancia dada sera la que haga maxima
esta probabilidad [San07].
Clasificadores basados en funciones
SMO: El algoritmo SMO es un metodo rapido para entrenar maquinas SVMs. El
entrenamiento de un SVM requiere la solucion a un gran problema de optimizacion de
programacion cuadratica. SMO divide este problema en una serie de problemas mas
pequenos que se resuelven de forma analıtica. Se trata de un tipo de red caracterizado
por tener un aprendizaje no supervisado competitivo y una salida bidimensional. A
partir de un patron de entrada, cada neurona de la capa de salida calcula la similitud
entre su propio vector de pesos y el vector de entrada segun una medida de distancia
establecida. Se considera vencedora a la neurona cuya similitud sea mayor.[MB09]
Ensambles de clasificadores
AdaBoost (Adapting Boosting): En este algoritmo se genera un conjunto de cla-
sificadores secuencialmente. Combina la decision de los clasificadores por votos ponde-
rados, es decir a todos los ejemplos, les asigna inicialmente un peso igual (1/m). El
nuevo clasificador que se cree debe prestar mas atencion a aquellos ejemplos en los que
los anteriores han producido errores. Cada vez que se genera un clasificador, se cambian
los pesos de los nuevos ejemplos usados para el siguiente clasificador. La idea es forzar
al nuevo clasificador a minimizar el error esperado. Para esto se les asigna mas peso a
los ejemplos mal clasificados y menos a los bien clasificados [Gal08].
40 CAPITULO 2. FUNDAMENTOS TEORICOS
2.4.2. Seleccion de atributos
Uno de los aspectos mas importantes para resolver los problemas de clasificacion es
la seleccion de atributos relevantes que ayuden a identificar los ejemplos de la clase de
interes [Men08].
La seleccion de atributos se realiza haciendo una busqueda en el espacio de subcon-
juntos de caracterısticas y evaluando cada uno de ellos. Existen distintos evaluadores de
subconjuntos y metodos de busqueda implementados en Weka1 [HFH+], a continuacion
se describen brevemente los evaluadores de atributos utilizados en este trabajo de tesis.
ChiSquaredAttributeEval: calcula el valor estadıstico Chi-cuadrado de cada
atributo con respecto a la clase y ası obtiene el nivel de correlacion entre la clase
y cada atributo [MRGG07].
GainRatioAttributeEval: evalua cada atributo midiendo su razon de beneficio
con respecto a la clase [MRGG07].
InfoGainAttributeEval: evalua los atributos midiendo la ganancia de informa-
cion de cada uno con respecto a la clase. Antes discretiza los atributos numericos
[MRGG07].
OneRAttributeEval: evalua la calidad de cada atributo utilizando el clasificador
OneR, el cual usa el atributo de mınimo error para predecir, discretizando los
atributos numericos [MRGG07].
2.4.3. Manejo de clases no balanceadas
Los clasificadores estandares han demostrado un buen desempeno en conjuntos de
datos balanceados. Esta es la razon por la cual los primeros enfoques dirigidos a resolver
el problema de clases no balanceadas han tratado de balancear la distribucion de las
clases. Estas soluciones utilizan diferentes formas de re-muestreo, las dos principales
tecnicas son el sub-muestreo (under-sampling) y sobre-muestreo (over-sampling). La
primera consiste en eliminar ejemplos de la clase mayoritaria, mientras que la segunda
anade ejemplos a la clase minoritaria. Existen algunas variantes para ambos enfoques,
la variante mas simple es el re-muestreo aleatorio.
1Weka (Waikato Environment for Knowledge Analysis) es una coleccion de algoritmos de aprendi-zaje automatico para el analisis de datos y modelado predictivo.
2.4. MINERIA DE DATOS 41
El sub-muestreo aleatorio elimina ejemplos de la clase mayoritaria en forma aleato-
ria, mientras que el sobre-muestreo aleatorio duplica ejemplos de la clase minoritaria
en forma aleatoria. Una estrategia mas robusta es el re-muestreo dirigido, en este caso
la seleccion de los ejemplos eliminados o agregados es dirigida en vez de ser de for-
ma aleatoria, pero el sobre-muestreo dirigido continua duplicando ejemplos de la clase
minoritaria, es decir no se crean ejemplos nuevos.
Una estrategia mas efectiva es el re-muestreo avanzado, la cual esta dirigida en forma
mas inteligente. El sub-muestreo avanzado consiste en eliminar ejemplos redundantes
localizados lejos de las regiones que contienen ejemplos de la clase minoritaria, mientras
que el sobre-muestreo avanzado genera nuevos ejemplos de la clase minoritaria (no
duplica). Generalmente cada ejemplo es generado a partir de ejemplos cercanos de la
clase minoritaria, incluso en algunos casos solo son tomados en cuenta ejemplos de
la clase minoritaria que se encuentran en la frontera cercana a la clase mayoritaria
[Men08].
SMOTE (Synthetic Minority Over-sampling Technique) es una tecnica de sobre-
muestreo que ha tenido mucho exito en la clasifcacion de datos no balanceados. El
proceso de SMOTE agrega ejemplos a la clase minoritaria. Para cada ejemplo de cla-
se minoritaria, introduce ejemplos sinteticos a lo largo de los segmentos que unen a
cualquiera (o a todos) los vecinos cercanos de la clase minoritaria [Gal08].
42 CAPITULO 2. FUNDAMENTOS TEORICOS
2.5. Evaluacion de Resultados
En la seccion anterior se introdujeron los conceptos de minerıa de datos que per-
mitiran crear los modelos de clasificacion para los datos extraıdos de las estructuras
celulares, los cuales podran diferenciar entre celulas con distintos subtipos de leucemias
agudas.
En esta seccion se describen las tecnicas de evaluacion utilizadas para medir la preci-
sion, exactitud y confiabilidad de los modelos de segmentacion y clasificacion propuestos
en esta tesis.
Los algoritmos de segmentacion de celulas generalmente se evaluan mediante la
comparacion de la segmentacion real realizada por el experto con la obtenida median-
te el algoritmo computacional. De manera similar, los algoritmos de clasificacion son
evaluados mediante la comparacion de la clase real con la clase asignada.
Existen distintas tecnicas de evaluacion que pueden ser aplicadas tanto a los resulta-
dos obtenidos en el proceso de clasificacion como en el de segmentacion. Estas tecnicas
estan basadas en el numero de pıxeles o instancias bien clasificadas y mal clasificadas
como es el caso de las curvas ROC y las metricas de evaluacion derivadas de la ma-
triz de confusion binaria. Para el caso en especıfico de los algoritmos de clasificacion,
comunmente se aplica una tecnica de validacion cruzada con n particiones para evaluar
los resultados de los ejemplos probados. En esta tecnica, los ejemplos son subsecuente-
mente intercalados para generar conjuntos distintos de entrenamiento y prueba.
A continuacion se detallan las tecnicas de evaluacion que permiten medir la precision
de los algoritmos de segmentacion y clasificacion propuestos para la identificacion de
subtipos de celulas con leucemia aguda.
2.5.1. Validacion cruzada
En la validacion cruzada con k particiones, los datos iniciales son particionados
aleatoriamente en k subconjuntos mutuamente excluyentes S1, S2, . . . , Sk, cada uno de
ellos con un tamano aproximadamente igual. La fase de entrenamiento y prueba se
lleva a cabo k veces. En la iteracion i, el subconjunto Si se reserva como conjunto de
prueba mientras que los subconjuntos restantes son usados colectivamente para entrenar
al clasificador. Es decir, el clasificador en la primera iteracion es entrenado con los
subconjuntos S2, . . . , Sk y probado con S1; en la segunda iteracion, el clasificador es
entrenado con los subconjuntos S1, S3, . . . , Sk y probado con S2; y ası sucesivamente.
2.5. EVALUACION DE RESULTADOS 43
La exactitud estimada de la clasificacion es el numero global de clasificaciones correctas
de las k iteraciones, dividido entre el numero total de muestras en los datos iniciales
[HK01].
2.5.2. Matriz de confusion binaria
La matriz de confusion binaria (Fig. 2.5) considera que los problemas de clasificacion
utilizan unicamente dos clases, por tanto, existen cuatro distintas formas de predecir la
clase perteneciente a una instancia determinada.
clase verdaderaV N
clase V VP FPasignada N FN VN
Figura 2.5: Matriz de confusion binaria
En la matriz de confusion binaria, los verdaderos positivos (VP) y los verdaderos
negativos (VN) son clasificaciones correctas. Mientras que los falsos positivos (FP) y
los falsos negativos (FN) son clasificaciones erroneas. Un FP es cuando el clasificador
asigna una clase como positiva cuando en realidad no lo es, mientras que un FN es
cuando el clasificador predice la clase como negativa cuando en realidad es positiva.
Algunas metricas para evaluar los resultados de la clasificacion pueden ser calculadas
a partir de la matriz de confusion binaria, tales como:
Exactitud =V P + V N
V P + V N + FP + FN(2.60)
Sensibilidad =V P
V P + FN(2.61)
Especificidad =V N
V N + FP(2.62)
Precision =V P
V P + FP(2.63)
Valor pronostico negativo =V N
V N + FN(2.64)
44 CAPITULO 2. FUNDAMENTOS TEORICOS
2.5.3. Curvas ROC
El analisis de curvas ROC (Receiver Operating Characteristic) permite evaluar el
desempeno de los clasificadores binarios. Este analisis considera que un clasificador es
mejor que otro si tiene una mayor area bajo la curva ROC que lo describe.
Las curvas ROC son graficas bidimensionales que incluyen todos los pares de sensi-
bilidad -especificidad resultantes al variar continuamente los umbrales de decision sobre
el rango completo de los resultados observados.
La figura 2.6 muestra las curvas ROC generadas para dos clasificadores binarios.
Figura 2.6: Curva ROC para dos clasificadores
El eje Y mide la fraccion de V P o sensibilidad (Ec. 2.61), es decir, mide la pro-
babilidad de obtener un resultado positivo cuando esta presente una enfermedad o
condicion y se calcula unicamente en el subgrupo afectado. El eje X mide la tasa de
FP , o 1-especificidad (Ec. 2.62) y es calculada utilizando unicamente el subgrupo no
afectado.
Debido a que las fracciones de V P y FP son calculadas de manera separada, es decir
usando resultados de prueba de dos subgrupos distintos, la grafica ROC es indepen-
diente de la prevalencia de enfermedad en las muestras. Cada punto en la grafica ROC
representa un par sensibilidad-especificidad correspondiente a un umbral de decision
particular. Este par de valores esta delimitado por las coordenadas (0, 0), (0, 1), (1, 1) y
(1, 0). Una prueba con discriminacion perfecta (sin traslape entre las dos distribucio-
nes de los resultados) tiene una curva ROC que pasa a traves de la esquina superior
izquierda (coordenada (0, 1)), en donde la fraccion de V P es 1,0, o 100 % (sensibilidad
perfecta) y la fraccion de FP es 0 (especificidad perfecta).
2.5. EVALUACION DE RESULTADOS 45
Existen clasificadores que producen salidas continuas que pueden ser consideradas
una estimacion de la probabilidad de que una instancia sea miembro de una clase
(positiva o negativa). Por tanto, si se varıa el umbral para el cual una instancia pertenece
a una clase, se pueden producir diferentes puntos ROC, los cuales al ser conectados
incluyendo los puntos (0, 0) y (1, 0) producen la curva ROC empırica para el clasificador.
En el caso de los clasificadores discretos que solo producen una etiqueta de la clase,
la tasa de VP y FP puede ser calculada a traves de cortes progresivos de los datos.
Otro metodo comunmente utilizado es la estimacion de la curva ROC suave, el cual
esta basado en la distribucion binomial y utiliza estimacion de maxima verosimilitud.
Capıtulo 3
Trabajo previo
En este capıtulo se describen los algoritmos de segmentacion que han sido utiliza-
dos para identificar elementos celulares, ası como los algoritmos de clasificacion que
permiten identificar entre distintos tipos de celulas con leucemia aguda.
3.1. Analisis de Imagenes Digitales
El analisis de imagenes permite la identificacion y clasificacion de los objetos con-
tenidos en una imagen a partir de la extraccion de propiedades y caracterısticas que
los definen. Este proceso implica llevar a cabo las siguientes tareas de procesamiento
digital de imagenes:
1. Adquisicion de una imagen digital.
2. Preprocesamiento de la imagen para mejorar su contraste y/o eliminar el ruido y
facilitar las tareas posteriores.
3. Segmentacion para extraer de la imagen objetos interesantes.
4. Representacion y descripcion de los objetos mediante la extraccion de caracterısti-
cas que permitan diferenciar entre ellos.
5. Reconocimiento e interpretacion de los objetos a traves de la asignacion de las
etiquetas que los representan.
El presente trabajo de investigacion aborda el problema de la segmentacion del
nucleo y citoplasma de celulas de medula osea para la identificacion de subtipos de
47
48 CAPITULO 3. TRABAJO PREVIO
leucemia aguda. A continuacion se describen los trabajos relacionados con el tema de
investigacion.
3.2. Segmentacion Celulas Sanguıneas
En Vision por Computadora, la segmentacion define como una imagen digital sera di-
vida en multiples regiones (grupos de pıxeles) no traslapadas que compartan ciertas
caracterısticas visuales de acuerdo al problema. De esta manera, los pıxeles en una re-
gion son similares con respecto a algunas caracterısticas o propiedades, como el color, la
intensidad o la textura; ası como los pıxeles en distintas regiones son significativamente
diferentes con respecto a las mismas caracterısticas.
La tendencia actual de la segmentacion de celulas de sangre consiste en la extraccion
de celulas de fondos complicados y en la separacion de sus componentes morfologicos
tales como nucleo, citoplasma, agujeros y otros organelos [KJS02]. Existen distintos al-
goritmos que han sido propuestos para la segmentacion de celulas de sangre periferica y
de medula osea. Debido a que no existe una solucion general a este problema, estos algo-
ritmos frecuentemente combinan metodos de segmentacion y tecnicas de procesamiento
de imagenes para resolverlo.
Los metodos mas populares para la segmentacion de celulas sanguıneas estan ba-
sados en tecnicas de umbralizacion, deteccion de lados, agrupacion y crecimiento de
regiones. A continuacion se describen algunos trabajos que utilizan estas tecnicas.
Chee Sun Won et al. 2004 [WNC04] proponen un algoritmo para separar las image-
nes con celulas sanguıneas en 4 regiones: nucleo y citoplasma de leucocitos, globulos
rojos y fondo. Primero, utilizando la tecnica de umbralizacion multiple se obtienen 3
regiones: nucleo, una mezcla de citoplasma y globulos rojos, y el fondo. Los umbrales
utilizados en la segmentacion se obtienen del histograma suavizado de los niveles de gris
de la imagen, el cual representa a las regiones de interes generalmente en 3 o 4 clusteres.
Posteriormente, se refina la umbralizacion mediante un modelo de segmentacion con un
estimador de probabilidad Maxima A Posteriori basada en campos aleatorios de Markov
que incorpora restricciones de suavidad y altos gradientes en los bordes de las regiones
que permiten que estas se expandan o contraigan hacia los bordes de las regiones con
altos gradientes. Por ultimo, se analiza el estado de conexion entre las regiones para
separar el citoplasma de los globulos rojos. Cuando hay globulos rojos que tocan los
leucocitos se utiliza un algoritmo de separacion que divide las regiones encontrando dos
3.2. SEGMENTACION CELULAS SANGUINEAS 49
puntos concavos y conectandolos a traves de una lınea recta para delinear el borde del
citoplasma.
Sara Colantonio et al. 2007 [CGS07] proponen un algoritmo de segmentacion que
permite distinguir entre distintas estructuras celulares: nucleo, citoplasma, fondo y ar-
tefactos. Las regiones homogeneas en color son identificadas en la imagen utilizando el
algoritmo de agrupacion difusa C-means para posteriormente extraer un conjunto de
caracterısticas de color de cada una de ellas y clasificarlas en la estructura celular que
les corresponda mediante una red neuronal multicapa entrenada con el algoritmo de
retropropagacion del error.
Nipon Theera-Umpon, 2005 [TU05] propone una tecnica para particionar una ima-
gen de celulas de globulos blancos en medula osea. Primero se forman 10 grupos simi-
lares en intensidad de gris aplicando el algoritmo difuso C-means, luego estos grupos
se combinan para formar 3 segmentos: nucleo, citoplasma, y fondo. Esta combinacion
se realiza con base en los centros de cada grupo. Por ultimo se aplican operaciones
morfologicas para eliminar grupos pequenos y suavizar los lados.
Leyza Baldo Dorini et al. 2007 [DML07] proponen un metodo para separar el nucleo
y citoplasma de celulas de globulos blancos. En la segmentacion del nucleo, primero se
extraen las marcas de los nucleos utilizando morfologıa matematica sobre una imagen
binaria creada por umbralizacion y posteriormente se aplica la transformada water-
shed sobre una imagen simplificada para extraer los contornos de estos. Para obtener
el citoplasma se aplica una umbralizacion, seguida de la operacion morfologica de aper-
tura y se descartan los componentes que no se intersectan con los nucleos previamente
identificados.
Kyungsu Kim et al. 2001 [KJC+01] aplican un esquema de segmentacion hıbrida
basada en regiones y lados para separar el nucleo y citoplasma de los globulos blancos.
Primero mejoran los lados de la imagen y remueven el ruido a traves de PCAs y un
algoritmo de difusion no lineal, posteriormente aplican una transformada watershed
y luego para prevenir la sobresegmentacion de la transformada se fusionan las regio-
nes mas cercanas utilizando un algoritmo k-means basado en informacion de valor de
intensidad.
Los trabajos de investigacion descritos anteriormente permitieron la extraccion de
nucleo y citoplasma en imagenes sanguıneas mediante la combinacion de distintas tecni-
cas de segmentacion. Las imagenes utilizadas en estos trabajos presentaron fondos uni-
formes y contrastes que definieron adecuadamente a los objetos de interes, facilitando
50 CAPITULO 3. TRABAJO PREVIO
la creacion de regiones homogeneas que describen a estos objetos mediante el uso de
tecnicas de segmentacion basadas en informacion de los niveles de gris o color y de
deteccion de bordes.
En este trabajo de investigacion se utilizan imagenes digitales de celulas sanguıneas
que presentan variedad y heterogeneidad de colores y texturas, ası como alta poblacion
de celulas, lo cual dificulta la extraccion de los elementos celulares al aplicar tecnicas
tradicionales de segmentacion. Por este motivo, se propone un algoritmo de segmenta-
cion contextual que incorpora informacion de color y textura en los pıxeles de la imagen
para extraer la celula y su nucleo en imagenes con distintas tinciones y alta poblacion
de celulas.
La extraccion de elementos celulares en imagenes con una alta poblacion de celulas
es una tarea muy complicada, debido a que comunmente las celulas se tocan o traslapan
entre ellas. Los trabajos de Chee Sun Won et al. 2004 [WNC04] y Leyza Baldo Dorini
et al. 2007 [DML07] descritos con anterioridad enfrentan este problema para separar
leucocitos que se traslapan con globulos rojos. Otros trabajos interesantes que abordan
el problema de separacion de celulas o partıculas se describen a continuacion.
Weixing Wang y Hao Song, 2007 [WS07] proponen un algoritmo basado en informa-
cion de la forma para separar celulas traslapadas. Primero se suaviza y rellena la ROI
mediante el uso de operaciones morfologicas. Luego se identifican las celulas traslapadas
a traves de una aproximacion poligonal. Finalmente se detectan los puntos concavos en
los contornos y se determinan las lıneas de division.
Heiko Hengen et al. 2002 [HSP02] proponen un algoritmo de desagrupamiento para
separar las regiones de las celulas traslapadas. Primero se encuentran los bordes de
las celulas y se obtiene una imagen de la trasformada de distancias. Luego se aplica
la operacion morfologica de erosion para dividir las regiones conservando la forma.
Finalmente se aplica crecimiento de regiones hasta obtener las regiones separadas.
Leticia Guimaraes et al. 2001 [GSM01] proponen un algoritmo de descomposicion
en similaridad circular para separar partıculas conectadas en una imagen binaria. Par-
tiendo de la suposicion de que todos los objetos en la imagen son cırculos, el algoritmo
detecta las concavidades en imagenes con contornos cerrados basados en una medida de
similaridad circular sin utilizar una tecnica de aproximacion poligonal, enseguida busca
cırculos circunscritos y localiza el punto de maxima concavidad, posteriormente calcula
la similaridad circular para reconocer el cırculo y finalmente los mezcla para verificar
el modelo disenado con la imagen original.
3.3. CLASIFICACION DE LEUCEMIAS AGUDAS 51
Los trabajos anteriores proporcionan distintas alternativas para separar celulas y
son aceptados por generar aproximaciones aceptables de separacion, sin embargo, se
pueden obtener mejores resultados al utilizar informacion contextual de los objetos a
dividir. En este trabajo de tesis se propone un algoritmo de separacion de celulas el cual
esta basado en informacion contextual de las ROI . Este algoritmo utiliza informacion
de la forma del objeto para dividir las regiones mediante interpolacion lineal.
Los algoritmos de segmentacion y de separacion de celulas que se proponen en este
trabajo se describen detalladamente en el capıtulo 4.
3.3. Clasificacion de Leucemias Agudas
La clasificacion de celulas sanguıneas permite la deteccion y diagnostico de distintas
patologıas. Muchos de los trabajos de clasificacion de celulas estan aplicados a la pro-
blematica de reconocimiento de globulos blancos o leucocitos [WNC04, TU05, DML07,
KJC+01]. El presente trabajo de investigacion esta enfocado en la identificacion de
celulas con leucemia aguda.
En el trabajo de Blanca Aurora Morales, 2006 [Mor06] se realiza la clasificacion de
celulas de leucemia aguda por familia, es decir, se identifican 2 tipos de celulas de leuce-
mia aguda: mieloblastica y linfoblastica, obteniendo resultados del 89.80 % al clasificar
utilizando tecnicas estadısticas (Logistic) y 91.79 % utilizando una red neuronal multi-
capa con 6 neuronas en la capa de entrada, 6 neuronas en la capa oculta y 2 neuronas
en la capa de salida. Las caracterısticas utilizadas por los clasificadores, se definen en
su trabajo y se extraen de las celulas de interes segmentadas en la imagen. Cabe men-
cionar que en este trabajo se logran resultados del 99.15 % utilizando el algoritmo J48
al combinar informacion del expediente del paciente con las caracterısticas extraıdas de
las imagenes.
El trabajo de Marta Coral Galindo, 2008 [Gal08] presenta un metodo de generacion
de caracterısticas descriptivas para la clasificacion de celulas sanguıneas de subtipos de
leucemia aguda en imagenes digitales. Una variedad de caracterısticas morfologicas, de
textura, geometricas, estadısticas y valores propios son extraıdas de la celula de interes
para reconocer cinco subtipos de celulas con leucemia con una precision global de 88 %.
Este metodo logra una exactitud del 85 % para los subtipos L1 y L2 y 91 % para los
subtipos M2, M3, y M5.
A diferencia de los trabajos descritos anteriormente, en el presente trabajo de tesis
52 CAPITULO 3. TRABAJO PREVIO
se identifican los distintos subtipos de leucemias agudas utilizando ademas de la infor-
macion de la celula completa, informacion de su nucleo y citoplasma. De esta manera
se mejora la representacion de los datos y esto nos llevara a mejorar la precision de la
clasificacion obtenida por [Gal08].
3.4. Conclusiones
La segmentacion es una importante y desafiante tarea en el analisis automatico de
imagenes de celulas sanguıneas, debido a que la precision obtenida tiene un alto impacto
en la identificacion y clasificacion automatica de patologıas.
Como se analizo en el estudio del estado del arte presentado en la seccion 3.2, no
existe un metodo de segmentacion que pueda considerarse bueno para la segmentacion
de celulas, por tanto, el presente trabajo de investigacion trata de encontrar una solucion
mas robusta a este problema.
Los algoritmos de segmentacion que se proponen en esta investigacion utilizan in-
formacion contextual para extraer el nucleo y citoplasma de celulas con leucemia en
imagenes digitales que presentan variaciones en color y textura, ası como una alta po-
blacion de celulas. Mediante la extraccion y analisis de caracterısticas del nucleo y
citoplasma de las celulas de interes, se espera superar los resultados de la clasificacion
de celulas de leucemia presentados en los trabajos previos.
Ademas, en este trabajo de tesis se propone un algoritmo de decision que analiza la
informacion de las celulas identificadas con leucemia en la etapa de clasificacion para
el diagnostico automatico de subtipos de leucemias agudas.
Capıtulo 4
Metodo Propuesto
En este capıtulo se describen los algoritmos propuestos para la segmentacion e iden-
tificacion de celulas, extraccion de caracterısticas de las ROI, clasificacion de las ROI
por subtipos de leucemias agudas, ası como el modelo de decision para el diagnostico
de las mismas.
De acuerdo a la metodologıa expuesta en la seccion 1.3 este capıtulo esta organizado
de la siguiente manera: en la seccion 4.1 se describe la coleccion de imagenes digitales
de frotis sanguıneos utilizada, posteriormente en la seccion 4.2 se presenta el modelo
de segmentacion que incorpora informacion contextual de las caracterısticas de color y
textura de la imagen para la obtencion de regiones de interes, enseguida en la seccion
4.3 se analiza la informacion contextual de estos objetos para reconocer el nucleo y
citoplasma de las celulas, luego en la seccion 4.4 se extraen las caracterısticas del nucleo,
citoplasma y de la celula para identificar el subtipo de leucemia aguda. Finalmente, en
la seccion 4.5 se presenta el algoritmo de decision para el diagnostico de leucemias
agudas considerando la informacion de todas las celulas disponibles para un paciente.
En la figura 4.1 se presenta graficamente el metodo propuesto en este trabajo de
investigacion.
53
54 CAPITULO 4. METODO PROPUESTO
Figura 4.1: Metodo propuesto
4.1. COLECCION DE IMAGENES 55
4.1. Coleccion de Imagenes
Los frotis de sangre fueron proporcionados por el Laboratorio de Especialidades del
Instituto Mexicano del Seguro Social (IMSS) en Puebla y digitalizadas por [MOG+05]
a traves de una camara digital conectada a un microscopio optico Carl Zeiss con un
objetivo 100x. Las imagenes digitales obtenidas tienen una resolucion de 800x600 pıxeles
con 24 bits de intensidad y estan representadas en el espacio de color RGB. Las celulas
de interes fueron seleccionadas y clasificadas manualmente en tipos de leucemias agudas
por el experto en el dominio. Esto permitio la creacion de una base de datos que contiene
1028 imagenes digitalizadas de celulas con leucemia aguda pertenecientes a 74 pacientes,
de las cuales 415 imagenes de celulas corresponden a LLA y 613 a LMA [Mor06, Gal08].
De la base de datos de imagenes digitales por grupos de leucemias agudas, se creo una
coleccion de imagenes para identificar subtipos de leucemias la cual incluye 633 image-
nes de celulas etiquetadas por el experto. Estas imagenes de celulas corresponden a 63
pacientes diagnosticados con distintos tipos y subtipos de leucemias agudas. Los subti-
pos de leucemias que se incluyen en la coleccion corresponden al L1, L2 de la leucemia
aguda linfoblastica y al M2, M3 y M5 de la leucemia aguda mieloblastica. La tabla 4.1
muestra el numero de ejemplos de cada subtipo de leucemia incluidos en la coleccion.
La tabla 4.2 muestra el numero de pacientes por cada subtipo.
Tabla 4.1: Muestras por subtipos
Tipo Subtipo No. muestras
LLA 295L1 102L2 135
sin subtipo 58
LMA 338M2 95M3 47M5 56
sin subtipo 140
Tabla 4.2: Pacientes por subtipos
Tipo Subtipo Total pacientes
LLA 34L1 14L2 15
sin subtipo 5
LMA 29M2 6M3 3M5 5
sin subtipo 15
56 CAPITULO 4. METODO PROPUESTO
4.2. Modelo de Segmentacion Contextual
El objetivo principal de esta tesis es el desarrollo de un algoritmo de segmentacion
de celulas de sangre que separe cada celula en sus 2 elementos mas importantes: nucleo
y citoplasma. El analisis de las caracterısticas presentadas en cada uno de ellos sera pri-
mordial para la observacion y deteccion de patologıas originadas en celulas sanguıneas.
El algoritmo de segmentacion de celulas que aquı se propone incorpora caracterısti-
cas contextuales de color y textura de los pıxeles de la imagen en el proceso de seg-
mentacion y permite ser aplicado en imagenes de frotis de sangre de medula osea que
muestran tinciones heterogeneas.
A continuacion se describe el algoritmo de segmentacion de celulas sanguıneas pro-
puesto, ası como las principales problematicas que se resolvieron durante el desarrollo
del mismo.
4.2.1. Analisis de color
Durante el periodo de diseno del modelo de segmentacion que se propone en esta
tesis se analizaron los colores de las imagenes de celulas tenidas de frotis de sangre
de medula osea. Las caracterısticas de color en las celulas facilitaron el estudio de los
elementos que la componen, ya que cuando una muestra de sangre es pigmentada, el
nucleo y citoplasma de las celulas ası como otras estructuras celulares son resaltadas,
simplificando la localizacion de las mismas.
Por ejemplo, cuando se tinen las celulas con leucemia utilizando el colorante de Ro-
manowsky, el color adquirido por el nucleo de la celula es de color similar al citoplasma,
sin embargo el primero tiene una apariencia mas oscura que el segundo. Generalmente
al aplicar este colorante en los frotis de sangre de medula osea, el nucleo de las celulas
exhibe modalidades de color purpura; el citoplasma manifiesta colores azules en linfoci-
tos y rosas en mielocitos; los nucleolos adquieren matices de color azul claro; ası como
las plaquetas presentan tonalidades de color purpura.
El analisis de esta informacion de color nos permite identificar los elementos celulares
de acuerdo a la tincion adquirida por el colorante aplicado.
Transformacion del espacio de color
En esta tesis se investigaron distintos espacios de color con la finalidad de encon-
trar una representacion mas adecuada a las distintas tinciones de las imagenes. De los
4.2. MODELO DE SEGMENTACION CONTEXTUAL 57
espacios de color estudiados el CIE L∗a∗b∗ permite la percepcion del color de manera
mas practica y eficiente ya que es mas facil identificar la diferencia visual entre dos
colores en este espacio de color. Para mas informacion de los espacios de color revise
los fundamentos teoricos presentados en la seccion 2.2.1.
Debido a que la coleccion de imagenes esta representada en el espacio de color
RGB, una transformacion del espacio RGB a CIE L∗a∗b∗ es efectuada en las imagenes
a segmentar para cambiar la representacion no perceptual del color de los pıxeles a una
perceptualmente uniforme. Esta transformacion de color se llevo a cabo utilizando las
ecuaciones 2.1, 2.2 y 2.3 presentadas en la seccion 2.2.1.
Las figuras 4.2(a) y 4.2(b) ilustran la representacion de una imagen de celula de
medula osea en el espacio de color RGB y CIE L∗a∗b∗, respectivamente.
(a) Frotis de sangre en RGB (b) Frotis de sangre en CIE L∗a∗b∗
Figura 4.2: Frotis de sangre en el espacio RGB y CIE L∗a∗b∗.
Estimacion de parametros estadısticos
Las caracterısticas de color se integraran junto con las caracterısticas de textura
en un modelo de segmentacion binaria basado en CAM. Las caracterısticas de color
que se incorporaran al modelo son los valores estadısticos de intensidad de color que
diferencian los pıxeles de los objetos de interes del resto.
Como se pudo observar en el modelo de color CIE L∗a∗b∗ ilustrado en la figura
4.2(b), el canal de luminosidad L∗ proporciona una adecuada representacion del color
para destacar las partes oscuras y claras de la imagen. Con base en el conocimiento a
priori que se tiene acerca de que en imagenes tenidas de frotis de sangre el color del
nucleo es mas oscuro que el del citoplasma, el canal L∗ fue seleccionado para identificar
58 CAPITULO 4. METODO PROPUESTO
facilmente los elementos con poca reflexion en la imagen. Por otro lado, el canal b∗ fue
elegido debido a que proporciona una representacion adecuada del color permitiendo
destacar facilmente las celulas, las cuales contienen tonalidades de color purpura y azul.
Los canales L∗ y b∗ mencionados anteriormente permiten formar grupos de pıxeles
que contienen informacion valiosa del nucleo y de la celula, respectivamente. Cuando se
utiliza el canal de luminosidad L∗, los pıxeles con caracterısticas de intensidad similares
al nucleo son agrupados en un subconjunto y aquellos cuya intensidad difiere permane-
cen en un segundo subconjunto. De la misma manera, cuando se utiliza el canal b∗, los
pıxeles correspondientes o similares al color de la celula quedan en un grupo y el resto
en un segundo grupo.
La formacion de los 2 subconjuntos se llevo a cabo utilizando el algoritmo k-means1
con k = 2 y como criterio de semejanza la distancia euclidiana. Cuando se formaron
los dos subconjuntos empleando las caracterısticas de intensidad del canal b∗, los gru-
pos obtenidos representaron de manera adecuada a las celulas en un subconjunto y al
resto en el otro. Sin embargo, cuando se agruparon los pıxeles de la imagen utilizando
caracterısticas de similitud de intensidad en el canal L∗, los 2 subconjuntos generados
no siempre representaron adecuadamente a los objetos de interes (nucleos) en un sub-
conjunto y al resto de los objetos en el otro. Por este motivo la obtencion de los 2
subconjuntos del canal L∗ se realizo mediante la generacion de un numero mayor de
grupos y la fusion de los mismos.
De manera pragmatica se fraccionaron algunas imagenes en 2, 3, 4 y 5 grupos,
de los cuales se observo que los objetos de la imagen quedaron mejor representados
mediante la formacion de 2 o 3 subconjuntos. Para determinar de manera automatica
el numero de grupos que se deben formar en cada imagen se genero un modelo de
clasificacion en Weka a partir de algunas caracterısticas estadısticas (media, varianza
y desviacion estandar) de los pıxeles de la imagen y de cada subconjunto generado al
aplicar el algoritmo de agrupacion k-means con k = 2 y k = 3. Cuando el modelo
decide dividir a la imagen en 3 subconjuntos, el subconjunto con media de intensidad
menor es seleccionado para representar los objetos oscuros en la imagen y los otros 2
subconjuntos se unen para representar el resto de los objetos en la imagen.
La figura 4.3 muestra graficamente un ejemplo de la obtencion de los dos grupos
representativos en una imagen de frotis de sangre utilizando caracterısticas de similitud
1k-means es un metodo de agrupamiento que divide un conjunto de datos de entrada en k grupos,asociando cada dato al grupo con la media mas cercana.
4.2. MODELO DE SEGMENTACION CONTEXTUAL 59
de intensidad del canal L∗. En la figura 4.3(a) se aprecia la obtencion de los grupos
despues de aplicar directamente el algoritmo k-means con k = 2 sobre el canal L∗
de la imagen. Observe que los grupos formados no representan adecuadamente a los
objetos que se desean obtener: nucleos y resto de objetos, puesto que el grupo 1 contiene
informacion adicional a la del nucleo. La figura 4.3(b) ilustra que despues de la formacion
de los grupos utilizando el algoritmo k-means con k = 3 y de la fusion de los grupos b
y c se obtiene una representacion adecuada de los objetos de interes: nucleo (grupo 1)
y resto de objetos (grupo 2).
Figura 4.3: Formacion de grupos en una imagen utilizando caracterısticas de similitudde intensidad del canal L∗.
Una vez que se obtienen los 2 grupos que proporcionan la mejor representacion de los
objetos en la imagen, se extraen las estadısticas del color de los objetos de interes tales
como: la media, varianza y desviacion estandar. Los valores estadısticos obtenidos de
cada grupo seran incorporados como informacion de color en el modelo de segmentacion
con CAM.
60 CAPITULO 4. METODO PROPUESTO
4.2.2. Analisis de textura
El analisis de la textura desarrollado en este trabajo de investigacion se lleva a ca-
bo utilizando el modelo de descomposicion Wold que unifica el enfoque estructural y
estocastico para describir la textura. Este modelo fue elegido debido a que las image-
nes de celulas sanguıneas presentan texturas heterogeneas, por consiguiente, se pueden
encontrar tanto texturas periodicas como aleatorias en dichas imagenes.
De acuerdo a la definicion del modelo de descomposicion Wold presentado en la sec-
cion 2.2.2 la textura esta representada por un componente estructural y uno estocastico.
El componente estructural a su vez esta compuesto por un componente armonico y un
componente evanescente generalizado. La figura 4.4 muestra un diagrama de la descom-
posicion Wold para un canal seleccionado.
Figura 4.4: Descomposicion de textura Wold
En esta seccion se presentara la parametrizacion de los componentes armonicos,
evanescentes, y estocasticos para obtener el campo determinista y no determinista de
la textura, los cuales seran incorporados posteriormente al modelo de segmentacion
CAM como caracterısticas de textura.
Para realizar el analisis de una textura utilizando el modelo de descomposicion
Wold primero se encuentran las caracterısticas periodicas de la textura, es decir, se
parametriza el campo armonico, luego se estima el componente evanescente de la textura
el cual representa las caracterısticas de direccionalidad y finalmente se estiman los
parametros del componente puramente no determinista del campo de textura.
4.2. MODELO DE SEGMENTACION CONTEXTUAL 61
Para obtener el componente determinista se utiliza un proceso de umbralizacion
global para estimar el campo de textura armonico y un procesamiento basado en la
transformada de Hough para obtener el componente evanescente. Una vez obtenido el
componente determinista, el componente no determinista es facilmente calculado.
La figura 4.5 muestra el algoritmo de parametrizacion del campo armonico. En este
algoritmo primero se resuelven las sinusoidales utilizando la transformada discreta de
Fourier (TDF). Luego se localizan los picos armonicos mediante la identificacion de
las frecuencias de los picos aislados mas grandes. En imagenes de celulas sanguıneas
se establece como umbral de amplitud un valor 10, el cual es suficiente para encontrar
todos los picos que se consideran componentes armonicos. Finalmente se efectua la
parametrizacion del campo mediante la evaluacion de los valores de amplitud y fase de
la TDF en las frecuencias identificadas como picos.
Figura 4.5: Parametrizacion del campo armonico
La figura 4.6 muestra el algoritmo de parametrizacion del campo evanescente ge-
neralizado. En este algoritmo, en la TDF sin componentes armonicos se encuentran 4
lıneas evanescentes utilizando la transformada de Hough para posteriormente llevar a
cabo la parametrizacion del campo evanescente mediante la evaluacion de los valores
de amplitud y fase de la TDF en las frecuencias de las lıneas evanescentes identificadas.
El componente determinista de la textura es la suma ortogonal de los campos
armonico y evanescente generalizado. La parametrizacion del componente no deter-
minista se efectua mediante la evaluacion de los valores de amplitud y fase sobre la
TDF residual una vez eliminado el componente determinista de la textura.
62 CAPITULO 4. METODO PROPUESTO
Figura 4.6: Parametrizacion del campo evanescente generalizado
4.2.3. Modelado de caracterısticas de color y textura con CAM
En esta tesis el modelo de segmentacion CAM propuesto por [LA08] es utilizado en
la segmentacion de celulas sanguıneas. Este modelo esta formulado dentro del enfoque
bayesiano e incorpora la informacion contextual de la intensidad del color y textura de
los pıxeles de la imagen.
Recordando brevemente los fundamentos teoricos de los CAM presentados en la
seccion 2.2.3, el modelado con CAM consiste en la definicion de un sistema de vecinos
y cliques, ası como en la definicion de una probabilidad a priori y de un modelo de
probabilidad los cuales permitiran derivar la probabilidad posterior.
A continuacion se define el modelo CAM utilizado para la segmentacion de celulas
sanguıneas.
Definicion de la probabilidad a priori
Las caracterısticas de intensidad de color y el campo estructural y estocastico de
la textura son modeladas a traves de la definicion de la energıa a priori Up(f) de la
siguiente manera:
Up(f) =∑
s∈S
(wsfs +∑
r∈fN(s)
vsrfsfr) (4.1)
4.2. MODELO DE SEGMENTACION CONTEXTUAL 63
en donde fs es la configuracion del etiquetado del estado s, fr es la configuracion
del etiquetado de los estados vecinos N(s) del estado s y los coeficientes ws y vsr son
los parametros de variacion espacial de los componentes estocastico W y estructural de
la textura V , respectivamente. Los parametros de variacion espacial ws y vsr quedan
definidos mediante funciones potenciales Vc(f) de la siguiente manera:
V1(f) = ws ∈ W
V2(f) =
vsr =| vs − vr | si s 6= r, s, r ∈ C2, vs, vr ∈ V
0 en caso contrario
(4.2)
De aquı la probabilidad a priori P (f) puede ser expresada como:
P (f) =1
Zexp[− 1
TUp(f)] (4.3)
en donde Z es una constante de normalizacion y T es una constante que controla
la forma de la distribucion de la probabilidad (para mas detalles vea los fundamentos
teoricos presentados en la seccion 2.2.3).
Definicion del modelo de probabilidad
El modelo de probabilidad P (d | f) se define mediante una distribucion Gaussiana
como sigue:
P (d | f) =∏
s∈S
P (ds | fs) (4.4)
P (ds | fs = k) =1
√
2πn | Covk |exp[−1
2(ds − µk)
T (Covk)−1(ds − µk)] (4.5)
donde ds representa el color observado del estado s, fs es la configuracion del etique-
tado de s, µk y Covk es la media y la matriz de covarianza de la clase k, respectivamente,
y n es el numero de canales del color de la imagen.
64 CAPITULO 4. METODO PROPUESTO
Probabilidad posterior
De acuerdo con la ecuacion 2.24 presentada en la seccion 2.2.3 para determinar
el etiquetado de f se maximiza la probabilidad posterior P (f | d). Considerando la
definicion de la probabilidad a priori P (f) (ecuacion 4.3) y del modelo de probabilidad
P (d | f) (ecuacion 4.5), la probabilidad posterior a maximizar f ∗ = P (f | d) es:
f∗ = arg maxf [ln P (d | f) + ln P (f)]
= arg maxf
∑
s∈S ln[ 1√2πn|Covk|
exp[−12(ds − µk)
T (Covk)−1(ds − µk)]]
+ ln[ 1Z
exp(−∑
s∈S(wsfs +∑
r∈fN(s)vsrfsfr))]
= arg maxf
∑
s∈S −[ln√
2πn | Covk | + 12(ds − µs)
T (Covk)−1(ds − µs)]
−[ 1Z(∑
s∈S(wsfs +∑
r∈fN(s)vsrfsfr))]
= arg mınf
∑
s∈S[ln√
2πn | Covk | + 12(ds − µs)
T (Covk)−1(ds − µs)]
+[ 1Z(∑
s∈S(wsfs +∑
r∈fN(s)vsrfsfr))]
(4.6)
De esta manera la energıa posterior incorpora los campos de textura estocastico ws
y estructural vsr de la descomposicion Wold dentro de la energıa a priori P (f) y agrega
informacion del color mediante la definicion del modelo de probabilidad P (d | f).
Estimacion MAP
Una vez que es definida la energıa posterior f ∗, un estimado Maximo A Posteriori
(MAP) puede ser determinado usando el algoritmo ICM (Iterated Conditional Mode).
La motivacion de elegir este algoritmo de optimizacion es que hace uso de la propiedad
markoviana del sistema, de modo que la energıa a posteriori es calculada de manera
local considerando los pixeles pertenecientes a un vecindario establecido, permitiendole
al algoritmo converger en un numero pequeno de iteraciones.
A continuacion se presenta el algoritmo ICM utilizado para la segmentacion de
celulas.
1. Inicializar la configuracion f0 y establecer k = 0
2. Para cada configuracion que difiere en al menos un vecino fN(k) de la configura-
4.2. MODELO DE SEGMENTACION CONTEXTUAL 65
cion fk calcular la energıa U(r)(r ∈ fN(k)).
3. De las configuraciones en fN(k), seleccionar aquella con energıa mınima.
fk+1 = argminr∈fN (k)(U(r)) (4.7)
4. Ir al paso 2 con k = k + 1 hasta que k = 10 o fk = fk+1.
66 CAPITULO 4. METODO PROPUESTO
4.3. Identificacion de Celulas
La identificacion de las celulas utilizando informacion contextual se llevo a cabo
mediante el reconocimiento de los elementos que la componen, es decir, mediante la
identificacion de su nucleo y citoplasma. Para esto se extrajeron caracterısticas de las
ROI y se diseno un algoritmo basado en reglas de decision para determinar si la ROI
analizada es una celula, un nucleo, probablemente es una celula, probablemente es un
nucleo o bien no es ninguna de las anteriores.
Las caracterısticas que se extrajeron de las ROI permitieron describir su forma
y color. Las regiones con forma aproximadamente redonda o elıptica tienen mayor
probabilidad de ser elementos celulares. Tambien se analizo la forma de las ROI para
determinar si un objeto esta contenido en otro. Por ejemplo, para confirmar que una
region es un nucleo este tiene que formar parte de otra region reconocida como celula.
A continuacion se describe el analisis de forma realizado, el cual fue muy util para
encontrar la relacion de contencion de las regiones y para separarlas cuando se tiene
creencia de que existe una ROI (celula o nucleo) que esta traslapada con otras regiones.
4.3.1. Transformacion de coordenadas de la forma
En esta tesis se analizo la forma de una celula en el espacio de coordenadas polares
puesto que como generalmente las celulas tienen forma aproximadamente redonda u
ovalada es mas simple su representacion en este espacio que en el cartesiano. La figura
4.7 muestra la representacion de una coordenada en los espacios cartesiano y polar.
(a) Relacion de un punto en elespacio cartesiano y polar.
(b) Representacion de uncırculo en el plano cartesianoy polar.
Figura 4.7: Relacion de las coordenadas del espacio cartesiano y polar
4.3. IDENTIFICACION DE CELULAS 67
La transformacion del espacio cartesiano a polar se lleva cabo mediante el grupo de
ecuaciones 4.8:
ρ =√
(x − x0)2 + (y − y0)2
θ =
2π + arctan(
y−y0
x−x0
)
, si (x − x0) < 0, (y − y0) < 0
π + arctan(
y−y0
x−x0
)
, si (x − x0) < 0
arctan(
y−y0
x−x0
)
, en caso contrario
(4.8)
La transformacion del espacio polar a cartesiano se realiza a traves de las formulas
4.9:x = ρ cos θ + x0
y = ρ sin θ + y0
(4.9)
El analisis de contorno se realizo en cada region de la imagen, siguiendo los siguientes
pasos:
1. Encontrar el centroide de la region en el espacio cartesiano. Trasladar esta region
al centro del origen de modo que el centroide de la region sea la coordenada (0, 0)
del espacio cartesiano.
2. Obtener los bordes de la region de interes.
3. Transformar cada punto que conforma el borde de la ROI del espacio cartesiano
al espacio polar.
La transformacion de coordenadas del contorno del espacio cartesiano a polar es
muy util para encontrar regiones que comparten el mismo espacio y para dividir una
region de interes que esta traslapada con otras.
4.3.2. Relacion de contencion de regiones
Despues de procesar las imagenes de celulas con CAM en el canal L∗ y b∗ se obtienen
2 conjuntos de ROIs. La relacion de contencion que tienen las ROIs de un conjunto con
el otro son analizadas para determinar la probabilidad de que una ROI sea un nucleo
o celula dependiendo de si es contenido o contiene a una ROI del otro subconjunto.
A continuacion se describen los pasos seguidos para llevar a cabo el analisis del
contorno de las ROIs para encontrar relaciones de contencion.
68 CAPITULO 4. METODO PROPUESTO
1. Para cada una de las regiones de la imagen del canal L∗, se obtiene su centroide,
se extrae su contorno y se convierten del espacio cartesiano a polar.
2. Se convierten todas las regiones que pertenecen a la imagen del canal b∗ utilizando
como centro del plano cartesiano el centroide obtenido en la region analizada del
canal L∗
3. Se determina si la region analizada en la imagen del canal L∗ acota superiormente
a la region de la imagen del canal b∗. Si esta incluye en un porcentaje alto a la otra,
entonces es probable que la region analizada sea una celula y la otra corresponda
a su nucleo.
4. Se repite el procedimiento anterior pero utilizando el canal b∗ como referencia y
se analizan todas las regiones del canal L∗ con respecto a esta.
La figura 4.8 muestra un ejemplo del analisis de contorno para encontrar relaciones
de contencion de la ROI del canal L∗ (figura 4.8(a)) con las ROIs del canal b∗(figura
4.8(b)) utilizando el proceso descrito anteriormente. Como se puede observar en las
curvas de la figura 4.8(c) no existe ninguna curva debajo de la curva de color azul que
en este caso representa a la ROI del canal L∗, por tanto esta no contiene a ninguna de
las ROIs del canal b∗.
(a) ROI del canalL∗.
(b) ROI del canalb∗.
(c) Relacion de la ROI del canal L∗ con las
ROIs del canal b∗.
Figura 4.8: Analisis del contorno de las regiones para encontrar relaciones de contencion.
4.3.3. Analisis de forma para separacion de celulas
El procedimiento propuesto para separar las regiones traslapadas utilizando interpo-
lacion lineal puede apreciarse graficamente en la figura 4.9. Este procedimiento consta
de los siguientes pasos:
4.3. IDENTIFICACION DE CELULAS 69
1. Una vez que se identifica la region que se quiere separar, se extraen los bordes de
esta y se obtiene su centroide (vea figura 4.9(a)).
2. Se identifican los puntos de separacion de la region (vea figura 4.9(a)), esto se
puede hacer de dos modos:
Encontrando los puntos concavos de la ROI utilizando el algoritmo propuesto
en el trabajo de [WS07].
Seleccionando manualmente estos puntos de separacion.
Debido a que en este trabajo se analizan imagenes de celulas de medula osea
donde existe mucha poblacion celular y en algunas ocasiones hay situaciones de
traslape entre celulas difıciles de separar, se prefirio seleccionar manualmente los
puntos de separacion para garantizar la deteccion de todos los puntos concavos
que deben unirse para separar la region traslapada, ya que el algoritmo propuesto
por [WS07] por la naturaleza de su diseno no garantiza encontrar todos los puntos
concavos de las regiones en situaciones difıciles de traslape.
3. Se convierten los puntos que integran los bordes de la imagen de cartesiano a
polar tomando como centro del plano cartesiano el centroide de la region (vea
figura 4.9(b)).
4. Se interpolan los puntos discontinuos utilizando interpolacion lineal (vea figura
4.9(b)). Esto permitira completar los bordes de la celula con forma de conica.
5. Se convierte de polar a cartesiano y se genera la nueva region que ha sido separada.
Para obtener esta nueva ROI se unen los bordes de la region utilizando operaciones
morfologicas de apertura y esqueleto (vea figura 4.9(c)) y finalmente se rellena la
region.
4.3.4. Identificacion de nucleos y citoplasmas
Las celulas son identificadas utilizando informacion contextual de los elementos que
las componen, es decir, de su nucleo y citoplasma. Las caracterısticas que se utilizaron
para reconocer una celula son: relacion de compacidad para determinar si el objeto tiene
forma regular, excentricidad para saber si la forma del objeto se aproxima a un cırculo,
intensidades del color para conocer si el objeto de interes es de color mas oscuro que los
70 CAPITULO 4. METODO PROPUESTO
Figura 4.9: Separacion de regiones utilizando interpolacion lineal.
otros y caracterısticas de relacion de contencion para establecer si una region de interes
contiene o esta contenida en otra region. Estas caracterısticas permiten identificar si la
ROI que se analiza es (o es probable que sea) un nucleo o una celula.
Con base en el conocimiento a priori que se tiene acerca de las caracterısticas de la
forma y color de los elementos celulares y sabiendo que un nucleo tiene que estar con-
tenido por una celula se disenaron algunas reglas de decision para identificar las celulas
y nucleos. Se selecciono un subconjunto de 20 regiones con formas aproximadamen-
te regulares (nucleo y celulas) y 20 regiones con formas aproximadamente irregulares
(regiones traslapadas) y se generaron en Weka algunas reglas de clasificacion que discri-
minaron entre estos tipos de formas. Las reglas generadas nos dieron una idea de una
separacion estandar de los umbrales que se tienen que utilizar para establecer cuando la
forma de una region determina que es probable que esta sea un elemento celular. Lue-
go se agregaron reglas contextuales sobre el color y la proporcion de contencion para
relacionar una celula con su respectivo nucleo. Al principio se establecio que el nucleo
tenıa que ser contenido ıntegramente por la celula pero luego se adapto el umbral de la
proporcion de contencion porque en algunos casos se pierden pıxeles en el proceso de
segmentacion de celulas o en el proceso de separacion de regiones traslapadas.
A continuacion se presentan las reglas de decision utilizadas para identificar nucleos
y celulas.
1. Si color(ROI1)<color(ROI2) y relacion(ROI1,ROI2)≥95 % entonces
Si excentricidad(ROI1)≤ 0,5 y circularidad(ROI1) ≤ 1,5
entonces ROI1 es una celula.
Si no la ROI1 probablemente es una celula traslapada.
4.4. CLASIFICACION DE CELULAS CON LEUCEMIA AGUDA 71
De lo contrario
Si excentricidad(ROI1)> 0,5 o circularidad(ROI1) > 1,5
entonces ROI1 no es region de interes.
Si excentricidad(ROI2)> 0,5 o circularidad(ROI2) > 1,5
entonces ROI2 no es region de interes.
2. Si color(ROI1)>color(ROI2) y relacion(ROI2,ROI1)≥95 % entonces
Si excentricidad(ROI2)≤ 0,5 y circularidad(ROI2) ≤ 1,5
entonces ROI1 es un nucleo.
Si no la ROI1 probablemente es un nucleo traslapado.
De lo contrario
Si excentricidad(ROI1)> 0,5 o circularidad(ROI1) > 1,5
entonces ROI1 no es region de interes.
Si excentricidad(ROI2)> 0,5 o circularidad(ROI2) > 1,5
entonces ROI2 no es region de interes.
Una vez que se tienen las ROIs etiquetadas se separan las regiones traslapadas
y se etiquetan nuevamente. Cuando ya se tienen todas las ROIs etiquetadas como
nucleo, celula o no es region de interes, se busca la asociacion de los pares de regiones
identificadas como nucleos y celulas para verificar que estas ultimas realmente lo sean.
Una vez que se identifica la celula y su respectivo nucleo se obtiene su citoplasma
mediante la diferencia del conjunto de la celula y del nucleo.
4.4. Clasificacion de Celulas con Leucemia Aguda
Despues de obtener las regiones de interes: nucleo, citoplasma y celula de cada
imagen en la coleccion, se efectua el analisis de las caracterısticas de estas regiones para
la identificacion de tipos de leucemias agudas y 5 subtipos derivados de estas.
4.4.1. Extraccion de caracterısticas
La categorizacion por subtipos se lleva a cabo mediante el analisis de las caracterısti-
cas descriptivas del nucleo, del citoplasma y de la celula. Las caracterısticas extraıdas
72 CAPITULO 4. METODO PROPUESTO
en estas regiones permiten representar un objeto mediante la descripcion de sus carac-
terısticas morfologicas, estadısticas, de textura y de proporcion de tamano. De la misma
manera, estas regiones pueden estar representadas por los valores propios obtenidos al
analizar sus componentes principales.
En la seccion 2.3 se definieron las caracterısticas que describen a un objeto. En
esta seccion unicamente se mencionan cuales son las caracterısticas que se extrajeron
de cada region de interes: celula, nucleo y citoplasma. Como se podra apreciar en las
siguientes tablas algunas caracterısticas no fueron extraıdas de la region del citoplasma
esto se debio a que esas caracterısticas, de acuerdo con el analisis morfologico realizado
por el experto, no son relevantes para la clasificacion de las celulas por tipos y subtipos
de leucemias agudas.
Caracterısticas morfologicas
En la tabla 4.3 se enlistan las caracterısticas utilizadas para describir la forma
geometrica de cada region de interes.
Tabla 4.3: Caracterısticas morfologicasCaracterısticas Morfologicas Nucleo Citoplasma Celula
Area si si siPerımetro si no si
Circularidad si no siAnchura si no siAltura si no si
Elongacion si no siEje mayor si no siEje menor si no si
Excentricidad si no siExtension si no si
Diametro Equivalente si no siNumero de Euler si no si
Area Convexa si no siSolidez si no si
Caracterısticas estadısticas
La tabla 4.4 presenta las caracterısticas estadısticas de los valores de intensidad
de los pıxeles que conforman cada ROI. Estas caracterısticas fueron extraıdas de cada
4.4. CLASIFICACION DE CELULAS CON LEUCEMIA AGUDA 73
canal de la representacion de la ROI en RGB y en escala de grises.
Tabla 4.4: Caracterısticas estadısticasCaracterısticas Estadısticas Nucleo Citoplasma Celula
Moda si si siMedia si si si
Desviacion Estandar si si siVarianza si si si
Densidad Optica Integrada si no si
Promedio de Densidad Optica si no si
Caracterısticas de textura
Las caracterısticas de textura miden la variacion espacial de las intensidades de color
dentro de la region. En la tabla 4.5 se muestran las caracterısticas de textura extraıdas
en cada una de las ROI en RGB y en escala de grises.
Tabla 4.5: Caracterısticas de texturaCaracterısticas de Textura Nucleo Citoplasma Celula
Entropıa si no siContraste si no si
Correlacion si no siEnergıa si no si
Homogeneidad si no si
Caracterısticas de proporcion de tamano
La tabla 4.6 muestra las caracterısticas de proporcion de tamano extraıdas a las ROI.
Estas caracterısticas son muy utiles en este trabajo de tesis ya que permiten medir el
grado de madurez y la regularidad en la forma de las celulas con leucemias agudas.
Tabla 4.6: Caracterısticas de proporcion de tamanoCaracterıstica de Proporcion Nucleo/Celula Nucleo/Citoplasma
Area si siPerımetro si no
74 CAPITULO 4. METODO PROPUESTO
Extraccion de valores propios
La tabla 4.7 indica las ROI sobre las cuales se realizo el Analisis de Componentes
Principales. Este analisis unicamente se efectuo en cada canal de las ROI en RGB. Los
valores propios seleccionados para describir las ROI son los 10 primeros de cada banda
los cuales representan como mınimo el 80 % de variabilidad de la informacion de la
ROI. Segun [Gal08] este porcentaje de variabilidad es suficiente para utilizar los valores
propios como caracterısticas estadısticas para discriminar entre subtipos de leucemias.
Tabla 4.7: Valores propiosPCAs Nucleo Citoplasma CelulaPCAs si no si
4.4.2. Clasificacion de celulas
Despues de representar numericamente a cada ROI a traves de sus caracterısticas de
forma, color, textura, proporcion de tamano y valores propios, se llevo a cabo el analisis
de estas para la construccion de los modelos de clasificacion de celulas con leucemia
aguda que permitiran distinguir entre subtipos.
Para poder construir los modelos de clasificacion, se separaron los datos de las celulas
de acuerdo a su tipo y subtipo de leucemia aguda para generar distintos conjuntos de
entrenamiento y prueba.
Los conjuntos formados fueron agrupados segun las etiquetas de sus instancias de
la siguiente manera:
• LLA vs LMA • M5 vs (M2 y M3)
• L1 vs L2 • M2 vs M3 vs M5
• M2 vs (M3 y M5) • L1 vs L2 vs M2 vs M3 vs M5
• M3 vs (M2 y M5)
Cada grupo estuvo representado por atributos con distintas caracterısticas:
1. Morfologicas, estadısticas, de textura y de proporcion de tamano del nucleo, ci-
toplasma y de la celula.
2. Valores propios del nucleo y de la celula en RGB.
3. El conjunto de todas las caracterısticas mencionadas en 1 y 2.
4.4. CLASIFICACION DE CELULAS CON LEUCEMIA AGUDA 75
El proceso de la construccion del modelo de clasificacion se realizo de manera su-
pervisada y consto de los siguientes pasos:
1. Para cada conjunto de datos se realizo un analisis de atributos para reordenar-
los segun su puntaje obtenido (Ranker). Los evaluadores de atributos utilizados
fueron: ChiSquaredAttributeEval, FilteredAttributeEval, GainRatioAttributeEval,
InfoGainAttributeEval y OneRAttributeEval. Una breve descripcion de estos eva-
luadores fue presentada en la seccion 2.4.2.
2. Los datos de entrenamiento y prueba fueron generados utilizando validacion cru-
zada de 10 particiones. Es decir, se separaron las instancias en 10 subconjuntos
de los cuales 9 se utilizaron en el entrenamiento para generar el modelo de clasi-
ficacion y el subconjunto restante fue utilizado como prueba. En la seccion 2.5.1
se presento la descripcion de la tecnica de validacion cruzada.
3. Se generaron distintos modelos de clasificacion utilizando clasificadores bayesia-
nos, basados en instancias, arboles y reglas, ası como ensambles de clasificadores.
Los clasificadores utilizados fueron descritos previamente en la seccion 2.4.1.
4. Se evaluaron los distintos clasificadores utilizando las metricas definidas en las
secciones 2.5.2 y 2.5.3. De estos, se selecciono el que obtuvo mejores resultados
en la clasificacion de acuerdo al porcentaje global de clasificacion, porcentaje de
verdaderos positivos y falsos positivos y al valor del area bajo la curva ROC.
La figura 4.10 ejemplifica el proceso de clasificacion realizado en Weka para un
conjunto de datos.
Figura 4.10: Proceso de clasificacion de subtipos de leucemia aguda
Es importante mencionar que tambien se realizaron experimentos balanceando los
datos utilizando tecnicas de sobremuestreo aleatorio y generacion de ejemplos artificiales
76 CAPITULO 4. METODO PROPUESTO
utilizando el algoritmo SMOTE (ver seccion 2.4.3), sin embargo, con estos experimen-
tos no se obtuvieron mejoras significativas en los resultados de la clasificacion. En la
seccion 5.2 se presentan los mejores resultados obtenidos en la clasificacion de celulas
al utilizar distintos tipos de atributos, ası como el comportamiento de estos al utilizar
datos balanceados.
4.5. ALGORITMO DE DIAGNOSTICO 77
4.5. Algoritmo de Diagnostico
Como se ha mencionado desde el principio, este trabajo de investigacion esta orienta-
do al analisis de celulas con leucemias agudas y uno de sus objetivos es la creacion de un
algoritmo que diagnostique esta enfermedad por subtipos a partir de las caracterısticas
morfologicas de las celulas.
El algoritmo de diagnostico automatico que se propone en esta tesis no pretende
sustituir el diagnostico clınico realizado por el experto, sino mas bien auxiliarlo en el
analisis de los resultados del examen morfologico de las celulas con leucemia aguda.
El experto ademas debera tomar en cuenta otros factores como la historia clınica, los
sıntomas, signos y los resultados del examen morfologico de las celulas para determinar
la enfermedad que padece una persona y proporcionarle un tratamiento adecuado.
La figura 4.11 presenta un diseno simple basado en la combinacion de clasificadores
binarios para realizar el diagnostico de leucemias agudas. En este esquema primero se
lleva a cabo la clasificacion por tipos de leucemias agudas y luego se realiza la clasifica-
cion por subtipos. Para determinar el tipo y subtipo de leucemia aguda que padece un
paciente se utiliza el criterio de voto mayoritario sobre las predicciones realizadas por
los clasificadores binarios en todas las muestras de celulas correspondientes al paciente.
Figura 4.11: Combinacion de clasificadores binarios para el diagnostico de leucemiasagudas.
Un inconveniente que presenta el diseno de la figura 4.11 es que las decisiones que
toman los clasificadores por subtipos son dependientes de la prediccion de los clasi-
ficadores tipos. De modo que, si el clasificador por tipos predice incorrectamente la
clasificacion por subtipos tambien sera incorrecta.
78 CAPITULO 4. METODO PROPUESTO
Para evitar este problema, en este trabajo se propone combinar distintos clasifica-
dores que realicen la prediccion de tipos y subtipos. La figura 4.12 muestra el esquema
de los clasificadores que fueron fusionados para determinar el diagnostico automatico
de leucemias agudas para un paciente.
Figura 4.12: Combinacion de clasificadores multiclase para el diagnostico de leucemiasagudas.
Como se puede apreciar en la figura 4.12, el esquema propuesto considera informa-
cion de todas las muestras de celulas del paciente y analiza los resultados de asignacion
de clase de distintos clasificadores para poder tomar una decision.
El algoritmo de decision determina el diagnostico del paciente con leucemia aguda
de acuerdo a un conjunto de reglas que fueron disenadas considerando las predicciones
consistentes en votos mayoritarios de las distintas clasificaciones para las celulas iden-
tificadas. Cuando las predicciones de los clasificadores en votos mayoritarios es contra-
dictoria el tipo y subtipo de leucemia aguda queda determinado por la prediccion del
clasificador con mas votos.
A continuacion se presentan los pasos a seguir por el algoritmo de diagnostico pro-
puesto para determinar tipos y subtipos de leucemias agudas:
4.5. ALGORITMO DE DIAGNOSTICO 79
1. Obtener la probabilidad clasica (numero de resultados favorables a la presentacion
de un evento dividido entre el numero total de resultados posibles) de cada uno
de los tipos y subtipos de los clasificadores Ci seleccionados:
- C1: LLA vs LMA - C5: M2 vs (M3 y M5)
- C2: L1 vs L2 vs M2 vs M3 vs M5 - C6: M3 vs (M2 y M5)
- C3: L1 vs L2 - C7: M5 vs (M2 y M3)
- C4: M2 vs M3 vs M5
2. Determinar el tipo de leucemia mediante la fusion de los clasificadores: C1 y C2
de la siguiente manera:
Si p(LLAC1) = 1 o p(LLAC2) = 1 entonces TIPO=LLA
Si p(LMAC1) = 1 o p(LMAC2) = 1 entonces TIPO=LMA
Si p(LLAC1) = p(LMAC1) entonces
Si p(LLAC2) = p(LMAC2) entonces TIPO=No se pudo determinar
Si p(LLAC2) ≥ p(LMAC2) entonces TIPO=LLA
Si p(LLAC2) < p(LMAC2) entonces TIPO=LMA
Si p(LLAC1) > p(LMAC1) entonces
Si p(LLAC2) ≥ p(LMAC2) entonces TIPO=LLA
Si p(LLAC2) < p(LMAC2) entonces
Si p(LLAC1) = p(LMAC2) entonces TIPO=No se pudo determinar
Si p(LLAC1) > p(LMAC2) entonces TIPO=LLA
Si p(LLAC1) < p(LMAC2) entonces TIPO=LMA
Si p(LLAC1) < p(LMAC1) entonces
Si p(LMAC2) ≥ p(LLAC2) entonces TIPO=LMA
Si p(LMAC2) < p(LLAC2) entonces
Si p(LMAC1) = p(LLAC2) entonces TIPO=No se pudo determinar
Si p(LMAC1) > p(LLAC2) entonces TIPO=LMA
Si p(LMAC1) < p(LLAC2) entonces TIPO=LLA
3. Una vez que se ha identificado el tipo de leucemia se obtiene el subtipo utilizando
las siguientes reglas de decision:
80 CAPITULO 4. METODO PROPUESTO
Si TIPO=LLA entonces
Si p(L1C3) = 1 o p(L1C2) = 1 entonces SUBTIPO=L1
Si p(L2C3) = 1 o p(L2C2) = 1 entonces SUBTIPO=L2
Si p(L1C3) = p(L2C3) entonces
Si p(L1C2) = p(L2C2) entonces SUBTIPO=No se pudo determinar
Si p(L1C2) ≥ p(L2C2) entonces SUBTIPO=L1
Si p(L1C2) < p(L2C2) entonces SUBTIPO=L2
Si p(L1C3) > p(L2C3) entonces
Si p(L1C2) ≥ p(L2C2) entonces SUBTIPO=L1
Si p(L1C2) < p(L2C2) entonces
Si p(L1C3) = p(L2C2) entonces SUBTIPO=No se pudo determinar
Si p(L1C3) > p(L2C2) entonces SUBTIPO=L1
Si p(L1C3) < p(L2C2) entonces SUBTIPO=L2
Si p(L1C3) < p(L2C3) entonces
Si p(L2C2) ≥ p(L1C2) entonces SUBTIPO=L2
Si p(L2C2) < p(L1C2) entonces
Si p(L2C3) = p(L1C2) entonces SUBTIPO=No se pudo determinar
Si p(L2C3) > p(L1C2) entonces SUBTIPO=L2
Si p(L2C3) < p(L1C2) entonces SUBTIPO=L1
Si TIPO=LMA entonces
Si p(M2C5) > p(M3M5C5) y p(M3C6) < p(M2M5C6)
y p(M5C7) < p(M2M3C7) entonces SUBTIPO=M2
Si p(M3C6) > p(M2M5C6) y p(M2C5) < p(M3M5C5)
y p(M5C7) < p(M2M3C7) entonces SUBTIPO=M3
Si p(M5C7) > p(M2M3C7) y p(M2C5) < p(M3M5C5)
y p(M3C6) < p(M3M5C6) entonces SUBTIPO=M5
Si p(M2C5 > p(M3C6) y p(M2C5 > p(M5C7) entonces SUBTIPO=M2
Si p(M3C6 > p(M2C5) y p(M3C6 > p(M5C7) entonces SUBTIPO=M3
Si p(M5C7 > p(M2C4) y p(M5C7 > p(M2C5) entonces SUBTIPO=M5
Si ninguna de las condiciones anteriores pudo ser satisfecha, entonces
SUBTIPO=No se pudo determinar
Capıtulo 5
Evaluacion de Resultados
En este capıtulo se presenta la evaluacion de los resultados de los distintos metodos
que se usan en este trabajo de investigacion.
Este capıtulo esta organizado de la siguiente manera:
En la seccion 5.1 se muestran los resultados obtenidos con el modelo de segmen-
tacion de celulas propuesto al utilizar distintas imagenes reales y sinteticas de celulas
sanguıneas con caracterısticas de color y textura heterogeneas.
En la seccion 5.2 se evaluan los resultados de los modelos de clasificacion generados
al catalogar las celulas sanguıneas por tipos y subtipos de leucemias agudas mediante
la utilizacion de distintas caracterısticas extraıdas del nucleo y citoplasma de la celula.
En la seccion 5.3 se mide la precision del algoritmo de decision propuesto para la
determinacion del diagnostico del tipo y subtipo de leucemia aguda que padece un
individuo con base en el analisis de la informacion de todas las imagenes de celulas que
le pertenecen.
Los algoritmos propuestos para la segmentacion de imagenes, identificacion de celu-
las y diagnostico de leucemias agudas fueron implementados en Matlab 7.6.0. Los mo-
delos de clasificacion fueron desarrollados en Weka 3.6.0. Los experimentos fueron rea-
lizados sobre una computadora con sistema operativo Windows XP, procesador AMD
Turion 64 a 1.58GHz y 1GB de RAM.
El banco de prueba para el algoritmo de segmentacion e identificacion de celulas
consistio de 633 imagenes de celulas sanguıneas. Los datos de prueba utilizados en la
clasificacion y diagnostico de leucemias agudas se describen en las tablas 4.1 y 4.2 de
la seccion 4.1.
81
82 CAPITULO 5. EVALUACION DE RESULTADOS
5.1. Modelo de Segmentacion
La evaluacion del algoritmo de segmentacion de celulas sanguıneas que utiliza infor-
macion contextual se realiza una vez que han sido separadas e identificadas las regiones
de interes: nucleo, citoplasma y celula en las imagenes de frotis de medula osea.
De manera cualitativa, este algoritmo presenta muy buenos resultados, ya que per-
mite extraer los nucleos y las celulas de las imagenes visualmente ıntegros en todas las
imagenes de la coleccion.
Para medir la precision del algoritmo de segmentacion contextual de celulas de
manera cuantitativa se compararon las regiones obtenidas por este con la segmentacion
manual de las mismas realizadas por el experto utilizando las siguientes metricas de
evaluacion obtenidas de la matriz de confusion binaria presentada en la seccion 2.5.
Precision = V PV P+FP
Tasa de FP = FPV P+FP
Tasa de FN = FNV N+FN
En donde V P corresponde al numero de pixeles correctamente clasificados como
positivos, FP es el numero de pixeles negativos incorrectamente clasificados como posi-
tivos, V N corresponde al numero de pixeles correctamente clasificados como negativos
y FN es el numero de pixeles negativos incorrectamente clasificados como negativos.
La evaluacion del algoritmo se llevo a cabo en imagenes reales de celulas sanguıneas
de frotis de sangre, ası como en imagenes artificiales creadas a partir de estas utilizan-
do un programa editor de imagenes. Enseguida se describen los conjuntos de celulas
utilizados para medir la precision del algoritmo y los resultados obtenidos en cada caso.
Imagenes de celulas reales
El subconjunto de imagenes de celulas reales para la evaluacion del algoritmo fue
obtenido de la coleccion de imagenes utilizada en esta tesis. Este subconjunto incluye 20
imagenes de tamano 256x256 de celulas con leucemia con variaciones en color y textura.
La figura 5.1 muestra un ejemplo de la segmentacion de celulas en imagenes reales
utilizando la metodologıa propuesta.
5.1. MODELO DE SEGMENTACION 83
Figura 5.1: Ejemplo de la segmentacion contextual de celulas sanguıneas utilizandoimagenes reales.
Imagenes de celulas sinteticas
El conjunto de evaluacion de celulas sinteticas fue creado a partir de las celulas
reales utilizando un programa editor de imagenes. Las imagenes de este conjunto tienen
tamano de 256x256 pıxeles y estan divididas en dos subconjuntos: imagenes sinteticas
con textura y color reales, e imagenes sinteticas con textura y color artificiales. El
subconjunto de evaluacion incluye 10 imagenes Sinteticas-Reales con caracterısticas
de color y textura similares a los presentados en celulas reales pero con tamano y
forma conocidos; de la misma manera, se crearon 10 imagenes Sinteticas-Sinteticas con
caracterısticas de tamano, forma, color y textura conocidos.
Las figuras 5.2(a) y 5.2(b) muestran un ejemplo de la segmentacion de celulas uti-
lizando imagenes Sinteticas-Reales e imagenes Sinteticas-Sinteticas, respectivamente.
84 CAPITULO 5. EVALUACION DE RESULTADOS
(a) Segmentacion con-textual de celulas san-guıneas utilizando imagenesSinteticas-Reales
(b) Segmentacion con-textual de celulas san-guıneas utilizando imagenesSinteticas-Sinteticas.
Figura 5.2: Ejemplos de la segmentacion contextual de celulas sanguıneas utilizandoimagenes sinteticas.
Evaluacion de Resultados
La tabla 5.1 muestra la comparacion de los resultados obtenidos en la segmentacion
contextual de celulas reales y sinteticas.
Tabla 5.1: Comparacion de los resultados de la segmentacion de celulas reales y sinteti-cas.
Imagenes Reales Sinteticas-Reales Sinteticas-Sinteticasnucleo celula nucleo celula nucleo celula
Precision x 95.87 % 95.75 % 97.30 % 98.07 % 99.00 % 99.79 %σ 3.16 % 4.25 % 2.88% 2.14 % 1.11 % 0.20%
Tasa de FP x 4.13 % 4.34 % 0.90% 0.99 % 0.48 % 0.21%σ 3.16 % 4.69 % 1.19% 1.96 % 0.71 % 0.20%
Tasa de FN x 2.33 % 3.83 % 1.80% 0.94 % 0.52 % 0.00%σ 5.53 % 5.06 % 1.91% 1.68 % 0.86 % 0.00%
En la figura 5.3 se presenta graficamente la comparacion de los resultados obtenidos
5.1. MODELO DE SEGMENTACION 85
en la segmentacion contextual de celulas reales y sinteticas.
Figura 5.3: Evaluacion de los resultados del algoritmo de segmentacion contextual decelulas sanguıneas.
Los resultados experimentales muestran que la metodologıa propuesta permite la
extraccion de la celula y el nucleo de una manera muy precisa en imagenes sinteti-
cas, debido a que la forma de los nucleos y citoplasmas son conocidos. Como se puede
apreciar graficamente en la figura 5.3 los mejores resultados se obtienen al utilizar
imagenes Sinteticas-Sinteticas ya que la textura es conocida; la segmentacion en image-
nes Sinteticas-Reales se ve afectada por las texturas reales utilizadas; mientras que la
evaluacion de la segmentacion en imagenes reales se ve afectada tanto por la impre-
cision del algoritmo de segmentacion de celulas como por los errores presentes en la
segmentacion manual.
86 CAPITULO 5. EVALUACION DE RESULTADOS
5.2. Clasificacion de Celulas
En esta seccion se presentan los resultados de los experimentos descritos en la seccion
4.4 de los mejores modelos de clasificacion de celulas con leucemia aguda por tipo y
subtipo.
Los experimentos se realizaron analizando las caracterısticas del nucleo y citoplasma
de la celula como se propone en esta tesis, o utilizando unicamente caracterısticas de
las celulas completas como se propuso en el trabajo de [Gal08].
Para cada caso, se experimento utilizando distintos tipos de caracterısticas:
1. morfologicas, estadısticas y de textura (MET)
2. valores propios (PCAs)
3. MET y PCAs
En cada experimento se ordenaron los atributos utilizando distintos evaluadores y se
realizo la clasificacion de las instancias empleando distintos algoritmos de clasificacion
disponibles en Weka. La evaluacion de la clasificacion se realizo aplicando validacion
cruzada de 10 particiones. Los criterios que se consideraron para evaluar los clasificado-
res son: el porcentaje general de clasificaciones correctas, el porcentaje de clasificaciones
correctas de la clase positiva (Tasa de VP), el porcentaje de clasificaciones correctas de
la clase negativa (Tasa de VN) y el area bajo la curva ROC.
Los resultados de las mejores clasificaciones para cada uno de los experimentos
realizados se presentan en las siguientes tablas.
Notas:
• En las tablas cuando se describe al evaluador de atributos que se utilizo ninguno
significa que se obtuvieron los mejores resultados cuando no se ordenaron los
atributos y no importa se refiere a que el clasificador genera el mismo resultado
si se ordenan o no se ordenan los atributos.
• Cuando se utilizan caracterısticas MET para describir la celula mediante carac-
terısticas de su nucleo y citoplasma, dentro de estas se consideran las caracterısti-
cas de proporcion de tamano.
5.2. CLASIFICACION DE CELULAS 87
Tabla 5.2: Resultados de la clasificacion de las celulas con leucemia aguda por familia:LLA y LMA
(a) Utilizando caracterısticas del nucleo y citoplasma de la celula
Clasificador CaracterısticasLLA y LMA MET PCAs MET y PCAsEvaluador de Atributos no importa GainRatio no importaClasificador functions.SMO meta.RC.RF functions.SMOPorcentaje Correcto 90.592 74.9524 92.1987Tasa de VP 0.894 0.7797 0.9197Tasa de VN 0.9181 0.7126 0.9237
Area bajo la curva ROC 0.9065 0.8127 0.9217
(b) Utilizando caracterısticas unicamente de la celula
Clasificador CaracterısticasLLA y LMA MET PCAs MET y PCAsEvaluador de Atributos ninguno ChiSquared no importaClasificador meta.RC.RF meta.RC.RF functions.SLPorcentaje Correcto 82.6818 73.8737 81.3232Tasa de VP 0.8170 0.7888 0.8217Tasa de VN 0.8389 0.6768 0.8032
Area bajo la curva ROC 0.8926 0.7906 0.8992
88 CAPITULO 5. EVALUACION DE RESULTADOS
Tabla 5.3: Resultados de la clasificacion de las celulas con leucemia aguda por subtipos:L1 y L2
(a) Utilizando caracterısticas del nucleo y citoplasma de la celula
Clasificador CaracterısticasL1 y L2 MET PCAs MET y PCAsEvaluador de Atributos no importa ninguno no importaClasificador lazy. IBk -K 3 meta. RC. RF lazy. IBk -K 3Porcentaje Correcto 84.4022 77.6268 84.0399Tasa de VP 0.8345 0.6682 0.7855Tasa de VN 0.8527 0.8588 0.8841
Area bajo la curva ROC 0.9069 0.8367 0.8861
(b) Utilizando caracterısticas unicamente de la celula
Clasificador CaracterısticasL1 y L2 MET PCAs MET y PCAsEvaluador de Atributos no importa no importa GainRatioClasificador functions.SL lazy.IBk -K 10 meta.RC.RFPorcentaje Correcto 76.7754 72.5906 75.9239Tasa de VP 0.6664 0.6564 0.6555Tasa de VN 0.8445 0.778 0.8379
Area bajo la curva ROC 0.814 0.7608 0.8225
5.2. CLASIFICACION DE CELULAS 89
Tabla 5.4: Resultados de la clasificacion de las celulas con leucemia aguda por subtipos:M2 y el resto de Ms
(a) Utilizando caracterısticas del nucleo y citoplasma de la celula
Clasificador CaracterısticasM2 y el resto de Ms MET PCAs MET y PCAsEvaluador de Atributos OneR OneR ChiSquaredClasificador meta.RC.RF trees.RF meta.RC.RFPorcentaje Correcto 92.4474 73.1316 91.9474Tasa de VP 0.8833 0.7911 0.9033Tasa de VN 0.9618 0.6809 0.9318
Area bajo la curva ROC 0.9590 0.7893 0.9468
(b) Utilizando caracterısticas unicamente de la celula
Clasificador CaracterısticasM2 y el resto de Ms MET PCAs MET y PCAsEvaluador de Atributos OneR OneR ningunoClasificador meta.RC.RF meta.RC.RF meta.RC.RFPorcentaje Correcto 74.2368 64.2105 75.3158Tasa de VP 0.7056 0.5600 0.7156Tasa de VN 0.7755 0.7182 0.7873
Area bajo la curva ROC 0.8045 0.7106 0.8412
90 CAPITULO 5. EVALUACION DE RESULTADOS
Tabla 5.5: Resultados de la clasificacion de las celulas con leucemia aguda por subtipos:M3 y el resto de Ms
(a) Utilizando caracterısticas del nucleo y citoplasma de la celula
Clasificador CaracterısticasM3 y el resto de Ms MET PCAs MET y PCAsEvaluador de Atributos no importa ninguno no importaClasificador lazy.IBk -K 1 trees.RF lazy.IBk -K 5Porcentaje Correcto 91.8947 79.2105 89.3632Tasa de VP 0.8045 0.4800 0.6435Tasa de VN 0.9550 0.8879 0.9715
Area bajo la curva ROC 0.8797 0.7391 0.8985
(b) Utilizando caracterısticas unicamente de la celula
Clasificador CaracterısticasM3 y el resto de Ms MET PCAs MET y PCAsEvaluador de Atributos GainRatio GainRatio GainRatioClasificador meta.RC.RF meta.RC.RF meta.RC.RFPorcentaje Correcto 80.7895 81.3684 77.0947Tasa de VP 0.3900 0.3900 0.2330Tasa de VN 0.9400 0.9479 0.9377
Area bajo la curva ROC 0.7882 0.7867 0.7101
5.2. CLASIFICACION DE CELULAS 91
Tabla 5.6: Resultados de la clasificacion de las celulas con leucemia aguda por subtipos:M5 y el resto de Ms
(a) Utilizando caracterısticas del nucleo y citoplasma de la celula
Clasificador CaracterısticasM5 y el resto de Ms MET PCAs MET y PCAsEvaluador de Atributos no importa OneR InfoGainClasificador lazy.IBk -K 3 meta.RC.RF meta.RC.RFPorcentaje Correcto 91.8947 77.8158 90.8947Tasa de VP 0.8700 0.2867 0.7433Tasa de VN 0.9376 0.9714 0.9724
Area bajo la curva ROC 0.9552 0.7332 0.9354
(b) Utilizando caracterısticas unicamente de la celula
Clasificador CaracterısticasM5 y el resto de Ms MET PCAs MET y PCAsEvaluador de Atributos OneR no importa GainRatioClasificador trees.RandomForest lazy.IBk -K 9 meta.RC.RFPorcentaje Correcto 84.3684 76.7895 83.3421Tasa de VP 0.7300 0.3867 0.4967Tasa de VN 0.8895 0.9171 0.9662
Area bajo la curva ROC 0.8664 0.7314 0.8498
92 CAPITULO 5. EVALUACION DE RESULTADOS
Tabla 5.7: Resultados de la clasificacion de las celulas con leucemia aguda por subtipos:M2, M3 y M5
(a) Utilizando caracterısticas del nucleo y citoplasma de la celula
Clasificador CaracterısticasM2, M3 y M5 MET PCAs MET y PCAsEvaluador de Atributos OneR ChiSquared ChiSquaredClasificador meta.RC.RF trees.RF meta.RC.RFPorcentaje Correcto 88.3947 63.6316 84.8684Tasa de VP 0.9044 0.8544 0.9044Tasa de VN 0.8936 0.5918 0.8264
Area bajo la curva ROC 0.9453 0.7964 0.9280
(b) Utilizando caracterısticas unicamente de la celula
Clasificador CaracterısticasM2, M3 y M5 MET PCAs MET y PCAsEvaluador de Atributos InfoGain ninguno OneRClasificador meta.RC.RF meta.RC.RF trees.RandomForestPorcentaje Correcto 66.6316 59.6316 66.1316Tasa de VP 0.8011 0.8033 0.7922Tasa de VN 0.6118 0.5191 0.6018
Area bajo la curva ROC 0.7837 0.7334 0.7866
5.2. CLASIFICACION DE CELULAS 93
Tabla 5.8: Resultados de la clasificacion de las celulas con leucemia aguda por subtipos:L1, L2, M2, M3 y M5
(a) Utilizando caracterısticas del nucleo y citoplasma de la celula
Clasificador CaracterısticasL1, L2, M2, M3 y M5 MET PCAs MET y PCAsEvaluador de Atributos GainRatio no importa ningunaClasificador meta.RC.RF functions.SMO meta.RC.RFPorcentaje Correcto 78.1712 52.648 77.4789Tasa de VP 0.7645 0.7164 0.7555Tasa de VN 0.9462 0.8859 0.943
Area bajo la curva ROC 0.9327 0.853 0.9233
(b) Utilizando caracterısticas unicamente de la celula
Clasificador CaracterısticasL1, L2, M2, M3 y M5 MET PCAs MET y PCAsEvaluador de Atributos InfoGain no importa ChiSquaredClasificador meta.RC.RF functions.SL meta.RC.RFPorcentaje Correcto 57.0000 45.0859 55.8586Tasa de VP 0.7099 0.7121 0.7258Tasa de VN 0.8288 0.6798 0.8030
Area bajo la curva ROC 0.8497 0.7500 0.8403
94 CAPITULO 5. EVALUACION DE RESULTADOS
Tabla 5.9: Comportamiento de los mejores clasificadores que analizan unicamente lainformacion de la celula al agregar caracterısticas del nucleo y citoplasma
Clasificador CaracterısticasLLA y LMA Nucleo y citoplasma CelulaCaracterısticas MET y PCAs MET y PCAs MET y PCAsEvaluador de Atributos no importa no importa no importaClasificador functions.SMO functions.SL functions.SLPorcentaje Correcto 92.1987 91.0051 81.3232Tasa de VP 0.9197 0.9232 0.8217Tasa de VN 0.9237 0.8934 0.8032
Area bajo la curva ROC 0.9217 0.9208 0.8992
Clasificador CaracterısticasL1 y L2 Nucleo y citoplasma CelulaCaracterısticas MET MET METEvaluador de Atributos no importa no importa no importaClasificador lazy. IBk -K 3 functions.SL functions.SLPorcentaje Correcto 84.4022 80.1087 76.7754Tasa de VP 0.8345 0.7536 0.6664Tasa de VN 0.8527 0.8368 0.8445
Area bajo la curva ROC 0.9069 0.8611 0.814
Clasificador CaracterısticasM2 y el resto de Ms Nucleo y citoplasma CelulaCaracterısticas MET MET METEvaluador de Atributos OneR OneR OneRClasificador meta.RC.RF meta.RC.RF meta.RC.RFPorcentaje Correcto 92.4474 92.4474 74.2368Tasa de VP 0.8833 0.8833 0.7056Tasa de VN 0.9618 0.9618 0.7755
Area bajo la curva ROC 0.9590 0.9590 0.8045
Clasificador CaracterısticasM3 y el resto de Ms Nucleo y citoplasma CelulaCaracterısticas MET MET METEvaluador de Atributos no importa GainRatio GainRatioClasificador lazy.IBk -K 1 meta.RC.RF meta.RC.RFPorcentaje Correcto 91.8947 88.3947 80.7895Tasa de VP 0.8045 0.5850 0.3900Tasa de VN 0.9550 0.9804 0.9400
Area bajo la curva ROC 0.8797 0.9208 0.7882esta tabla continua en la siguiente pagina
5.2. CLASIFICACION DE CELULAS 95
Tabla 5.9 - continuacion de la pagina anterior
Clasificador Caracterısticas
M5 y el resto de Ms Nucleo y citoplasma Celula
Caracterısticas MET MET MET
Evaluador de Atributos no importa OneR OneR
Clasificador lazy. IBk -K 3 trees.RF trees.RF
Porcentaje Correcto 91.8947 89.8684 84.3684
Tasa de VP 0.8700 0.7267 0.7300
Tasa de VN 0.9376 0.9652 0.8895
Area bajo la curva ROC 0.9552 0.9188 0.8664
Clasificador Caracterısticas
M2, M3 y M5 Nucleo y citoplasma Celula
Caracterısticas MET MET MET
Evaluador de Atributos OneR InfoGain InfoGain
Clasificador meta.RC.RF meta.RC.RF meta.RC.RF
Porcentaje Correcto 88.3947 84.3947 66.6316
Tasa de VP 0.9044 0.8744 0.8011
Tasa de VN 0.8936 0.8755 0.6118
Area bajo la curva ROC 0.9453 0.9316 0.7837
Clasificador Caracterısticas
L1, L2, M2, M3 y M5 Nucleo y citoplasma Celula
Caracterısticas MET MET MET
Evaluador de Atributos GainRatio InfoGain InfoGain
Clasificador meta.RC.RF meta.RC.RF meta.RC.RF
Porcentaje Correcto 78.1712 77.7220 57.0000
Tasa de VP 0.7645 0.7455 0.7099
Tasa de VN 0.9462 0.9462 0.8288
Area bajo la curva ROC 0.9327 0.9323 0.8497
96 CAPITULO 5. EVALUACION DE RESULTADOS
En la tabla 5.10 se presentan de los resultados del mejor clasificador para cada
experimento realizado.
Tabla 5.10: Mejores resultados en la clasificacion de las celulas con leucemia aguda.
Nucleo y Citoplasma Unicamente de la celulaClasificador Caract. % Clasif. % Clasif. Caract.
LLA vs LMA MET y pcas 92.1987 82.6818 METL1 vs L2 MET 84.4022 76.7754 MET
M2 vs Ms MET 92.4474 75.3158 MET y pcasM3 vs Ms MET 91.8947 81.3684 pcasM5 vs Ms MET 91.8947 84.3684 MET
M2 vs M3 vs M5 MET 88.3947 66.6316 METL1 vs L2 vs M2 vs M3 vs M5 MET 78.1712 57.0000 MET
Si se comparan los resultados obtenidos en la clasificacion de celulas con carac-
terısticas del nucleo y citoplasma con los resultados obtenidos al utilizar unicamente
las caracterısticas de la celula, se puede apreciar claramente que el describir las celulas
mediante las caracterısticas de los elementos que la componen mejora la representacion
de los datos. De la misma manera se puede concluir que las caracteristicas que propor-
cionan la mejor descripcion de las celulas con leucemias agudas son las caracterısticas
MET (morfologicas, estadısticas y de textura).
A continuacion se presenta graficamente el analisis con curvas ROC de los mejores
clasificadores. Ponga atencion a la escala de las graficas para que pueda interpretar las
curvas ROC correctamente.
5.2. CLASIFICACION DE CELULAS 97
(a) Caracterısticas del nucleo y citoplasma (b) Caracterısticas de la celula
Figura 5.4: Curva ROC de la clasificacion por tipos: LLA y LMA.
(a) Caracterısticas del nucleo y citoplasma (b) Caracterısticas de la celula
Figura 5.5: Curva ROC de la clasificacion por subtipos: L1 y L2.
(a) Caracterısticas del nucleo y citoplasma (b) Caracterısticas de la celula
Figura 5.6: Curva ROC de la clasificacion por subtipos: M2 y el resto de Ms.
98 CAPITULO 5. EVALUACION DE RESULTADOS
(a) Caracterısticas del nucleo y citoplasma (b) Caracterısticas de la celula
Figura 5.7: Curva ROC de la clasificacion por subtipos: M3 y el resto de Ms.
(a) Caracterısticas del nucleo y citoplasma (b) Caracterısticas de la celula
Figura 5.8: Curva ROC de la clasificacion por subtipos: M5 y el resto de Ms.
(a) Caracterısticas del nucleo y citoplasma (b) Caracterısticas de la celula
Figura 5.9: Curva ROC de la clasificacion por subtipos: M2, M3 y M5.
5.2. CLASIFICACION DE CELULAS 99
(a) Caracterısticas del nucleo y citoplasma (b) Caracterısticas de la celula
Figura 5.10: Curva ROC de la clasificacion por subtipos: L1, L2, M2, M3 y M5.
100 CAPITULO 5. EVALUACION DE RESULTADOS
Es importante mencionar que tambien se realizaron algunos experimentos que uti-
lizan datos balanceados utilizando tecnicas de sobremuestreo aleatorio y generacion de
ejemplos artificiales utilizando el algoritmo SMOTE (seccion 2.4.3). Como se puede
apreciar en la tabla 5.11, la precision obtenida en la clasificacion no representa mejoras
significativas en los resultados de la clasificacion.
Tabla 5.11: Comportamiento de los mejores clasificadores utilizando datos balanceados
Clasificador Clases BalanceadasLLA y LMA Sin balanceo SMOTE SobremuestreoEvaluador de Atributos no importa no importa no importaClasificador functions.SMO functions.SMO functions.SMOPorcentaje Correcto 92.1987 93.3333 92.1839Tasa de VP 0.9197 0.9282 0.9156Tasa de VN 0.9237 0.9393 0.9292
Clasificador Clases BalanceadasL1 y L2 Sin balanceo SMOTE SobremuestreoEvaluador de Atributos no importa no importa no importaClasificador lazy. IBk -K 3 lazy. IBk -K 3 lazy. IBk -K 3Porcentaje Correcto 84.4022 84.8101 80.1687Tasa de VP 0.8345 0.8627 0.8431Tasa de VN 0.8527 0.8370 0.7703
Clasificador Clases BalanceadasM2 y Resto de Ms Sin balanceo SMOTE SobremuestreoEvaluador de Atributos OneR OneR OneRClasificador meta.RC.RF meta.RC.RF meta.RC.RFPorcentaje Correcto 92.4474 88.8888 91.4141Tasa de VP 0.8833 0.8631 0.8947Tasa de VN 0.9618 0.9126 0.9320
5.3. ALGORITMO DE DIAGNOSTICO 101
5.3. Algoritmo de Diagnostico
Las tablas 5.12 y 5.13 presentadas a continuacion muestran los resultados obtenidos
de los algoritmos que combinan distintos clasificadores binarios y multiclase, respec-
tivamente, para realizar el diagnostico de tipos y subtipos de leucemia aguda en las
muestras de frotis disponibles para un paciente.
Tabla 5.12: Evaluacion del algoritmo de diagnostico para tipos y subtipos de leucemiasagudas fusionando la informacion de clasificadores binarios.
Clasificacion No. ejemplos % correcto % no determinado % incorrecto
Por tipos 63 92.0635 % 4.7619 % 3.1746 %LLA 34 88.2352 % 5.8824 % 5.8824 %LMA 29 96.5517% 3.4483 % 0 %
Por subtipos 43 81.3954 % 11.6279 % 6.9767 %L1 15 80 % 13.3333 % 6.6667 %L2 14 78.5714 % 14.2857 % 7.1429 %M2 6 83.3333 % 16.6667 % 0 %M3 3 66.6667 % 33.3333 % 0 %M5 5 100 % 0 % 0 %
Tabla 5.13: Evaluacion del algoritmo de diagnostico para tipos y subtipos de leucemiasagudas fusionando la informacion de clasificadores multiclase.
Clasificacion No. ejemplos % correcto % no determinado % incorrecto
Por tipos 63 95.2381 % 3.1746 % 1.5873 %LLA 34 94.1176 % 2.9412 % 2.9412 %LMA 29 96.5517% 3.4483 % 0.0000 %
Por subtipos 43 90.6977 % 4.6512 % 4.6512 %L1 15 86.6667 % 6.6667 % 6.6667 %L2 14 85.7143 % 7.1429 % 7.1429 %M2 6 100 % 0 % 0 %M3 3 100 % 0 % 0 %M5 5 100 % 0 % 0 %
102 CAPITULO 5. EVALUACION DE RESULTADOS
La evaluacion del algoritmo de diagnostico muestra que al conjuntar la informacion
de todos los clasificadores de todas las celulas del paciente se puede determinar el tipo
y subtipo de leucemias aguda con una precision mas adecuada.
No obstante, cuando se cuenta con muy pocas celulas de un ejemplo no es recomen-
dable utilizar el algoritmo de diagnostico, puesto que este es muy sensible a los errores
provenientes de la clasificacion incorrecta de las celulas.
5.4. Discusion
En este trabajo de tesis se propuso una metodologıa de analisis de celulas de medula
osea para la deteccion de subtipos de leucemia aguda.
El algoritmo de segmentacion de celulas propuesto presento robustez en los resulta-
dos ya que de manera no supervisada permitio la extraccion completa de los elementos
celulares contenidos en imagenes que muestran tinciones y texturas heterogeneas, ası co-
mo alta poblacion de celulas.
El espacio de color CIEL∗a∗b∗ utilizado en la segmentacion resalto en gran medida
las diferencias visuales de color entre los elementos de interes (celulas o nucleos) y el
resto de objetos en la imagen, permitiendo que estos elementos quedaran agrupados
adecuadamente en dos grupos. Esto permitio que las restricciones contextuales del co-
lor y textura de un canal de la imagen fueran incorporadas en un modelo binario de
segmentacion basado en CAM. De otro modo, si se utiliza otro espacio de color para
resolver este problema, el modelado con CAM se vuelve mas complejo puesto que pro-
bablemente requiere de la formacion de mas de 2 grupos e incluso de mas de una banda
de color para representar los elementos celulares de interes.
El diseno de un algoritmo de identificacion de celulas fue necesario debido a que las
regiones segmentadas resaltan regiones de la imagen similares a los elementos celulares
de interes, pero no se tiene seguridad de que realmente lo sean. Al incorporar infor-
macion contextual del color, posicion y forma de las regiones en la imagen se pudieron
detectar todas las celulas y discriminar las regiones que no son de interes, del mismo
modo se pudieron detectar uniones celulares. En este trabajo se propuso un algoritmo
de separacion de regiones traslapadas que completa el contorno de la estructura celular
con forma de conica, esto ocasiona que se tenga una mejor aproximacion del contorno
de la celula que el utilizar una lınea recta. Esta ventaja se vuelve mas notoria cuando
se incrementa la proporcion de traslape entre las celulas.
5.4. DISCUSION 103
La precision de la segmentacion en los elementos celulares identificados fue lo sufi-
cientemente buena para permitir una representacion mas completa de las celulas afec-
tadas mediante la descripcion de caracterısticas extraıdas de ella misma y de sus ele-
mentos que la conforman. Las caracterısticas descriptivas resultaron relevantes ya que
mejoraron los resultados en la clasificacion por subtipos de leucemias agudas.
Los resultados obtenidos en las distintas etapas de segmentacion e identificacion
de celulas, clasificacion y diagnostico fueron considerados suficientemente buenos para
pensar en automatizar el proceso de diagnostico de leucemias agudas.
Sin embargo, existen algunos detalles en el algoritmo de separacion que deben con-
siderarse para llegar a este fin. El algoritmo propuesto para la separacion de celulas
requiere de la intervencion manual del usuario que los puntos de separacion de traslape,
para automatizar este proceso se requiere disenar o emplear un algoritmo que detecte
todos los puntos concavos en donde existe traslape. Por otro lado, en el algoritmo pro-
puesto tampoco se mide el grado de traslape entre celulas, por lo que si las imagenes
que se separan estan muy traslapadas aunque la forma sea muy aproximada a la real,
se introduce ruido en la descripcion de las caracterısticas relacionadas con el color de
las otras regiones y puede afectar la precision alcanzada en el proceso de clasificacion.
5.4.1. Comparacion con trabajos previos
Debido a que los datos de prueba utilizados en este trabajo de tesis son distintos a los
manejados en otros trabajos previos y no se pudieron conseguir las imagenes procesadas
en estos ultimos, no fue posible evaluar los resultados de los algoritmos propuestos con
respecto a los presentados en trabajos previos. Sin embargo, nos podemos dar una idea
del desempeno de los algoritmos al analizar la informacion contenida en las tablas 5.14
y 5.15.
104 CAPITULO 5. EVALUACION DE RESULTADOS
Tabla 5.14: Tabla comparativa del metodo propuesto con trabajos previos en el procesode segmentacion de celulas
[WNC04] [CGS07] [TU05] [DML07] Propuesto
Caracterısticasde las imagenes
Formatode la imagen Gris Color Gris Gris Color
Contraste entre alto variable alto alto variableel fondo y las ROI
Celulas traslapadas si no no si sicon globulos rojos
Celulas traslapadas no no no no sicon celulas
Tipo de separacion lineal - - morfologica con formade conica
Evaluacion
Imagenes 22 ≈ 1600 376 100 633segmentadas
Imagenes para 22 - 376 - 20la evaluacion
Precisionnucleo sup. al 60 % no reporta 90.38 % no reporta 95.87 %celula (traslapes) 91.18 % 95.75 %
Criterio de no se - seg. - seg.comparacion especıfica manual manual
Tabla 5.15: Tabla comparativa del metodo propuesto con trabajos previos en el procesode clasificacion de subtipos de leucemias agudas
Ref. No. muestras Clasificador Precision Caracterısticas
[Mor06] LLA (251) LLA vs LMA 84.53 % MET CelulaLMA (251)
[Gal08] LLA (95) LLA vs LMA 88.24 % MET y PCAs CelulaLMA (74) L1 vs L2 89.6 % MET y PCAsL1 (65) M2 vs Ms 92.3 % MET y PCAsL2 (30) M3 vs Ms 88.46 % MET y PCAsM2 (38) M5 vs Ms 99.23 % MET y PCAsM3 (26)M5 (10)
Propuesto LLA (295) LLA vs LMA 92.20 % MET y PCAs NucleoLMA (338) L1 vs L2 84.40 % MET y CitoplasmaL1 (102) M2 vs Ms 92.45 % METL2 (135) M3 vs Ms 91.89 % METM2 (95) M5 vs Ms 91.89 % METM3 (47)M5 (56)
106 CAPITULO 5. EVALUACION DE RESULTADOS
Capıtulo 6
Conclusiones y Trabajo Futuro
6.1. Conclusiones
En el presente trabajo de investigacion se abordo el problema de la segmentacion
e identificacion de celulas sanguıneas desde un enfoque contextual para la clasificacion
y diagnostico de 5 subtipos de leucemias agudas. De acuerdo con los experimentos
realizados y los resultados alcanzados en este trabajo de investigacion se pueden hacer
las siguientes conclusiones:
En lo referente al algoritmo de segmentacion propuesto se confirmo que el emplear
la informacion contextual del color y textura de los pıxeles de la imagen permite ex-
traer el nucleo y citoplasma de la celula de una manera eficiente aun en imagenes que
presentaron alta poblacion de celulas y variaciones en color y textura.
Por otro lado, el enfoque contextual que se le dio al algoritmo de identificacion de
celulas permitio el reconocimiento de nucleos y citoplasmas de las mismas mediante el
analisis de la forma, el color y la relacion de contenido entre las regiones de interes.
Ademas este algoritmo permitio identificar uniones en las regiones de interes y sepa-
rarlas proporcionandole forma conica a la parte traslapada de la ROI. Los algoritmos
de reconocimiento y separacion de regiones permitieron completar el proceso de la seg-
mentacion de las celulas y su respectivo nucleo con una precision promedio del 95 % en
la segmentacion de imagenes de celulas sanguıneas reales cuando es comparada con la
segmentacion manual realizada por el experto. La precision que se alcanzo en la seg-
mentacion es considerada muy buena ya que origino que se tuvieran buenos resultados
en el proceso de clasificacion automatica de subtipos de leucemias agudas.
En lo que concierne al proceso de clasificacion de celulas se demostro que el uso de
107
108 CAPITULO 6. CONCLUSIONES Y TRABAJO FUTURO
las caracterısticas descriptivas del nucleo y citoplasma de las celulas mejoraron su repre-
sentacion, permitiendo incrementar el porcentaje en la identificacion del tipo y subtipo
de leucemia de manera significativa (7 % al 22 %) que cuando se utilizan unicamente
las caracterısticas descriptivas de la celula. La mejora en la precision de la clasificacion
de celulas permitio a su vez justificar el proceso de segmentacion, el cual cumplio con
uno de los objetivos planteados en un principio.
Los experimentos realizados al utilizar distintos clasificadores para categorizar el
subtipo de leucemia aguda manifestaron que las caracterısticas que mejor describen a
las celulas con leucemia son aquellas de naturaleza morfologica, estadıstica y de textura.
Este resultado confirmo que el analisis de las caracterısticas obtenidas en esta tesis
mediante el proceso de minerıa de datos es aproximado al analisis efectuado por el
experto en el estudio de microscopia optica para la deteccion de leucemias agudas, ya
que ambos analizan las caracterısticas morfologicas y las variaciones del color en el
nucleo y citoplasma de la celula para determinar el subtipo al que pertenecen. Ademas,
los expertos en el dominio consideran que la precision obtenida en la evaluacion de la
clasificacion es suficientemente buena para ser utilizada en el algoritmo de diagnostico.
Con lo que respecta al algoritmo de diagnostico se comprobo que al fusionar distintos
clasificadores fue posible reducir el numero de falsos positivos y negativos presentados en
los distintos clasificadores, esto permitio alcanzar una precision del 95 % en la prediccion
del diagnostico por tipos de leucemias y del 90 % en el diagnostico de subtipos. Ademas
se analizo que en los ejemplos en los que no se pudo determinar el tipo o subtipo de
leucemia aguda, parte del error generado se debio a que existen pocos ejemplos de
celulas del paciente y que algunos de estos fueron mal clasificados.
Los resultados anteriores mostraron que el uso de la informacion contextual en
el proceso de segmentacion, identificacion y clasificacion de celulas puede aplicarse
eficientemente en el diagnostico de tipos y subtipos de leucemias agudas.
6.2. TRABAJO FUTURO 109
6.2. Trabajo Futuro
Una posible lınea de investigacion es realizar mejoras al algoritmo de segmentacion
e identificacion de celulas que aquı se propuso, para esto se pueden realizar lo siguiente:
Refinar el proceso de separacion de celulas; en esta tesis completamos las regiones
utilizando una forma de conica, sin embargo, se puede utilizar la informacion del
propio contorno de la celula para completar la region.
Ampliar el algoritmo de identificacion celulas sanguıneas para que permita reco-
nocer globulos rojos, plaquetas y otros componentes de la sangre.
Proponer un algoritmo de segmentacion para encontrar los nucleolos y granuloci-
tos dentro del nucleo.
Otra posible lınea es trabajar en el proceso de clasificacion de celulas, aquı se puede:
Ampliar la coleccion de imagenes digitales para identificar otros subtipos de leu-
cemias o celulas normales.
Definir nuevos atributos con base en nuevas subregiones segmentadas como pue-
den ser los nucleolos y granulocitos.
Proponer caracterısticas de relacion espacial de los elementos y subsegmentos que
conforman la celula.
Aplicar nuevas tecnicas de seleccion de atributos y minerıa de datos para mejo-
rar la precision en la clasificacion por subtipos de leucemias agudas hasta ahora
alcanzada.
Aplicar las caracterısticas descriptivas del nucleo y citoplasma de las celulas apli-
cadas en este trabajo para reconocer tipos de globulos blancos.
Como trabajo futuro en la parte del algoritmo de diagnostico se sugiere obtener
un mayor numero de imagenes por paciente para mejorar la precision del algoritmo de
decision, y probar distintos clasificadores y teorıas de decision que generen resultados
mas confiables a los obtenidos hasta el momento.
Bibliografıa
[AAS04] Aurora Agudo, Juan Carlos Alonso, and Ruth Santana. Evaluacion de
modelos para prediccion meteorologica. Universidad Carlos III de Madrid,
2004.
[BC05] Alejandro Boris and Zaida Cebrian. Diagnostico cardiologıa. Inteligencia
en redes de comunicaciones, 2005.
[Bes74] J. Besag. Spatial interaction and the statistical analysis of lattice systems.
Journal of the Royal Statistical Society, 36:192–236, 1974.
[CGS07] Sara Colantonio, Igor Gurevich, and Ovidio Salvetti. Automatic fuzzy-
neural based segmentation of microscopic cell images. Advances in Mass
Data Analysis of Signals and Images in Medicine, Biotechnology and Che-
mistry, 4826:115–127, 2007.
[CS09a] Color-Spaces. Introduction to color and color management sys-
tems. http://developer.apple.com/dev/techsupport/insidema/ACI/ACI-
45.htm. fecha de consulta: 9 de Abril, 2009.
[CS09b] Color-Spaces. A practical guide and tutorial to digital color ma-
nagement for photographers. http://www.booksmartstudio.com/color
tutorial/colortheory4.html. fecha de consulta: 9 de Abril, 2009.
[DML07] Leyza Baldo Dorini, Rodrigo Minetto, and Neucimar Jeronimo Leite. Whi-
te blood cell segmentation using morphological operators and scale-space
analysis. XX Brazilian Symposium on Computer Graphics and Image Pro-
cessing. SIBGRAPI., 3118:294–304, 2007.
[Fau08] Fauci. Medicina interna. McGraw-Hill, ed. 17a, 2008.
111
112 BIBLIOGRAFIA
[Fra93] Joseph M. Francos. A unified texture model based on a 2-d wold-like de-
composition. IEEE Transactions on signal processing, 41:2665–2678, 1993.
[Gal08] Martha Coral Galindo. Obtencion de caracterısticas de subtipos de leucemia
en imagenes digitales de celulas sanguıneas para su clasificacion. Instituto
Nacional de Astrofısica, Optica y Electronica. Tesis de Maestria, 2008.
[Gmb07] MVTec Software GmbH. Halcon/hdevelop reference manual. Munchen,
Germany, May 2007.
[GPE09] Ernesto Gonzalez, Zady Perez, and Ivet Espinosa. Tecnicas de mi-
nerıa de datos. http://www.monografias.com/ trabajos55/mineria-de-
datos/mineria-de-datos.shtml fecha de consulta: 4 de Mayo, 2009.
[GSM01] Leticia Guimaraes, Altamiro Suzim, and Junji Maeda. A circle similarity
algorithm for an automatic circular decomposition of blood cell images.
Optical review, 6:436–443, 2001.
[HEM09a] HEMATOLOGIA. Association of cancer online resources. http://www.
acor.org/cnet/256696.html. fecha de consulta: 15 de Abril, 2009.
[HEM09b] HEMATOLOGIA. El mundo salud, leucemias agudas, tipos de leucemias.
http://www.elmundo.es/elmundosalud/especiales/cancer/leuc agudas2.html.
fecha de consulta: 27 de Mayo, 2009.
[HEM09c] HEMATOLOGIA. Leucemia y transtornos mieloproliferativos. http://
www.altillo.com/medicina/monografias/leucemia.asp. fecha de consulta: 15
de Abril, 2009.
[HEM09d] HEMATOLOGIA. Leucemias. programa de actualizacion continua para
medicina general. http://www.drscope.com/ pac/mg/a5/mga5 p23.htm. fe-
cha de consulta: 6 de Mayo, 2009.
[HFH+] Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer, Peter Reute-
mann, and Ian H. Witten. The weka data mining software: An update.
SIGKDD Explorations, Volume 11, Issue 1, 2009.
[HK01] Jiawei Han and Micheline Kamber. Data mining, concepts and techniques.
Morgan-Kaurmann. Academic Press, 2001.
BIBLIOGRAFIA 113
[HSP02] Heiko Hengena, Susanne Spoor, and Madhukar Pandi. Analysis of blood and
bone marrow smears using digital image processing techniques. Progress in
biomedical optics and imaging, 3:624–635, 2002.
[INE08] INEGI. Instituto nacional de estadıstica, geografıa e informatica. consulta
en lınea. http://www.inegi.gob.mx. fecha de consulta: 5 de Junio, 2008.
[KJC+01] Kyungsu Kim, Jeonghee Jeon, WanKyoo Choi, Pankoo Kim, and Yo-Sung
Ho. Automatic cell classification in human’s peripheral blood images ba-
sed on morphological image processing. Australian Joint Conference on
Artificial Intelligence, 2256:225–236, 2001.
[KJS02] B. R. Kumar, D. K. Joseph, and T.V Sreenivas. Teager energy based blood
cell segmentation. 14th International conference on digital signal processing,
2:619–622, 2002.
[Kla05] Dag Klaveness. Photography in limnology: documentation of lake color
using a ccd camera. Limnology, 6:131–136, 2005.
[KMB06] P. Kakumanu, S. Makrogiannis, and N. Bourbakis. A survey of skin-color
modeling and detection methods. Science Direct, Pattern Recognition,
40:1106 – 1122, 2006.
[LA08] Erika Danae Lopez and Leopoldo Altamirano. A method based on tree-
structured markov random field and a texture energy function for classifi-
cation of remote sensing images. 5th International Conference on Electrical
Engineering, Computing Science and Automatic Control, :540–544, 2008.
[Lev85] M. Levine. Vision in man and machine. McGraw-Hill, 1985.
[Lew01] Michael S. Lew. Principles of visual information retrieval. Series: Advances
in Pattern Recognition, 2001.
[Li00] Stan Z. Li. Modeling image analysis problems using markov random fields.
Handbook of Statistics Elsevier Science, 20:1–43, 2000.
[Loz02] Jose Antonio Lozano. Leucemias agudas. ONCOLOGIA OFFARM No.6
Junio, 21:117–122, 2002.
114 BIBLIOGRAFIA
[LP99] Fang Liu and Rosalind W. Picard. A spectral 2d wold decomposition al-
gorithm for homogeneous random fields. Proceedings of the International
Conference on Acoustics, Speech and Signal Processing, 6:3501–3504, 1999.
[LVBV05] Fernando Lopez, Jose Miguel Valiente, Ramon Baldrich, and Marya Vanrell.
Fast surface grading using color statistics in the cie lab space. Pattern
Recognition and Image Analysis, 3523:666–673, 2005.
[Mat08] Matlab. Image processing toolbox tm 6 user’s guide. The MathWorks, Inc.,
2008.
[MB09] David Medina and Pablo Barasoain. Diagnostico en cardiologıa.
www.it.uc3m.es/jvillena/irc/practicas/05-06/5mem.pdf fecha de consulta: 4
de Mayo, 2009.
[Men08] Luis Javier Mena. Aprendizaje automatico a partir de conjuntos no ba-
lanceados y su aplicacion en el diagnostico y pronostico medico. Instituto
Nacional de Astrofısica, Optica y Electronica. Tesis de Doctorado, 2008.
[MOG+05] Blanca A. Morales, Ivan Olmos, Jesus A. Gonzalez, Leopoldo Altamirano,
Jose E. Alonso, and Ruben Lobato. Digitalizacion de frotis de medula osea
de pacientes con leucemia aguda. Laboratorio de Especialidades del Instituto
Mexicano del Seguro Social, 2005.
[Mor06] Blanca Aurora Morales. Extraccion de caracterısticas en imagenes de celulas
de medula osea para la clasificacion de leucemias agudas. Instituto Nacional
de Astrofısica, Optica y Electronica. Tesis de Maestria, 2006.
[MRGG07] Roxana Martın, Rosa Marıa Ramos, Ricardo Grau, and Marıa Matilde
Garcıa. Aplicacion de metodos de seleccion de atributos para determinar
factores relevantes en la evaluacion nutricional de los ninos. Gaceta Medica
Espirituana, 2007.
[MS82] Andrzej Materka and Michal Strzelecki. Texture analysis methods – a re-
view. Academic Press, 1, 1982.
[Pas01] George Paschos. Perceptually uniform color spaces for color texture. IEEE
Transactions on Image Processing, 10:932–937, 2001.
BIBLIOGRAFIA 115
[Per09] Marıa Eglee Perez. Analisis de componentes principales.
http://www.cesma.usb.ve/ eglee/co5314/clases/clase4.pdf. fecha de consul-
ta: 20 de Septiembre, 2009.
[RASM96] Guillermo J. Ruiz-Argueles and Jesus San-Miguel. Actualizacion en leuce-
mias. Editorial medica panamericana, 1, 1996.
[RK82] A. Rosenfeld and A. Kak. Digital picture processing. Academic Press, 1,
1982.
[RL93] A. Ravishankar Rao and G. LT Lohse. Towards a texture naming system:
Identifying relevant dimensions of texture. IEEE Conference on Vizualiza-
tion, 36:220–227, 1993.
[SG08] G.N. Srinivasan and G.Shobha. Statistical texture analysis. Procedings
of World Academy of Science, Engineering and Technology, 36:1264–1269,
2008.
[San07] Danel Sanchez. Pronostico de supervivencia de infarto cerebral atero-
trombotico usando aprendizaje automatizado. VI Congreso Internacional
de Informatica en Salud, 2007.
[TU05] Nipon Theera-Umpon. White blood cell segmentation and classification in
microscopic bone marrow images. Fuzzy Systems and Knowledge Discovery,
3614:787–796, 2005.
[Wik09] Wikipedia. Wikipedia la enciclopedia libre. consulta en lınea.
http://es.wikipedia.org/wiki/Excentricidad (ciencias exactas). fecha de
consulta: 20 de Septiembre, 2009.
[WMC08] Qiang Wu, Fatima A. Merchant, and Kenneth R. Castleman. Microscope
image processing. Elsevier, 2008.
[WNC04] Chee Sun Won, Jae Yeal Nam, and Yoonsik Choe. Segmenting cell images:
a deterministic relaxation approach. Computer Vision and Mathematical
Methods in Medical and Biomedical Image Analysis, 3117:281–291, 2004.
[WS07] Weixing Wang and Hao Song. Cell cluster image segmentation on form
analysis. IEEE International Conference on Natural Computation, 4:833–
836, 2007.
116 BIBLIOGRAFIA
[ZT01] Jianguo Zhang and Tieniu Tan. Brief review of invariant texture analysis
methods. Pattern Recognition Society, 35:735–747, 2001.