tesina jean paul cesari final v38 - mti · 2018-12-05 · ¿ºÇ¶ÃÄºµ²µ ì´¿º´²...

Universidad Técnica Federico Santa María Departamento de Informática

Magíster en Tecnologías de la Información

1

Modelo predictivo para determinar la Tasa Churn en pacientes de un centro médico

Jean Paul Cesari Vigneau

DarSalud Ltda. Luis Rodríguez Velasco 4717, Las Condes, Región Metropolitana

[email protected]

Resumen: El presente trabajo se centra en el estudio del comportamiento de los clientes de la empresa Darsalud Ltda para poder predecir si aumentará o disminuirá el número de clientes. Para esto se aplica un modelo predictivo sobre los datos existentes para determinar el churn rate. Dentro del estudio se revisan diversos modelos y técnicas de minería de datos, además se realiza una rápida mirada a los métodos tradicionales de desarrollo de proyectos de minería de datos. El trabajo se lleva a cabo con la metodología CRISP-DM que incluye la compresión del negocio, la compresión de los datos, la preparación de los datos, el modelado, la evaluación y conclusiones. Las técnicas predictivas con la que se realiza el estudio son el algoritmo KNN, un árbol de decisión simple y un árbol de decisión ramdom forest, buscando así pronosticar un churn rate para cada cliente con los datos históricos de la empresa fijando como ventana de tiempo 1 año. Los métodos de validación son el análisis de curva de ROC, índice de Kappa y la matriz de confusión. Palabras Clave: Tasa de Churn, minería de datos, árboles de decisión, CRISP-DM.

1 Identificación del Problema

1.1 Descripción de la Empresa

Darsalud Ltda. es una empresa familiar creada en el año 2007, que nace para satisfacer las necesidades de los pacientes, contando con profesionales comprometidos con el bienestar y la salud de los chilenos. Es un centro médico que pretende ser la mejor opción en calidad, equipamiento y accesibilidad de precio. Sus sedes ubicadas en la Región Metropolitana y en San Antonio, cuentan con instalaciones para realizar consultas médicas de medicina general más especialidades, exámenes médicos en las áreas de oftalmología, neurología, cardiología, además de broncopulmonares y otorrinos, realiza procedimientos dermatológicos, ginecológicos, oftalmológicos, dermo-estetica y otorrinos. La empresa cuenta con un equipo de tecnólogos, enfermeras y auxiliares paramédicos para realizar técnicas inherentes a su especialidad tal como: Toma de muestras para exámenes de laboratorio, curaciones y tratamientos.

1.2 El Problema

En los últimos años se ha experimentado un fuerte incremento en la apertura de nuevos centros médicos a lo largo del país, quedando la incógnita de cómo se comportan los clientes y si los actuales centros médicos se ven afectados negativamente al encontrar mayor competencia dentro de la misma zona geográfica. La empresa nunca ha realizado un estudio del comportamiento de sus clientes y tampoco existe información sobre si sus clientes vuelven a atenderse con ellos. Actualmente, la tecnología permite realizar una predicción sobre la fuga de clientes, tomando los datos históricos almacenados por la empresa, y a partir de ellos, saber si un cliente volverá a atenderse o no en el centro médico; de esta manera se espera mejorar las estrategias comerciales de retención de clientes en la empresa.



2

1.3 Objetivos de una Solución

1.3.1 Objetivo General

Como objetivo de la investigación se espera predecir qué clientes volverán a atenderse en el centro médico, a través de un modelo predictivo que presente métricas que permiten validar el modelo. De esta manera entregar a la empresa información que le permita aumentar la lealtad de los clientes, mediante técnicas comerciales más personalizadas o enfocada a grupos más específicos. 1.3.2 Objetivos Específicos Con respecto al objetivo general, se identifican los siguientes objetivos específicos:

Evaluar distintos algoritmos e identificar cuál entrega una mayor certeza y un área bajo la curva (AUC) en la presente investigación, con el fin de seleccionar la técnica que contribuya a realizar observaciones de forma más oportuna y precisa. Identificar a un grupo de clientes que le permitan al área comercial realizar técnicas de retención más personalizadas.

1.4 Hipótesis

A partir de un mínimo de datos es posible generar una predicción sobre los clientes respecto al churn mostrando métricas de criterio eficiente que validen el modelo. Dentro de los diversos algoritmos de minería de datos debe existir al menos uno que cumpla con los criterios de validación revisados en la literatura, en donde se identifica a un grupo de clientes, realizando sobre los ellos una predicción de si volver a atenderse en el centro médico.

1.5 Validación

La validación se realiza aplicando las métricas de criterio revisadas en la bibliografía para los modelos de clasificación binaria. Cada uno de los modelos desarrollados en la tesina es evaluado, de manera tal que se pueda saber qué modelo se comporta de manera correcta o incorrecta respecto a los datos [17]. Los modelos de clasificación binaria producen una clasificación que oscila entre 0 y 1. Para tomar la decisión sobre si la observación debe clasificarse como 1 o 0, interpreta la puntuación seleccionando un umbral de clasificación o de corte y compara la puntuación con dicho umbral. Cualquier observación con puntuaciones superiores al valor de corte se predice como objetivo = 1 y las puntuaciones inferiores al corte, se predicen como objetivo = 0. El corte de puntuación por defecto es de 0,5. La métrica de precisión estándar del sector para modelos de clasificación binaria denominada “Area Under the Curve” (AUC) [18], mide la capacidad del modelo de predecir una mayor puntuación para ejemplos positivos en comparación con ejemplos negativos. Para una mayor exactitud en el análisis del modelo, se complementa con los datos obtenidos desde la matriz de confusión para el cálculo de la sensibilidad, especificidad y certeza (Accuracy), además del índice de kappa como medida de criterio para el efecto del azar.

1.6 Estructura del Informe

La presente tesina está compuesta por 4 capítulos; el primer capítulo comprende la descripción de la empresa Darsalud Ltda., la descripción del problema, objetivo general, objetivos específicos, la formulación de la hipótesis, la validación y la estructura del informe.



3

El capítulo número dos corresponde al marco teórico y el estado del arte; en el marco teórico se revisan las metodologías de minería de datos, las técnicas de minería de datos tanto descriptivas como predictivas y las métricas de evaluación. En el estado del arte se discuten trabajos similares de desarrollo de modelos predictivos. En el capítulo número tres se presenta el diseño de la solución en donde se aplica la metodología de minería de datos CRISP-DM; este capítulo explica el desarrollo de la investigación realizada, comenzando por la comprensión del negocio, seguido de la comprensión de los datos, la preparación de los datos, el modelado de la solución, la selección de las técnicas de minería, el desarrollo de 3 modelos: El primero con el algoritmo “árbol de decisión simple”, el segundo con un “árbol de decisión random forest” y el tercero con el algoritmo “KNN”. Para los dos primeros modelos se realizan pruebas con 4 heurísticas diferentes (“Gain Ratio”, “Information Gain”, “Gini Index” y “Accurracy”), en el algoritmo KNN se trabaja con la heurística “Mixedeuclideandistance”. Finalmente se entrega la evaluación de los modelos, que busca encontrar el que más se adapte a los datos existentes; junto con la validación de la hipótesis y el despliegue. En el capítulo número cuatro se encuentran las conclusiones de la tesina.

2 Marco Teórico y Estado del Arte

2.1 Estado del Arte

El modelo de churn para las empresas es una medida crítica, pues le afecta en su valor, en la rentabilidad de sus canales de comercialización y la sostenibilidad a largo plazo de todo su negocio. Se define churn rate como la medida de la tasa de abandono de clientes; la fórmula para calcular el churn rate es:

Churn Rate = número de clientes perdidos en un período / número de clientes al inicio Existen dos tipos de churn rate: voluntario e involuntario. El churn rate voluntario es cuando por decisión propia el cliente decide cambiar de compañía o servicio, mientras que el churn rate involuntario sucede cuando el cliente deja la empresa debido a una causa externa como la reubicación de una zona geográfica, la falta de factibilidad técnica del servicio en la zona, la caída en morosidad, y en caso extremo, la muerte. En el trabajo denominado “Predicción de clientes para una institución financiera mediante support vector machine” [3] se desarrolla el problema sobre fuga de clientes aplicando un modelo predictivo de minería de datos, confrontando un modelo de redes neuronales (MPL) vs support vector machine (SVM). El modelo desarrollado fue comparado con el sistema de predicción de fugas que poseía la institución; en el análisis realizado, el modelo MLP presentó una mayor varianza que el modelo SVM, a la vez que se observa una mayor tasa de aciertos en el modelo SVM que en el MPL en la detección de fuga de clientes. El problema planteado se trató con un enfoque de clasificación binaria; este tipo de procedimiento se basa en la determinación de una función clasificadora que permite asignar a cada objeto una de las dos clases definidas, en este caso llamadas “fuga” y “no fuga”. El trabajo consigue identificar la fuga de clientes focalizando las técnicas comerciales de retención de clientes logrando que sean más eficaces y eficientes en sus políticas de retención, así se obtiene que la empresa sea más productiva en la asignación de ejecutivos comerciales a los clientes y se mejora el servicio hacia los clientes, identificando los principales focos de deficiencia de servicio hacia ellos; de forma directa, la empresa retiene los clientes fugitivos y los mantiene como clientes activos captando sus flujos futuros. En el trabajo de [6] se determina un modelo predictivo de riesgo suicida en cuanto a variables individuales, familiares y sociales en consultantes a servicios de salud mental de la Región Metropolitana utilizando la metodología KDD y el algoritmo SVM. La investigación se centra en encontrar un patrón para reducir el suicidio basándose en datos obtenidos de una encuesta aplicada a los pacientes; plantea un modelo matemático estadístico generando rankings entre las variables y relaciones entre ellas para así reducir el número de



4

variables al mínimo, así logra un modelo con un 77.9% de precisión, 77% en sensibilidad y 79% de especifidad. Cabe destacar el trabajo conjunto que con lleva una evaluación experta del ámbito psicológico para la generación de la encuesta y la relación de las dependencias entre variables. En cuanto a metodologías, en [5] se analiza a través de un modelo de minería de datos, el comportamiento de las empresas pertenecientes a la Región Metropolitana que fueron usuarias de la franquicia tributaria de capacitación SENCE en el periodo 2007-2012. Este destaca por la utilización de la metodología CRISP-DM para el desarrollo del proceso en comparación al clásico modelo KDD acrónimo de “Knowledge Discovery in Databases”. En [4] se aplica minería de datos para predecir la fuga de clientes en la industria de las telecomunicaciones y ésta utiliza el modelo KDD para el desarrollo de la metodología de minería de datos. El trabajo destaca en su conclusión que la clave de su investigación se basa en la variable a trabajar (churn). Para desarrollar proyectos de minería de datos, existen diversas metodologías de trabajo tales como KDD, SEMMA y CATALYST, aunque en el mercado la más reconocida es CRISP-DM, las cuales se explican a continuación.

2.2 Metodologías para Proyectos de Minería de Datos

A principios de 1996 aparece la primera metodología de minería de datos (KDD) aceptada por la comunidad científica, en donde se establecían etapas para el descubrimiento de conocimiento, posteriormente aparecen 3 nuevos modelos (SEMMA, CRISP-DM y CATALYST) [1]. KDD El modelo KDD (Knowledge Discovery in Databases) se remonta a 1995 con la primera conferencia internacional sobre minería de datos y descubrimiento de la información, pero el modelo como tal fue presentado a principios del año 1996 [6]. Las etapas del modelo KDD son:

Selección de datos: Se identifica el o los KPI u objetivos a ser trabajados identificando en esta etapa la fuente de los datos y el tipo de información a utilizar.

Preprocesamiento: Se preparan y limpian los datos extraídos, eliminando tanto campos en blanco como

datos incompletos y con formato erróneos, entre otros casos.

Transformación: Consiste en el tratamiento de los datos, transformación de variables, normalización y generación de nuevas variables a partir de las existentes con una estructura de datos apropiada.

Minería de datos: En esta etapa se aplican las técnicas de minería de datos sobre el conjunto de datos

preparados y se configuran los parámetros internos buscando el mejor funcionamiento de las técnicas de minería de datos para obtener los mejores resultados.

Interpretación / evaluación: Identifican patrones, análisis y entendimiento de los resultados para llegar a una conclusión.

CRISP-DM Dentro de los modelos propuestos en el área de minería de datos, CRISP-DM (Cross Industry Standard Process for Data Mining) es el más reconocido actualmente. Este modelo fue creado en el año 2000 por un grupo de empresas y es la guía de referencia más utilizada en la industria de minería de datos. Se compone de seis fases [1]:

Comprensión del negocio: La primera tarea comprende la comprensión de los objetivos y requisitos del proyecto desde una perspectiva empresarial o institucional; hay que interiorizarse con la empresa en sus



5

procesos, con su cultura de trabajo, objetivos y alcances. En esta etapa de análisis se realiza el levantamiento de requerimientos para determinar qué es lo que se necesita, visto desde una perspectiva empresarial.

Comprensión de Datos: Comienza con una recolección inicial de datos y procesos con sus actividades con

el objetivo de lograr familiarizarse con los datos. Es importante evaluar la calidad de los datos para tener una claridad sobre los posibles problemas que se proyecten en la base de datos; de esta manera se logra descubrir las primeras variables que se pueden utilizar dentro de los datos y detectar temas interesantes para poder formular la hipótesis.

Preparación de datos: Esta fase cubre todas las actividades para construir el conjunto de información, la

cual está directamente relacionada con el objetivo a lograr. Las tareas incluyen selección de datos además de transformación de tablas, registros y o atributos para la limpieza de los mismos. Estas tareas son ejecutadas en múltiples oportunidades y sin orden.

Modelado: En esta fase se suelen tener múltiples iteraciones en donde se seleccionan y aplican varias

técnicas de minería de datos; lo normal es probar varios algoritmos con sus valores por defecto. Una vez hecho esto ya identificadas, se eligen las que mejor se ajustan al conjunto de datos y se comienzan a configurar los parámetros internos, buscando así lograr el mejor rendimiento. Es muy extraño que se utilice un sólo modelo, por lo que algunas veces se encuentra más de una solución para un problema propuesto.

Evaluación: La fase se divide en dos partes, la primera es la evaluación técnica de los modelos con

respecto a las métricas de operación, para saber si son correctos y efectivos; la segunda es la evaluación comercial, respecto a los criterios definidos, en donde se extraen indicadores para medir la calidad y si se logran los objetivos planteados.

Despliegue: Esta fase depende de los requerimientos, pudiendo ser simple como la generación de un reporte, o compleja como la implementación de un proceso de explotación de información que atraviese a toda la organización.

SEMMA El modelo SEMMA (Sample, Explore, Modify, Model, and Assess) fue desarrollado por el instituto SAS para implementar aplicaciones orientadas a la minería de datos, pero se considera una metodología muy general debido a la amplitud que presentan sus etapas [1]. Los cuales son:

Muestreo: Corresponde a la toma de muestras de datos, seleccionando el conjunto a trabajar.

Exploración: Se refiere a la comprensión de los datos seleccionados, anteriormente trabajados, en donde se descubren relaciones y anomalías en ellos.

Modificación: En esta etapa se seleccionan, crean y transforman variables, preparando el conjunto de datos para ser trabajados de forma cómoda.

Modelado: Etapa en la cual se aplica la técnica de minería de datos para generar información relevante a partir de los datos.

Evaluación: Etapa en la cual se revisa la fiabilidad del modelo, su utilidad real y se realizan conclusiones del resultado obtenido.

P3TQ (Catalyst) Catalyst también es conocida como la metodología P3TQ (Product, Place, Price, Time, Quantity). Las relaciones entre estas variables buscan mantener el producto correcto, en el lugar adecuado, en el momento



6

adecuado, en la cantidad correcta y con el precio correcto. Esta metodología plantea la formulación de dos modelos: el modelo de negocios y el modelo de minería de datos [15].

2.3 Técnicas de Minería de Datos

La minería de datos es un conjunto de métodos estadísticos y computacionales que permiten realizar cálculos en grandes cantidades de datos; en los últimos años se ha vuelto un tema de interés debido a la big data presente en muchas empresas para las cuales sin métodos computacionales es imposible para un ser humano poder generar conocimiento de ella [8]. Las técnicas de minería de datos se dividen en dos grandes clases: predictivas o de aprendizaje supervisado, que permiten estimar valores futuros o desconocidos de variables importantes a partir de otras variables; las descriptivas o de aprendizaje no supervisado, que permiten buscar patrones que explican o resumen los datos [7]. Las técnicas de aprendizaje supervisado se centran en el concepto de la clasificación y las técnicas de aprendizaje no supervisados se centran en el concepto de similitud o segmentación. 2.3.1 Técnicas Predictivas o de Aprendizaje Supervisado Las técnicas predictivas son aquellas que realizan la observación en el grupo de datos [7], se sabe con certeza que los datos similares tienen grupos o clases similares, en el caso particular de las técnicas de clasificación se tiene que la similitud es inversa a la distancia en los datos; esto quiere decir que los datos que presentan menor distancia entre si son más similares y los que presentan mayor distancia son distintos. Las técnicas predictivas se clasifican o dividen en grupos como se explica a continuación:

a) Clasificación: Son los métodos que buscan una función que explique la organización de los elementos de uno o varios grupos de elementos. Aquellos métodos que reducen la función a partir de un conjunto de elementos de datos de entrenamiento se les llama métodos o técnicas de aprendizaje supervisado. Árbol de decisión: Un modelo predictivo comúnmente utilizado; dado un conjunto de datos se fabrican

diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que ocurren de forma sucesiva, para la resolución de un problema. Las hojas del árbol representan etiquetas de clase y las ramas representan las conjunciones de características que conducen a esas etiquetas de clase.

Modelos estadísticos: Una ecuación matemática que reproduce los fenómenos que se observan de la forma más exacta posible. Para ello tiene en cuenta los datos suministrados y la influencia que el azar tiene en estas observaciones.

Métodos bayesianos: Son aquellos que estiman la probabilidad de pertenencia de una clase o grupo mediante la estimación de probabilidades condicionales inversas o predicen las probabilidades de pertenencia a una clase usando el teorema de bayes.

Máquinas de soporte vectorial: Son aquellos que trabajan en espacios multidimensionales y maximizan el espacio entre los grupos o las clases formadas, usando transformaciones para aumentar el espacio dimensional (kernel).

Redes neuronales: Son un modelo computacional basado en un gran conjunto de unidades neuronales simples (neuronas artificiales), de forma análoga al comportamiento observado en los axones de las neuronas en los cerebros biológicos. Cada unidad neuronal está conectada con muchas otras y los enlaces entre ellas pueden incrementar o inhibir el estado de activación de las neuronas adyacentes.



7

Métodos basados en casos o vecindad: Son los métodos que se basan en las distancias entre los elementos de un grupo y o la distancia al resto de los elementos de forma directa o de una forma más sofisticada.

b) Interpolación o predicción secuencial: Estos métodos se dividen en dos grupos. El primero donde los

datos son valores reales, se nombran como métodos de datos continuos; el segundo donde los datos son representados como una imagen o un conjunto de vectores, son llamados métodos de datos discretos. Los métodos discretos son técnicas específicas que suelen utilizar algoritmos genéticos o algoritmos de enumeración refinados. En los métodos de datos continuos se encuentran la regresión lineal y la no lineal. La regresión lineal es un modelo matemático usado para aproximar la relación de dependencia entre una variable dependiente “Y”, las variables independientes “Xi” y un término aleatorio; la regresión lineal se divide en la regresión lineal clásica y la ponderada. La regresión no lineal considera modelos matemáticos algorítmicos o basados en la técnica “pick and mix”.

c) Pronósticos: Es el proceso de estimación en situaciones de incertidumbre centrado en la dependencia del dato en una serie de tiempo determinado. Los pronósticos, por lo general, son procesos críticos y continuos que se necesitan para obtener buenos resultados durante la planificación.

A continuación, se mencionan algunos algoritmos predictivos.

a) SVM: Máquinas de vector soporte (Support Vector Machine) son un conjunto de algoritmos de aprendizaje

supervisado desarrollados para encontrar clasificadores lineales en espacios transformados [15]. b) Algoritmos de árboles de decisión: Algoritmo predictivo de clasificación consiste en una división

jerárquica y secuencial del problema, en el que cada una de estas divisiones describe gráficamente las decisiones posibles y las distintas combinaciones de decisiones o eventos. A cada evento se le asigna una probabilidad y a cada una de las ramas se le determina un resultado. Los algoritmos más utilizados son CART, ID3 y C4.5. Los árboles de clasificación (CART) son aquellos donde la variable de destino puede tomar un conjunto finito de valores y los árboles de regresión son aquellos que la variable de destino puede tomar valores continuos. Los algoritmos anteriormente mencionados construyen el árbol de decisión desde un set fijo de “ejemplos”, el árbol de decisión generado se usa para clasificar futuros ejemplos. Cada ejemplo tiene varios atributos que pertenecen a una clase. Los nodos del árbol llamados “hojas” contienen el nombre de la clase, mientras que los nodos “no hoja” son los nodos de decisión donde cada uno corresponde a un posible valor de atributo. Cada nodo de decisión es una prueba del atributo con otro árbol que comienza a partir de él. El algoritmo C4.5 es la versión mejorada del ID3 con la capacidad de manejar valores con atributos faltantes [13].

c) Algoritmo KNN: Este algoritmo sirve para clasificar la densidad de la predicción por clase, es un método no paramétrico que estima el valor de la función de densidad de probabilidad o directamente la probabilidad a posterior de que un elemento “X” pertenezca a la clase, a partir de la información proporcionada por el conjunto de prototipos. En el proceso de aprendizaje no se hace ninguna suposición acerca de la distribución de las variables y de su distribución en el proceso de aprendizaje [16].

2.3.2 Técnicas Descriptivas o de Aprendizaje no Supervisado Las técnicas descriptivas son todas aquellas que no tienen clases asociativas y realizan la observación para detectar regularidades de cualquier tipo ya sea agrupaciones, contornos, asociaciones, valores anómalos, etc. A los métodos descriptivos se les llama también como métodos de aprendizaje no supervisado [7], los cuales se clasifican de la siguiente manera. a) Visualización: Esta técnica se basa en utilizar gráficos para analizar los datos como de coordenadas

paralelas, coordenadas radiales y de representación entré otros.



8

b) Reglas de Asociación: Se utilizan para descubrir hechos que ocurren dentro de un determinado conjunto de datos de forma de que un elemento puede o no implicar a otro.

c) Correlación y dependencias: Se centran exclusivamente en los atributos numéricos, de manera tal que si dos elementos numéricos están relacionados linealmente o relacionados de algún otro modo, cuando no ocurre esto, se encuentra una independencia o ausencia de correlación.

d) Segmentación o agrupación: Se centran en obtener grupos o conjuntos de objetos de un universo, de manera que los datos asignados a un conjunto sean similares. Un procedimiento de agrupación puede ser una serie de vectores de acuerdo a un criterio.

e) Detección de anomalías: Se basa en buscar comportamiento o valores anómalos dentro del conjunto de valores estudiados.

A continuación, se mencionan algunos algoritmos no supervisados.

a) Minimal Spanning Tree (MST): Es un método jerárquico que pertenece a la clase de agrupación; se define

como un subgrafo que tiene que ser un árbol y contener todos los vértices del grafo inicial. Cada arista tiene asignado un peso proporcional entre ellos, que es un número representativo de algún objeto, distancia, etc.; y se usa para asignar un peso total al árbol mínimo computando la suma de todos los pesos de las aristas del árbol en cuestión [9].

b) K-Means: Este algoritmo pertenece a las técnicas de agrupación, el cual tiene por misión la segmentación

de un conjunto de “X” observaciones en “Y” grupos, donde cada observación corresponde al grupo cuyo valor medio es el más cercano [14].

c) Partitioning Around Medoids (PAM): Es una extensión del algoritmo K-Means, en donde cada grupo o

clúster está representado por un medoide en vez de un centroide. El medoide es el elemento más céntrico posible del clúster al que pertenece; similar al centroide, pero no necesariamente, ya que el centroide representa el valor patrón o medio del conjunto, que no siempre coincide con el más céntrico [12].

2.4 Métricas de Clasificación

Una métrica de clasificación es una unidad de medida fundamental que permite medir la bondad del modelo; existen distintas técnicas para obtener una medida de evaluación y así tener una referencia del modelo. La primera técnica utilizada es la matriz de confusión, la cual permite la visualización del desempeño de una técnica de aprendizaje supervisado; se basa en la tabla de contingencia que describe los aciertos y los errores del modelo. En la matriz de confusión cada columna representa el número de predicciones de cada clase, mientras que cada fila representa a las instancias en la clase real. La segunda técnica es el índice de Kappa el que informará sobre la aleatoriedad de los datos, y por último, la curva de ROC.

a) Matriz de confusión: Es una herramienta que permite revisar el desempeño del algoritmo de clasificación.

Es un sistema de clasificación de los valores reales o verdaderos versus los valores erróneos o falsos en las dimensiones de los valores observados y los pronosticados del modelo como se muestra en la figura Nº 1 [14].

Valor Pronosticado

Grupo 1 Grupo 2

Valor Real

Grupo 1 VP FP

Grupo 2 FN VN

Figura Nº 1: Matriz de confusion, Fuente: Wikipedia.



9

Las entradas tienen la siguiente interpretación:

VP: (Valores Verdaderos Positivos): Son los valores del grupo 1 que la técnica clasificó como pertenecientes al grupo 1 correctamente.

FP: (Valores Falsos Positivos): Son los valores del grupo 1 que la técnica clasificó como pertenecientes al grupo 2.

FN: (Valores Falsos Negativos): Son los valores del grupo 2 que la técnica clasificó como parte del grupo 2.

VN: (Valores Verdaderos Negativos): Son los valores del grupo 2 que la técnica clasificó correctamente.

b) Curvas de ROC: Cuando se gráfica la sensibilidad de una matriz versus la precisión se está generando un gráfico de ROC, que representa los intercambios entre los verdaderos positivos que son los beneficios y los falsos positivos que son los costos. La mejor opción se encuentra en la esquina superior izquierda, con coordenadas (0,1) del espacio de ROC, lo cual simboliza un 100% de sensibilidad y un 100% de especificidad; esto significa que no existe ningún falso positivo y ningún falso negativo, correspondiendo a una clasificación perfecta. Al contrario, una mala clasificación sería una aleatoria que se representaría como un punto entre el extremo inferior izquierdo hasta la esquina superior derecha, a esta línea se llama línea de no discriminación. Cuando se tienen múltiples pruebas o modelos trabajados con los mismos datos se recurre a utilizar las curvas de ROC para realizar una evaluación de los mismos. El área debajo de la curva (AUC) es el valor que se medirá y se compara entre múltiples modelos para identificar cuál presenta el valor más alto entre 0,5 y 1. Un diagnóstico perfecto se representa con el valor 1 y una prueba sin capacidad discriminatoria con 0,5 [10]. Los siguientes valores de AUC se han establecido como guía para interpretar las curvas de ROC:

Test malo: Entre 0,5 y 0,6. Test regular: Entre 0,6 y 0,75. Test Bueno: Entre 0,75 y 0,9. Test Muy Bueno: Entre 0,9 y 0,96. Test Excelente: Entre 0,97 y 1.

c) Índice de Kappa: Es una medida estadística que ajusta el efecto del azar en la proporción de la

concordancia observada para elementos cualitativos [11].

3 Diseño de Solución

Dentro de las metodologías anteriormente presentadas se ha escogido la metodología CRISP-DM, ya que es la más recomendada en la literatura revisada; con ésta se desarrollará la tesina para la empresa DarSalud Ltda., los que se extraerán los datos directamente desde la base de datos y se le aplicarán técnicas de minería de datos para hallar la mejor solución posible.

3.1 Etapa 1 “Compresión del Negocio”

El negocio se basa en el servicio médico a personas de bajos recursos económicos, brindando una ayuda a la comunidad y siendo parte de ella; los servicios se distribuyen en 3 áreas que son: Atención médica en consulta por parte de un médico general o especialista, exámenes médicos y atención dental. El objetivo de la empresa es poder ser la mejor dentro del mercado tanto en equipamiento como en personal técnico, pudiendo prestar atención medica general y especializada a personas de diversos niveles socioeconómicos, además de permitir a los clientes poder realizarse en las instalaciones diversos procedimientos y exámenes médicos con profesionales del área.



10

Como objetivo de la investigación se espera mejorar las ventas cruzadas realizando mejores observaciones de forma más oportuna y fomentar la lealtad de los clientes mediante técnicas comerciales de forma más personalizadas o enfocada a grupos más específicos. Los criterios de éxito de la empresa se miden en la cantidad de clientes que se atienden o el nivel de ocupación que tiene la agenda médica y de procedimientos, buscando así el manejo eficiente de los tiempos del personal, recursos técnicos y espacios de la empresa. Actualmente, la compañía utiliza el software Medisyn que pertenece a la empresa Tisal; el software a través de los años ha sufrido diversas actualizaciones, a la fecha ha cambiado la estructura de su base de datos en diversas ocasiones debido a la incorporación de nuevas mejoras como el portal web. El centro de salud solo tiene adquirida una versión antigua del programa sin actualizaciones del sistema, lo que produce problemas de compatibilidad con los equipos y múltiples correcciones a la base de datos. Actualmente, el mercado de los centros médicos ha crecido enormemente, existiendo una gran demanda por parte de los clientes hacia la atención médica privada sobre todo en periodos críticos como la estación de invierno. La atención a los pacientes en los centros médicos de la cadena comienza a las 09.00 AM y termina las 19:00 PM, considerando secciones de 15 minutos por consulta; los exámenes médicos tienen distintos horarios dependiendo de la disponibilidad del médico para realizar el procedimiento y del tipo de examen.

3.2 Etapa 2 “Comprensión de los Datos”

Para construir un modelo predictivo de churn rate, se comenzará con una tabla de datos históricos sobre sus clientes con una fila por cliente y columnas que los describen; las columnas para la predicción del churn rate incluyen el alcance del negocio con relación a la frecuencia de transacciones de los clientes, el valor del producto comprado y lugar de compra, entre otros; además debe incluir una columna que indique churn rate. A los clientes a los cuales se desea predecir su churn rate, se les deja la columna de churn rate vacía, posteriormente se aplicará la técnica de minería de datos que les calculará el churn rate. Se utilizarán diversas técnicas de minería de datos para buscar el mejor modelo que se adapte a los datos. Las técnicas que presenten buenos resultados en las métricas de clasificación se seleccionarán para su posterior análisis y generación de conclusiones. Los datos actualmente son almacenados en una base de datos bajo el motor Oracle, compuesta de 2700 tablas debido a diversas actualizaciones que ha sufrido el software sin ser limpiada, en donde hay tablas que poseen datos muy antiguos. La información utilizada para el estudio se puede separar en dos grandes grupos: a) Información del cliente: Descriptiva del paciente en donde se guarda toda la información detallada del

paciente, los resultados de exámenes, la consulta médica con su evaluación y diagnóstico, los tratamientos y medicamentos prescritos.

b) Información tributaria: Datos de la consulta médica con relación al médico, la facturación, otros cobros realizados a los clientes (insumos) y el cargo a la consulta del médico que realiza un procedimiento específico.

Debido a la gran cantidad de datos, se utiliza el software Navicat para poder realizar un análisis visual y así explorar los datos de una forma amistosa. Definición de ventana de tiempo: Se ha seleccionado el campo “fecha” para dividir los datos por años; la

restricción impuesta a la presente investigación es de 1 año.

Variable Fecha: La distribución total de la variable “fecha” no se encuentra agrupada en un año en especial, la información se encuentra dispersa, como se aprecia en la figura Nº 2.



11

Selección de los datos: Se ha seleccionado la tabla “caja_imprimir_encabezado” para realizar el trabajo de minería de datos, debido a que contiene las fechas y la información de cada consulta realizada por los pacientes en los centros médicos, La información se presenta en una sola tabla de forma que no es necesario realizar consultas SQL anidadas para buscar datos anexos. Las variables seleccionadas para trabajar son: o Comuna: Dato del tipo char, identifica la comuna en donde se encuentra el centro médico; sus valores posibles son Bandera, La Florida, Manuel Montt y San Antonio. La variable “comuna” se encuentra distribuida como se muestra en la figura Nº 3, la cual presenta una preferencia en la distribución de los datos por las comunas de La Florida y San Antonio, esto quiere decir que una mayor cantidad de clientes se atienden en dichas comunas.

o Edad: Variable del tipo entero, representa la edad del paciente con valores que fluctúan entre 3 y 81 años. En la figura Nº 4 se presentan los datos distribuidos por edad.

La distribución de la variable edad muestra una tendencia en los clientes con 14 años y 32 años de edad.

Figura Nº 2: Gráfico de dispersión de la variable “fecha”, Fuente: Elaboración del autor.

Figura Nº 3: Gráfico de distribución de la variable “comuna”, Fuente: Elaboración del autor.

Figura Nº 4: Gráfico de distribución de la variable “edad”, Fuente: Elaboración del autor.



12

o Valor_documento: Variable del tipo entero, presenta el valor de la atención médica cancelada por el paciente. Los datos se presentan distribuidos como muestra la figura Nº 5.

La distribución de la variable valor_documento, se muestra distribuida sin una tendencia o agrupación en especial. o Evaluación_telefónica: Variable del tipo entero, en el rango de 1 a 10; representa la nota puesta por el

cliente después de la última atención médica, cuando un cliente no es contactado, se identifica con el valor 0.

Como se muestra en la figura Nº 6, la distribución de la variable “evaluación telefónica” presenta una tendencia hacia el valor 0 que representa a los clientes sin contactar, respecto a la agrupación de la variable se aprecia una tendencia hacia a los valores bajos, lo cual representa una mala nota en la evaluación del cliente respecto a la atención médica recibida.

o Churn: El valor es calculado en base la ventana de tiempo, se calcula dividiendo las atenciones canceladas

o sin atención, por el total de atenciones realizadas en la ventana de tiempo seleccionada.

Como se muestra en la figura Nº 7, la distribución de la variable “churn” muestra que la gran mayoría presenta valores bajo (valor 0.1) como se esperaba dada la cantidad de datos.

Figura Nº 5: Gráfico de distribucion de la variable “valor documento”, Fuente: Elaboración

Figura Nº 6: Gráfico de distribución variable “evaluación telefónica”, Fuente: Elaboración del autor.

Figura Nº 7: Gráfico de distribucion de la variable “churn”, Fuente: Elaboracion del autor.



13

3.3 Etapa 3 “Preparación de los Datos”

Debido a lo extenso de la base de datos y la estructura de las tablas que contiene, se ha copiado la base de datos desde el motor Oracle a una base de datos mysql en un servidor de desarrollo Linux, en donde no hay peligro alguno de generar inconvenientes en la normal operación de la empresa. Con la base de datos ya copiada se comienza la inspección de la información.

Se utiliza el software Navicat que permite navegar de forma visual por las tablas, revisar los datos y generar filtros dentro de cada tabla, además de exportar los datos en formato CSV.

El trabajo que se realiza en esta etapa, una vez ya posicionada la base de datos en el entorno de desarrollo y cuando ya se ha comprendido la lógica de los datos, es la generación de las consultas necesarias para la extracción de la información, en el caso actual se extraerá la información de la tabla “caja_imprimir_encabezado” mediante el software Navicat. Se exportan a un archivo CSV los datos por columna separados por coma; se ha elegido el formato CSV para realizar el proceso porque no existe restricción en el largo del archivo como es el caso del formato XLSX que limita a una cantidad finita de filas de datos. Con el archivo CSV se procede a la imputación de los datos. Entre éstos hay muchos ingresados de forma errónea que no corresponden con la lógica de la variable, por lo que se eliminarán del conjunto a trabajar. Con respecto al campo “fecha” se distingue que existen datos que se encuentran almacenados en dos formatos distintos, éstos se normalizan dejando solo el formato “DD/MM/AA” para trabajar. El motivo por el que hay dos formatos distintos se desconoce, por lo que se procede a la transformación del formato para así no perder una gran cantidad de información.

3.4 Etapa 4 “Modelado de la Solución”

El desarrollo del modelo se basa en sus variables; teniendo identificada la ventana de tiempo se procede a dejar solo la información de un año en el campo “fecha”. Para identificar la zona geográfica se utilizará el campo “comuna”; se incluyen el campo “valor documentó”, que identifica el costo de la atención médica realizada, la variable “atención telefónica” y por último la variable “churn”. El total de atenciones realizadas con datos limpios a procesar asciende a 17207, por lo que ahora se procede a escoger el algoritmo de minería de datos y a construir el modelo en el software.

3.4.1 Selección de Técnicas de Minería de Datos

En esta etapa se seleccionan las técnicas de minería de datos con las que se desarrollará la investigación. Dentro de las técnicas revisadas, se debe buscar la que permita trabajar con variables tanto numéricas como nominales. En la literatura lo más común es realizar las predicciones mediante un árbol de decisión. El árbol viene incluido en las referencias de distintos software como Knime y Rapidminer para el desarrollo de predicciones; por lo que la primera técnica de minería de datos que se utiliza es el “árbol de decisión simple”.

Como segunda técnica se utiliza el “árbol de decisión ramdom forest”, con la finalidad de comparar la técnica contra el algoritmo “árbol de decisión simple”.

La tercera técnica que se usa para el estudio es el algoritmo KNN. Sobre éste se tiene poca información, lo cual deja una posibilidad de realizar algún descubrimiento. KNN es un algoritmo que puede trabajar como una técnica de predicción, cuando se utiliza realizando clasificaciones (es entrenada) y como una técnica descriptiva, cuando define a los elementos por lo que es interesante de aplicar.

La tabla Nº 1 presenta el plan de pruebas para la presente investigación. Como se muestra en ésta, se ha programado realizar pruebas con los 3 modelos, el primero con el algoritmo “árbol de decisión simple”, el segundo con el algoritmo “árbol de decisión random forest (RNF)” y el tercero con el algoritmo “KNN”.



14

Técnica de minería Heurística de parametrización Balance de entrenamiento

Árbol de decisión simple Gain ratio 44 % positivo y 56 % negativo

Árbol de decisión simple Information Gain 44 % positivo y 56 % negativo

Árbol de decisión simple Gini Index 44 % positivo y 56 % negativo

Árbol de decisión simple Accuracy 44 % positivo y 56 % negativo

Árbol de decisión RNF Gain ratio 44 % positivo y 56 % negativo

Árbol de decisión RNF Information Gain 44 % positivo y 56 % negativo

Árbol de decisión RNF Gini Index 44 % positivo y 56 % negativo

Árbol de decisión RNF Accuracy 44 % positivo y 56 % negativo KNN Mixedeuclideandistance 44 % positivo y 56 % negativo

Para el primero y el segundo modelo se utilizan las heurísticas “Gain ratio”, “Information Gain”, “Gini Index” y “Accurracy”, que son las que permiten trabajar con datos nominales. Con respecto al tercer modelo se utiliza la heurística “Mixedeuclideandistance” que es la única dentro del algoritmo “KNN” que permite trabajar con datos nominales. De esta manera se busca compararlos entre si y detectar cual se comporta de mejor manera con el conjunto de datos. Todas las pruebas programadas tienen la misma configuración, el balance de datos de entrenamiento es igual en los tres modelos para así poder comparar en igualdad de condiciones.

3.4.2 Construcción de Modelos

Se seleccionó el software Rapidminer, debido a que con él se tiene acceso a una licencia educacional. El software permite trabajar sin restricción de cantidad de datos, presenta una interfaz sencilla y la documentación necesaria para el desarrollo de modelos. La estructura del modelo como tal se divide en tres etapas: “Adquisición de datos”, “Transformación”, “Entrenamiento y prueba”.

El modelo construido sirve como una plantilla para utilizar distintas técnicas de minería de datos, dentro de la etapa de “entrenamiento y prueba” se encuentra la sub etapa “optimización”. En la “optimización”, el trabajo a realizar varía según el algoritmo a usar. En primera instancia, se agrega el algoritmo “árbol de decisión simple” y de esta manera, se genera el modelo número uno. Para los casos número dos y tres, el algoritmo es reemplazado por el “árbol de decisión RNF” y el algoritmo KNN generando así dos nuevos modelos. Las distintas etapas de los tres modelos con sus respectivos cambios se pueden apreciar en la figura Nº 8.

A continuación, se detalla la etapa de “adquisición de datos”, es el primer paso del desarrollo del modelo realizado en el software Rapidminer, donde se importan los datos ya filtrados y re-formateados desde el archivo CSV. Esta etapa permanece igual para los tres modelos generados. El software en esta etapa permite también eliminar columnas que no se utilizan y se debe identificar el tipo de variable si es numérica o char.

Figura Nº 8: Etapas generales de la plantilla del modelo, Fuente: Elaboración del autor.

Tabla Nº 1: Plan de pruebas, Fuente: Elaboración del autor.



15

La etapa de “transformación”, es el segundo paso en el desarrollo del modelo, en donde se selecciona la variable “churn”, la cual se transforma en un valor lógico que representa un valor como verdadero o falso. El valor verdadero corresponde al usuario que vuelve a atenderse al centro médico, dejando la casilla pintada de verde y el valor falso al usuario que no volverán a atenderse, dejando la casilla pintada de rojo.

La tercera etapa de “entrenamiento y prueba”, se divide en 3 sub etapas: “Entrenamiento”, “optimización” y “prueba”. En el “entrenamiento”, se inserta dentro del modelo un operador de balanceo de datos; el operador genera de forma aleatoria datos con una distribución de balance del 44% positivo y 56% negativo. La sub-etapa de “optimización”, es la que posee el operador de minería de datos; En ello reemplaza el operador para generar los tres modelos distintos. Para la creación del modelo número uno, se procede a incorporar el operador “árbol de decisión simple”. El software permite auto configurar el algoritmo o se puede configurar a mano, las heurísticas del operador son “Gain ratio”, “Information Gain”, “Gini Index” y “Accurracy”. La tabla Nº 2 muestra el estudio de sensibilidad en el algoritmo “árbol de decisión simple” con los diferentes criterios de selección de atributos, como se muestra a continuación.

La figura Nº 9 muestra la etapa de “optimización” con el algoritmo “árbol de decisión simple” ya incluido en el modelo del software. Para la creación del segundo modelo, se procede a reemplazar al operador “árbol de decisión simple” con el operador “árbol de decisión random forest”. De esta manera se crea un nuevo modelo a partir de la plantilla anterior.

La tabla número Nº 3 muestra el estudio de sensibilidad con los diferentes métodos existentes para el algoritmo “árbol de decisión random forest”.

Para el tercer modelo, se remplaza el operador del “árbol de decisión RNF” por el del algoritmo KNN. La tabla Nº 4 muestra el estudio de sensibilidad con los diferentes métodos existentes para el algoritmo “KNN”.

Heurística Sensibilidad Especificidad AUC optimista AUC pesimista

Gain ratio 81,67% 98,50% 0,998 0,837

Information Gain 80% 98,80% 0,998 0,843

Gini Index 73,33% 98,97% 0,988 0,785

Accuracy 73,33% 98,15% 0,933 0,774

Heurística Sensibilidad Especificidad AUC optimista AUC pesimista Gain ratio 80% 99.11% 0,933 0,911 Information Gain 81,66% 99,13% 0,988 0,966 Gini Index 85,10% 99,36% 0,998 0,997

Accuracy 50% 99,30% 0,991 0,989

Tabla Nº 2: Métricas de criterio de las heurísticas del algoritmo “árbol de decisión simple” Fuente: Elaboración del autor .

Figura Nº 9: Etapa “optimizacion” algoritmo “árbol de decisión simple”, Fuente: Elaboración del autor.

Tabla Nº 3: Métricas de criterio de las heurísticas del algoritmo “árbol de decisión random forest”. Fuente: Elaboración del autor.



16

Heurística Sensibilidad Especificidad AUC optimista AUC

pesimista

mixedeuclideandistance 28,33% 92,13% 0,946 0,258 El algoritmo KNN, al tener mezclados valores numéricos y de tipo nominal, solo permite utilizar esta heurística de criterio. La figura Nº 10 muestra la etapa de “optimización” ya con el algoritmo “KNN” insertado en el modelo. La sub-etapa “prueba” es el último paso en la etapa de “entrenamiento y prueba”, recibe los parámetros del algoritmo ya optimizado en la sub etapa anterior de “entrenamiento”, los aplica al algoritmo y genera nuevamente el proceso, pero esta vez con los datos reales de la investigación. El ultimo operador incluido en esta etapa es un operador de performance que permite extraer los índices para evaluar al final de muestro proceso el modelo.

3.5 Etapa 5 “Evaluación”

La presente investigación se desarrolló en base a tres modelos, siendo el primero el realizado con el algoritmo “árbol de decisión simple”, la tabla Nº 5 muestra los valores obtenidos con distintas opciones.

Heurística Sensibilidad Especificidad AUC

optimista AUC

pesimista AUC Certeza Kappa

Gain ratio 81,67% 98,50% 0,998 0,893 0.795 98.46% 0.217

Information Gain 80% 98,80% 0,998 0,843 0.892 98.84% 0.248

Gini Index 73,33% 98,97% 0,988 0,785 0.863 98.91% 0.232

Accuracy 73,33% 98,15% 0,933 0,774 0.881 98.10% 0.143 La tabla Nº 5 muestra que la heurística “Gain ratio”, dentro del algoritmo “árbol de decisión simple”, presenta los mejores criterios para realizar el estudio.

La figura Nº 11 muestra el gráfico de la curva ROC del algoritmo “árbol de decisión simple” con la heurística “Gain ratio”; presenta un AUC de 0.795, el cual valida el modelo como bueno, el nivel de certeza es del 98.46%.

Figura Nº 10: Etapa “ optimizacion” algoritmo “KNN”, Fuente: Elaboración del autor.

Tabla Nº 4: Metricas de criterio de las heurística del algoritmo “KNN”, Fuente: Elaboración del autor.

Figura Nº 11: Curva ROC del algoritmo “árbol de decisión simple” con heurística “Gain ratio”. Fuente: Elaboración del autor.

Tabla Nº 5: Metricas de evaluación de las heurísticas del algoritmo “árbol de decisión simple. Fuente: Elaboración del autor.



17

La figura Nº 12 muestra el gráfico de la curva ROC del algoritmo “árbol de decisión simple” con la heurística “Information Gain”; presenta un AUC de 0.892, el cual valida el modelo como bueno, el nivel de certeza es del 98.84%.

La figura Nº 13 muestra el gráfico de la curva ROC del algoritmo “árbol de decisión simple” con la heurística “Gini Index”; presenta un AUC de 0.863, el cual valida el modelo como bueno posee una certeza del 98.91%.

La figura Nº 14 muestra el gráfico de la curva ROC del algoritmo “árbol de decisión simple” con “Accuracy”; presenta un AUC de 0.881, lo cual lo valida como un modelo bueno y tiene una certeza del 98.10%.

La tabla Nº 6 presenta los valores obtenidos en el estudio realizado con el algoritmo “árbol de decisión ramdom forest” aplicando las distintas heurísticas.

Figura Nº 12: Curva ROC del algoritmo ”árbol de decisión simple” con heurística “Information Gain”. Fuente: Elaboración del autor.

Figura Nº 14: Curva ROC del algoritmo ”árbol de decisión simple” con heurística “Accuracy”. Fuente: Elaboración del autor .

Figura Nº 13: Curva ROC del algoritmo ”árbol de decisión simple” con heurística “Gini Index”. Fuente: Elaboración del autor.



18


optimista AUC

pesimista AUC Certeza Kappa

Gain ratio 58.63% 97,32% 0,934 0,695 0.794 97.24% 0.083

Information Gain 63.33% 97,31% 0,934 0,769 0.850 97.23% 0.103

Gini Index 63,33% 96,73% 0,931 0,713 0.821 96.66% 0.097

Accuracy 35% 98,03% 0,964 0,511 0.881 97.90% 0.072

La figura Nº 15 muestra el gráfico de la curva ROC del algoritmo “árbol de decisión random forest” con la heurística “Gain ratio”, presenta un AUC de 0.794, lo cual valida el modelo como bueno y tiene una certeza del 97.24%.

La figura Nº 16 muestra el gráfico de la curva ROC del algoritmo “árbol de decisión ramdom forest” con la heurística “Information Gain”, presenta un AUC de 0.850, lo cual valida el modelo como bueno y tiene una certeza del 97.23%.

La figura Nº 17 muestra el gráfico de la curva ROC del algoritmo “árbol de decisión ramdom forest” con la heurística “Gini Index”, presenta un AUC de 0.821, lo cual valida el modelo como bueno, tiene una certeza del 96.66%.

Tabla Nº 6: Metricas de evaluación de las heurísticas del algoritmo “árbol de decisión random forest”. Fuente: Elaboracion del autor.

Figura Nº 15: Curva ROC del algoritmo “árbol de decisión random forest “ con heurística“Gain ratio”. Fuente: Elaboración del autor.

Figura Nº 16: Curva ROC del algoritmo “árbol de decisión random forest “con heurística“Information Gain”. Fuente: Elaboración del autor.

Figura Nº 17: Curva ROC del algoritmo “árbol de decisión random forest “ con heurística “Gini Index”. Fuente: Elaboración del autor .



19

Respecto al modelo KNN la tabla Nº 7 muestra los valores al utilizar el algoritmo con la heurística “Mixedeuclideandistance”.


optimista AUC

pesimista AUC Certeza Kappa Mixedeuclidean

distance 28.33% 92.13% 0,946 0,258 0.500 91.99% 0.009

Respecto a las métricas de evaluación, definen un grado mínimo de calidad para evaluar los modelos. El grado de mínimo de calidad para la aceptación del modelo está definido respecto a la información revisada en la bibliografía:

1.- El AUC debe ser igual o mayor a 0.7 [10]. 2.- El nivel de certeza debe ser mayor al 90% [17]. 3.- El grado de aleatoriedad Kappa sea menor al 20% y mayor a 5% (0.2) [11]. 4.- El nivel de sensibilidad debe ser mayor al 70 % [17]. 5.- El nivel de especificidad debe ser mayor al 90% [17]. En relación al algoritmo “árbol de decisión simple” de las 4 opciones distintas de heurísticas solo el modelo basado en la heurística “Accuracy” cumple con el grado de criterio previamente definido. Los tres con

La figura Nº 18 muestra el gráfico de la curva ROC del algoritmo “árbol de decisión random forest” con la heurística “Accuracy”, presenta un AUC de 0.881, lo que valida el modelo como bueno, tiene una certeza del 97.90%.

La figura Nº 19 muestra el gráfico de la curva ROC del algoritmo “KNN” con la heurística “Mixedeuclideandistance”, presenta un AUC de 0.5, lo cual valida el modelo como malo y tiene una certeza de 91.99%.

Tabla Nº 7: Metricas de evaluación de las heurísticas del algoritmo “árbol de decisión random forest”. Fuente: Elaboración del autor.

Figura Nº 18: Curva ROC del algoritmo “árbol de decisión random forest “ con heurística “Accuracy”. Fuente: Elaboración del autor.

Figura Nº 19: Curva ROC del algoritmo “KNN” con heurística “Mixedeuclideandistance”. Fuente: Elaboracion del autor .



20

heurísticas “Gain ratio”, “Information Gain” y “Gini Index”, respectivamente, quedan descartados debido a que no cumplen con la regla de un nivel de aleatoriedad menor al 20% como se puede apreciar en la tabla Nº 8.

Heurística Sensibilidad Especificidad AUC Certeza Kappa Estado

Gain ratio 81,67% 98,50% 0.795 98.46% 0.217 Rechazado

Information Gain 80% 98,80% 0.892 98.84% 0.248 Rechazado

Gini Index 73,33% 98,97% 0.863 98.91% 0.232 Rechazado

Accuracy 73,33% 98,15% 0.881 98.10% 0.143 Aceptado Dentro del estudio realizado con el “árbol de decisión simple” se encuentra el fenómeno del problema de rarezas mencionado anteriormente por Sebastián A. Ríos [4] donde se explica el por qué es importante utilizar la revisión de ROC para comprobar si el modelo es acertado, ya que en los datos presentes en la matriz de confusión tienden a mostrar un sesgo hacia una clase en particular en la clasificación de “churn”.

También se debe destacar problemas respecto al índice de Kappa, ya que éste se encuentra en los valores esperados, lo cual demuestra que el modelo del algoritmo “árbol de decisiones simple” es aceptable; debido a que no es tan factible que los datos varíen debido al azar. Respecto a los modelos confeccionados con el algoritmo “árbol de decisión random forest”, los cuatro quedan rechazados ya que no cumplen con la condición de tener una sensibilidad mayor a 70%, lo cual se aprecia en la tabla Nº 9.

Heurística Sensibilidad Especificidad AUC Certeza Kappa Estado

Gain_ratio 58.63% 97,32% 0.794 97.24 0.083 Rechazado

Information_gain 63.33% 97,31% 0.850 97.23% 0.103 Rechazado

Gini_index 63,33% 96,73% 0.821 96.66% 0.097 Rechazado

Accuracy 35% 98,03% 0.881 97.90% 0.072 Rechazado Respecto al modelo construido con el algoritmo KNN queda rechazado, no cumple con el mínimo de AUC (mayor a 7) y con el grado de sensibilidad (mayor o igual a 70%), como se aprecia en la tabla Nº 10. Este muestra un AUC de 0.5 de la curva ROC del modelo número tres con el algoritmo KNN; esto valida el modelo como malo, pues no cumple con el mínimo establecido AUC (igual o mayor a 0.7) dentro del grado de criterio establecido. El índice de Kappa es de 0.005, el cual no se encuentra dentro de los valores aceptables, es demasiado bajo casi no hay aleatoriedad (mínimo del 0.05); el nivel de sensibilidad del 35% es demasiado bajo (mínimo establecido del 70%). Por estas razones el modelo con el algoritmo KNN queda rechazado.

Heurística Sensibilidad Especificidad AUC Certeza Kappa Estado Mixedeuclidean

distance 28.33% 92.13% 0.500 91.99% 0.009 Rechazado

Tabla Nº 8: Evaluación de las heurísticas del algoritmo “árbol de decisión simple”. Fuente: Elaboración del autor.

Tabla Nº 9: Evaluación de las heurísticas del algoritmo “árbol de decisión random forest”. Fuente: Elaboración del autor.

Tabla Nº 10: Evaluación de la heurística “Mixedeuclideandistance” del algoritmo “KNN”. Fuente: Elaboración del autor.



21

Validación de Hipótesis:

La presente investigación muestra que el modelo realizado con el árbol de decisión simple, usando la heurística “Accuracy”, cumple con la condición impuesta para la hipótesis, de manera tal que se encuentra un modelo válido, el cual presenta un nivel de certeza del 98.10 %; la curva ROC tiene un AUC de 0.881, lo cual clasifica el modelo como bueno. Con esto se cumple con la condición de encontrar por lo menos un modelo válido.

3.6 Etapa 6 “Despliegue”

La información en detalle se encuentra guardada en un archivo Excel en donde están registradas las predicciones de los clientes que volverán a atenderse y los que no. Como se muestra en la tabla Nº 11, la matriz de confusión del modelo desarrollado con el algoritmo “árbol de decisión simple” con la heurística “Accuracy”, indica que de un total de 13.985 casos de clientes no fieles, 13.601 personas no volverán a atenderse al centro médico y que tan solo 384 personas sí lo harán. De un total de 3.201 de clientes fieles el modelo predice que 3.104 personas se retirarán y que tan solo 97 se quedarán.

TRUE FALSE TRUE TRUE

PRED.FALSE 13601 3104

PRED.TRUE 384 97

4 Conclusiones

El trabajo realizado desde un inicio significó un camino de mejora continua para mi desarrollo. En las primeras etapas fue necesario estudiar a la empresa, entender su visión y propósito de operación de la misma, continuando por el proceso de entendimiento de la base de datos, junto con la extracción, filtrado, análisis y aplicación de técnicas de minería de datos.

Dentro de la investigación cometí errores y aciertos los cuales deseo expresar para generar conocimiento. Mi primer error fue no haber realizado una vista preliminar a la base de datos y dedicarme a entender la lógica del negocio de inmediato; la primera etapa del modelo CRISP-DM es la comprensión del negocio, por lo que primero recomiendo dar un vistazo a la base de datos para revisar si efectivamente existe información a extraer y en qué estado se encuentra. Esto entrega una idea para estimar el tiempo de desarrollo y el esfuerzo a realizar.

Por el modelo se sabe que las sucursales que presentarán una mayor rotación de clientes son San Antonio y la Florida. Las sucursales que presentan una menor rotación en los clientes serán Bandera y Manuel Montt, tal como se puede apreciar en la figura Nº 20.

Figura Nº 20: Número de predicciones falsas por sucursal, Fuente: Elaboración del autor.

Tabla Nº 11: Matriz de confusión algoritmo “árbol de decisión simple heurística “Accuracy”. Fuente: Elaboración del autor.



22

Respecto a la etapa de compresión de los datos, recomiendo ir directamente al diccionario de datos de la base de datos. En el desarrollo de mi tesina la empresa no me entregó el diccionario de datos, lo que significó un esfuerzo gigantesco llegar a entender la estructura de la base de datos y sus relaciones. Para esta etapa aconsejo hablar con los desarrolladores de software que tenga la empresa, ya que en ocasiones existen relaciones de datos a nivel de código que no se reflejan internamente en la base de datos.

En la etapa de preparación de los datos, uno de los grandes aciertos fue extraer toda la base de datos y colocarla en una plataforma de desarrollo, esto me permitió trabajar con mucha confianza y seguridad sobre la misma.

La metodología CRISP-DM en general es muy grata de trabajar; al seguir los pasos metodológicos se logra llegar a entender la relación práctica de la misma, la secuencia de pasos tiene un propósito real que se ve reflejado en un trabajo de minería de datos más fácil de llevar adelante.

Respecto a los resultados obtenidos, éstos pueden ser utilizados por la empresa para trabajar de forma específica sobre el grupo de clientes que probablemente dejarán de atenderse en los centros médicos. La empresa puede generar una campaña de fidelización sobre cada cliente o por centro médico.

Dado que la distribución de esfuerzo y recurso son finitos, se debe buscar el mejor lugar para utilizarlos. Desde esta perspectiva el lugar con mayor fidelización presenta un menor riesgo de pérdida de inversión y una mayor probabilidad de que continúe en el tiempo. La presente investigación muestra que es el centro médico de Manuel Montt en donde se debería priorizar las inversiones, ya que es el lugar más seguro de retorno de clientes.

El modelo KNN no funcionó en esta investigación, por lo que no se recomienda utilizar en modelos predictivos del churn con datos nominales. Por el contrario, el modelo predictivo realizado con el árbol de decisión simple con la heurística “Accuracy”, completó con éxito todos los criterios de evaluación planteados. El objetivo general de lograr un modelo con un nivel de certeza mayor a 90%, se obtuvo con el algoritmo “árbol de decisión simple” que ponderó un 97.52%. El objetivo específico de evaluar qué modelo es mejor, se completó conociendo con seguridad que el mejor es el encontrado con el algoritmo “árbol de decisión simple”. Se consiguió identificar a un grupo de clientes con el cual trabajar técnicas de retención comercial.

El acceso a la base de datos permite a futuro generar una automatización de reportes constantes actualizables para el área comercial y gerencial, de esta manera facilitar la toma de decisiones oportunas anteponiéndose a los problemas.

La educación recibida por el MTI me ha permitido realizar esta investigación de manera eficiente, ampliando mi conocimiento y mi deseo de aprender más sobre minería de datos. El MTI ha sido primordial en mi crecimiento. Valores como la búsqueda de la verdad, el trabajo en equipo, el valor por la familia y la mejora continua que se enseñan en el programa del MTI de manera transversal, permiten mejorar tanto profesionalmente como personalmente.

Agradecimientos

Agradezco al Departamento de Informática de la Universidad Técnica Federico Santa María por su esfuerzo diario para entregar un programa de calidad y excelencia en especial deseo agradecer a mi profesor guía por su gran paciencia y sabiduría.

Agradezco a mi madre quien siempre ha estado a mi lado y me ha enseñado los valores que forman la base de mi ser.

Agradezco a Dios por ser el arquitecto de mi camino y a Cristo por ser el constructor de él.



23

Referencias [1] Análisis Comparativo de Metodologías para la Gestión de Proyectos de Minería de Datos, Ing. Juan Miguel Moine,

Dra. Silvia Gordillo, Dra. Ana Silvia Haedo, Grupo de Investigación en Minería de Datos, UTN Rosario, paper 2013. [2] Metodología para el Desarrollo de Proyectos en Minería de Datos CRISP-DM, Jose Alverto Gallardo, paper 2013. [3] Predicción de Fugas de Clientes para una Institución Financiera mediante Support Vector Machines, Jaime Miranda,

Pablo Rey, Richard Weber, Universidad de Chile, paper 2005. Available: http://www.dii.uchile.cl/ris/RISXIX/RISXIXpaper4.pdf [4] Aplicación de la minería de datos para predecir la fuga de clientes en las telecomunicaciones. Fracisco Barrientos, Sebastian a Rios, Universidad de Chile, paper, 2013 Available: http://www.dii.uchile.cl/~ris/RIS2013/rios.pdf

[5] Desarrollo e implementación de un modelo de Minería de Datos para la Unidad de Franquicia Tributaria del Servicio Nacional de Capacitación y Empleo, Jorge Rivas Orellana, Universidad Federico Santa María, tesina para optar al grado de magister en tecnología de la información 2014.

[6] Análisis de datos y búsqueda de patrones en aplicaciones médicas, Arnol David Garcia Ubilla, Universidad de Chile, Tesis para optar al grado de ingeniero civil matemático 2015 [7] Predictive data mining, Shalom Weis, Nathan Indurkhya, libro editorial Morgan Kaufmann, 1998

[8] Modelos predictivos del churn, abandono de clientes para operadores de telecomunicaciones, David Lozano, Universidad de Coruña, tesis para optar al grado de Magíster en ciencias estadísticas 2015

[9] Árbol recubridor mínimo, Wikipedia, actualizado el 10 de octubre de 2017 Available: https://es.wikipedia.org/wiki/%C3%81rbol_recubridor_m%C3%ADnimo [10] Curva de ROC, Wikipedia, actualizado el 23 de marzo de 2018 Available: https://es.wikipedia.org/wiki/Curva_ROC [11] Coeficiente de kappa, Wikipedia, actualizado el 11 de octubre de 2017 Available: https://es.wikipedia.org/wiki/Coeficiente_kappa_de_Cohen [12] Técnicas de agrupamiento para el análisis de datos cuantitativos y cualitativos, Ignacio Javier Benítez, Universidad

Politécnica de Valencia, trabajo de investigación 2005. [13] Árbol de decisión, Wikipedia, actualizado el 5 de marzo de 2018 Available: https://es.wikipedia.org/wiki/%C3%81rbol_de_decisi%C3%B3n [14] K-MEANS, Wikipedia, actualizado el 30 de marzo de 2018 Available: https://es.wikipedia.org/wiki/K-means [15] Minería de datos: Aportes y tendencias en el servicio de salud de ciudades inteligentes, Revista Politécnica ISSN

1900-2351(Impreso), ISSN 2256-5353 (En línea), Enero-Junio 2015 [14] Matriz de confusión, Wikipedia, actualizado el 30 de marzo de 2018 Available: https://es.wikipedia.org/wiki/Matriz_de_confusi%C3%B3n [15] Maquinas de soporte vectorial (SVM), Wikipedia, actualizado el 1 de agosto de 2014 Available: https://es.wikipedia.org/wiki/M%C3%A1quinas_de_vectores_de_soporte [16] K-nearest neighbors (KNN), Wikipedia, actualizado el 24 de marzo de 2018 Available: https://es.wikipedia.org/wiki/K_vecinos_m%C3%A1s_pr%C3%B3ximos [17] Machine learning guía para desarrolladores, Amazon web servicies, actualizado el 2 de agosto de 2016. Available:

https://docs.aws.amazon.com/es_es/machine-learning/latest/dg/machinelearning-dg.pdf#binary-model-insights [18] Machine learning evaluación de modelos binarios, Amazon web servicies, actualizado el 9 de abril de 2015

Available: https://docs.aws.amazon.com/es_es/machine-learning/latest/dg/binary-model-insights.html

tesina jean paul cesari final v38 - mti · 2018-12-05 · ¿ºÇ¶ÃÄºµ²µ ì´¿º´²...

Documents