modelo de minería de datos sobre la deserción en

68
Modelo de Minería de Datos sobre la deserción en estudiantes de pregrado Trabajo de Proyecto de Grado Presentado al Departamento de Ingeniería de Sistemas y Computación Por Erika Carolina Kohn Moreno Asesor: Maria del Pilar Villamil Para optar al título de Ingeniera de Sistemas y Computación Universidad de Los Andes Facultad Ingeniería Departamento de Ingeniería de Sistemas Y Computación Noviembre, 2014

Upload: others

Post on 09-Jul-2022

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Modelo de Minería de Datos sobre la deserción en

Modelo de Minería de Datos sobre la deserción en estudiantes de pregrado

Trabajo de Proyecto de Grado

Presentado al

Departamento de Ingeniería de Sistemas y Computación

Por

Erika Carolina Kohn Moreno

Asesor: Maria del Pilar Villamil

Para optar al título de

Ingeniera de Sistemas y Computación

Universidad de Los Andes

Facultad Ingeniería

Departamento de Ingeniería de Sistemas Y Computación

Noviembre, 2014

Page 2: Modelo de Minería de Datos sobre la deserción en

Contenido

1 Introducción .............................................................................................................. 3

2 Descripción General ................................................................................................. 5

2.1 Objetivos ............................................................................................................ 5

2.1.1 Objetivo General .......................................................................................... 5

2.1.2 Objetivos Específicos .................................................................................. 5

2.2 Antecedentes ..................................................................................................... 6

3 Diseño y especificaciones ........................................................................................ 8

3.1 Definición del problema ...................................................................................... 8

3.2 Especificaciones ................................................................................................ 8

3.3 Restricciones ...................................................................................................... 9

4 Desarrollo del diseño ................................................................................................ 9

4.1 Recolección de Información ............................................................................... 9

4.2 Alternativas de diseño ...................................................................................... 14

5 Implementación ...................................................................................................... 14

5.1 Descripción de la implementación .................................................................... 14

5.2 Resultados esperados ..................................................................................... 26

6 Validación ............................................................................................................... 28

6.1 Métodos ........................................................................................................... 28

6.2 Validación de resultados .................................................................................. 28

7 Conclusiones .......................................................................................................... 29

7.1 Discusión ......................................................................................................... 29

7.2 Trabajo futuro ................................................................................................... 30

8 Referencias ............................................................................................................ 30

9 Apéndices ............................................................................................................... 31

Page 3: Modelo de Minería de Datos sobre la deserción en

TABLA DE FIGURAS

Figure 1: Proceso para Construir un modelo de Minieria de datos para la Universidad de los

Andes ......................................................................................................... 9

Figure 2: Porcentaje de nulos por columna ........................................................... 10

Figure 3: Distribucion de Valores para la columna de creditos perdidos .......................... 11

Figure 4: Distribicion de valores para la columna de creditos tomados ........................... 11

Figure 5: Frecuencia de Valores es la columna estado .............................................. 12

Figure 6: Frecuencia de valores en la columna estrato .............................................. 12

Figure 7: Frecuencia de valores en la columna sexo ................................................. 13

Figure 8: Frecuencia de valores en la columna puesto icfes ........................................ 13

Figure 9: Distribucion columna Puntaje UA ............................................................ 13

Figure 10: Porcentaje nulos columna UA .............................................................. 13

Figure 11: Control Flow de ETL .......................................................................... 15

Figure 12: Primera Fase de ETL ......................................................................... 16

Figure 13: Segunda Fase de ETL ......................................................................... 17

Figure 14: Rangos para Puntaje Uniandes ............................................................. 17

Figure 15: Rango para Creditos .......................................................................... 18

Figure 16: Tercera Fase de ETL ......................................................................... 18

Figure 17: Cuarta Fase de ETL ........................................................................... 19

Figure 18: Fact Table ..................................................................................... 20

Figure 19: Fact Table parte 2 ............................................................................ 20

Figure 20: Dimension Estudiante ........................................................................ 20

Figure 21: Modelos de Mineria de Datos................................................................ 21

Figure 22: Arbol de Decisión 1 ........................................................................... 22

Figure 23: Diagrama de Influencia 1 .................................................................... 22

Figure 24: Arbol de Decisión 2 ........................................................................... 23

Figure 25: Acalracion del segundo nivel ............................................................... 23

Figure 26: Diagrama de Influencia 2 .................................................................... 24

Figure 27: Clusters Modelo 1 ............................................................................. 24

Figure 28: Tabla de caracteristicas del Cluster 9 ..................................................... 25

Figure 29: Tabla de caracteristicas del Cluster 6 ..................................................... 25

Figure 30: Clusters Modelo 2 ............................................................................. 25

Figure 31: Tabla de caracteristicas del Cluster de desertores ...................................... 26

Figure 32: Matriz de Confusión .......................................................................... 28

Figure 33: Test de Clasificación ......................................................................... 29

Figure 34: Test de Varianzas ............................................................................. 29

Page 4: Modelo de Minería de Datos sobre la deserción en

Modelo de Minería de Datos sobre la deserción en estudiantes de

pregrado

1 INTRODUCCIÓN

La Universidad de Los Andes cuenta actualmente con más de 17,1231 estudiantes de

pregrado, lo que hace imposible una atención personalizada para cada uno de ellos. La

Universidad tiene como misión posicionarse en el 2020 como líder educativa y para

lograrlo necesita un acompañamiento a estudiantes con problemas académicos o

personales. El centro de decanatura de estudiantes ofrece servicios de orientación

profesional y psicológica para los estudiantes que acuden a ella, pero los estudiantes

que acuden van de manera reactiva. Es por esto, que para la Universidad de los Andes,

es de gran importancia conocer o saber, cuáles estudiantes tienen un mayor riesgo de

desertar.

Adicionalmente como problema para Colombia, la deserción estudiantil obstaculiza la

ampliación de la cobertura de la educación superior que es un factor muy importante

para el crecimiento económico y social del país. Algunos estudios previos del Ministerio

de Educación2, analizan este problema y plantean algunas teorías, pero realmente no se

cuenta con un modelo de inteligencia de negocios que ayude a identificar de manera

proactiva los posibles problemas con un grupo de estudiantes y de esta manera, actuar

preventivamente.

Las tasas de deserción de acuerdo al Ministerio de educación están alrededor del 45%

al 50%, lo cual indica que solo 1 de cada dos estudiantes que entran a la universidad se

gradúa como profesional. Las tasas de deserción de América Latina son muy similares,

chile, 54%, Venezuela 52%, y México 53%. Países como Alemania han logrado aumentar

la cobertura de la educación superior y bajar la deserción.3

Los factores que llevan a la deserción estudiantil han sido estudiados por psicólogos,

sociólogos y economistas entre otros. “La psicología y la sociología enfatizan para el

examen de la deserción aspectos tales como las expectativas personales de éxito, la

percepción de la dificultad del programa académico que cursa, los valores familiares y el

apoyo e incentivos que los familiares le brindan al estudiante. Fishbein y Ajzen (1975)4

1 Boletin Estadistico Universidad de los Andes, 2013. http://planeacion.uniandes.edu.co/pdi/boletin-estadistico/boletin-estadistico 2 Guzman, Duran(2009) Metodologia de seguimiento, diagnostico, y elementos para su prevención. En la educación superior

Colombiana. Ministerio de la Educación. 3 Guzman, Duran(2009) Metodologia de seguimiento, diagnostico, y elementos para su prevención. En la educación superior Colombiana. Ministerio de la Educación. 4 Fishbein y Ajzen (1975). Belief, Attitude, Intention, and Behavior: An introduction to Theory and Research. Reading, MA: Addison-Wesley.

Page 5: Modelo de Minería de Datos sobre la deserción en

argumentan que la deserción debe ser concebida como el resultado del debilitamiento

de las intenciones iniciales del individuo y de su persistencia; aspectos que a su vez

están influenciados por el auto concepto del estudiante. Attinasi (1986)5 asegura que la

decisión de desertar se ve influenciada por las percepciones y el análisis que el individuo

hace de su vida universitaria.”6

Este trabajo se enfoca en predecir la deserción de los estudiantes después de segundo

semestre. Se deben encontrar las variables que son estadísticamente significativas para

la deserción y construir un modelo de minería de datos para esta variable. Se deben

utilizar las variables recopiladas en los dos primeros semestres de vida estudiantil para

poder correr el modelo.

Esto documento se organiza como primera medida los objetivos y descripción del

problema en la sección 2.1, luego, la sección 2.2 presenta análisis de los marcos de

referencia. Seguido del diseño de la solución, el análisis de los datos y el desarrollo del

ETL y modelo de minería. Para finalizar están las conclusiones y el trabajo futuro.

2 DESCRIPCIÓN GENERAL

2.1 OBJETIVOS

2.1.1 Objetivo General

Predecir el comportamiento académico de un estudiante después de tercer semestre en

la Universidad de Los Andes, por medio de los datos adquiridos durante el proceso de

admisiones y durante los primeros dos semestres.

2.1.2 Objetivos Específicos

- Determinar variables significativas que afectan o pueden llegar a afectar la

deserción del estudiante.

- Construir un modelo de minería de datos para poder predecir este comportamiento

e incorporarlo a un proceso iterativo que se pueda utilizar de manera periódica.

- Perfilar los datos que tiene la Universidad de los Andes en Banner para obtener

grupos de estudiantes con comportamientos similares.

- Validar el modelo implementado con datos pasados reales para definir la precisión

y su posible uso en el contexto de la universidad.

-

5 Attinasi (1986). Getting in: Chicano students’ perceptions of their college-going behavior with

implications for their freshman year experiences. Arizona State University, Tempe. 6 Sánchez Torres, Fabio. La Deserción en la Educación Superior en Colombia durante la Primera Década del Siglo XXI: ¿Por qué ha aumentado tanto?. 2012

Formatted: Indent: Left: 1,27 cm, No bullets or

numbering

Formatted: Font: (Default) Arial, 12 pt

Formatted: Normal, No bullets or numbering

Page 6: Modelo de Minería de Datos sobre la deserción en

2.2 ANTECEDENTES

En algunas universidades internacionales se han hecho estudios de este tema, donde

se construyen modelos de predicción para la deserción estudiantil como los que se

describen a continuación. En el caso de la Universidad Nacional de Rioja en Argentina

se construyó un modelo basándose en la metodología de Adaptive Business Intelligence,

donde se utiliza una bodega de datos, y sobre ella herramientas de Minería de datos,

OLAP y otras para la realización de reportes especializados. Se validó con los datos

históricos, y dio resultados coherentes (Roldan, 2012)7.

Adicionalmente podemos ver las estadísticas de la educación superior en Colombia. “El

acceso a la educación superior aumentó vertiginosamente durante la primera década del

siglo XXI. La tasa de cobertura bruta –contando el SENA- pasó de 14% a 36% entre 2000

y 2010 mientras la tasa de absorción –estudiantes de primer semestre en el año

presentes sobre el número de bachilleres el año inmediatamente anterior en porcentaje-

aumentó de 21% a 53%. No obstante, al tiempo que la cobertura en educación superior

creció lo hizo también la tasa de deserción. Así, para los estudiantes de la cohorte de

2000 la tasa de deserción acumulada a décimo semestre era de 50.9% mientras que esa

tasa superó 55.1% para la cohorte que ingreso en 2005. Este incremento está explicado

por la mayor vulnerabilidad tanto socioeconómica como académica de las nuevas

cohortes de estudiantes. También contribuye con esta tendencia el porcentaje más alto

de estudiantes que acceden a las instituciones técnicas y tecnológicas frente a las

universidades. Los apoyos financieros y académicos de las instituciones y los créditos

del ICETEX han contrarrestado solo parcialmente la mayor deserción”8

Por otro lado, vemos que en la Universidad de Malasia, se realizó un estudio que utiliza

Minería de Datos con algunos análisis estadísticos para producir mejores resultados y

discriminar esas variables que no son importantes para predecir el comportamiento

académico de un estudiante. Se utiliza Kernel K-means Clustering y Smooth Support

Vector Machine Classification para realizar tareas de Minería de Datos.

7 Roldan, M.F. Aplicación de una nueva metodología Adaptive Business Intelligence para un análisis taxonómico predictivo utilizado para la detección temprana de alumnos universitarios en riesgo de deserción. 2012 8 Sánchez Torres, Fabio. La Deserción en la Educación Superior en Colombia durante la Primera Década del Siglo XXI: ¿Por qué ha aumentado tanto?. 2012

Page 7: Modelo de Minería de Datos sobre la deserción en

Ilustración 1: Proceso de Data mining

Adicionalmente, la Universidad Politécnica de Valencia, desarrolló un modelo basado en

segmentación y en árboles de decisiones para la deserción académica. Este es el

modelo que más se acerca a la realidad de la Universidad de los Andes y los datos

utilizados en su mayoría, son datos que se tienen de cada uno de los estudiantes de la

Universidad de los Andes. Como primera medida, utilizó regresiones para identificar las

variables más significativas, luego utilizó 11 variables categóricas y 5 variables

numéricas para el algoritmo de C-Means en la creación de los clusters. Luego de tener

identificadas las características de cada uno de los clúster, se creó un árbol de

decisiones en cada uno de ellos. Se utilizó el algoritmo de C4.5 para crear estas reglas

de decisión. Finalmente construyeron un árbol donde se tienen las probabilidades

dependiendo de ciertas características. El modelo obtuvo una precisión del 79%, y fue

un modelo muy bueno ya que se podía interpretar por cualquier persona muy fácilmente.

Estos estudios anteriores se tuvieron en cuenta para el desarrollo del proyecto actual. Se

tuvo en cuenta las variables y los procesos consultados como marco de referencia y

punto de partida para este proyecto.

Formatted: Spanish (Colombia)

Field Code Changed

Formatted: Spanish (Colombia)

Page 8: Modelo de Minería de Datos sobre la deserción en

3 DISEÑO Y ESPECIFICACIONES

3.1 DEFINICIÓN DEL PROBLEMA

La Universidad de Los Andes está interesada en conocer el comportamiento académico

de los estudiantes, ya que en la actualidad la tasa de deserción es del 22.7%9 y no se

cuenta con mecanismos predictivos que puedan proveer esta información de forma

anticipada. Por otro lado, la Universidad está interesada en identificar estos estudiantes

y generar planes de acción, evaluando una serie de variables socioeconómicas y

académicas de cada estudiante, que permitan acompañar a los estudiantes y brindarles

herramientas para afrontar de mejor manera el problema que se está presentando.

3.2 ESPECIFICACIONES

La definición para la deserción es un estudiante que no ha estudiado por más de 3

semestres consecutivos. Esto es importante para la clasificación del modelo tanto en la

parte de entrenamiento como en la de validación.

3.2.1 Requerimientos Funcionales

Se debe poder calcular la probabilidad de desertar de un estudiante de la Universidad de

los Andes por razones académicas. Además, Se debe identificar cuáles son las variables

significativas para la deserción de un estudiante. Se tiene un conjunto de variables

socioeconómicas, como estrato y edad y académicas de cada estudiante tales como

promedio primero y segundo semestre, cohorte y número de créditos.

3.2.2 Requerimientos No Funcionales

Se debe crear un modelo que cualquier persona de la Universidad de los Andes pueda

utilizar sin tener conocimientos técnicos especiales. Se deben utilizar herramientas de

minería de datos para construir el modelo y dar solución a los requerimientos funcionales.

Adicionalmente, el modelo debe tener una presión mayor al 70%.

9 Boletin Estadistico Universidad de los Andes, 2013. http://planeacion.uniandes.edu.co/pdi/boletin-estadistico/boletin-estadistico

Page 9: Modelo de Minería de Datos sobre la deserción en

3.3 RESTRICCIONES

3.3.1 Datos

El modelo debe utilizar los datos institucionales de cada uno de los estudiantes de la

Universidad de Los Andes.

4 DESARROLLO DEL DISEÑO

En la siguiente imagen se ve el proceso que se siguió para la ejecución del diseño. Donde se

tiene como primera medida, la definición del problema, la investigación, el perfilamiento de

los datos, la construcción del modelo, la validación y el análisis de los resultados.

Figure 1: Proceso para Construir un modelo de Miniería de datos para la Universidad de los Andes

4.1 RECOLECCIÓN DE INFORMACIÓN

Las fuentes utilizadas para obtener el modelo es el reporte de estudiantes que utiliza

planeación. Este reporte es extraído de la base de datos que maneja Banner, el cual es

el sistema de información utilizado para registrar la información de los estudiantes. En

esta información tenemos como primera medida los datos propios de cada estudiante al

momento de ingreso. Como por ejemplo, su colegio, cédula, puntaje Icfes, sexo,

programa a cursar. Luego tenemos 8 columnas por cada semestre que transcurre.

Page 10: Modelo de Minería de Datos sobre la deserción en

Empieza en 1885-1. Continua de tal manera hasta el semestre en curso, 2014-1. En

estas 8 columnas tenemos los datos propios al estudiante en el momento que termina

cada uno de los semestres, entonces tenemos semestre, programa cursado, promedio

acumulado, promedio del semestre, nivel del estudiante, créditos intentados, créditos

perdidos y en qué estado se encuentra para el siguiente semestre.

Se realizó un perfilamiento de los datos desde el segundo semestre de 2006 ya que en

ese semestre ocurrió un cambio de pensum y por lo tanto el comportamiento de los

estudiantes antes de este cambio es diferente.

Figure 2: Porcentaje de nulos por columna

Por medio de la tabla anterior se verifica que no tienen nulos, como se ve en las

estadísticas. Si los datos fueran correctos y no se tuvieran datos faltantes ayudaría a la

construcción y precisión del modelo, mientras que si tenemos variables con grandes

porcentajes de nulos, la precisión no va a ser la deseada. Luego se hizo un análisis más

detallado para cada una de las columnas y se encontró lo siguiente:

Page 11: Modelo de Minería de Datos sobre la deserción en

Figure 3: Distribución de Valores para la columna de créditos perdidos

Figure 4: de valores para la columna de tomados

Page 12: Modelo de Minería de Datos sobre la deserción en

Figure 5: Frecuencia de Valores es la columna estado

El problema más significativo y grave en aspectos de calidad de datos es la cantidad de

nulos o (NA) que tenemos en cada una de las columnas. Esto se debe a que si el

estudiante entra a la universidad en el 2009, todas las columnas asociadas al estado de

cada semestre desde 1985 hasta el 2009 le van a aparecer en NA. No aparece en nulos

como lo discutimos antes pero si tienen el texto “NA” como lo vemos en la figura 6. Esto

no es un problema de precisión del modelo ya que en realidad es así como fue diseñado

y es correcto.

Figure 6: Frecuencia de valores en la columna estrato

El otro problema que tenemos es la columna “estrato”. Esta variable también tiene un

gran porcentaje (65%) de nulos que no reflejan la realidad de cada estudiante. Por lo

tanto, debemos descartar esta variable al no tener datos confiables.

Page 13: Modelo de Minería de Datos sobre la deserción en

Figure 7: Frecuencia de valores en la columna sexo

La variable sexo no tiene valores nulos y se tiene un 42.7% mujeres y un 57.3% hombres.

Figure 8: Frecuencia de valores en la columna puesto icfes

La variable de puesto icfes tiene el 50% de los valores en nulo. Por lo tanto, no es una

variable precisa para el modelo. Se debe revisar a continuación la variable de puntaje

uniandes para determinar si esta variable se puede tomar en el modelo y cumpliría el

mismo rol que la variable Icfes que se descartó.

Figure 9: Distribucion columna Puntaje UA

Figure 10: Porcentaje nulos columna UA

Se ve que el puntaje uniandes tiene un valor de 40% de nulos. Esta variable es muy

importante ya que es una manera de medir el rendimiento académico del estudiante

antes de ingresar a la universidad y posiblemente puede influir en el rendimiento dentro

de la universidad. En base a los marcos de referencia, esta variable era muy significativa

para la deserción, por lo tanto se debe incluir en el modelo Pero, por otro lado se debe

tener en cuenta esta variable como posible punto de mejora en los datos para aumentar

la precisión del modelo.

Con base en este perfilamiento podemos entender que se deben extraer y transformar

los datos de manera que se pueda construir un modelo de minería de datos y que no se

tenga ese porcentaje de nulos en las columnas de los semestres. Para fines analíticos

Page 14: Modelo de Minería de Datos sobre la deserción en

de este modelo, se debe eliminar la división de columnas por semestre y fecha y

reemplazarlos por estado del tiempo con respecto a cada uno de los estudiantes.

4.2 ALTERNATIVAS DE DISEÑO

Las variables del modelo se determinaron con base a los marcos de referencia y en

general se tuvo en cuenta todas las variables que contaban con suficientes datos, que

fueran íntegros y que cumplieran con un mínimo de calidad de datos. Se debe crear un

modelo ETL donde se traten estos datos y se construya un modelo para que sea el

utilizado por el modelo de Minería de Datos. Se puede crear el proceso de ETL de

diferentes maneras o se puede realizar manualmente con Excel.

Se decide hacerlo con SQL Integration Services al igual que se hizo el perfilamiento de

los datos suministrados. Se escoge esta herramienta porque es la que se va a utilizar

igualmente para el modelo de minería, por lo tanto, se utiliza toda la suite para hacer el

manejo y análisis correcto de los datos.

5 IMPLEMENTACIÓN

Para realizar este proyecto se utilizó la suite de SQL Server 2012. Se utilizó Data tools

para el ETL y para el modelo de minería de datos y SQL Management Studio para el

manejo de las bases de datos tanto iniciales como el modelo estrella final.

5.1 DESCRIPCIÓN DE LA IMPLEMENTACIÓN

El ETL se construyó con las siguientes tareas:

Page 15: Modelo de Minería de Datos sobre la deserción en

Figure 11: Control Flow de ETL

Esto se construyó para el control flow. Se elimina todo lo que se tenga en la dimensión

de estudiantes, en la tabla fact Estudiantes y se vuelve a crear. Esto se realiza, ya que

cada semestre se ingresan nuevos datos lo que implica que se modifiquen algunas filas

y que ingresen nuevas columnas en la base de datos de Estudiantes. Por lo tanto se

debe volver a realizar el proceso de ETL.

Field Code Changed

Page 16: Modelo de Minería de Datos sobre la deserción en

Figure 12: Primera Fase de ETL

En el Data Flow se empieza el proceso de ETL como tal. Primero, se extrae de la base

de datos origen los datos a tratar, luego se separan las filas (Los estudiantes) que tengan

un carnet mayor a 20062 por el cambio de pensum. Luego, se realiza un proceso de

conversión de data de la columna “sexo” para que sea un string. En la siguiente tarea se

separan todos los estudiantes que estudien ingeniería. Cabe recordar que para efectos

de este proyecto, sólo se utilizó la facultad de Ingeniería. Se establece quienes hacen

doble programa, en base a las variables de programa1 y programa2. Se tiene un nuevo

dato que dice si están en doble programa. Este dato llamado doble es un binario que va

a ir a la tabla de hechos.

Page 17: Modelo de Minería de Datos sobre la deserción en

Figure 13: Segunda Fase de ETL

Con base a la fecha de nacimiento se obtiene la edad, luego se remplazan los nulos de

puntaje uniandes por -1. Y se clasifica dentro de que rango está el promedio uniandes.

Según la siguiente tabla

Figure 14: Rangos para Puntaje Uniandes

Luego se hace el mismo procedimiento para los créditos, y se clasifican según la

siguiente tabla.

1 0-250

2 250-350

3 350-450

4 450-550

5 550-650

6 650-750

7 750----

puntaje uniandes

Page 18: Modelo de Minería de Datos sobre la deserción en

Figure 15: Rango para Creditos

Para la tarea de dar promedio en primer y segundo semestre, se busca por cada uno de

los estudiantes cuál fue el primer periodo donde empezó a estudiar y se registra como

primer semestre, luego el semestre después de este, será el segundo semestre. Estos

promedios quedan guardados en unas variables que serán utilizadas más adelante en la

tabla de hechos.

Figure 16: Tercera Fase de ETL

Para continuar, se hace una separación de los estudiantes que nunca empezaron a estudiar. Esto indica para términos del modelo, que sus datos en las columnas primer

1 0-25

2 25-50

3 50-75

4 75-100

5 100-125

6 125-150

7 150----

Creditos

Page 19: Modelo de Minería de Datos sobre la deserción en

semestre, segundo semestre y promedio deben ser 0. Estos estudiantes no van a ser tenidos en cuenta ya que no empezaron su carrera en la Universidad de los Andes. Luego de esto, empiezan a calcularse las medidas que van en la tabla de hechos. La primera son los semestres faltantes. Por lo tanto, se calcula el promedio de créditos vistos en los dos primeros semestres y se toma como el ritmo que va a llevar el estudiante durante el resto de su carrera. De esta manera se sabe el ritmo y aproximadamente cuántos semestres le va a tomar terminar la carrera. Luego se realiza una tarea para cambiar los nulos cuando se tienen en los créditos de primer o segundo semestre. Para terminar esta sección se calcula el Ratio, que es el número de créditos aprobados dividido en el número de créditos intentados. Esto se realiza ya que se comprobó en los marcos de referencia que esta es una medida clave para determinar la deserción. Este cálculo se hace con los dos primeros semestres.

Figure 17: Cuarta Fase de ETL

Para terminar, se hace una separación de los datos para crear paralelamente la

dimensión del estudiante y la tabla de hechos. Para la tabla de hechos se calcula el rango

para los promedios del semestre y se calculan los desertores.

Finalmente, la tabla de hechos se ve de esta manera:

Page 20: Modelo de Minería de Datos sobre la deserción en

Figure 18: Fact Table

Figure 19: Fact Table parte 2

La dimensión de estudiante se ve de esta manera donde se tiene la información de cada

estudiante:

Figure 20: Dimension Estudiante

Para la construcción del modelo de minería se utilizaron Clusters y Árboles de Decisión

donde se configuraron las variables de esta manera:

Page 21: Modelo de Minería de Datos sobre la deserción en

Figure 21: Modelos de Mineria de Datos

Como se muestra en la tabla anterior, se crearon dos árboles de decisión y dos clusters.

En los árboles de decisión se creó uno con todas las variables incluidas y en el segundo

no se tiene en cuenta el carnet. Para los cluster, es la misma distribución. La diferencia

es que la variable desertor es una entrada y no es una variable de decisión, ya que en

los clusters queremos agrupar por características y ver cuales presentan un mayor

porcentaje de deserción pero no es una variable de predicción.

Los resultados de los árboles de decisión fueron los siguientes:

1. Todas las variables

Page 22: Modelo de Minería de Datos sobre la deserción en

Figure 22: Arbol de Decisión 1

Figure 23: Diagrama de Influencia 1

En el modelo de árboles de decisión que se construyó utilizando todas las variables,

vemos que las variables más importantes que detectó el modelo son los créditos totales,

los créditos aprobados, el ratio, el programa1, el número de créditos aprobados en el

Page 23: Modelo de Minería de Datos sobre la deserción en

segundo semestre y el carnet. En versiones posteriores a este proyecto se deben incluir

más departamentos y es por esto que se incluye la variable desde este momento.

2. Sin la variable Carnet

Se intentó crear un modelo sin tener en cuenta el carnet, ya que para los objetivos

del modelo no se quiere tener considerada la variable del tiempo. Aunque para la

primera versión del modelo, el carnet es una variable significativa. Es la segunda

variable más significativa, por lo tanto, es importante para los fines del modelo. En

este modelo como se ve en la siguiente grafica vemos como la edad pasa a ser una

variable significativa para el modelo ya que es la segunda división en el árbol creado.

Figure 24: Arbol de Decisión 2

Figure 25: Acalracion del segundo nivel

Page 24: Modelo de Minería de Datos sobre la deserción en

Figure 26: Diagrama de Influencia 2

En este modelo se puede ver que las variables significativas que afectan directamente a

la variable de si el estudiante deserta son: programa1, edad, número de créditos segundo

semestre aprobados, créditos totales, ratio y créditos totales aprobados.

Los modelos construidos de Clusters fueron los siguientes:

1. Todas las variables

Figure 27: Clusters Modelo 1

Cluster 9

Page 25: Modelo de Minería de Datos sobre la deserción en

Variables Values Probability

Programa2 NA 97,202%

Numero Creditos Segundo Semestre Aprobados

0 93,634%

Numero Creditos Segundo Semestre Intentados

0 90,526%

Promedio Segundo Semestre

0 88,641%

Creditos Aprobados 1 78,944%

Sexo M 76,855%

Desertor True 74,559% Figure 28: Tabla de caracteristicas del Cluster 9

Cluster 6

Variables Values Probability

Programa2 NA 100,000%

Sexo M 82,594%

Ratio 0,4 - 0,8 74,360%

Numero Semestres Grado 14 - 28 62,546%

Desertor True 58,284% Figure 29: Tabla de caracteristicas del Cluster 6

2. Clusters sin la variable Carnet

Figure 30: Clusters Modelo 2

Page 26: Modelo de Minería de Datos sobre la deserción en

Variables Values Probability

Programa2 NA 100,000%

Sexo M 83,161%

Desertor True 73,382%

Ratio 0,4 - 0,8 71,317%

Creditos Aprobados 1 61,523%

Colegio missing 56,011%

Creditos Totales 2 48,800%

Numero Semestres Grado 29 - 76 44,281%

Puntaje Uniandes 3 40,917% Figure 31: Tabla de caracteristicas del Cluster de desertores

5.2 RESULTADOS ESPERADOS

5.2.1 Arboles de Decisión

Primero, en el modelo de árboles de decisión que se construyó utilizando todas las

variables vemos que las variables más importantes son los créditos totales, los créditos

aprobados, el ratio, el programa1, el número de créditos aprobados en el segundo

semestre y el carnet.

Vemos que si el ratio de créditos es mayor o igual a 0.9, la posibilidad de que el estudiante

deserte es casi nula. Recordemos que el radio se construye por medio del número de

créditos aprobados dividido entre el número de créditos intentados. Esto para segundo

semestre, por lo tanto, es un porcentaje de créditos aprobados del total que tomó.

Adicionalmente, cualitativamente tiene sentido que las personas que no pierden muchas

materias, estén felices y determinados en seguir en la universidad. Por otro lado, vemos

que los estudiantes con el radio menor a 0.6 tienen una alta probabilidad de desertar,

esto se puede explicar en que su nivel académico no es el adecuado para mantenerse

en la universidad. Si se pierden más del 40% de las materias, el promedio se va a ver

afectado y puede llegar a quedar en prueba académica. Luego de esto empiezan a influir

las otras variables de número de créditos, programa y créditos totales cursados.

Segundo, en el modelo donde se excluye la variable de carnet las variables significativas

que afectan directamente a la variable de deserción son: programa1, edad, número de

créditos segundo semestre aprobados, créditos totales, ratio y créditos totales aprobados.

Haciendo un análisis del árbol de decisión podemos ver al igual que en el primer modelo

construido de árboles, que la variable radio juega el papel más importante. Si el

Page 27: Modelo de Minería de Datos sobre la deserción en

estudiante tiene el radio mayor al 90% y adicionalmente estudia el segundo semestre(los

créditos son diferentes a 0) entonces la probabilidad de desertar es nula. Por el contrario,

si el estudiante tiene un radio menor al 60% y es mayor de 21 años, tienen una alta

probabilidad de desertar. Otro caso donde hay gran cantidad de desertores, es cuando

el radio esta entre 0.7 y 0.8, es mayor a 21 años y el número de créditos aprobados está

en el primer rango (de 0 a 25 créditos en total). Finalmente, vemos que

independientemente del radio, porque en todos los casos esta, si el estudiante no estudia

en el segundo semestre, probablemente va a desertar.

5.2.2 Clusters

En los modelos de clusters el resultado de los dos es similar. En el primero, se

identificaron dos clusters donde se tiene gran cantidad de desertores. El primero, lo

componen estudiantes que no hacen doble programa y no estudiaron el segundo

semestre. No necesariamente se retiran desde el segundo, podría ser después, pero en

el segundo no vieron ninguna materia. Son la mayoría de sexo masculino y tiene créditos

aprobados en el rango1, por lo tanto están de 0 a 25 créditos. El segundo, son personas

que no hacen doble programa, son hombres y aprueba del 40% al 80% de los créditos

que toman. Estos estudiantes van a un ritmo mucho más lento ya que el estimado de

semestre de grado es de 14 a 28 semestres. En el segundo modelo, se ve la misma

interpretación de los resultados, solo que los estudiantes desertores están agrupados en

un solo cluster. Las características principales son el radio (de 0.4 a 0.8), los créditos

aprobados están en el primer rango que es de 0 a 25 créditos y el colegio no está

registrado (por lo tanto no es uno de los más comunes).

Las herramientas utilizadas fueron todas en la suite de SQL Server 2012. Por medio del

módulo de Integration tools, se utilizó la tarea de Data Profiling para ver el perfilamiento

de los datos iniciales para trabajar y detectar posibles errores. Luego se utilizó data tools

para el ETL y los modelos de minería. Los errores iniciales fueron que al hacer el data

profiling no aparecía nulos, pero luego al analizar más detalladamente, vemos que gran

cantidad de los datos no eran nulos sino tenían escrito NA.

Otros posibles errores en la medición es cuando los estudiantes presenten un cambio de

ritmo en créditos, o no estudien el segundo semestre pero luego vuelvan con más

determinación. En estos casos ya quedan marcados en el modelo y cuando se corre el

análisis como sólo se validan los datos de los dos primeros semestres, si alguna variable

cambia drásticamente, el resultado va a seguir siendo que es desertor. Sólo se validan

los datos de los dos primeros semestres, porque se quiere tener un modelo que al

estudiante estar en segundo semestre, se pueda saber la probabilidad de desertar en

algún momento posterior.

Page 28: Modelo de Minería de Datos sobre la deserción en

6 VALIDACIÓN

6.1 MÉTODOS

Las pruebas de validación que se utilizaron fueron matrices de clasificación. La

construcción del modelo tomó el 60% de los datos y se dejó 40% para la validación. De

esta manera con el 40% restante se indica cuáles de ellos se predicen de manera

correcta y cuáles no. Luego, se identifica cuáles casos funcionan correctamente y se

determina el porcentaje de precisión del modelo.

Además de eso, también se verifica de manera cualitativa los resultados encontrados

para establecer que los mismos, sean coherentes y tengan sentido. Sobre todo, en la

parte de los clusters, que las características sean claras y se puedan reconocer

claramente los elementos propios de cada uno.

6.2 VALIDACIÓN DE RESULTADOS

Figure 32: Matriz de Confusión

En la tabla anterior vemos que para el modelo de árboles con todas las variables, llamado

Estudiantesv2 la precisión del modelo es de 94.7% y en el segundo modelo es de 93.6%. Estos

dos resultados cumplen con los objetivos propuestos al inicio del proyecto que era tener un

modelo con una precisión mayor al 70%.

Page 29: Modelo de Minería de Datos sobre la deserción en

Figure 33: Test de Clasificación

Figure 34: Test de Varianzas

7 CONCLUSIONES

7.1 DISCUSIÓN

La Universidad de Los Andes está interesada en conocer el comportamiento académico

de los estudiantes, ya que en la actualidad la tasa de deserción es del 22.7%10 y no se

cuenta con mecanismos predictivos que puedan acercarse o anticipar esta información.

Por otro lado, la universidad está interesada en identificar estos estudiantes y generar

planes de acción, evaluando una serie de variables socioeconómicas y académicas de

cada estudiante. Durante este proyecto se construyeron 4 modelos para aproximarse a

la solución del problema planteado. Se construyeron 2 modelos de árboles de decisión y

2 modelos de clusters. Cada uno tiene sus particularidades pero en general se encontró

que las variables más significativas son el radio, los créditos totales, los créditos

aprobados, el ratio, el programa1, el número de créditos aprobados en el segundo

semestre y el carnet (para los modelos incluyendo esta variable). En los clusters otras

10 Boletin Estadistico Universidad de los Andes, 2013. http://planeacion.uniandes.edu.co/pdi/boletin-estadistico/boletin-estadistico

Page 30: Modelo de Minería de Datos sobre la deserción en

variables importantes adicionales a las ya mencionadas fueron el sexo y si el estudiante

hace doble programa.

Finalmente, se puede concluir que el proyecto y los modelos construidos cumplen los

objetivos propuestos al inicio. Se puede decir que se conocen las variables que afectan

directamente a la decisión de un estudiante de desertar o no. Por otro lado, se tiene el

ETL que puede ser utilizado con diversos propósitos. En este proyecto se quería estudiar

la variable de deserción pero se pueden analizar más variables con el mismo ETL para

la extracción, transformación y carga de datos.

7.2 TRABAJO FUTURO

El modelo dió resultados satisfactorios, aunque hacen falta varias variables

socioeconómicas del estudiante que por problemas de nulos o falta de datos no se

tomaron en cuenta. Si se encuentra información como el estrato, colegio, información de

los padres, becas etc… se podría construir un modelo con más variables y quizás

haciendo el modelo un poco más preciso o con nuevas variables para poder determinar

nuevas preguntas que conducirán a realizar otro tipo de análisis favorables para la

Universidad y distintos al que se realizó con este trabajo. Se podría manejar de manera

semestral para poder identificar los estudiantes que necesitan ayuda y que tiene mayor

probabilidad de desertar, de esta manera se trabaja proactivamente y se espera reducir

la deserción.

Adicionalmente, este trabajo se realizó con estudiantes de Ingeniería, se puede

profundizar por programas y extender para otras facultades teniendo en cuenta las

características especiales para cada uno. Para hacer este análisis se debe tener en

cuenta el número de créditos para completar el semestre y cuál es el promedio de

créditos que toman los estudiantes. Esto tal vez cambie los rangos de los créditos y

promedio, y el análisis de resultados.

Por otro lado, este proyecto se puede integrar a la Bodega de Datos de la Universidad.

Con las herramientas que se utilizan para el ETL de esta bodega. Además, se debe

revisar el diseño que tiene la bodega y las tablas de hechos y dimensiones para ver cómo

se puede acoplar este diseño para poder desarrollar el modelo de minería.

8 REFERENCIAS

- Boletin Estadistico Universidad de los Andes, 2013.

http://planeacion.uniandes.edu.co/pdi/boletin-estadistico/boletin-estadistico

- Guzman, Duran(2009) Metodologia de seguimiento, diagnostico, y elementos para su

prevención. En la educación superior Colombiana. Ministerio de la Educación.

- Fishbein y Ajzen (1975). Belief, Attitude, Intention, and Behavior: An introduction to

Theory and Research. Reading, MA: Addison-Wesley.

Field Code Changed

Page 31: Modelo de Minería de Datos sobre la deserción en

- Attinasi (1986). Getting in: Chicano students’ perceptions of their college-going

behavior with implications for their freshman year experiences. Arizona State

University, Tempe.

- Sánchez Torres, Fabio. La Deserción en la Educación Superior en Colombia durante la

Primera Década del Siglo XXI: ¿Por qué ha aumentado tanto?. 2012

- Roldan, M.F. Aplicación de una nueva metodología Adaptive Business Intelligence para

un análisis taxonómico predictivo utilizado para la detección temprana de alumnos

universitarios en riesgo de deserción. 2012

9 APÉNDICES

Datos relevantes que puedan ser consultados para soportar el diseño, la implementación

y / o los resultados.

- Resultados de Cluster con todas las variables

Variables States Population (All)

Cluster 1

Cluster 3

Cluster 4

Cluster 5

Cluster 2

Cluster 6

Cluster 7

Cluster 8

Cluster 9

Size 5100 961 622 607 589 585 551 485 377 323

Carnet Mean 200.995.089,00

200.842.012,92

201.195.489,93

200.881.026,66

201.177.298,41

200.897.704,33

200.959.418,85

201.221.380,04

200.930.152,03

200.949.267,24

Carnet Deviation

206.077,64

131.270,92

89.676,85

141.871,24

80.473,70

160.461,17

205.077,34

83.275,89

202.419,58

207.014,12

Colegio Missing

2027 0,350 0,350

0,360 0,377 0,286 0,504

0,426

0,522 0,568

Colegio 23747 113 0,019 0,016

0,034 0,037 0,039 0,006

0,018

0,008 0,012

Colegio 19471 106 0,028 0,032

0,035 0,011 0,028 0,013

0,006

0,013 0,003

Colegio 80127 99 0,019 0,024

0,023 0,028 0,014 0,026

0,018

0,005 0,009

Colegio 19810 96 0,023 0,022

0,024 0,017 0,016 0,014

0,027

0,008 0,009

Colegio 102632

87 0,018 0,015

0,024 0,032 0,013 0,009

0,014

0,013 0,009

Colegio 98640 80 0,011 0,022

0,014 0,031 0,021 0,017

0,013

0,000 0,003

Page 32: Modelo de Minería de Datos sobre la deserción en

Colegio 19364 68 0,018 0,010

0,007 0,007 0,032 0,006

0,008

0,015 0,012

Colegio ... ... ... ... ... ... ... ... ... ... ...

Creditos Aprobados

6 1272 0,615 0,048

0,361 0,118 0,405 0,009

0,000

0,254 0,042

Creditos Aprobados

2 731 0,000 0,147

0,044 0,052 0,000 0,450

0,504

0,179 0,070

Creditos Aprobados

7 718 0,183 0,000

0,323 0,000 0,516 0,000

0,000

0,058 0,022

Creditos Aprobados

3 714 0,005 0,330

0,054 0,277 0,023 0,170

0,323

0,116 0,035

Creditos Aprobados

4 604 0,045 0,246

0,093 0,291 0,038 0,083

0,128

0,137 0,022

Creditos Aprobados

5 578 0,151 0,230

0,100 0,261 0,015 0,036

0,017

0,117 0,013

Creditos Aprobados

1 474 0,002 0,000

0,024 0,000 0,000 0,253

0,028

0,129 0,789

Creditos Aprobados

8 9 0,000 0,000

0,002 0,000 0,003 0,000

0,000

0,010 0,006

Creditos Aprobados

... ... ... ... ... ... ... ... ... ... ...

Creditos Totales

7 1281 0,545 0,000

0,543 0,000 0,553 0,017

0,000

0,162 0,059

Creditos Totales

6 1008 0,390 0,064

0,231 0,177 0,370 0,056

0,003

0,226 0,012

Creditos Totales

3 763 0,001 0,333

0,039 0,242 0,023 0,285

0,333

0,129 0,056

Creditos Totales

4 629 0,005 0,237

0,045 0,311 0,039 0,136

0,257

0,116 0,022

Creditos Totales

2 593 0,000 0,109

0,035 0,023 0,000 0,385

0,315

0,167 0,194

Creditos Totales

5 545 0,057 0,256

0,091 0,247 0,013 0,082

0,092

0,100 0,019

Page 33: Modelo de Minería de Datos sobre la deserción en

Creditos Totales

1 272 0,002 0,000

0,014 0,000 0,000 0,040

0,000

0,091 0,632

Creditos Totales

8 9 0,000 0,000

0,002 0,000 0,003 0,000

0,000

0,010 0,006

Creditos Totales

... ... ... ... ... ... ... ... ... ... ...

Desertor False 4389 0,972 0,991

0,915 0,994 0,994 0,417

0,968

0,881 0,254

Desertor True 711 0,028 0,009

0,085 0,006 0,006 0,583

0,032

0,119 0,746

Desertor Missing

0 0,000 0,000

0,000 0,000 0,000 0,000

0,000

0,000 0,000

Doble Mean 0,00 0,00 0,00 -1,00 -1,00 -0,45 0,00 -0,25

-0,05 -0,03

Doble Deviation

0,46 0,06 0,04 0,50 0,43 0,21 0,17

Edad Mean 22,00 23,79 20,16

23,31 20,22 23,19 22,78

19,91

24,77 23,08

Edad Deviation

2,78 1,61 1,18 1,65 1,00 1,81 2,40 1,14 5,37 2,85

Numero Creditos Primer Semestre Aprobados

18 1127 0,163 0,525

0,068 0,404 0,467 0,018

0,148

0,003 0,036

Numero Creditos Primer Semestre Aprobados

15 1017 0,315 0,191

0,227 0,174 0,171 0,123

0,335

0,038 0,042

Numero Creditos Primer Semestre Aprobados

12 652 0,205 0,039

0,147 0,060 0,003 0,265

0,234

0,053 0,087

Numero Creditos Primer Semestre

0 516 0,051 0,000

0,190 0,000 0,003 0,035

0,000

0,803 0,050

Page 34: Modelo de Minería de Datos sobre la deserción en

Aprobados

Numero Creditos Primer Semestre Aprobados

16 482 0,101 0,092

0,128 0,148 0,145 0,053

0,083

0,015 0,012

Numero Creditos Primer Semestre Aprobados

9 256 0,045 0,003

0,061 0,002 0,000 0,177

0,071

0,005 0,127

Numero Creditos Primer Semestre Aprobados

19 224 0,014 0,082

0,046 0,093 0,124 0,004

0,005

0,000 0,000

Numero Creditos Primer Semestre Aprobados

6 142 0,010 0,000

0,015 0,000 0,000 0,084

0,017

0,010 0,201

Numero Creditos Primer Semestre Aprobados

... ... ... ... ... ... ... ... ... ... ...

Numero Creditos Primer Semestre Intentados

18 1426 0,230 0,563

0,108 0,454 0,458 0,129

0,317

0,015 0,086

Numero Creditos Primer Semestre Intentados

15 1222 0,354 0,174

0,275 0,158 0,144 0,298

0,343

0,086 0,216

Page 35: Modelo de Minería de Datos sobre la deserción en

Numero Creditos Primer Semestre Intentados

16 649 0,150 0,088

0,177 0,140 0,135 0,140

0,119

0,024 0,121

Numero Creditos Primer Semestre Intentados

12 491 0,125 0,021

0,110 0,024 0,003 0,222

0,112

0,065 0,235

Numero Creditos Primer Semestre Intentados

0 358 0,001 0,000

0,126 0,000 0,000 0,000

0,000

0,694 0,023

Numero Creditos Primer Semestre Intentados

19 317 0,043 0,085

0,072 0,107 0,154 0,024

0,020

0,005 0,000

Numero Creditos Primer Semestre Intentados

20 132 0,009 0,042

0,014 0,066 0,067 0,004

0,009

0,010 0,000

Numero Creditos Primer Semestre Intentados

13 129 0,036 0,002

0,045 0,015 0,000 0,056

0,020

0,002 0,053

Numero Creditos Primer Semestre Intentados

... ... ... ... ... ... ... ... ... ... ...

Numero Creditos

16 1026 0,292 0,372

0,218 0,266 0,239 0,011

0,113

0,079 0,003

Page 36: Modelo de Minería de Datos sobre la deserción en

Segundo Semestre Aprobados

Numero Creditos Segundo Semestre Aprobados

19 706 0,074 0,268

0,080 0,243 0,433 0,000

0,014

0,030 0,000

Numero Creditos Segundo Semestre Aprobados

13 562 0,227 0,077

0,145 0,081 0,002 0,056

0,234

0,047 0,000

Numero Creditos Segundo Semestre Aprobados

10 381 0,121 0,007

0,088 0,022 0,000 0,150

0,218

0,017 0,000

Numero Creditos Segundo Semestre Aprobados

0 346 0,003 0,000

0,027 0,000 0,000 0,042

0,000

0,003 0,936

Numero Creditos Segundo Semestre Aprobados

15 330 0,073 0,040

0,110 0,036 0,023 0,038

0,053

0,226 0,000

Numero Creditos Segundo Semestre Aprobados

18 316 0,028 0,056

0,078 0,100 0,081 0,002

0,020

0,230 0,000

Numero Creditos Segundo Semestre

12 254 0,045 0,013

0,074 0,014 0,000 0,086

0,087

0,157 0,000

Page 37: Modelo de Minería de Datos sobre la deserción en

Aprobados

Numero Creditos Segundo Semestre Aprobados

... ... ... ... ... ... ... ... ... ... ...

Numero Creditos Segundo Semestre Intentados

16 1334 0,383 0,355

0,275 0,270 0,213 0,138

0,373

0,115 0,000

Numero Creditos Segundo Semestre Intentados

19 892 0,133 0,324

0,122 0,304 0,411 0,025

0,086

0,030 0,003

Numero Creditos Segundo Semestre Intentados

0 602 0,118 0,000

0,145 0,000 0,069 0,104

0,000

0,028 0,905

Numero Creditos Segundo Semestre Intentados

15 425 0,077 0,032

0,126 0,035 0,020 0,118

0,118

0,257 0,006

Numero Creditos Segundo Semestre Intentados

18 420 0,046 0,069

0,095 0,108 0,083 0,050

0,061

0,270 0,000

Numero Creditos Segundo Semestre Intentados

13 406 0,127 0,035

0,080 0,025 0,002 0,171

0,183

0,040 0,003

Page 38: Modelo de Minería de Datos sobre la deserción en

Numero Creditos Segundo Semestre Intentados

20 200 0,022 0,079

0,030 0,078 0,068 0,012

0,021

0,025 0,000

Numero Creditos Segundo Semestre Intentados

12 191 0,029 0,005

0,038 0,004 0,000 0,098

0,038

0,140 0,023

Numero Creditos Segundo Semestre Intentados

... ... ... ... ... ... ... ... ... ... ...

Numero Semestres Grado

Mean 14,00 10,39 8,20 12,21 8,21 7,82 15,87

10,74

18,76 56,82

Numero Semestres Grado

Deviation

20,90 2,23 0,73 4,75 0,91 0,64 5,35 1,29 7,33 67,82

Programa1

IIND 1643 0,431 0,409

0,288 0,197 0,448 0,174

0,263

0,365 0,170

Programa1

ICIV 672 0,130 0,174

0,105 0,130 0,072 0,163

0,190

0,135 0,082

Programa1

IMEC 653 0,141 0,087

0,121 0,117 0,063 0,187

0,143

0,071 0,269

Programa1

IQUI 540 0,095 0,095

0,118 0,113 0,095 0,096

0,117

0,084 0,170

Programa1

IAMB 390 0,085 0,064

0,072 0,087 0,079 0,074

0,071

0,086 0,060

Programa1

IELC 380 0,041 0,045

0,128 0,113 0,068 0,125

0,056

0,008 0,099

Programa1

ISIS 330 0,057 0,071

0,050 0,041 0,084 0,118

0,064

0,033 0,059

Programa1

IBIO 104 0,005 0,045

0,009 0,033 0,007 0,007

0,051

0,018 0,025

Programa1

... ... ... ... ... ... ... ... ... ... ...

Page 39: Modelo de Minería de Datos sobre la deserción en

Programa2

NA 3504 1,000 0,997

0,000 0,002 0,548 1,000

0,749

0,955 0,972

Programa2

IIND 227 0,000 0,000

0,150 0,130 0,074 0,000

0,028

0,010 0,000

Programa2

IAMB 173 0,000 0,000

0,104 0,100 0,040 0,000

0,053

0,003 0,006

Programa2

ICIV 140 0,000 0,000

0,087 0,092 0,032 0,000

0,025

0,010 0,000

Programa2

ADMI 139 0,000 0,000

0,105 0,088 0,036 0,000

0,002

0,008 0,003

Programa2

ECON 126 0,000 0,003

0,072 0,058 0,062 0,000

0,013

0,008 0,000

Programa2

ISIS 93 0,000 0,000

0,055 0,074 0,026 0,000

0,004

0,000 0,000

Programa2

IBIO 92 0,000 0,000

0,042 0,079 0,024 0,000

0,012

0,003 0,000

Programa2

... ... ... ... ... ... ... ... ... ... ...

Promedio Primer Semestre

8 1093 0,200 0,356

0,184 0,301 0,397 0,051

0,155

0,089 0,064

Promedio Primer Semestre

7 992 0,312 0,230

0,240 0,266 0,109 0,103

0,210

0,041 0,056

Promedio Primer Semestre

6 895 0,266 0,098

0,206 0,151 0,019 0,278

0,339

0,033 0,093

Promedio Primer Semestre

9 838 0,092 0,298

0,094 0,249 0,471 0,016

0,037

0,097 0,046

Promedio Primer Semestre

5 427 0,088 0,018

0,105 0,026 0,003 0,268

0,170

0,007 0,063

Promedio Primer Semestre

0 369 0,001 0,000

0,128 0,000 0,002 0,000

0,000

0,717 0,023

Promedio Primer Semestre

4 297 0,039 0,002

0,037 0,007 0,000 0,277

0,089

0,007 0,107

Promedio Primer Semestre

3 149 0,001 0,000

0,005 0,000 0,000 0,007

0,000

0,007 0,428

Page 40: Modelo de Minería de Datos sobre la deserción en

Promedio Primer Semestre

... ... ... ... ... ... ... ... ... ... ...

Promedio Segundo Semestre

6 965 0,291 0,203

0,234 0,228 0,097 0,130

0,191

0,180 0,000

Promedio Segundo Semestre

7 900 0,203 0,272

0,193 0,258 0,217 0,027

0,125

0,178 0,000

Promedio Segundo Semestre

8 788 0,085 0,229

0,138 0,234 0,367 0,024

0,038

0,232 0,003

Promedio Segundo Semestre

5 741 0,242 0,082

0,171 0,091 0,006 0,181

0,332

0,095 0,009

Promedio Segundo Semestre

9 582 0,041 0,193

0,084 0,154 0,310 0,006

0,005

0,226 0,004

Promedio Segundo Semestre

4 448 0,110 0,021

0,098 0,031 0,000 0,227

0,229

0,040 0,004

Promedio Segundo Semestre

0 329 0,003 0,000

0,027 0,002 0,003 0,015

0,000

0,030 0,886

Promedio Segundo Semestre

3 277 0,023 0,000

0,046 0,001 0,000 0,307

0,076

0,019 0,045

Promedio Segundo Semestre

... ... ... ... ... ... ... ... ... ... ...

Puntaje Uniandes

4 1312 0,332 0,207

0,301 0,172 0,199 0,285

0,303

0,238 0,221

Puntaje Uniandes

3 1074 0,269 0,114

0,193 0,096 0,072 0,372

0,301

0,190 0,331

Puntaje Uniandes

5 963 0,168 0,214

0,240 0,222 0,226 0,126

0,185

0,151 0,139

Puntaje Uniandes

6 705 0,094 0,214

0,122 0,219 0,213 0,073

0,121

0,081 0,079

Puntaje Uniandes

7 655 0,050 0,234

0,086 0,275 0,252 0,018

0,084

0,088 0,049

Puntaje Uniandes

2 228 0,066 0,003

0,048 0,008 0,017 0,106

0,000

0,056 0,119

Page 41: Modelo de Minería de Datos sobre la deserción en

Puntaje Uniandes

8 156 0,016 0,013

0,010 0,007 0,021 0,019

0,006

0,196 0,058

Puntaje Uniandes

1 7 0,005 0,000

0,000 0,000 0,000 0,002

0,000

0,000 0,003

Puntaje Uniandes

... ... ... ... ... ... ... ... ... ... ...

Ratio Mean 0,87 0,90 0,96 0,89 0,95 0,99 0,66 0,80 0,90 0,59

Ratio Deviation

0,16 0,08 0,05 0,11 0,06 0,02 0,13 0,10 0,13 0,27

Sexo M 3507 0,661 0,643

0,746 0,638 0,609 0,826

0,681

0,681 0,769

Sexo F 1593 0,339 0,357

0,254 0,362 0,391 0,174

0,319

0,319 0,231

Sexo missing

0 0,000 0,000

0,000 0,000 0,000 0,000

0,000

0,000 0,000

Figure 35: Caracteristicas Clusters con todas las variables

Variables Values Probability

Programa2 NA 97,202%

Numero Creditos Segundo Semestre Aprobados

0 93,634%

Numero Creditos Segundo Semestre Intentados

0 90,526%

Promedio Segundo Semestre 0 88,641%

Creditos Aprobados 1 78,944%

Sexo M 76,855%

Desertor True 74,559%

Creditos Totales 1 63,162%

Colegio missing 56,804%

Doble 0 - -1 52,443%

Ratio 0,4 - 0,8 50,663%

Promedio Primer Semestre 3 42,766%

Edad 25 - 30 33,612%

Puntaje Uniandes 3 33,116%

Numero Semestres Grado 29 - 76 27,909%

Carnet 200.620.038 - 200.856.092

27,057%

Programa1 IMEC 26,852%

Page 42: Modelo de Minería de Datos sobre la deserción en

Carnet 200.856.093 - 200.995.089

26,099%

Edad 23 - 24 25,598%

Desertor False 25,441%

Numero Creditos Primer Semestre Intentados 12 23,518%

Sexo F 23,145%

Carnet 200.995.090 - 201.134.086

22,642%

Puntaje Uniandes 4 22,073%

Edad 21 - 22 21,978%

Numero Creditos Primer Semestre Intentados 15 21,616%

Numero Creditos Primer Semestre Aprobados 6 20,129%

Numero Creditos Primer Semestre Aprobados 3 19,839%

Creditos Totales 2 19,394%

Programa1 IQUI 16,952%

Programa1 IIND 16,952%

Edad 17 - 20 16,763%

Carnet 201.134.087 - 201.319.227

14,902%

Puntaje Uniandes 5 13,924%

Numero Creditos Primer Semestre Aprobados 9 12,711%

Numero Creditos Primer Semestre Intentados 16 12,094%

Puntaje Uniandes 2 11,925%

Ratio 0,8 - 0,9 11,409%

Promedio Primer Semestre 2 11,131%

Promedio Primer Semestre 4 10,682%

Programa1 IELC 9,891%

Promedio Primer Semestre 6 9,251%

Numero Creditos Primer Semestre Intentados 9 9,120%

Numero Creditos Primer Semestre Aprobados 12 8,728%

Numero Creditos Primer Semestre Intentados 18 8,561%

Programa1 ICIV 8,201%

Puntaje Uniandes 6 7,897%

Numero Creditos Primer Semestre Aprobados 7 7,730%

Ratio 0,9 - 1,0 7,665%

Numero Semestres Grado 14 - 28 7,196%

Creditos Aprobados 2 7,035%

Page 43: Modelo de Minería de Datos sobre la deserción en

Numero Creditos Primer Semestre Aprobados 4 6,803%

Promedio Primer Semestre 8 6,388%

Promedio Primer Semestre 5 6,325%

Programa1 IAMB 6,010%

Creditos Totales 7 5,876%

Programa1 ISIS 5,851%

Puntaje Uniandes 8 5,826%

Creditos Totales 3 5,620%

Promedio Primer Semestre 7 5,614%

Numero Creditos Primer Semestre Intentados 13 5,265%

Numero Creditos Primer Semestre Aprobados 0 5,030%

Puntaje Uniandes 7 4,929%

Promedio Primer Semestre 9 4,634%

Promedio Segundo Semestre 3 4,498%

Doble 0 - -1 4,224%

Creditos Aprobados 6 4,194%

Numero Creditos Primer Semestre Aprobados 15 4,161%

Numero Creditos Segundo Semestre Aprobados

3 3,759%

Numero Creditos Primer Semestre Intentados 14 3,740%

Programa1 IGEN 3,726%

Numero Semestres Grado 6 - 13 3,701%

Numero Creditos Primer Semestre Aprobados 18 3,556%

Creditos Aprobados 3 3,516%

Numero Creditos Primer Semestre Intentados 3 3,401%

Numero Creditos Primer Semestre Aprobados 10 3,359%

Numero Creditos Primer Semestre Intentados 6 3,226%

Promedio Segundo Semestre 1 3,094%

Programa1 IBIO 2,473%

Numero Creditos Segundo Semestre Intentados

9 2,390%

Numero Creditos Segundo Semestre Intentados

12 2,288%

Promedio Primer Semestre 0 2,281%

Numero Creditos Primer Semestre Intentados 0 2,281%

Creditos Totales 4 2,223%

Creditos Aprobados 4 2,191%

Page 44: Modelo de Minería de Datos sobre la deserción en

Creditos Aprobados 7 2,166%

Colegio 20198 2,164%

Numero Creditos Primer Semestre Intentados 10 2,164%

Numero Creditos Segundo Semestre Intentados

3 1,991%

Creditos Totales 5 1,892%

Promedio Segundo Semestre 2 1,776%

Colegio 19448 1,708%

Numero Creditos Primer Semestre Aprobados 5 1,546%

Numero Creditos Segundo Semestre Aprobados

6 1,393%

Creditos Aprobados 5 1,336%

Colegio 21717 1,237%

Numero Creditos Primer Semestre Intentados 5 1,237%

Numero Creditos Primer Semestre Intentados 17 1,237%

Colegio 23747 1,237%

Colegio 22848 1,237%

Numero Creditos Primer Semestre Aprobados 1 1,237%

Numero Creditos Primer Semestre Aprobados 14 1,237%

Colegio 42473 1,237%

Colegio 3 1,237%

Numero Creditos Primer Semestre Aprobados 8 1,236%

Colegio 19364 1,233%

Ratio 1,0 1,216%

Creditos Totales 6 1,214%

Numero Creditos Primer Semestre Aprobados 16 1,165%

Numero Creditos Primer Semestre Intentados 8 0,994%

Colegio 102632 0,931%

Colegio 85605 0,928%

Colegio 80127 0,928%

Colegio 108381 0,928%

Colegio 19893 0,928%

Colegio 11007 0,928%

Numero Creditos Primer Semestre Intentados 7 0,928%

Promedio Primer Semestre 1 0,928%

Colegio 23846 0,928%

Colegio 4234 0,928%

Page 45: Modelo de Minería de Datos sobre la deserción en

Colegio 19505 0,927%

Programa1 INGE 0,927%

Colegio 19810 0,927%

Colegio 5108 0,926%

Numero Creditos Primer Semestre Aprobados 13 0,916%

Colegio 24281 0,909%

Promedio Segundo Semestre 5 0,877%

Colegio 66431 0,669%

Colegio 19349 0,663%

Numero Creditos Segundo Semestre Intentados

6 0,642%

Numero Creditos Segundo Semestre Intentados

15 0,618%

Programa1 IELE 0,618%

Colegio 14472 0,618%

Colegio 19331 0,618%

Programa2 MICI 0,618%

Colegio 25395 0,618%

Programa1 IVTR 0,618%

Colegio 19794 0,618%

Colegio 21154 0,618%

Colegio 20297 0,618%

Colegio 95414 0,618%

Colegio 19901 0,618%

Colegio 94250 0,618%

Colegio 49387 0,618%

Programa2 IAMB 0,618%

Colegio 23739 0,618%

Creditos Aprobados 8 0,618%

Colegio 23598 0,618%

Creditos Totales 8 0,618%

Colegio 25130 0,618%

Colegio 72934 0,618%

Colegio 79327 0,618%

Programa2 IQUI 0,618%

Colegio 24216 0,618%

Colegio 34306 0,618%

Page 46: Modelo de Minería de Datos sobre la deserción en

Colegio 15909 0,616%

Numero Creditos Segundo Semestre Aprobados

4 0,596%

Figure 36: Cluster 9Figure 37: Cluster 6

Variables Values Probability

Programa2 NA 100,000%

Sexo M 82,594%

Ratio 0,4 - 0,8 74,360%

Numero Semestres Grado 14 - 28 62,546%

Desertor True 58,284%

Colegio missing 50,437%

Creditos Aprobados 2 45,000%

Desertor False 41,716%

Creditos Totales 2 38,535%

Puntaje Uniandes 3 37,169%

Numero Semestres Grado 6 - 13 33,053%

Promedio Segundo Semestre 3 30,745%

Numero Creditos Primer Semestre Intentados 15 29,823%

Edad 23 - 24 29,621%

Puntaje Uniandes 4 28,513%

Creditos Totales 3 28,453%

Promedio Primer Semestre 6 27,773%

Promedio Primer Semestre 4 27,743%

Promedio Primer Semestre 5 26,836%

Edad 25 - 30 26,817%

Numero Creditos Primer Semestre Aprobados 12 26,508%

Edad 21 - 22 26,234%

Carnet 200.856.093 - 200.995.089

26,176%

Carnet 200.620.038 - 200.856.092

25,804%

Creditos Aprobados 1 25,251%

Carnet 200.995.090 - 201.134.086

23,354%

Promedio Segundo Semestre 4 22,657%

Numero Creditos Primer Semestre Intentados 12 22,247%

Programa1 IMEC 18,685%

Page 47: Modelo de Minería de Datos sobre la deserción en

Promedio Segundo Semestre 5 18,067%

Numero Creditos Primer Semestre Aprobados 9 17,744%

Sexo F 17,406%

Programa1 IIND 17,404%

Ratio 0,8 - 0,9 17,357%

Numero Creditos Segundo Semestre Intentados

13 17,061%

Creditos Aprobados 3 16,955%

Edad 17 - 20 16,477%

Programa1 ICIV 16,298%

Carnet 201.134.087 - 201.319.227

15,762%

Numero Creditos Segundo Semestre Aprobados

10 14,951%

Numero Creditos Primer Semestre Intentados 16 13,953%

Numero Creditos Segundo Semestre Intentados

16 13,829%

Creditos Totales 4 13,553%

Promedio Segundo Semestre 6 12,953%

Numero Creditos Primer Semestre Intentados 18 12,935%

Numero Creditos Segundo Semestre Aprobados

7 12,901%

Puntaje Uniandes 5 12,583%

Programa1 IELC 12,494%

Numero Creditos Segundo Semestre Aprobados

6 12,439%

Doble 0 - -1 12,270%

Numero Creditos Primer Semestre Aprobados 15 12,270%

Programa1 ISIS 11,821%

Numero Creditos Segundo Semestre Intentados

15 11,778%

Doble 0 - -1 11,129%

Numero Creditos Primer Semestre Aprobados 10 10,794%

Doble -1 10,729%

Puntaje Uniandes 2 10,625%

Numero Creditos Segundo Semestre Aprobados

9 10,500%

Page 48: Modelo de Minería de Datos sobre la deserción en

Numero Creditos Segundo Semestre Intentados

0 10,435%

Promedio Primer Semestre 7 10,297%

Numero Creditos Segundo Semestre Intentados

12 9,777%

Numero Creditos Segundo Semestre Aprobados

4 9,648%

Programa1 IQUI 9,600%

Numero Creditos Segundo Semestre Aprobados

12 8,570%

Numero Creditos Segundo Semestre Intentados

10 8,458%

Numero Creditos Primer Semestre Aprobados 6 8,419%

Creditos Aprobados 4 8,317%

Creditos Totales 5 8,163%

Programa1 IAMB 7,369%

Puntaje Uniandes 6 7,294%

Promedio Segundo Semestre 2 6,893%

Numero Creditos Segundo Semestre Aprobados

3 6,792%

Numero Creditos Segundo Semestre Intentados

9 6,032%

Creditos Totales 6 5,624%

Numero Creditos Segundo Semestre Aprobados

13 5,586%

Numero Creditos Primer Semestre Intentados 13 5,564%

Numero Creditos Primer Semestre Aprobados 13 5,416%

Ratio 0,9 - 1,0 5,397%

Numero Creditos Primer Semestre Aprobados 16 5,275%

Promedio Primer Semestre 8 5,097%

Numero Creditos Segundo Semestre Intentados

18 5,001%

Numero Creditos Primer Semestre Intentados 9 4,970%

Numero Creditos Segundo Semestre Aprobados

0 4,209%

Creditos Totales 1 3,999%

Numero Creditos Segundo Semestre Aprobados

15 3,798%

Creditos Aprobados 5 3,601%

Page 49: Modelo de Minería de Datos sobre la deserción en

Numero Creditos Primer Semestre Aprobados 0 3,462%

Numero Creditos Segundo Semestre Intentados

6 3,318%

Programa1 IELE 3,298%

Numero Creditos Segundo Semestre Intentados

14 3,136%

Promedio Segundo Semestre 7 2,742%

Numero Creditos Primer Semestre Intentados 14 2,672%

Colegio 80127 2,621%

Numero Creditos Segundo Semestre Aprobados

8 2,476%

Numero Creditos Segundo Semestre Intentados

19 2,468%

Promedio Segundo Semestre 8 2,427%

Numero Creditos Segundo Semestre Aprobados

1 2,387%

Numero Creditos Primer Semestre Intentados 19 2,370%

Numero Creditos Primer Semestre Aprobados 7 2,289%

Programa1 IGEN 1,958%

Puntaje Uniandes 8 1,858%

Numero Creditos Primer Semestre Aprobados 3 1,819%

Puntaje Uniandes 7 1,775%

Colegio 14472 1,768%

Numero Creditos Primer Semestre Aprobados 18 1,766%

Numero Creditos Primer Semestre Intentados 10 1,736%

Colegio 98640 1,708%

Creditos Totales 7 1,673%

Colegio 108381 1,650%

Numero Creditos Segundo Semestre Intentados

17 1,581%

Promedio Primer Semestre 9 1,558%

Colegio 11007 1,543%

Numero Creditos Segundo Semestre Aprobados

14 1,494%

Promedio Segundo Semestre 0 1,482%

Numero Creditos Segundo Semestre Intentados

4 1,469%

Promedio Segundo Semestre 1 1,468%

Page 50: Modelo de Minería de Datos sobre la deserción en

Numero Creditos Segundo Semestre Intentados

7 1,453%

Colegio 19810 1,437%

Numero Creditos Primer Semestre Aprobados 11 1,431%

Colegio 19505 1,417%

Colegio 22012 1,401%

Colegio 32730 1,383%

Colegio 35816 1,306%

Colegio 19471 1,259%

Numero Creditos Segundo Semestre Intentados

11 1,257%

Colegio 19794 1,243%

Numero Creditos Segundo Semestre Intentados

3 1,231%

Numero Creditos Segundo Semestre Intentados

20 1,164%

Numero Semestres Grado 29 - 76 1,128%

Numero Creditos Segundo Semestre Aprobados

16 1,123%

Colegio 23739 1,109%

Numero Creditos Segundo Semestre Aprobados

2 1,102%

Numero Creditos Segundo Semestre Aprobados

5 1,055%

Colegio 21857 1,027%

Colegio 66431 0,969%

Numero Creditos Primer Semestre Aprobados 14 0,954%

Colegio 19448 0,948%

Colegio 102632 0,927%

Numero Creditos Primer Semestre Aprobados 4 0,918%

Colegio 5108 0,913%

Creditos Aprobados 6 0,876%

Colegio 22848 0,758%

Colegio 3 0,755%

Colegio 34306 0,754%

Numero Creditos Primer Semestre Intentados 3 0,748%

Colegio 46771 0,746%

Numero Creditos Primer Semestre Intentados 11 0,735%

Page 51: Modelo de Minería de Datos sobre la deserción en

Colegio 24216 0,735%

Colegio 21899 0,735%

Colegio 3459 0,734%

Programa1 IBIO 0,708%

Colegio 20198 0,704%

Promedio Primer Semestre 3 0,697%

Numero Creditos Primer Semestre Intentados 17 0,692%

Numero Creditos Primer Semestre Intentados 6 0,676%

Colegio 24299 0,621%

Colegio 23747 0,611%

Colegio 62497 0,609%

Colegio 21154 0,586%

Colegio 19901 0,580%

Colegio 20537 0,569%

Colegio 21717 0,567%

Promedio Segundo Semestre 9 0,565%

Colegio 24281 0,564%

Colegio 19364 0,557%

Colegio 49387 0,555%

Colegio 21907 0,554%

Colegio 79327 0,551%

Numero Creditos Segundo Semestre Intentados

8 0,551%

Numero Creditos Segundo Semestre Aprobados

11 0,550%

Colegio 23101 0,535%

Colegio 26369 0,535%

Numero Creditos Primer Semestre Intentados 8 0,511%

- Resultados de Cluster sin Carnet

Variables

States Population (All)

Cluster 1

Cluster 2

Cluster 3

Cluster 4

Cluster 5

Cluster 6

Cluster 8

Cluster 9

Cluster 7

Cluster 10

Size 5100 1032 902 729 697 553 297 273 237 229 151

Colegio missing

2027 0,394

0,310

0,333

0,395

0,413

0,371

0,562

0,349

0,560

0,764

Colegio 23747 113 0,018

0,023

0,049

0,027

0,014

0,005

0,016

0,008

0,000

0,019

Page 52: Modelo de Minería de Datos sobre la deserción en

Colegio 19471 106 0,022

0,026

0,024

0,019

0,016

0,044

0,000

0,012

0,004

0,025

Colegio 80127 99 0,025

0,016

0,023

0,022

0,028

0,000

0,012

0,016

0,018

0,000

Colegio 19810 96 0,029

0,015

0,014

0,026

0,019

0,014

0,008

0,016

0,016

0,000

Colegio 102632

87 0,020

0,009

0,023

0,029

0,007

0,011

0,009

0,012

0,010

0,031

Colegio 98640 80 0,009

0,021

0,034

0,016

0,020

0,003

0,000

0,000

0,016

0,000

Colegio 32730 68 0,013

0,022

0,014

0,010

0,016

0,008

0,000

0,008

0,016

0,000

Colegio ... ... ... ... ... ... ... ... ... ... ... ...

Creditos Aprobados

6 1272 0,371

0,338

0,224

0,226

0,056

0,323

0,052

0,366

0,027

0,105

Creditos Aprobados

2 731 0,152

0,050

0,007

0,149

0,494

0,149

0,065

0,028

0,242

0,267

Creditos Aprobados

7 718 0,099

0,180

0,290

0,174

0,020

0,129

0,023

0,215

0,004

0,058

Creditos Aprobados

3 714 0,124

0,167

0,137

0,186

0,222

0,113

0,020

0,103

0,050

0,130

Creditos Aprobados

4 604 0,124

0,113

0,166

0,155

0,082

0,110

0,010

0,094

0,040

0,190

Creditos Aprobados

5 578 0,130

0,153

0,174

0,100

0,051

0,084

0,017

0,127

0,022

0,080

Creditos Aprobados

1 474 0,000

0,000

0,000

0,010

0,075

0,092

0,808

0,067

0,615

0,133

Creditos Aprobados

8 9 0,000

0,000

0,003

0,000

0,000

0,000

0,004

0,000

0,000

0,038

Creditos Aprobados

... ... ... ... ... ... ... ... ... ... ... ...

Creditos Totales

7 1281 0,343

0,215

0,313

0,331

0,086

0,349

0,066

0,293

0,023

0,096

Page 53: Modelo de Minería de Datos sobre la deserción en

Creditos Totales

6 1008 0,230

0,316

0,227

0,153

0,064

0,196

0,021

0,349

0,043

0,099

Creditos Totales

3 763 0,122

0,168

0,130

0,146

0,322

0,115

0,032

0,092

0,178

0,121

Creditos Totales

4 629 0,108

0,113

0,170

0,164

0,165

0,102

0,013

0,085

0,036

0,184

Creditos Totales

2 593 0,097

0,042

0,003

0,089

0,280

0,108

0,175

0,020

0,488

0,272

Creditos Totales

5 545 0,099

0,147

0,155

0,117

0,084

0,064

0,015

0,098

0,042

0,088

Creditos Totales

1 272 0,000

0,000

0,000

0,000

0,000

0,065

0,673

0,062

0,190

0,102

Creditos Totales

8 9 0,000

0,000

0,003

0,000

0,000

0,000

0,004

0,000

0,000

0,038

Creditos Totales

... ... ... ... ... ... ... ... ... ... ... ...

Desertor

False 4389 0,961

0,992

0,992

0,932

0,661

0,888

0,252

0,979

0,266

0,849

Desertor

True 711 0,039

0,008

0,008

0,068

0,339

0,112

0,748

0,021

0,734

0,151

Desertor

missing

0 0,000

0,000

0,000

0,000

0,000

0,000

0,000

0,000

0,000

0,000

Doble Mean 0,00 0,00 0,00 -0,99 -1,00 0,00 0,00 0,00 -0,43 0,00 -0,40

Doble Deviation

0,46 0,03 0,11 0,50 0,49

Edad Mean 22,00 22,37

21,93

21,49

21,94

21,98

23,16

22,76

22,67

23,16

28,67

Edad Deviation

2,78 2,33 2,25 1,85 2,22 2,33 2,38 2,41 1,88 2,44 6,86

Numero Creditos Primer Semestre Aprobados

18 1127 0,198

0,531

0,423

0,143

0,033

0,012

0,042

0,000

0,008

0,021

Numero Creditos Primer Semestre

15 1017 0,370

0,190

0,164

0,270

0,184

0,014

0,036

0,000

0,053

0,135

Page 54: Modelo de Minería de Datos sobre la deserción en

Aprobados

Numero Creditos Primer Semestre Aprobados

12 652 0,210

0,018

0,008

0,216

0,291

0,058

0,091

0,000

0,142

0,204

Numero Creditos Primer Semestre Aprobados

0 516 0,000

0,000

0,000

0,008

0,000

0,618

0,020

0,996

0,183

0,192

Numero Creditos Primer Semestre Aprobados

16 482 0,124

0,097

0,162

0,121

0,058

0,008

0,000

0,000

0,043

0,092

Numero Creditos Primer Semestre Aprobados

9 256 0,029

0,000

0,000

0,062

0,168

0,037

0,136

0,000

0,177

0,056

Numero Creditos Primer Semestre Aprobados

19 224 0,014

0,100

0,128

0,030

0,002

0,008

0,000

0,000

0,004

0,006

Numero Creditos Primer Semestre Aprobados

6 142 0,000

0,000

0,000

0,019

0,037

0,043

0,190

0,000

0,159

0,051

Page 55: Modelo de Minería de Datos sobre la deserción en

Numero Creditos Primer Semestre Aprobados

... ... ... ... ... ... ... ... ... ... ... ...

Numero Creditos Primer Semestre Intentados

18 1426 0,281

0,535

0,449

0,204

0,170

0,082

0,091

0,082

0,073

0,052

Numero Creditos Primer Semestre Intentados

15 1222 0,370

0,171

0,126

0,323

0,311

0,087

0,219

0,069

0,257

0,224

Numero Creditos Primer Semestre Intentados

16 649 0,153

0,090

0,154

0,168

0,149

0,069

0,106

0,024

0,113

0,109

Numero Creditos Primer Semestre Intentados

12 491 0,097

0,014

0,003

0,122

0,199

0,098

0,269

0,005

0,223

0,206

Numero Creditos Primer Semestre Intentados

0 358 0,000

0,000

0,000

0,001

0,000

0,422

0,008

0,782

0,093

0,086

Numero Creditos

19 317 0,037

0,120

0,145

0,047

0,024

0,032

0,000

0,004

0,017

0,025

Page 56: Modelo de Minería de Datos sobre la deserción en

Primer Semestre Intentados

Numero Creditos Primer Semestre Intentados

20 132 0,010

0,043

0,082

0,012

0,004

0,023

0,004

0,002

0,000

0,019

Numero Creditos Primer Semestre Intentados

13 129 0,021

0,000

0,011

0,037

0,057

0,046

0,062

0,012

0,045

0,007

Numero Creditos Primer Semestre Intentados

... ... ... ... ... ... ... ... ... ... ... ...

Numero Creditos Segundo Semestre Aprobados

16 1026 0,269

0,374

0,243

0,223

0,016

0,078

0,000

0,140

0,000

0,058

Numero Creditos Segundo Semestre Aprobados

19 706 0,050

0,364

0,330

0,063

0,000

0,039

0,000

0,134

0,000

0,006

Numero Creditos

13 562 0,295

0,018

0,025

0,206

0,061

0,090

0,000

0,016

0,004

0,000

Page 57: Modelo de Minería de Datos sobre la deserción en

Segundo Semestre Aprobados

Numero Creditos Segundo Semestre Aprobados

10 381 0,148

0,000

0,001

0,129

0,211

0,045

0,000

0,000

0,032

0,032

Numero Creditos Segundo Semestre Aprobados

0 346 0,000

0,000

0,000

0,000

0,000

0,000

0,996

0,000

0,235

0,195

Numero Creditos Segundo Semestre Aprobados

15 330 0,067

0,022

0,032

0,071

0,044

0,212

0,000

0,238

0,001

0,140

Numero Creditos Segundo Semestre Aprobados

18 316 0,015

0,054

0,103

0,038

0,008

0,139

0,000

0,413

0,000

0,019

Numero Creditos Segundo Semestre

12 254 0,051

0,002

0,001

0,079

0,106

0,162

0,000

0,028

0,032

0,167

Page 58: Modelo de Minería de Datos sobre la deserción en

Aprobados

Numero Creditos Segundo Semestre Aprobados

... ... ... ... ... ... ... ... ... ... ... ...

Numero Creditos Segundo Semestre Intentados

16 1334 0,424

0,327

0,210

0,344

0,188

0,116

0,000

0,150

0,066

0,084

Numero Creditos Segundo Semestre Intentados

19 892 0,125

0,381

0,349

0,144

0,023

0,050

0,004

0,134

0,021

0,000

Numero Creditos Segundo Semestre Intentados

0 602 0,080

0,035

0,034

0,084

0,080

0,048

0,972

0,000

0,218

0,271

Numero Creditos Segundo Semestre Intentados

15 425 0,078

0,017

0,024

0,102

0,127

0,270

0,000

0,209

0,092

0,128

Numero Creditos

18 420 0,034

0,058

0,105

0,064

0,069

0,196

0,000

0,446

0,016

0,026

Page 59: Modelo de Minería de Datos sobre la deserción en

Segundo Semestre Intentados

Numero Creditos Segundo Semestre Intentados

13 406 0,148

0,013

0,011

0,105

0,203

0,092

0,000

0,000

0,086

0,013

Numero Creditos Segundo Semestre Intentados

20 200 0,024

0,072

0,079

0,036

0,011

0,041

0,000

0,036

0,007

0,000

Numero Creditos Segundo Semestre Intentados

12 191 0,023

0,002

0,001

0,035

0,080

0,114

0,008

0,012

0,137

0,166

Numero Creditos Segundo Semestre Intentados

... ... ... ... ... ... ... ... ... ... ... ...

Numero Semestres Grado

Mean 14,00 9,78 7,96 7,86 10,31

12,94

17,12

61,43

16,08

26,15

19,15

Numero Semestr

Deviation

20,90 1,06 0,57 0,67 1,90 1,97 6,20 74,90

1,92 13,51

12,34

Page 60: Modelo de Minería de Datos sobre la deserción en

es Grado

Programa1

IIND 1643 0,401

0,483

0,274

0,230

0,203

0,372

0,175

0,460

0,155

0,097

Programa1

ICIV 672 0,149

0,105

0,106

0,146

0,175

0,200

0,077

0,091

0,146

0,080

Programa1

IMEC 653 0,147

0,072

0,096

0,122

0,176

0,061

0,295

0,108

0,220

0,064

Programa1

IQUI 540 0,101

0,093

0,105

0,140

0,096

0,055

0,175

0,122

0,108

0,058

Programa1

IAMB 390 0,075

0,074

0,071

0,082

0,074

0,112

0,070

0,095

0,068

0,038

Programa1

IELC 380 0,036

0,045

0,111

0,107

0,109

0,060

0,103

0,035

0,122

0,042

Programa1

ISIS 330 0,062

0,070

0,061

0,058

0,098

0,057

0,043

0,020

0,112

0,037

Programa1

IBIO 104 0,018

0,028

0,020

0,013

0,029

0,027

0,035

0,012

0,000

0,019

Programa1

... ... ... ... ... ... ... ... ... ... ... ...

Programa2

NA 3504 1,000

0,999

0,012

0,000

1,000

1,000

1,000

0,566

1,000

0,603

Programa2

IIND 227 0,000

0,000

0,146

0,134

0,000

0,000

0,000

0,080

0,000

0,038

Programa2

IAMB 173 0,000

0,000

0,083

0,137

0,000

0,000

0,000

0,037

0,000

0,057

Programa2

ICIV 140 0,000

0,000

0,087

0,087

0,000

0,000

0,000

0,056

0,000

0,008

Programa2

ADMI 139 0,000

0,000

0,093

0,077

0,000

0,000

0,000

0,049

0,000

0,026

Programa2

ECON 126 0,000

0,000

0,103

0,054

0,000

0,000

0,000

0,037

0,000

0,013

Programa2

ISIS 93 0,000

0,000

0,064

0,053

0,000

0,000

0,000

0,018

0,000

0,026

Programa2

IBIO 92 0,000

0,000

0,064

0,055

0,000

0,000

0,000

0,016

0,000

0,013

Programa2

... ... ... ... ... ... ... ... ... ... ... ...

Promedio Primer

8 1093 0,210

0,373

0,359

0,190

0,068

0,118

0,049

0,060

0,035

0,226

Page 61: Modelo de Minería de Datos sobre la deserción en

Semestre

Promedio Primer Semestre

7 992 0,322

0,161

0,225

0,242

0,121

0,117

0,055

0,043

0,087

0,140

Promedio Primer Semestre

6 895 0,293

0,043

0,056

0,300

0,308

0,159

0,066

0,028

0,189

0,123

Promedio Primer Semestre

9 838 0,061

0,418

0,359

0,072

0,012

0,040

0,046

0,075

0,005

0,268

Promedio Primer Semestre

5 427 0,087

0,003

0,002

0,149

0,251

0,085

0,043

0,000

0,234

0,043

Promedio Primer Semestre

0 369 0,000

0,001

0,000

0,001

0,000

0,426

0,008

0,786

0,093

0,137

Promedio Primer Semestre

4 297 0,027

0,000

0,000

0,045

0,237

0,047

0,075

0,000

0,315

0,038

Promedio Primer Semestre

3 149 0,000

0,000

0,000

0,000

0,003

0,004

0,509

0,007

0,038

0,026

Promedio Primer Semestre

... ... ... ... ... ... ... ... ... ... ... ...

Promedio Segundo Semestre

6 965 0,306

0,141

0,152

0,278

0,144

0,239

0,000

0,140

0,044

0,097

Promedio Segund

7 900 0,179

0,273

0,265

0,153

0,026

0,253

0,000

0,212

0,008

0,143

Page 62: Modelo de Minería de Datos sobre la deserción en

o Semestre

Promedio Segundo Semestre

8 788 0,067

0,294

0,312

0,092

0,022

0,174

0,000

0,310

0,016

0,126

Promedio Segundo Semestre

5 741 0,290

0,027

0,031

0,245

0,269

0,170

0,000

0,029

0,054

0,028

Promedio Segundo Semestre

9 582 0,019

0,263

0,232

0,036

0,004

0,076

0,000

0,309

0,004

0,216

Promedio Segundo Semestre

4 448 0,127

0,001

0,005

0,141

0,250

0,080

0,000

0,000

0,207

0,049

Promedio Segundo Semestre

0 329 0,000

0,001

0,003

0,000

0,000

0,000

0,968

0,000

0,136

0,278

Promedio Segundo Semestre

3 277 0,011

0,000

0,000

0,052

0,270

0,008

0,016

0,000

0,329

0,038

Promedio Segundo

... ... ... ... ... ... ... ... ... ... ... ...

Page 63: Modelo de Minería de Datos sobre la deserción en

Semestre

Puntaje Uniandes

4 1312 0,321

0,219

0,166

0,321

0,315

0,246

0,226

0,292

0,228

0,076

Puntaje Uniandes

3 1074 0,277

0,092

0,064

0,218

0,352

0,259

0,344

0,122

0,409

0,120

Puntaje Uniandes

5 963 0,183

0,223

0,221

0,223

0,139

0,153

0,156

0,233

0,108

0,089

Puntaje Uniandes

6 705 0,098

0,217

0,229

0,111

0,087

0,135

0,088

0,143

0,053

0,047

Puntaje Uniandes

7 655 0,064

0,226

0,291

0,084

0,028

0,078

0,044

0,190

0,022

0,075

Puntaje Uniandes

2 228 0,040

0,010

0,017

0,034

0,069

0,089

0,127

0,020

0,143

0,027

Puntaje Uniandes

8 156 0,015

0,012

0,012

0,009

0,010

0,033

0,015

0,000

0,029

0,565

Puntaje Uniandes

1 7 0,003

0,000

0,000

0,000

0,000

0,007

0,000

0,000

0,008

0,000

Puntaje Uniandes

... ... ... ... ... ... ... ... ... ... ... ...

Ratio Mean 0,87 0,88 0,98 0,98 0,86 0,71 0,86 0,58 0,96 0,59 0,90

Ratio Deviation

0,16 0,08 0,03 0,03 0,11 0,10 0,11 0,27 0,07 0,18 0,17

Sexo M 3507 0,667

0,610

0,662

0,666

0,808

0,720

0,764

0,639

0,832

0,750

Sexo F 1593 0,333

0,390

0,338

0,334

0,192

0,280

0,236

0,361

0,168

0,250

Sexo missing

0 0,000

0,000

0,000

0,000

0,000

0,000

0,000

0,000

0,000

0,000

Figure 38: Caracteriticas Clusters sin la variable carnet

Variables Values Probability

Programa2 NA 100,000%

Page 64: Modelo de Minería de Datos sobre la deserción en

Sexo M 83,161%

Desertor True 73,382%

Ratio 0,4 - 0,8 71,317%

Creditos Aprobados 1 61,523%

Colegio missing 56,011%

Creditos Totales 2 48,800%

Numero Semestres Grado 29 - 76 44,281%

Puntaje Uniandes 3 40,917%

Numero Semestres Grado 14 - 28 37,278%

Promedio Segundo Semestre 3 32,895%

Edad 25 - 30 32,615%

Promedio Primer Semestre 4 31,516%

Edad 23 - 24 29,775%

Desertor False 26,618%

Numero Creditos Primer Semestre Intentados 15 25,745%

Creditos Aprobados 2 24,175%

Edad 21 - 22 23,613%

Numero Creditos Segundo Semestre Aprobados 0 23,479%

Promedio Primer Semestre 5 23,435%

Puntaje Uniandes 4 22,802%

Numero Creditos Primer Semestre Intentados 12 22,298%

Programa1 IMEC 21,988%

Numero Creditos Segundo Semestre Intentados 0 21,837%

Promedio Segundo Semestre 4 20,693%

Creditos Totales 1 18,996%

Promedio Primer Semestre 6 18,896%

Numero Creditos Primer Semestre Aprobados 0 18,285%

Numero Creditos Segundo Semestre Aprobados 6 18,236%

Creditos Totales 3 17,818%

Numero Creditos Primer Semestre Aprobados 9 17,722%

Sexo F 16,839%

Numero Creditos Primer Semestre Aprobados 6 15,946%

Programa1 IIND 15,544%

Numero Creditos Segundo Semestre Aprobados 3 14,938%

Promedio Segundo Semestre 2 14,876%

Programa1 ICIV 14,569%

Page 65: Modelo de Minería de Datos sobre la deserción en

Puntaje Uniandes 2 14,252%

Numero Creditos Primer Semestre Aprobados 12 14,173%

Numero Creditos Segundo Semestre Intentados 12 13,666%

Promedio Segundo Semestre 0 13,564%

Edad 17 - 20 13,313%

Doble 0 - -1 12,270%

Programa1 IELC 12,153%

Numero Semestres Grado 6 - 13 11,625%

Numero Creditos Primer Semestre Intentados 16 11,325%

Numero Creditos Segundo Semestre Aprobados 4 11,274%

Ratio 0,8 - 0,9 11,251%

Programa1 ISIS 11,226%

Doble 0 - -1 11,129%

Puntaje Uniandes 5 10,822%

Programa1 IQUI 10,796%

Doble -1 10,729%

Numero Creditos Segundo Semestre Intentados 9 9,950%

Numero Creditos Segundo Semestre Aprobados 7 9,656%

Promedio Primer Semestre 0 9,271%

Numero Creditos Primer Semestre Intentados 0 9,271%

Numero Creditos Segundo Semestre Intentados 15 9,190%

Numero Creditos Segundo Semestre Intentados 10 9,120%

Promedio Primer Semestre 7 8,703%

Numero Creditos Segundo Semestre Intentados 13 8,646%

Numero Creditos Primer Semestre Aprobados 10 8,146%

Numero Creditos Primer Semestre Intentados 9 8,144%

Numero Creditos Primer Semestre Intentados 18 7,290%

Programa1 IAMB 6,754%

Numero Creditos Segundo Semestre Intentados 16 6,611%

Numero Creditos Segundo Semestre Aprobados 9 6,508%

Numero Creditos Primer Semestre Aprobados 7 6,063%

Promedio Segundo Semestre 5 5,402%

Numero Creditos Primer Semestre Aprobados 15 5,347%

Promedio Segundo Semestre 1 5,322%

Puntaje Uniandes 6 5,275%

Creditos Aprobados 3 5,025%

Page 66: Modelo de Minería de Datos sobre la deserción en

Numero Creditos Segundo Semestre Aprobados 1 5,009%

Programa1 IGEN 4,553%

Numero Creditos Primer Semestre Intentados 13 4,490%

Promedio Segundo Semestre 6 4,410%

Ratio 0,9 - 1,0 4,353%

Creditos Totales 6 4,318%

Numero Creditos Primer Semestre Aprobados 16 4,252%

Creditos Totales 5 4,201%

Creditos Aprobados 4 4,045%

Numero Creditos Segundo Semestre Intentados 6 3,843%

Numero Creditos Primer Semestre Aprobados 3 3,822%

Promedio Primer Semestre 3 3,802%

Creditos Totales 4 3,561%

Promedio Primer Semestre 8 3,497%

Numero Creditos Segundo Semestre Intentados 3 3,385%

Numero Creditos Segundo Semestre Intentados 14 3,285%

Numero Creditos Segundo Semestre Aprobados 12 3,172%

Numero Creditos Segundo Semestre Aprobados 10 3,151%

Puntaje Uniandes 8 2,911%

Creditos Aprobados 6 2,685%

Colegio 19505 2,605%

Programa1 IELE 2,372%

Creditos Totales 7 2,306%

Numero Creditos Primer Semestre Intentados 10 2,296%

Puntaje Uniandes 7 2,250%

Colegio 108381 2,195%

Numero Creditos Primer Semestre Aprobados 13 2,178%

Numero Creditos Segundo Semestre Intentados 7 2,172%

Creditos Aprobados 5 2,150%

Numero Creditos Segundo Semestre Intentados 19 2,101%

Numero Creditos Segundo Semestre Aprobados 8 2,086%

Colegio 34306 1,925%

Numero Creditos Primer Semestre Intentados 6 1,862%

Colegio 80127 1,845%

Numero Creditos Segundo Semestre Intentados 4 1,785%

Numero Creditos Primer Semestre Intentados 19 1,742%

Page 67: Modelo de Minería de Datos sobre la deserción en

Promedio Segundo Semestre 8 1,596%

Colegio 32730 1,571%

Numero Creditos Segundo Semestre Intentados 18 1,568%

Colegio 98640 1,560%

Colegio 19810 1,554%

Colegio 22012 1,554%

Numero Creditos Primer Semestre Intentados 3 1,543%

Colegio 66431 1,543%

Numero Creditos Segundo Semestre Aprobados 2 1,535%

Colegio 42473 1,385%

Numero Creditos Primer Semestre Intentados 14 1,365%

Numero Creditos Segundo Semestre Intentados 11 1,279%

Colegio 35816 1,261%

Numero Creditos Primer Semestre Aprobados 4 1,239%

Numero Creditos Primer Semestre Aprobados 11 1,237%

Colegio 19794 1,164%

Numero Creditos Primer Semestre Intentados 8 1,157%

Colegio 19406 1,156%

Colegio 19448 1,146%

Colegio 14472 1,092%

Colegio 102632 1,045%

Colegio 46771 1,021%

Colegio 3 0,982%

Colegio 23739 0,929%

Promedio Segundo Semestre 7 0,833%

Numero Creditos Segundo Semestre Intentados 17 0,830%

Colegio 3459 0,789%

Colegio 22848 0,786%

Colegio 21154 0,775%

Numero Creditos Primer Semestre Intentados 17 0,771%

Colegio 21485 0,771%

Puntaje Uniandes 1 0,771%

Colegio 53363 0,771%

Colegio 3418 0,762%

Numero Creditos Primer Semestre Aprobados 18 0,758%

Numero Creditos Segundo Semestre Intentados 20 0,730%

Page 68: Modelo de Minería de Datos sobre la deserción en

Colegio 24281 0,579%

Colegio 21899 0,569%

Colegio 49387 0,526%

Colegio 24216 0,511%