modelo de minería de datos sobre la deserción en
TRANSCRIPT
Modelo de Minería de Datos sobre la deserción en estudiantes de pregrado
Trabajo de Proyecto de Grado
Presentado al
Departamento de Ingeniería de Sistemas y Computación
Por
Erika Carolina Kohn Moreno
Asesor: Maria del Pilar Villamil
Para optar al título de
Ingeniera de Sistemas y Computación
Universidad de Los Andes
Facultad Ingeniería
Departamento de Ingeniería de Sistemas Y Computación
Noviembre, 2014
Contenido
1 Introducción .............................................................................................................. 3
2 Descripción General ................................................................................................. 5
2.1 Objetivos ............................................................................................................ 5
2.1.1 Objetivo General .......................................................................................... 5
2.1.2 Objetivos Específicos .................................................................................. 5
2.2 Antecedentes ..................................................................................................... 6
3 Diseño y especificaciones ........................................................................................ 8
3.1 Definición del problema ...................................................................................... 8
3.2 Especificaciones ................................................................................................ 8
3.3 Restricciones ...................................................................................................... 9
4 Desarrollo del diseño ................................................................................................ 9
4.1 Recolección de Información ............................................................................... 9
4.2 Alternativas de diseño ...................................................................................... 14
5 Implementación ...................................................................................................... 14
5.1 Descripción de la implementación .................................................................... 14
5.2 Resultados esperados ..................................................................................... 26
6 Validación ............................................................................................................... 28
6.1 Métodos ........................................................................................................... 28
6.2 Validación de resultados .................................................................................. 28
7 Conclusiones .......................................................................................................... 29
7.1 Discusión ......................................................................................................... 29
7.2 Trabajo futuro ................................................................................................... 30
8 Referencias ............................................................................................................ 30
9 Apéndices ............................................................................................................... 31
TABLA DE FIGURAS
Figure 1: Proceso para Construir un modelo de Minieria de datos para la Universidad de los
Andes ......................................................................................................... 9
Figure 2: Porcentaje de nulos por columna ........................................................... 10
Figure 3: Distribucion de Valores para la columna de creditos perdidos .......................... 11
Figure 4: Distribicion de valores para la columna de creditos tomados ........................... 11
Figure 5: Frecuencia de Valores es la columna estado .............................................. 12
Figure 6: Frecuencia de valores en la columna estrato .............................................. 12
Figure 7: Frecuencia de valores en la columna sexo ................................................. 13
Figure 8: Frecuencia de valores en la columna puesto icfes ........................................ 13
Figure 9: Distribucion columna Puntaje UA ............................................................ 13
Figure 10: Porcentaje nulos columna UA .............................................................. 13
Figure 11: Control Flow de ETL .......................................................................... 15
Figure 12: Primera Fase de ETL ......................................................................... 16
Figure 13: Segunda Fase de ETL ......................................................................... 17
Figure 14: Rangos para Puntaje Uniandes ............................................................. 17
Figure 15: Rango para Creditos .......................................................................... 18
Figure 16: Tercera Fase de ETL ......................................................................... 18
Figure 17: Cuarta Fase de ETL ........................................................................... 19
Figure 18: Fact Table ..................................................................................... 20
Figure 19: Fact Table parte 2 ............................................................................ 20
Figure 20: Dimension Estudiante ........................................................................ 20
Figure 21: Modelos de Mineria de Datos................................................................ 21
Figure 22: Arbol de Decisión 1 ........................................................................... 22
Figure 23: Diagrama de Influencia 1 .................................................................... 22
Figure 24: Arbol de Decisión 2 ........................................................................... 23
Figure 25: Acalracion del segundo nivel ............................................................... 23
Figure 26: Diagrama de Influencia 2 .................................................................... 24
Figure 27: Clusters Modelo 1 ............................................................................. 24
Figure 28: Tabla de caracteristicas del Cluster 9 ..................................................... 25
Figure 29: Tabla de caracteristicas del Cluster 6 ..................................................... 25
Figure 30: Clusters Modelo 2 ............................................................................. 25
Figure 31: Tabla de caracteristicas del Cluster de desertores ...................................... 26
Figure 32: Matriz de Confusión .......................................................................... 28
Figure 33: Test de Clasificación ......................................................................... 29
Figure 34: Test de Varianzas ............................................................................. 29
Modelo de Minería de Datos sobre la deserción en estudiantes de
pregrado
1 INTRODUCCIÓN
La Universidad de Los Andes cuenta actualmente con más de 17,1231 estudiantes de
pregrado, lo que hace imposible una atención personalizada para cada uno de ellos. La
Universidad tiene como misión posicionarse en el 2020 como líder educativa y para
lograrlo necesita un acompañamiento a estudiantes con problemas académicos o
personales. El centro de decanatura de estudiantes ofrece servicios de orientación
profesional y psicológica para los estudiantes que acuden a ella, pero los estudiantes
que acuden van de manera reactiva. Es por esto, que para la Universidad de los Andes,
es de gran importancia conocer o saber, cuáles estudiantes tienen un mayor riesgo de
desertar.
Adicionalmente como problema para Colombia, la deserción estudiantil obstaculiza la
ampliación de la cobertura de la educación superior que es un factor muy importante
para el crecimiento económico y social del país. Algunos estudios previos del Ministerio
de Educación2, analizan este problema y plantean algunas teorías, pero realmente no se
cuenta con un modelo de inteligencia de negocios que ayude a identificar de manera
proactiva los posibles problemas con un grupo de estudiantes y de esta manera, actuar
preventivamente.
Las tasas de deserción de acuerdo al Ministerio de educación están alrededor del 45%
al 50%, lo cual indica que solo 1 de cada dos estudiantes que entran a la universidad se
gradúa como profesional. Las tasas de deserción de América Latina son muy similares,
chile, 54%, Venezuela 52%, y México 53%. Países como Alemania han logrado aumentar
la cobertura de la educación superior y bajar la deserción.3
Los factores que llevan a la deserción estudiantil han sido estudiados por psicólogos,
sociólogos y economistas entre otros. “La psicología y la sociología enfatizan para el
examen de la deserción aspectos tales como las expectativas personales de éxito, la
percepción de la dificultad del programa académico que cursa, los valores familiares y el
apoyo e incentivos que los familiares le brindan al estudiante. Fishbein y Ajzen (1975)4
1 Boletin Estadistico Universidad de los Andes, 2013. http://planeacion.uniandes.edu.co/pdi/boletin-estadistico/boletin-estadistico 2 Guzman, Duran(2009) Metodologia de seguimiento, diagnostico, y elementos para su prevención. En la educación superior
Colombiana. Ministerio de la Educación. 3 Guzman, Duran(2009) Metodologia de seguimiento, diagnostico, y elementos para su prevención. En la educación superior Colombiana. Ministerio de la Educación. 4 Fishbein y Ajzen (1975). Belief, Attitude, Intention, and Behavior: An introduction to Theory and Research. Reading, MA: Addison-Wesley.
argumentan que la deserción debe ser concebida como el resultado del debilitamiento
de las intenciones iniciales del individuo y de su persistencia; aspectos que a su vez
están influenciados por el auto concepto del estudiante. Attinasi (1986)5 asegura que la
decisión de desertar se ve influenciada por las percepciones y el análisis que el individuo
hace de su vida universitaria.”6
Este trabajo se enfoca en predecir la deserción de los estudiantes después de segundo
semestre. Se deben encontrar las variables que son estadísticamente significativas para
la deserción y construir un modelo de minería de datos para esta variable. Se deben
utilizar las variables recopiladas en los dos primeros semestres de vida estudiantil para
poder correr el modelo.
Esto documento se organiza como primera medida los objetivos y descripción del
problema en la sección 2.1, luego, la sección 2.2 presenta análisis de los marcos de
referencia. Seguido del diseño de la solución, el análisis de los datos y el desarrollo del
ETL y modelo de minería. Para finalizar están las conclusiones y el trabajo futuro.
2 DESCRIPCIÓN GENERAL
2.1 OBJETIVOS
2.1.1 Objetivo General
Predecir el comportamiento académico de un estudiante después de tercer semestre en
la Universidad de Los Andes, por medio de los datos adquiridos durante el proceso de
admisiones y durante los primeros dos semestres.
2.1.2 Objetivos Específicos
- Determinar variables significativas que afectan o pueden llegar a afectar la
deserción del estudiante.
- Construir un modelo de minería de datos para poder predecir este comportamiento
e incorporarlo a un proceso iterativo que se pueda utilizar de manera periódica.
- Perfilar los datos que tiene la Universidad de los Andes en Banner para obtener
grupos de estudiantes con comportamientos similares.
- Validar el modelo implementado con datos pasados reales para definir la precisión
y su posible uso en el contexto de la universidad.
-
5 Attinasi (1986). Getting in: Chicano students’ perceptions of their college-going behavior with
implications for their freshman year experiences. Arizona State University, Tempe. 6 Sánchez Torres, Fabio. La Deserción en la Educación Superior en Colombia durante la Primera Década del Siglo XXI: ¿Por qué ha aumentado tanto?. 2012
Formatted: Indent: Left: 1,27 cm, No bullets or
numbering
Formatted: Font: (Default) Arial, 12 pt
Formatted: Normal, No bullets or numbering
2.2 ANTECEDENTES
En algunas universidades internacionales se han hecho estudios de este tema, donde
se construyen modelos de predicción para la deserción estudiantil como los que se
describen a continuación. En el caso de la Universidad Nacional de Rioja en Argentina
se construyó un modelo basándose en la metodología de Adaptive Business Intelligence,
donde se utiliza una bodega de datos, y sobre ella herramientas de Minería de datos,
OLAP y otras para la realización de reportes especializados. Se validó con los datos
históricos, y dio resultados coherentes (Roldan, 2012)7.
Adicionalmente podemos ver las estadísticas de la educación superior en Colombia. “El
acceso a la educación superior aumentó vertiginosamente durante la primera década del
siglo XXI. La tasa de cobertura bruta –contando el SENA- pasó de 14% a 36% entre 2000
y 2010 mientras la tasa de absorción –estudiantes de primer semestre en el año
presentes sobre el número de bachilleres el año inmediatamente anterior en porcentaje-
aumentó de 21% a 53%. No obstante, al tiempo que la cobertura en educación superior
creció lo hizo también la tasa de deserción. Así, para los estudiantes de la cohorte de
2000 la tasa de deserción acumulada a décimo semestre era de 50.9% mientras que esa
tasa superó 55.1% para la cohorte que ingreso en 2005. Este incremento está explicado
por la mayor vulnerabilidad tanto socioeconómica como académica de las nuevas
cohortes de estudiantes. También contribuye con esta tendencia el porcentaje más alto
de estudiantes que acceden a las instituciones técnicas y tecnológicas frente a las
universidades. Los apoyos financieros y académicos de las instituciones y los créditos
del ICETEX han contrarrestado solo parcialmente la mayor deserción”8
Por otro lado, vemos que en la Universidad de Malasia, se realizó un estudio que utiliza
Minería de Datos con algunos análisis estadísticos para producir mejores resultados y
discriminar esas variables que no son importantes para predecir el comportamiento
académico de un estudiante. Se utiliza Kernel K-means Clustering y Smooth Support
Vector Machine Classification para realizar tareas de Minería de Datos.
7 Roldan, M.F. Aplicación de una nueva metodología Adaptive Business Intelligence para un análisis taxonómico predictivo utilizado para la detección temprana de alumnos universitarios en riesgo de deserción. 2012 8 Sánchez Torres, Fabio. La Deserción en la Educación Superior en Colombia durante la Primera Década del Siglo XXI: ¿Por qué ha aumentado tanto?. 2012
Ilustración 1: Proceso de Data mining
Adicionalmente, la Universidad Politécnica de Valencia, desarrolló un modelo basado en
segmentación y en árboles de decisiones para la deserción académica. Este es el
modelo que más se acerca a la realidad de la Universidad de los Andes y los datos
utilizados en su mayoría, son datos que se tienen de cada uno de los estudiantes de la
Universidad de los Andes. Como primera medida, utilizó regresiones para identificar las
variables más significativas, luego utilizó 11 variables categóricas y 5 variables
numéricas para el algoritmo de C-Means en la creación de los clusters. Luego de tener
identificadas las características de cada uno de los clúster, se creó un árbol de
decisiones en cada uno de ellos. Se utilizó el algoritmo de C4.5 para crear estas reglas
de decisión. Finalmente construyeron un árbol donde se tienen las probabilidades
dependiendo de ciertas características. El modelo obtuvo una precisión del 79%, y fue
un modelo muy bueno ya que se podía interpretar por cualquier persona muy fácilmente.
Estos estudios anteriores se tuvieron en cuenta para el desarrollo del proyecto actual. Se
tuvo en cuenta las variables y los procesos consultados como marco de referencia y
punto de partida para este proyecto.
Formatted: Spanish (Colombia)
Field Code Changed
Formatted: Spanish (Colombia)
3 DISEÑO Y ESPECIFICACIONES
3.1 DEFINICIÓN DEL PROBLEMA
La Universidad de Los Andes está interesada en conocer el comportamiento académico
de los estudiantes, ya que en la actualidad la tasa de deserción es del 22.7%9 y no se
cuenta con mecanismos predictivos que puedan proveer esta información de forma
anticipada. Por otro lado, la Universidad está interesada en identificar estos estudiantes
y generar planes de acción, evaluando una serie de variables socioeconómicas y
académicas de cada estudiante, que permitan acompañar a los estudiantes y brindarles
herramientas para afrontar de mejor manera el problema que se está presentando.
3.2 ESPECIFICACIONES
La definición para la deserción es un estudiante que no ha estudiado por más de 3
semestres consecutivos. Esto es importante para la clasificación del modelo tanto en la
parte de entrenamiento como en la de validación.
3.2.1 Requerimientos Funcionales
Se debe poder calcular la probabilidad de desertar de un estudiante de la Universidad de
los Andes por razones académicas. Además, Se debe identificar cuáles son las variables
significativas para la deserción de un estudiante. Se tiene un conjunto de variables
socioeconómicas, como estrato y edad y académicas de cada estudiante tales como
promedio primero y segundo semestre, cohorte y número de créditos.
3.2.2 Requerimientos No Funcionales
Se debe crear un modelo que cualquier persona de la Universidad de los Andes pueda
utilizar sin tener conocimientos técnicos especiales. Se deben utilizar herramientas de
minería de datos para construir el modelo y dar solución a los requerimientos funcionales.
Adicionalmente, el modelo debe tener una presión mayor al 70%.
9 Boletin Estadistico Universidad de los Andes, 2013. http://planeacion.uniandes.edu.co/pdi/boletin-estadistico/boletin-estadistico
3.3 RESTRICCIONES
3.3.1 Datos
El modelo debe utilizar los datos institucionales de cada uno de los estudiantes de la
Universidad de Los Andes.
4 DESARROLLO DEL DISEÑO
En la siguiente imagen se ve el proceso que se siguió para la ejecución del diseño. Donde se
tiene como primera medida, la definición del problema, la investigación, el perfilamiento de
los datos, la construcción del modelo, la validación y el análisis de los resultados.
Figure 1: Proceso para Construir un modelo de Miniería de datos para la Universidad de los Andes
4.1 RECOLECCIÓN DE INFORMACIÓN
Las fuentes utilizadas para obtener el modelo es el reporte de estudiantes que utiliza
planeación. Este reporte es extraído de la base de datos que maneja Banner, el cual es
el sistema de información utilizado para registrar la información de los estudiantes. En
esta información tenemos como primera medida los datos propios de cada estudiante al
momento de ingreso. Como por ejemplo, su colegio, cédula, puntaje Icfes, sexo,
programa a cursar. Luego tenemos 8 columnas por cada semestre que transcurre.
Empieza en 1885-1. Continua de tal manera hasta el semestre en curso, 2014-1. En
estas 8 columnas tenemos los datos propios al estudiante en el momento que termina
cada uno de los semestres, entonces tenemos semestre, programa cursado, promedio
acumulado, promedio del semestre, nivel del estudiante, créditos intentados, créditos
perdidos y en qué estado se encuentra para el siguiente semestre.
Se realizó un perfilamiento de los datos desde el segundo semestre de 2006 ya que en
ese semestre ocurrió un cambio de pensum y por lo tanto el comportamiento de los
estudiantes antes de este cambio es diferente.
Figure 2: Porcentaje de nulos por columna
Por medio de la tabla anterior se verifica que no tienen nulos, como se ve en las
estadísticas. Si los datos fueran correctos y no se tuvieran datos faltantes ayudaría a la
construcción y precisión del modelo, mientras que si tenemos variables con grandes
porcentajes de nulos, la precisión no va a ser la deseada. Luego se hizo un análisis más
detallado para cada una de las columnas y se encontró lo siguiente:
Figure 3: Distribución de Valores para la columna de créditos perdidos
Figure 4: de valores para la columna de tomados
Figure 5: Frecuencia de Valores es la columna estado
El problema más significativo y grave en aspectos de calidad de datos es la cantidad de
nulos o (NA) que tenemos en cada una de las columnas. Esto se debe a que si el
estudiante entra a la universidad en el 2009, todas las columnas asociadas al estado de
cada semestre desde 1985 hasta el 2009 le van a aparecer en NA. No aparece en nulos
como lo discutimos antes pero si tienen el texto “NA” como lo vemos en la figura 6. Esto
no es un problema de precisión del modelo ya que en realidad es así como fue diseñado
y es correcto.
Figure 6: Frecuencia de valores en la columna estrato
El otro problema que tenemos es la columna “estrato”. Esta variable también tiene un
gran porcentaje (65%) de nulos que no reflejan la realidad de cada estudiante. Por lo
tanto, debemos descartar esta variable al no tener datos confiables.
Figure 7: Frecuencia de valores en la columna sexo
La variable sexo no tiene valores nulos y se tiene un 42.7% mujeres y un 57.3% hombres.
Figure 8: Frecuencia de valores en la columna puesto icfes
La variable de puesto icfes tiene el 50% de los valores en nulo. Por lo tanto, no es una
variable precisa para el modelo. Se debe revisar a continuación la variable de puntaje
uniandes para determinar si esta variable se puede tomar en el modelo y cumpliría el
mismo rol que la variable Icfes que se descartó.
Figure 9: Distribucion columna Puntaje UA
Figure 10: Porcentaje nulos columna UA
Se ve que el puntaje uniandes tiene un valor de 40% de nulos. Esta variable es muy
importante ya que es una manera de medir el rendimiento académico del estudiante
antes de ingresar a la universidad y posiblemente puede influir en el rendimiento dentro
de la universidad. En base a los marcos de referencia, esta variable era muy significativa
para la deserción, por lo tanto se debe incluir en el modelo Pero, por otro lado se debe
tener en cuenta esta variable como posible punto de mejora en los datos para aumentar
la precisión del modelo.
Con base en este perfilamiento podemos entender que se deben extraer y transformar
los datos de manera que se pueda construir un modelo de minería de datos y que no se
tenga ese porcentaje de nulos en las columnas de los semestres. Para fines analíticos
de este modelo, se debe eliminar la división de columnas por semestre y fecha y
reemplazarlos por estado del tiempo con respecto a cada uno de los estudiantes.
4.2 ALTERNATIVAS DE DISEÑO
Las variables del modelo se determinaron con base a los marcos de referencia y en
general se tuvo en cuenta todas las variables que contaban con suficientes datos, que
fueran íntegros y que cumplieran con un mínimo de calidad de datos. Se debe crear un
modelo ETL donde se traten estos datos y se construya un modelo para que sea el
utilizado por el modelo de Minería de Datos. Se puede crear el proceso de ETL de
diferentes maneras o se puede realizar manualmente con Excel.
Se decide hacerlo con SQL Integration Services al igual que se hizo el perfilamiento de
los datos suministrados. Se escoge esta herramienta porque es la que se va a utilizar
igualmente para el modelo de minería, por lo tanto, se utiliza toda la suite para hacer el
manejo y análisis correcto de los datos.
5 IMPLEMENTACIÓN
Para realizar este proyecto se utilizó la suite de SQL Server 2012. Se utilizó Data tools
para el ETL y para el modelo de minería de datos y SQL Management Studio para el
manejo de las bases de datos tanto iniciales como el modelo estrella final.
5.1 DESCRIPCIÓN DE LA IMPLEMENTACIÓN
El ETL se construyó con las siguientes tareas:
Figure 11: Control Flow de ETL
Esto se construyó para el control flow. Se elimina todo lo que se tenga en la dimensión
de estudiantes, en la tabla fact Estudiantes y se vuelve a crear. Esto se realiza, ya que
cada semestre se ingresan nuevos datos lo que implica que se modifiquen algunas filas
y que ingresen nuevas columnas en la base de datos de Estudiantes. Por lo tanto se
debe volver a realizar el proceso de ETL.
Field Code Changed
Figure 12: Primera Fase de ETL
En el Data Flow se empieza el proceso de ETL como tal. Primero, se extrae de la base
de datos origen los datos a tratar, luego se separan las filas (Los estudiantes) que tengan
un carnet mayor a 20062 por el cambio de pensum. Luego, se realiza un proceso de
conversión de data de la columna “sexo” para que sea un string. En la siguiente tarea se
separan todos los estudiantes que estudien ingeniería. Cabe recordar que para efectos
de este proyecto, sólo se utilizó la facultad de Ingeniería. Se establece quienes hacen
doble programa, en base a las variables de programa1 y programa2. Se tiene un nuevo
dato que dice si están en doble programa. Este dato llamado doble es un binario que va
a ir a la tabla de hechos.
Figure 13: Segunda Fase de ETL
Con base a la fecha de nacimiento se obtiene la edad, luego se remplazan los nulos de
puntaje uniandes por -1. Y se clasifica dentro de que rango está el promedio uniandes.
Según la siguiente tabla
Figure 14: Rangos para Puntaje Uniandes
Luego se hace el mismo procedimiento para los créditos, y se clasifican según la
siguiente tabla.
1 0-250
2 250-350
3 350-450
4 450-550
5 550-650
6 650-750
7 750----
puntaje uniandes
Figure 15: Rango para Creditos
Para la tarea de dar promedio en primer y segundo semestre, se busca por cada uno de
los estudiantes cuál fue el primer periodo donde empezó a estudiar y se registra como
primer semestre, luego el semestre después de este, será el segundo semestre. Estos
promedios quedan guardados en unas variables que serán utilizadas más adelante en la
tabla de hechos.
Figure 16: Tercera Fase de ETL
Para continuar, se hace una separación de los estudiantes que nunca empezaron a estudiar. Esto indica para términos del modelo, que sus datos en las columnas primer
1 0-25
2 25-50
3 50-75
4 75-100
5 100-125
6 125-150
7 150----
Creditos
semestre, segundo semestre y promedio deben ser 0. Estos estudiantes no van a ser tenidos en cuenta ya que no empezaron su carrera en la Universidad de los Andes. Luego de esto, empiezan a calcularse las medidas que van en la tabla de hechos. La primera son los semestres faltantes. Por lo tanto, se calcula el promedio de créditos vistos en los dos primeros semestres y se toma como el ritmo que va a llevar el estudiante durante el resto de su carrera. De esta manera se sabe el ritmo y aproximadamente cuántos semestres le va a tomar terminar la carrera. Luego se realiza una tarea para cambiar los nulos cuando se tienen en los créditos de primer o segundo semestre. Para terminar esta sección se calcula el Ratio, que es el número de créditos aprobados dividido en el número de créditos intentados. Esto se realiza ya que se comprobó en los marcos de referencia que esta es una medida clave para determinar la deserción. Este cálculo se hace con los dos primeros semestres.
Figure 17: Cuarta Fase de ETL
Para terminar, se hace una separación de los datos para crear paralelamente la
dimensión del estudiante y la tabla de hechos. Para la tabla de hechos se calcula el rango
para los promedios del semestre y se calculan los desertores.
Finalmente, la tabla de hechos se ve de esta manera:
Figure 18: Fact Table
Figure 19: Fact Table parte 2
La dimensión de estudiante se ve de esta manera donde se tiene la información de cada
estudiante:
Figure 20: Dimension Estudiante
Para la construcción del modelo de minería se utilizaron Clusters y Árboles de Decisión
donde se configuraron las variables de esta manera:
Figure 21: Modelos de Mineria de Datos
Como se muestra en la tabla anterior, se crearon dos árboles de decisión y dos clusters.
En los árboles de decisión se creó uno con todas las variables incluidas y en el segundo
no se tiene en cuenta el carnet. Para los cluster, es la misma distribución. La diferencia
es que la variable desertor es una entrada y no es una variable de decisión, ya que en
los clusters queremos agrupar por características y ver cuales presentan un mayor
porcentaje de deserción pero no es una variable de predicción.
Los resultados de los árboles de decisión fueron los siguientes:
1. Todas las variables
Figure 22: Arbol de Decisión 1
Figure 23: Diagrama de Influencia 1
En el modelo de árboles de decisión que se construyó utilizando todas las variables,
vemos que las variables más importantes que detectó el modelo son los créditos totales,
los créditos aprobados, el ratio, el programa1, el número de créditos aprobados en el
segundo semestre y el carnet. En versiones posteriores a este proyecto se deben incluir
más departamentos y es por esto que se incluye la variable desde este momento.
2. Sin la variable Carnet
Se intentó crear un modelo sin tener en cuenta el carnet, ya que para los objetivos
del modelo no se quiere tener considerada la variable del tiempo. Aunque para la
primera versión del modelo, el carnet es una variable significativa. Es la segunda
variable más significativa, por lo tanto, es importante para los fines del modelo. En
este modelo como se ve en la siguiente grafica vemos como la edad pasa a ser una
variable significativa para el modelo ya que es la segunda división en el árbol creado.
Figure 24: Arbol de Decisión 2
Figure 25: Acalracion del segundo nivel
Figure 26: Diagrama de Influencia 2
En este modelo se puede ver que las variables significativas que afectan directamente a
la variable de si el estudiante deserta son: programa1, edad, número de créditos segundo
semestre aprobados, créditos totales, ratio y créditos totales aprobados.
Los modelos construidos de Clusters fueron los siguientes:
1. Todas las variables
Figure 27: Clusters Modelo 1
Cluster 9
Variables Values Probability
Programa2 NA 97,202%
Numero Creditos Segundo Semestre Aprobados
0 93,634%
Numero Creditos Segundo Semestre Intentados
0 90,526%
Promedio Segundo Semestre
0 88,641%
Creditos Aprobados 1 78,944%
Sexo M 76,855%
Desertor True 74,559% Figure 28: Tabla de caracteristicas del Cluster 9
Cluster 6
Variables Values Probability
Programa2 NA 100,000%
Sexo M 82,594%
Ratio 0,4 - 0,8 74,360%
Numero Semestres Grado 14 - 28 62,546%
Desertor True 58,284% Figure 29: Tabla de caracteristicas del Cluster 6
2. Clusters sin la variable Carnet
Figure 30: Clusters Modelo 2
Variables Values Probability
Programa2 NA 100,000%
Sexo M 83,161%
Desertor True 73,382%
Ratio 0,4 - 0,8 71,317%
Creditos Aprobados 1 61,523%
Colegio missing 56,011%
Creditos Totales 2 48,800%
Numero Semestres Grado 29 - 76 44,281%
Puntaje Uniandes 3 40,917% Figure 31: Tabla de caracteristicas del Cluster de desertores
5.2 RESULTADOS ESPERADOS
5.2.1 Arboles de Decisión
Primero, en el modelo de árboles de decisión que se construyó utilizando todas las
variables vemos que las variables más importantes son los créditos totales, los créditos
aprobados, el ratio, el programa1, el número de créditos aprobados en el segundo
semestre y el carnet.
Vemos que si el ratio de créditos es mayor o igual a 0.9, la posibilidad de que el estudiante
deserte es casi nula. Recordemos que el radio se construye por medio del número de
créditos aprobados dividido entre el número de créditos intentados. Esto para segundo
semestre, por lo tanto, es un porcentaje de créditos aprobados del total que tomó.
Adicionalmente, cualitativamente tiene sentido que las personas que no pierden muchas
materias, estén felices y determinados en seguir en la universidad. Por otro lado, vemos
que los estudiantes con el radio menor a 0.6 tienen una alta probabilidad de desertar,
esto se puede explicar en que su nivel académico no es el adecuado para mantenerse
en la universidad. Si se pierden más del 40% de las materias, el promedio se va a ver
afectado y puede llegar a quedar en prueba académica. Luego de esto empiezan a influir
las otras variables de número de créditos, programa y créditos totales cursados.
Segundo, en el modelo donde se excluye la variable de carnet las variables significativas
que afectan directamente a la variable de deserción son: programa1, edad, número de
créditos segundo semestre aprobados, créditos totales, ratio y créditos totales aprobados.
Haciendo un análisis del árbol de decisión podemos ver al igual que en el primer modelo
construido de árboles, que la variable radio juega el papel más importante. Si el
estudiante tiene el radio mayor al 90% y adicionalmente estudia el segundo semestre(los
créditos son diferentes a 0) entonces la probabilidad de desertar es nula. Por el contrario,
si el estudiante tiene un radio menor al 60% y es mayor de 21 años, tienen una alta
probabilidad de desertar. Otro caso donde hay gran cantidad de desertores, es cuando
el radio esta entre 0.7 y 0.8, es mayor a 21 años y el número de créditos aprobados está
en el primer rango (de 0 a 25 créditos en total). Finalmente, vemos que
independientemente del radio, porque en todos los casos esta, si el estudiante no estudia
en el segundo semestre, probablemente va a desertar.
5.2.2 Clusters
En los modelos de clusters el resultado de los dos es similar. En el primero, se
identificaron dos clusters donde se tiene gran cantidad de desertores. El primero, lo
componen estudiantes que no hacen doble programa y no estudiaron el segundo
semestre. No necesariamente se retiran desde el segundo, podría ser después, pero en
el segundo no vieron ninguna materia. Son la mayoría de sexo masculino y tiene créditos
aprobados en el rango1, por lo tanto están de 0 a 25 créditos. El segundo, son personas
que no hacen doble programa, son hombres y aprueba del 40% al 80% de los créditos
que toman. Estos estudiantes van a un ritmo mucho más lento ya que el estimado de
semestre de grado es de 14 a 28 semestres. En el segundo modelo, se ve la misma
interpretación de los resultados, solo que los estudiantes desertores están agrupados en
un solo cluster. Las características principales son el radio (de 0.4 a 0.8), los créditos
aprobados están en el primer rango que es de 0 a 25 créditos y el colegio no está
registrado (por lo tanto no es uno de los más comunes).
Las herramientas utilizadas fueron todas en la suite de SQL Server 2012. Por medio del
módulo de Integration tools, se utilizó la tarea de Data Profiling para ver el perfilamiento
de los datos iniciales para trabajar y detectar posibles errores. Luego se utilizó data tools
para el ETL y los modelos de minería. Los errores iniciales fueron que al hacer el data
profiling no aparecía nulos, pero luego al analizar más detalladamente, vemos que gran
cantidad de los datos no eran nulos sino tenían escrito NA.
Otros posibles errores en la medición es cuando los estudiantes presenten un cambio de
ritmo en créditos, o no estudien el segundo semestre pero luego vuelvan con más
determinación. En estos casos ya quedan marcados en el modelo y cuando se corre el
análisis como sólo se validan los datos de los dos primeros semestres, si alguna variable
cambia drásticamente, el resultado va a seguir siendo que es desertor. Sólo se validan
los datos de los dos primeros semestres, porque se quiere tener un modelo que al
estudiante estar en segundo semestre, se pueda saber la probabilidad de desertar en
algún momento posterior.
6 VALIDACIÓN
6.1 MÉTODOS
Las pruebas de validación que se utilizaron fueron matrices de clasificación. La
construcción del modelo tomó el 60% de los datos y se dejó 40% para la validación. De
esta manera con el 40% restante se indica cuáles de ellos se predicen de manera
correcta y cuáles no. Luego, se identifica cuáles casos funcionan correctamente y se
determina el porcentaje de precisión del modelo.
Además de eso, también se verifica de manera cualitativa los resultados encontrados
para establecer que los mismos, sean coherentes y tengan sentido. Sobre todo, en la
parte de los clusters, que las características sean claras y se puedan reconocer
claramente los elementos propios de cada uno.
6.2 VALIDACIÓN DE RESULTADOS
Figure 32: Matriz de Confusión
En la tabla anterior vemos que para el modelo de árboles con todas las variables, llamado
Estudiantesv2 la precisión del modelo es de 94.7% y en el segundo modelo es de 93.6%. Estos
dos resultados cumplen con los objetivos propuestos al inicio del proyecto que era tener un
modelo con una precisión mayor al 70%.
Figure 33: Test de Clasificación
Figure 34: Test de Varianzas
7 CONCLUSIONES
7.1 DISCUSIÓN
La Universidad de Los Andes está interesada en conocer el comportamiento académico
de los estudiantes, ya que en la actualidad la tasa de deserción es del 22.7%10 y no se
cuenta con mecanismos predictivos que puedan acercarse o anticipar esta información.
Por otro lado, la universidad está interesada en identificar estos estudiantes y generar
planes de acción, evaluando una serie de variables socioeconómicas y académicas de
cada estudiante. Durante este proyecto se construyeron 4 modelos para aproximarse a
la solución del problema planteado. Se construyeron 2 modelos de árboles de decisión y
2 modelos de clusters. Cada uno tiene sus particularidades pero en general se encontró
que las variables más significativas son el radio, los créditos totales, los créditos
aprobados, el ratio, el programa1, el número de créditos aprobados en el segundo
semestre y el carnet (para los modelos incluyendo esta variable). En los clusters otras
10 Boletin Estadistico Universidad de los Andes, 2013. http://planeacion.uniandes.edu.co/pdi/boletin-estadistico/boletin-estadistico
variables importantes adicionales a las ya mencionadas fueron el sexo y si el estudiante
hace doble programa.
Finalmente, se puede concluir que el proyecto y los modelos construidos cumplen los
objetivos propuestos al inicio. Se puede decir que se conocen las variables que afectan
directamente a la decisión de un estudiante de desertar o no. Por otro lado, se tiene el
ETL que puede ser utilizado con diversos propósitos. En este proyecto se quería estudiar
la variable de deserción pero se pueden analizar más variables con el mismo ETL para
la extracción, transformación y carga de datos.
7.2 TRABAJO FUTURO
El modelo dió resultados satisfactorios, aunque hacen falta varias variables
socioeconómicas del estudiante que por problemas de nulos o falta de datos no se
tomaron en cuenta. Si se encuentra información como el estrato, colegio, información de
los padres, becas etc… se podría construir un modelo con más variables y quizás
haciendo el modelo un poco más preciso o con nuevas variables para poder determinar
nuevas preguntas que conducirán a realizar otro tipo de análisis favorables para la
Universidad y distintos al que se realizó con este trabajo. Se podría manejar de manera
semestral para poder identificar los estudiantes que necesitan ayuda y que tiene mayor
probabilidad de desertar, de esta manera se trabaja proactivamente y se espera reducir
la deserción.
Adicionalmente, este trabajo se realizó con estudiantes de Ingeniería, se puede
profundizar por programas y extender para otras facultades teniendo en cuenta las
características especiales para cada uno. Para hacer este análisis se debe tener en
cuenta el número de créditos para completar el semestre y cuál es el promedio de
créditos que toman los estudiantes. Esto tal vez cambie los rangos de los créditos y
promedio, y el análisis de resultados.
Por otro lado, este proyecto se puede integrar a la Bodega de Datos de la Universidad.
Con las herramientas que se utilizan para el ETL de esta bodega. Además, se debe
revisar el diseño que tiene la bodega y las tablas de hechos y dimensiones para ver cómo
se puede acoplar este diseño para poder desarrollar el modelo de minería.
8 REFERENCIAS
- Boletin Estadistico Universidad de los Andes, 2013.
http://planeacion.uniandes.edu.co/pdi/boletin-estadistico/boletin-estadistico
- Guzman, Duran(2009) Metodologia de seguimiento, diagnostico, y elementos para su
prevención. En la educación superior Colombiana. Ministerio de la Educación.
- Fishbein y Ajzen (1975). Belief, Attitude, Intention, and Behavior: An introduction to
Theory and Research. Reading, MA: Addison-Wesley.
Field Code Changed
- Attinasi (1986). Getting in: Chicano students’ perceptions of their college-going
behavior with implications for their freshman year experiences. Arizona State
University, Tempe.
- Sánchez Torres, Fabio. La Deserción en la Educación Superior en Colombia durante la
Primera Década del Siglo XXI: ¿Por qué ha aumentado tanto?. 2012
- Roldan, M.F. Aplicación de una nueva metodología Adaptive Business Intelligence para
un análisis taxonómico predictivo utilizado para la detección temprana de alumnos
universitarios en riesgo de deserción. 2012
9 APÉNDICES
Datos relevantes que puedan ser consultados para soportar el diseño, la implementación
y / o los resultados.
- Resultados de Cluster con todas las variables
Variables States Population (All)
Cluster 1
Cluster 3
Cluster 4
Cluster 5
Cluster 2
Cluster 6
Cluster 7
Cluster 8
Cluster 9
Size 5100 961 622 607 589 585 551 485 377 323
Carnet Mean 200.995.089,00
200.842.012,92
201.195.489,93
200.881.026,66
201.177.298,41
200.897.704,33
200.959.418,85
201.221.380,04
200.930.152,03
200.949.267,24
Carnet Deviation
206.077,64
131.270,92
89.676,85
141.871,24
80.473,70
160.461,17
205.077,34
83.275,89
202.419,58
207.014,12
Colegio Missing
2027 0,350 0,350
0,360 0,377 0,286 0,504
0,426
0,522 0,568
Colegio 23747 113 0,019 0,016
0,034 0,037 0,039 0,006
0,018
0,008 0,012
Colegio 19471 106 0,028 0,032
0,035 0,011 0,028 0,013
0,006
0,013 0,003
Colegio 80127 99 0,019 0,024
0,023 0,028 0,014 0,026
0,018
0,005 0,009
Colegio 19810 96 0,023 0,022
0,024 0,017 0,016 0,014
0,027
0,008 0,009
Colegio 102632
87 0,018 0,015
0,024 0,032 0,013 0,009
0,014
0,013 0,009
Colegio 98640 80 0,011 0,022
0,014 0,031 0,021 0,017
0,013
0,000 0,003
Colegio 19364 68 0,018 0,010
0,007 0,007 0,032 0,006
0,008
0,015 0,012
Colegio ... ... ... ... ... ... ... ... ... ... ...
Creditos Aprobados
6 1272 0,615 0,048
0,361 0,118 0,405 0,009
0,000
0,254 0,042
Creditos Aprobados
2 731 0,000 0,147
0,044 0,052 0,000 0,450
0,504
0,179 0,070
Creditos Aprobados
7 718 0,183 0,000
0,323 0,000 0,516 0,000
0,000
0,058 0,022
Creditos Aprobados
3 714 0,005 0,330
0,054 0,277 0,023 0,170
0,323
0,116 0,035
Creditos Aprobados
4 604 0,045 0,246
0,093 0,291 0,038 0,083
0,128
0,137 0,022
Creditos Aprobados
5 578 0,151 0,230
0,100 0,261 0,015 0,036
0,017
0,117 0,013
Creditos Aprobados
1 474 0,002 0,000
0,024 0,000 0,000 0,253
0,028
0,129 0,789
Creditos Aprobados
8 9 0,000 0,000
0,002 0,000 0,003 0,000
0,000
0,010 0,006
Creditos Aprobados
... ... ... ... ... ... ... ... ... ... ...
Creditos Totales
7 1281 0,545 0,000
0,543 0,000 0,553 0,017
0,000
0,162 0,059
Creditos Totales
6 1008 0,390 0,064
0,231 0,177 0,370 0,056
0,003
0,226 0,012
Creditos Totales
3 763 0,001 0,333
0,039 0,242 0,023 0,285
0,333
0,129 0,056
Creditos Totales
4 629 0,005 0,237
0,045 0,311 0,039 0,136
0,257
0,116 0,022
Creditos Totales
2 593 0,000 0,109
0,035 0,023 0,000 0,385
0,315
0,167 0,194
Creditos Totales
5 545 0,057 0,256
0,091 0,247 0,013 0,082
0,092
0,100 0,019
Creditos Totales
1 272 0,002 0,000
0,014 0,000 0,000 0,040
0,000
0,091 0,632
Creditos Totales
8 9 0,000 0,000
0,002 0,000 0,003 0,000
0,000
0,010 0,006
Creditos Totales
... ... ... ... ... ... ... ... ... ... ...
Desertor False 4389 0,972 0,991
0,915 0,994 0,994 0,417
0,968
0,881 0,254
Desertor True 711 0,028 0,009
0,085 0,006 0,006 0,583
0,032
0,119 0,746
Desertor Missing
0 0,000 0,000
0,000 0,000 0,000 0,000
0,000
0,000 0,000
Doble Mean 0,00 0,00 0,00 -1,00 -1,00 -0,45 0,00 -0,25
-0,05 -0,03
Doble Deviation
0,46 0,06 0,04 0,50 0,43 0,21 0,17
Edad Mean 22,00 23,79 20,16
23,31 20,22 23,19 22,78
19,91
24,77 23,08
Edad Deviation
2,78 1,61 1,18 1,65 1,00 1,81 2,40 1,14 5,37 2,85
Numero Creditos Primer Semestre Aprobados
18 1127 0,163 0,525
0,068 0,404 0,467 0,018
0,148
0,003 0,036
Numero Creditos Primer Semestre Aprobados
15 1017 0,315 0,191
0,227 0,174 0,171 0,123
0,335
0,038 0,042
Numero Creditos Primer Semestre Aprobados
12 652 0,205 0,039
0,147 0,060 0,003 0,265
0,234
0,053 0,087
Numero Creditos Primer Semestre
0 516 0,051 0,000
0,190 0,000 0,003 0,035
0,000
0,803 0,050
Aprobados
Numero Creditos Primer Semestre Aprobados
16 482 0,101 0,092
0,128 0,148 0,145 0,053
0,083
0,015 0,012
Numero Creditos Primer Semestre Aprobados
9 256 0,045 0,003
0,061 0,002 0,000 0,177
0,071
0,005 0,127
Numero Creditos Primer Semestre Aprobados
19 224 0,014 0,082
0,046 0,093 0,124 0,004
0,005
0,000 0,000
Numero Creditos Primer Semestre Aprobados
6 142 0,010 0,000
0,015 0,000 0,000 0,084
0,017
0,010 0,201
Numero Creditos Primer Semestre Aprobados
... ... ... ... ... ... ... ... ... ... ...
Numero Creditos Primer Semestre Intentados
18 1426 0,230 0,563
0,108 0,454 0,458 0,129
0,317
0,015 0,086
Numero Creditos Primer Semestre Intentados
15 1222 0,354 0,174
0,275 0,158 0,144 0,298
0,343
0,086 0,216
Numero Creditos Primer Semestre Intentados
16 649 0,150 0,088
0,177 0,140 0,135 0,140
0,119
0,024 0,121
Numero Creditos Primer Semestre Intentados
12 491 0,125 0,021
0,110 0,024 0,003 0,222
0,112
0,065 0,235
Numero Creditos Primer Semestre Intentados
0 358 0,001 0,000
0,126 0,000 0,000 0,000
0,000
0,694 0,023
Numero Creditos Primer Semestre Intentados
19 317 0,043 0,085
0,072 0,107 0,154 0,024
0,020
0,005 0,000
Numero Creditos Primer Semestre Intentados
20 132 0,009 0,042
0,014 0,066 0,067 0,004
0,009
0,010 0,000
Numero Creditos Primer Semestre Intentados
13 129 0,036 0,002
0,045 0,015 0,000 0,056
0,020
0,002 0,053
Numero Creditos Primer Semestre Intentados
... ... ... ... ... ... ... ... ... ... ...
Numero Creditos
16 1026 0,292 0,372
0,218 0,266 0,239 0,011
0,113
0,079 0,003
Segundo Semestre Aprobados
Numero Creditos Segundo Semestre Aprobados
19 706 0,074 0,268
0,080 0,243 0,433 0,000
0,014
0,030 0,000
Numero Creditos Segundo Semestre Aprobados
13 562 0,227 0,077
0,145 0,081 0,002 0,056
0,234
0,047 0,000
Numero Creditos Segundo Semestre Aprobados
10 381 0,121 0,007
0,088 0,022 0,000 0,150
0,218
0,017 0,000
Numero Creditos Segundo Semestre Aprobados
0 346 0,003 0,000
0,027 0,000 0,000 0,042
0,000
0,003 0,936
Numero Creditos Segundo Semestre Aprobados
15 330 0,073 0,040
0,110 0,036 0,023 0,038
0,053
0,226 0,000
Numero Creditos Segundo Semestre Aprobados
18 316 0,028 0,056
0,078 0,100 0,081 0,002
0,020
0,230 0,000
Numero Creditos Segundo Semestre
12 254 0,045 0,013
0,074 0,014 0,000 0,086
0,087
0,157 0,000
Aprobados
Numero Creditos Segundo Semestre Aprobados
... ... ... ... ... ... ... ... ... ... ...
Numero Creditos Segundo Semestre Intentados
16 1334 0,383 0,355
0,275 0,270 0,213 0,138
0,373
0,115 0,000
Numero Creditos Segundo Semestre Intentados
19 892 0,133 0,324
0,122 0,304 0,411 0,025
0,086
0,030 0,003
Numero Creditos Segundo Semestre Intentados
0 602 0,118 0,000
0,145 0,000 0,069 0,104
0,000
0,028 0,905
Numero Creditos Segundo Semestre Intentados
15 425 0,077 0,032
0,126 0,035 0,020 0,118
0,118
0,257 0,006
Numero Creditos Segundo Semestre Intentados
18 420 0,046 0,069
0,095 0,108 0,083 0,050
0,061
0,270 0,000
Numero Creditos Segundo Semestre Intentados
13 406 0,127 0,035
0,080 0,025 0,002 0,171
0,183
0,040 0,003
Numero Creditos Segundo Semestre Intentados
20 200 0,022 0,079
0,030 0,078 0,068 0,012
0,021
0,025 0,000
Numero Creditos Segundo Semestre Intentados
12 191 0,029 0,005
0,038 0,004 0,000 0,098
0,038
0,140 0,023
Numero Creditos Segundo Semestre Intentados
... ... ... ... ... ... ... ... ... ... ...
Numero Semestres Grado
Mean 14,00 10,39 8,20 12,21 8,21 7,82 15,87
10,74
18,76 56,82
Numero Semestres Grado
Deviation
20,90 2,23 0,73 4,75 0,91 0,64 5,35 1,29 7,33 67,82
Programa1
IIND 1643 0,431 0,409
0,288 0,197 0,448 0,174
0,263
0,365 0,170
Programa1
ICIV 672 0,130 0,174
0,105 0,130 0,072 0,163
0,190
0,135 0,082
Programa1
IMEC 653 0,141 0,087
0,121 0,117 0,063 0,187
0,143
0,071 0,269
Programa1
IQUI 540 0,095 0,095
0,118 0,113 0,095 0,096
0,117
0,084 0,170
Programa1
IAMB 390 0,085 0,064
0,072 0,087 0,079 0,074
0,071
0,086 0,060
Programa1
IELC 380 0,041 0,045
0,128 0,113 0,068 0,125
0,056
0,008 0,099
Programa1
ISIS 330 0,057 0,071
0,050 0,041 0,084 0,118
0,064
0,033 0,059
Programa1
IBIO 104 0,005 0,045
0,009 0,033 0,007 0,007
0,051
0,018 0,025
Programa1
... ... ... ... ... ... ... ... ... ... ...
Programa2
NA 3504 1,000 0,997
0,000 0,002 0,548 1,000
0,749
0,955 0,972
Programa2
IIND 227 0,000 0,000
0,150 0,130 0,074 0,000
0,028
0,010 0,000
Programa2
IAMB 173 0,000 0,000
0,104 0,100 0,040 0,000
0,053
0,003 0,006
Programa2
ICIV 140 0,000 0,000
0,087 0,092 0,032 0,000
0,025
0,010 0,000
Programa2
ADMI 139 0,000 0,000
0,105 0,088 0,036 0,000
0,002
0,008 0,003
Programa2
ECON 126 0,000 0,003
0,072 0,058 0,062 0,000
0,013
0,008 0,000
Programa2
ISIS 93 0,000 0,000
0,055 0,074 0,026 0,000
0,004
0,000 0,000
Programa2
IBIO 92 0,000 0,000
0,042 0,079 0,024 0,000
0,012
0,003 0,000
Programa2
... ... ... ... ... ... ... ... ... ... ...
Promedio Primer Semestre
8 1093 0,200 0,356
0,184 0,301 0,397 0,051
0,155
0,089 0,064
Promedio Primer Semestre
7 992 0,312 0,230
0,240 0,266 0,109 0,103
0,210
0,041 0,056
Promedio Primer Semestre
6 895 0,266 0,098
0,206 0,151 0,019 0,278
0,339
0,033 0,093
Promedio Primer Semestre
9 838 0,092 0,298
0,094 0,249 0,471 0,016
0,037
0,097 0,046
Promedio Primer Semestre
5 427 0,088 0,018
0,105 0,026 0,003 0,268
0,170
0,007 0,063
Promedio Primer Semestre
0 369 0,001 0,000
0,128 0,000 0,002 0,000
0,000
0,717 0,023
Promedio Primer Semestre
4 297 0,039 0,002
0,037 0,007 0,000 0,277
0,089
0,007 0,107
Promedio Primer Semestre
3 149 0,001 0,000
0,005 0,000 0,000 0,007
0,000
0,007 0,428
Promedio Primer Semestre
... ... ... ... ... ... ... ... ... ... ...
Promedio Segundo Semestre
6 965 0,291 0,203
0,234 0,228 0,097 0,130
0,191
0,180 0,000
Promedio Segundo Semestre
7 900 0,203 0,272
0,193 0,258 0,217 0,027
0,125
0,178 0,000
Promedio Segundo Semestre
8 788 0,085 0,229
0,138 0,234 0,367 0,024
0,038
0,232 0,003
Promedio Segundo Semestre
5 741 0,242 0,082
0,171 0,091 0,006 0,181
0,332
0,095 0,009
Promedio Segundo Semestre
9 582 0,041 0,193
0,084 0,154 0,310 0,006
0,005
0,226 0,004
Promedio Segundo Semestre
4 448 0,110 0,021
0,098 0,031 0,000 0,227
0,229
0,040 0,004
Promedio Segundo Semestre
0 329 0,003 0,000
0,027 0,002 0,003 0,015
0,000
0,030 0,886
Promedio Segundo Semestre
3 277 0,023 0,000
0,046 0,001 0,000 0,307
0,076
0,019 0,045
Promedio Segundo Semestre
... ... ... ... ... ... ... ... ... ... ...
Puntaje Uniandes
4 1312 0,332 0,207
0,301 0,172 0,199 0,285
0,303
0,238 0,221
Puntaje Uniandes
3 1074 0,269 0,114
0,193 0,096 0,072 0,372
0,301
0,190 0,331
Puntaje Uniandes
5 963 0,168 0,214
0,240 0,222 0,226 0,126
0,185
0,151 0,139
Puntaje Uniandes
6 705 0,094 0,214
0,122 0,219 0,213 0,073
0,121
0,081 0,079
Puntaje Uniandes
7 655 0,050 0,234
0,086 0,275 0,252 0,018
0,084
0,088 0,049
Puntaje Uniandes
2 228 0,066 0,003
0,048 0,008 0,017 0,106
0,000
0,056 0,119
Puntaje Uniandes
8 156 0,016 0,013
0,010 0,007 0,021 0,019
0,006
0,196 0,058
Puntaje Uniandes
1 7 0,005 0,000
0,000 0,000 0,000 0,002
0,000
0,000 0,003
Puntaje Uniandes
... ... ... ... ... ... ... ... ... ... ...
Ratio Mean 0,87 0,90 0,96 0,89 0,95 0,99 0,66 0,80 0,90 0,59
Ratio Deviation
0,16 0,08 0,05 0,11 0,06 0,02 0,13 0,10 0,13 0,27
Sexo M 3507 0,661 0,643
0,746 0,638 0,609 0,826
0,681
0,681 0,769
Sexo F 1593 0,339 0,357
0,254 0,362 0,391 0,174
0,319
0,319 0,231
Sexo missing
0 0,000 0,000
0,000 0,000 0,000 0,000
0,000
0,000 0,000
Figure 35: Caracteristicas Clusters con todas las variables
Variables Values Probability
Programa2 NA 97,202%
Numero Creditos Segundo Semestre Aprobados
0 93,634%
Numero Creditos Segundo Semestre Intentados
0 90,526%
Promedio Segundo Semestre 0 88,641%
Creditos Aprobados 1 78,944%
Sexo M 76,855%
Desertor True 74,559%
Creditos Totales 1 63,162%
Colegio missing 56,804%
Doble 0 - -1 52,443%
Ratio 0,4 - 0,8 50,663%
Promedio Primer Semestre 3 42,766%
Edad 25 - 30 33,612%
Puntaje Uniandes 3 33,116%
Numero Semestres Grado 29 - 76 27,909%
Carnet 200.620.038 - 200.856.092
27,057%
Programa1 IMEC 26,852%
Carnet 200.856.093 - 200.995.089
26,099%
Edad 23 - 24 25,598%
Desertor False 25,441%
Numero Creditos Primer Semestre Intentados 12 23,518%
Sexo F 23,145%
Carnet 200.995.090 - 201.134.086
22,642%
Puntaje Uniandes 4 22,073%
Edad 21 - 22 21,978%
Numero Creditos Primer Semestre Intentados 15 21,616%
Numero Creditos Primer Semestre Aprobados 6 20,129%
Numero Creditos Primer Semestre Aprobados 3 19,839%
Creditos Totales 2 19,394%
Programa1 IQUI 16,952%
Programa1 IIND 16,952%
Edad 17 - 20 16,763%
Carnet 201.134.087 - 201.319.227
14,902%
Puntaje Uniandes 5 13,924%
Numero Creditos Primer Semestre Aprobados 9 12,711%
Numero Creditos Primer Semestre Intentados 16 12,094%
Puntaje Uniandes 2 11,925%
Ratio 0,8 - 0,9 11,409%
Promedio Primer Semestre 2 11,131%
Promedio Primer Semestre 4 10,682%
Programa1 IELC 9,891%
Promedio Primer Semestre 6 9,251%
Numero Creditos Primer Semestre Intentados 9 9,120%
Numero Creditos Primer Semestre Aprobados 12 8,728%
Numero Creditos Primer Semestre Intentados 18 8,561%
Programa1 ICIV 8,201%
Puntaje Uniandes 6 7,897%
Numero Creditos Primer Semestre Aprobados 7 7,730%
Ratio 0,9 - 1,0 7,665%
Numero Semestres Grado 14 - 28 7,196%
Creditos Aprobados 2 7,035%
Numero Creditos Primer Semestre Aprobados 4 6,803%
Promedio Primer Semestre 8 6,388%
Promedio Primer Semestre 5 6,325%
Programa1 IAMB 6,010%
Creditos Totales 7 5,876%
Programa1 ISIS 5,851%
Puntaje Uniandes 8 5,826%
Creditos Totales 3 5,620%
Promedio Primer Semestre 7 5,614%
Numero Creditos Primer Semestre Intentados 13 5,265%
Numero Creditos Primer Semestre Aprobados 0 5,030%
Puntaje Uniandes 7 4,929%
Promedio Primer Semestre 9 4,634%
Promedio Segundo Semestre 3 4,498%
Doble 0 - -1 4,224%
Creditos Aprobados 6 4,194%
Numero Creditos Primer Semestre Aprobados 15 4,161%
Numero Creditos Segundo Semestre Aprobados
3 3,759%
Numero Creditos Primer Semestre Intentados 14 3,740%
Programa1 IGEN 3,726%
Numero Semestres Grado 6 - 13 3,701%
Numero Creditos Primer Semestre Aprobados 18 3,556%
Creditos Aprobados 3 3,516%
Numero Creditos Primer Semestre Intentados 3 3,401%
Numero Creditos Primer Semestre Aprobados 10 3,359%
Numero Creditos Primer Semestre Intentados 6 3,226%
Promedio Segundo Semestre 1 3,094%
Programa1 IBIO 2,473%
Numero Creditos Segundo Semestre Intentados
9 2,390%
Numero Creditos Segundo Semestre Intentados
12 2,288%
Promedio Primer Semestre 0 2,281%
Numero Creditos Primer Semestre Intentados 0 2,281%
Creditos Totales 4 2,223%
Creditos Aprobados 4 2,191%
Creditos Aprobados 7 2,166%
Colegio 20198 2,164%
Numero Creditos Primer Semestre Intentados 10 2,164%
Numero Creditos Segundo Semestre Intentados
3 1,991%
Creditos Totales 5 1,892%
Promedio Segundo Semestre 2 1,776%
Colegio 19448 1,708%
Numero Creditos Primer Semestre Aprobados 5 1,546%
Numero Creditos Segundo Semestre Aprobados
6 1,393%
Creditos Aprobados 5 1,336%
Colegio 21717 1,237%
Numero Creditos Primer Semestre Intentados 5 1,237%
Numero Creditos Primer Semestre Intentados 17 1,237%
Colegio 23747 1,237%
Colegio 22848 1,237%
Numero Creditos Primer Semestre Aprobados 1 1,237%
Numero Creditos Primer Semestre Aprobados 14 1,237%
Colegio 42473 1,237%
Colegio 3 1,237%
Numero Creditos Primer Semestre Aprobados 8 1,236%
Colegio 19364 1,233%
Ratio 1,0 1,216%
Creditos Totales 6 1,214%
Numero Creditos Primer Semestre Aprobados 16 1,165%
Numero Creditos Primer Semestre Intentados 8 0,994%
Colegio 102632 0,931%
Colegio 85605 0,928%
Colegio 80127 0,928%
Colegio 108381 0,928%
Colegio 19893 0,928%
Colegio 11007 0,928%
Numero Creditos Primer Semestre Intentados 7 0,928%
Promedio Primer Semestre 1 0,928%
Colegio 23846 0,928%
Colegio 4234 0,928%
Colegio 19505 0,927%
Programa1 INGE 0,927%
Colegio 19810 0,927%
Colegio 5108 0,926%
Numero Creditos Primer Semestre Aprobados 13 0,916%
Colegio 24281 0,909%
Promedio Segundo Semestre 5 0,877%
Colegio 66431 0,669%
Colegio 19349 0,663%
Numero Creditos Segundo Semestre Intentados
6 0,642%
Numero Creditos Segundo Semestre Intentados
15 0,618%
Programa1 IELE 0,618%
Colegio 14472 0,618%
Colegio 19331 0,618%
Programa2 MICI 0,618%
Colegio 25395 0,618%
Programa1 IVTR 0,618%
Colegio 19794 0,618%
Colegio 21154 0,618%
Colegio 20297 0,618%
Colegio 95414 0,618%
Colegio 19901 0,618%
Colegio 94250 0,618%
Colegio 49387 0,618%
Programa2 IAMB 0,618%
Colegio 23739 0,618%
Creditos Aprobados 8 0,618%
Colegio 23598 0,618%
Creditos Totales 8 0,618%
Colegio 25130 0,618%
Colegio 72934 0,618%
Colegio 79327 0,618%
Programa2 IQUI 0,618%
Colegio 24216 0,618%
Colegio 34306 0,618%
Colegio 15909 0,616%
Numero Creditos Segundo Semestre Aprobados
4 0,596%
Figure 36: Cluster 9Figure 37: Cluster 6
Variables Values Probability
Programa2 NA 100,000%
Sexo M 82,594%
Ratio 0,4 - 0,8 74,360%
Numero Semestres Grado 14 - 28 62,546%
Desertor True 58,284%
Colegio missing 50,437%
Creditos Aprobados 2 45,000%
Desertor False 41,716%
Creditos Totales 2 38,535%
Puntaje Uniandes 3 37,169%
Numero Semestres Grado 6 - 13 33,053%
Promedio Segundo Semestre 3 30,745%
Numero Creditos Primer Semestre Intentados 15 29,823%
Edad 23 - 24 29,621%
Puntaje Uniandes 4 28,513%
Creditos Totales 3 28,453%
Promedio Primer Semestre 6 27,773%
Promedio Primer Semestre 4 27,743%
Promedio Primer Semestre 5 26,836%
Edad 25 - 30 26,817%
Numero Creditos Primer Semestre Aprobados 12 26,508%
Edad 21 - 22 26,234%
Carnet 200.856.093 - 200.995.089
26,176%
Carnet 200.620.038 - 200.856.092
25,804%
Creditos Aprobados 1 25,251%
Carnet 200.995.090 - 201.134.086
23,354%
Promedio Segundo Semestre 4 22,657%
Numero Creditos Primer Semestre Intentados 12 22,247%
Programa1 IMEC 18,685%
Promedio Segundo Semestre 5 18,067%
Numero Creditos Primer Semestre Aprobados 9 17,744%
Sexo F 17,406%
Programa1 IIND 17,404%
Ratio 0,8 - 0,9 17,357%
Numero Creditos Segundo Semestre Intentados
13 17,061%
Creditos Aprobados 3 16,955%
Edad 17 - 20 16,477%
Programa1 ICIV 16,298%
Carnet 201.134.087 - 201.319.227
15,762%
Numero Creditos Segundo Semestre Aprobados
10 14,951%
Numero Creditos Primer Semestre Intentados 16 13,953%
Numero Creditos Segundo Semestre Intentados
16 13,829%
Creditos Totales 4 13,553%
Promedio Segundo Semestre 6 12,953%
Numero Creditos Primer Semestre Intentados 18 12,935%
Numero Creditos Segundo Semestre Aprobados
7 12,901%
Puntaje Uniandes 5 12,583%
Programa1 IELC 12,494%
Numero Creditos Segundo Semestre Aprobados
6 12,439%
Doble 0 - -1 12,270%
Numero Creditos Primer Semestre Aprobados 15 12,270%
Programa1 ISIS 11,821%
Numero Creditos Segundo Semestre Intentados
15 11,778%
Doble 0 - -1 11,129%
Numero Creditos Primer Semestre Aprobados 10 10,794%
Doble -1 10,729%
Puntaje Uniandes 2 10,625%
Numero Creditos Segundo Semestre Aprobados
9 10,500%
Numero Creditos Segundo Semestre Intentados
0 10,435%
Promedio Primer Semestre 7 10,297%
Numero Creditos Segundo Semestre Intentados
12 9,777%
Numero Creditos Segundo Semestre Aprobados
4 9,648%
Programa1 IQUI 9,600%
Numero Creditos Segundo Semestre Aprobados
12 8,570%
Numero Creditos Segundo Semestre Intentados
10 8,458%
Numero Creditos Primer Semestre Aprobados 6 8,419%
Creditos Aprobados 4 8,317%
Creditos Totales 5 8,163%
Programa1 IAMB 7,369%
Puntaje Uniandes 6 7,294%
Promedio Segundo Semestre 2 6,893%
Numero Creditos Segundo Semestre Aprobados
3 6,792%
Numero Creditos Segundo Semestre Intentados
9 6,032%
Creditos Totales 6 5,624%
Numero Creditos Segundo Semestre Aprobados
13 5,586%
Numero Creditos Primer Semestre Intentados 13 5,564%
Numero Creditos Primer Semestre Aprobados 13 5,416%
Ratio 0,9 - 1,0 5,397%
Numero Creditos Primer Semestre Aprobados 16 5,275%
Promedio Primer Semestre 8 5,097%
Numero Creditos Segundo Semestre Intentados
18 5,001%
Numero Creditos Primer Semestre Intentados 9 4,970%
Numero Creditos Segundo Semestre Aprobados
0 4,209%
Creditos Totales 1 3,999%
Numero Creditos Segundo Semestre Aprobados
15 3,798%
Creditos Aprobados 5 3,601%
Numero Creditos Primer Semestre Aprobados 0 3,462%
Numero Creditos Segundo Semestre Intentados
6 3,318%
Programa1 IELE 3,298%
Numero Creditos Segundo Semestre Intentados
14 3,136%
Promedio Segundo Semestre 7 2,742%
Numero Creditos Primer Semestre Intentados 14 2,672%
Colegio 80127 2,621%
Numero Creditos Segundo Semestre Aprobados
8 2,476%
Numero Creditos Segundo Semestre Intentados
19 2,468%
Promedio Segundo Semestre 8 2,427%
Numero Creditos Segundo Semestre Aprobados
1 2,387%
Numero Creditos Primer Semestre Intentados 19 2,370%
Numero Creditos Primer Semestre Aprobados 7 2,289%
Programa1 IGEN 1,958%
Puntaje Uniandes 8 1,858%
Numero Creditos Primer Semestre Aprobados 3 1,819%
Puntaje Uniandes 7 1,775%
Colegio 14472 1,768%
Numero Creditos Primer Semestre Aprobados 18 1,766%
Numero Creditos Primer Semestre Intentados 10 1,736%
Colegio 98640 1,708%
Creditos Totales 7 1,673%
Colegio 108381 1,650%
Numero Creditos Segundo Semestre Intentados
17 1,581%
Promedio Primer Semestre 9 1,558%
Colegio 11007 1,543%
Numero Creditos Segundo Semestre Aprobados
14 1,494%
Promedio Segundo Semestre 0 1,482%
Numero Creditos Segundo Semestre Intentados
4 1,469%
Promedio Segundo Semestre 1 1,468%
Numero Creditos Segundo Semestre Intentados
7 1,453%
Colegio 19810 1,437%
Numero Creditos Primer Semestre Aprobados 11 1,431%
Colegio 19505 1,417%
Colegio 22012 1,401%
Colegio 32730 1,383%
Colegio 35816 1,306%
Colegio 19471 1,259%
Numero Creditos Segundo Semestre Intentados
11 1,257%
Colegio 19794 1,243%
Numero Creditos Segundo Semestre Intentados
3 1,231%
Numero Creditos Segundo Semestre Intentados
20 1,164%
Numero Semestres Grado 29 - 76 1,128%
Numero Creditos Segundo Semestre Aprobados
16 1,123%
Colegio 23739 1,109%
Numero Creditos Segundo Semestre Aprobados
2 1,102%
Numero Creditos Segundo Semestre Aprobados
5 1,055%
Colegio 21857 1,027%
Colegio 66431 0,969%
Numero Creditos Primer Semestre Aprobados 14 0,954%
Colegio 19448 0,948%
Colegio 102632 0,927%
Numero Creditos Primer Semestre Aprobados 4 0,918%
Colegio 5108 0,913%
Creditos Aprobados 6 0,876%
Colegio 22848 0,758%
Colegio 3 0,755%
Colegio 34306 0,754%
Numero Creditos Primer Semestre Intentados 3 0,748%
Colegio 46771 0,746%
Numero Creditos Primer Semestre Intentados 11 0,735%
Colegio 24216 0,735%
Colegio 21899 0,735%
Colegio 3459 0,734%
Programa1 IBIO 0,708%
Colegio 20198 0,704%
Promedio Primer Semestre 3 0,697%
Numero Creditos Primer Semestre Intentados 17 0,692%
Numero Creditos Primer Semestre Intentados 6 0,676%
Colegio 24299 0,621%
Colegio 23747 0,611%
Colegio 62497 0,609%
Colegio 21154 0,586%
Colegio 19901 0,580%
Colegio 20537 0,569%
Colegio 21717 0,567%
Promedio Segundo Semestre 9 0,565%
Colegio 24281 0,564%
Colegio 19364 0,557%
Colegio 49387 0,555%
Colegio 21907 0,554%
Colegio 79327 0,551%
Numero Creditos Segundo Semestre Intentados
8 0,551%
Numero Creditos Segundo Semestre Aprobados
11 0,550%
Colegio 23101 0,535%
Colegio 26369 0,535%
Numero Creditos Primer Semestre Intentados 8 0,511%
- Resultados de Cluster sin Carnet
Variables
States Population (All)
Cluster 1
Cluster 2
Cluster 3
Cluster 4
Cluster 5
Cluster 6
Cluster 8
Cluster 9
Cluster 7
Cluster 10
Size 5100 1032 902 729 697 553 297 273 237 229 151
Colegio missing
2027 0,394
0,310
0,333
0,395
0,413
0,371
0,562
0,349
0,560
0,764
Colegio 23747 113 0,018
0,023
0,049
0,027
0,014
0,005
0,016
0,008
0,000
0,019
Colegio 19471 106 0,022
0,026
0,024
0,019
0,016
0,044
0,000
0,012
0,004
0,025
Colegio 80127 99 0,025
0,016
0,023
0,022
0,028
0,000
0,012
0,016
0,018
0,000
Colegio 19810 96 0,029
0,015
0,014
0,026
0,019
0,014
0,008
0,016
0,016
0,000
Colegio 102632
87 0,020
0,009
0,023
0,029
0,007
0,011
0,009
0,012
0,010
0,031
Colegio 98640 80 0,009
0,021
0,034
0,016
0,020
0,003
0,000
0,000
0,016
0,000
Colegio 32730 68 0,013
0,022
0,014
0,010
0,016
0,008
0,000
0,008
0,016
0,000
Colegio ... ... ... ... ... ... ... ... ... ... ... ...
Creditos Aprobados
6 1272 0,371
0,338
0,224
0,226
0,056
0,323
0,052
0,366
0,027
0,105
Creditos Aprobados
2 731 0,152
0,050
0,007
0,149
0,494
0,149
0,065
0,028
0,242
0,267
Creditos Aprobados
7 718 0,099
0,180
0,290
0,174
0,020
0,129
0,023
0,215
0,004
0,058
Creditos Aprobados
3 714 0,124
0,167
0,137
0,186
0,222
0,113
0,020
0,103
0,050
0,130
Creditos Aprobados
4 604 0,124
0,113
0,166
0,155
0,082
0,110
0,010
0,094
0,040
0,190
Creditos Aprobados
5 578 0,130
0,153
0,174
0,100
0,051
0,084
0,017
0,127
0,022
0,080
Creditos Aprobados
1 474 0,000
0,000
0,000
0,010
0,075
0,092
0,808
0,067
0,615
0,133
Creditos Aprobados
8 9 0,000
0,000
0,003
0,000
0,000
0,000
0,004
0,000
0,000
0,038
Creditos Aprobados
... ... ... ... ... ... ... ... ... ... ... ...
Creditos Totales
7 1281 0,343
0,215
0,313
0,331
0,086
0,349
0,066
0,293
0,023
0,096
Creditos Totales
6 1008 0,230
0,316
0,227
0,153
0,064
0,196
0,021
0,349
0,043
0,099
Creditos Totales
3 763 0,122
0,168
0,130
0,146
0,322
0,115
0,032
0,092
0,178
0,121
Creditos Totales
4 629 0,108
0,113
0,170
0,164
0,165
0,102
0,013
0,085
0,036
0,184
Creditos Totales
2 593 0,097
0,042
0,003
0,089
0,280
0,108
0,175
0,020
0,488
0,272
Creditos Totales
5 545 0,099
0,147
0,155
0,117
0,084
0,064
0,015
0,098
0,042
0,088
Creditos Totales
1 272 0,000
0,000
0,000
0,000
0,000
0,065
0,673
0,062
0,190
0,102
Creditos Totales
8 9 0,000
0,000
0,003
0,000
0,000
0,000
0,004
0,000
0,000
0,038
Creditos Totales
... ... ... ... ... ... ... ... ... ... ... ...
Desertor
False 4389 0,961
0,992
0,992
0,932
0,661
0,888
0,252
0,979
0,266
0,849
Desertor
True 711 0,039
0,008
0,008
0,068
0,339
0,112
0,748
0,021
0,734
0,151
Desertor
missing
0 0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
Doble Mean 0,00 0,00 0,00 -0,99 -1,00 0,00 0,00 0,00 -0,43 0,00 -0,40
Doble Deviation
0,46 0,03 0,11 0,50 0,49
Edad Mean 22,00 22,37
21,93
21,49
21,94
21,98
23,16
22,76
22,67
23,16
28,67
Edad Deviation
2,78 2,33 2,25 1,85 2,22 2,33 2,38 2,41 1,88 2,44 6,86
Numero Creditos Primer Semestre Aprobados
18 1127 0,198
0,531
0,423
0,143
0,033
0,012
0,042
0,000
0,008
0,021
Numero Creditos Primer Semestre
15 1017 0,370
0,190
0,164
0,270
0,184
0,014
0,036
0,000
0,053
0,135
Aprobados
Numero Creditos Primer Semestre Aprobados
12 652 0,210
0,018
0,008
0,216
0,291
0,058
0,091
0,000
0,142
0,204
Numero Creditos Primer Semestre Aprobados
0 516 0,000
0,000
0,000
0,008
0,000
0,618
0,020
0,996
0,183
0,192
Numero Creditos Primer Semestre Aprobados
16 482 0,124
0,097
0,162
0,121
0,058
0,008
0,000
0,000
0,043
0,092
Numero Creditos Primer Semestre Aprobados
9 256 0,029
0,000
0,000
0,062
0,168
0,037
0,136
0,000
0,177
0,056
Numero Creditos Primer Semestre Aprobados
19 224 0,014
0,100
0,128
0,030
0,002
0,008
0,000
0,000
0,004
0,006
Numero Creditos Primer Semestre Aprobados
6 142 0,000
0,000
0,000
0,019
0,037
0,043
0,190
0,000
0,159
0,051
Numero Creditos Primer Semestre Aprobados
... ... ... ... ... ... ... ... ... ... ... ...
Numero Creditos Primer Semestre Intentados
18 1426 0,281
0,535
0,449
0,204
0,170
0,082
0,091
0,082
0,073
0,052
Numero Creditos Primer Semestre Intentados
15 1222 0,370
0,171
0,126
0,323
0,311
0,087
0,219
0,069
0,257
0,224
Numero Creditos Primer Semestre Intentados
16 649 0,153
0,090
0,154
0,168
0,149
0,069
0,106
0,024
0,113
0,109
Numero Creditos Primer Semestre Intentados
12 491 0,097
0,014
0,003
0,122
0,199
0,098
0,269
0,005
0,223
0,206
Numero Creditos Primer Semestre Intentados
0 358 0,000
0,000
0,000
0,001
0,000
0,422
0,008
0,782
0,093
0,086
Numero Creditos
19 317 0,037
0,120
0,145
0,047
0,024
0,032
0,000
0,004
0,017
0,025
Primer Semestre Intentados
Numero Creditos Primer Semestre Intentados
20 132 0,010
0,043
0,082
0,012
0,004
0,023
0,004
0,002
0,000
0,019
Numero Creditos Primer Semestre Intentados
13 129 0,021
0,000
0,011
0,037
0,057
0,046
0,062
0,012
0,045
0,007
Numero Creditos Primer Semestre Intentados
... ... ... ... ... ... ... ... ... ... ... ...
Numero Creditos Segundo Semestre Aprobados
16 1026 0,269
0,374
0,243
0,223
0,016
0,078
0,000
0,140
0,000
0,058
Numero Creditos Segundo Semestre Aprobados
19 706 0,050
0,364
0,330
0,063
0,000
0,039
0,000
0,134
0,000
0,006
Numero Creditos
13 562 0,295
0,018
0,025
0,206
0,061
0,090
0,000
0,016
0,004
0,000
Segundo Semestre Aprobados
Numero Creditos Segundo Semestre Aprobados
10 381 0,148
0,000
0,001
0,129
0,211
0,045
0,000
0,000
0,032
0,032
Numero Creditos Segundo Semestre Aprobados
0 346 0,000
0,000
0,000
0,000
0,000
0,000
0,996
0,000
0,235
0,195
Numero Creditos Segundo Semestre Aprobados
15 330 0,067
0,022
0,032
0,071
0,044
0,212
0,000
0,238
0,001
0,140
Numero Creditos Segundo Semestre Aprobados
18 316 0,015
0,054
0,103
0,038
0,008
0,139
0,000
0,413
0,000
0,019
Numero Creditos Segundo Semestre
12 254 0,051
0,002
0,001
0,079
0,106
0,162
0,000
0,028
0,032
0,167
Aprobados
Numero Creditos Segundo Semestre Aprobados
... ... ... ... ... ... ... ... ... ... ... ...
Numero Creditos Segundo Semestre Intentados
16 1334 0,424
0,327
0,210
0,344
0,188
0,116
0,000
0,150
0,066
0,084
Numero Creditos Segundo Semestre Intentados
19 892 0,125
0,381
0,349
0,144
0,023
0,050
0,004
0,134
0,021
0,000
Numero Creditos Segundo Semestre Intentados
0 602 0,080
0,035
0,034
0,084
0,080
0,048
0,972
0,000
0,218
0,271
Numero Creditos Segundo Semestre Intentados
15 425 0,078
0,017
0,024
0,102
0,127
0,270
0,000
0,209
0,092
0,128
Numero Creditos
18 420 0,034
0,058
0,105
0,064
0,069
0,196
0,000
0,446
0,016
0,026
Segundo Semestre Intentados
Numero Creditos Segundo Semestre Intentados
13 406 0,148
0,013
0,011
0,105
0,203
0,092
0,000
0,000
0,086
0,013
Numero Creditos Segundo Semestre Intentados
20 200 0,024
0,072
0,079
0,036
0,011
0,041
0,000
0,036
0,007
0,000
Numero Creditos Segundo Semestre Intentados
12 191 0,023
0,002
0,001
0,035
0,080
0,114
0,008
0,012
0,137
0,166
Numero Creditos Segundo Semestre Intentados
... ... ... ... ... ... ... ... ... ... ... ...
Numero Semestres Grado
Mean 14,00 9,78 7,96 7,86 10,31
12,94
17,12
61,43
16,08
26,15
19,15
Numero Semestr
Deviation
20,90 1,06 0,57 0,67 1,90 1,97 6,20 74,90
1,92 13,51
12,34
es Grado
Programa1
IIND 1643 0,401
0,483
0,274
0,230
0,203
0,372
0,175
0,460
0,155
0,097
Programa1
ICIV 672 0,149
0,105
0,106
0,146
0,175
0,200
0,077
0,091
0,146
0,080
Programa1
IMEC 653 0,147
0,072
0,096
0,122
0,176
0,061
0,295
0,108
0,220
0,064
Programa1
IQUI 540 0,101
0,093
0,105
0,140
0,096
0,055
0,175
0,122
0,108
0,058
Programa1
IAMB 390 0,075
0,074
0,071
0,082
0,074
0,112
0,070
0,095
0,068
0,038
Programa1
IELC 380 0,036
0,045
0,111
0,107
0,109
0,060
0,103
0,035
0,122
0,042
Programa1
ISIS 330 0,062
0,070
0,061
0,058
0,098
0,057
0,043
0,020
0,112
0,037
Programa1
IBIO 104 0,018
0,028
0,020
0,013
0,029
0,027
0,035
0,012
0,000
0,019
Programa1
... ... ... ... ... ... ... ... ... ... ... ...
Programa2
NA 3504 1,000
0,999
0,012
0,000
1,000
1,000
1,000
0,566
1,000
0,603
Programa2
IIND 227 0,000
0,000
0,146
0,134
0,000
0,000
0,000
0,080
0,000
0,038
Programa2
IAMB 173 0,000
0,000
0,083
0,137
0,000
0,000
0,000
0,037
0,000
0,057
Programa2
ICIV 140 0,000
0,000
0,087
0,087
0,000
0,000
0,000
0,056
0,000
0,008
Programa2
ADMI 139 0,000
0,000
0,093
0,077
0,000
0,000
0,000
0,049
0,000
0,026
Programa2
ECON 126 0,000
0,000
0,103
0,054
0,000
0,000
0,000
0,037
0,000
0,013
Programa2
ISIS 93 0,000
0,000
0,064
0,053
0,000
0,000
0,000
0,018
0,000
0,026
Programa2
IBIO 92 0,000
0,000
0,064
0,055
0,000
0,000
0,000
0,016
0,000
0,013
Programa2
... ... ... ... ... ... ... ... ... ... ... ...
Promedio Primer
8 1093 0,210
0,373
0,359
0,190
0,068
0,118
0,049
0,060
0,035
0,226
Semestre
Promedio Primer Semestre
7 992 0,322
0,161
0,225
0,242
0,121
0,117
0,055
0,043
0,087
0,140
Promedio Primer Semestre
6 895 0,293
0,043
0,056
0,300
0,308
0,159
0,066
0,028
0,189
0,123
Promedio Primer Semestre
9 838 0,061
0,418
0,359
0,072
0,012
0,040
0,046
0,075
0,005
0,268
Promedio Primer Semestre
5 427 0,087
0,003
0,002
0,149
0,251
0,085
0,043
0,000
0,234
0,043
Promedio Primer Semestre
0 369 0,000
0,001
0,000
0,001
0,000
0,426
0,008
0,786
0,093
0,137
Promedio Primer Semestre
4 297 0,027
0,000
0,000
0,045
0,237
0,047
0,075
0,000
0,315
0,038
Promedio Primer Semestre
3 149 0,000
0,000
0,000
0,000
0,003
0,004
0,509
0,007
0,038
0,026
Promedio Primer Semestre
... ... ... ... ... ... ... ... ... ... ... ...
Promedio Segundo Semestre
6 965 0,306
0,141
0,152
0,278
0,144
0,239
0,000
0,140
0,044
0,097
Promedio Segund
7 900 0,179
0,273
0,265
0,153
0,026
0,253
0,000
0,212
0,008
0,143
o Semestre
Promedio Segundo Semestre
8 788 0,067
0,294
0,312
0,092
0,022
0,174
0,000
0,310
0,016
0,126
Promedio Segundo Semestre
5 741 0,290
0,027
0,031
0,245
0,269
0,170
0,000
0,029
0,054
0,028
Promedio Segundo Semestre
9 582 0,019
0,263
0,232
0,036
0,004
0,076
0,000
0,309
0,004
0,216
Promedio Segundo Semestre
4 448 0,127
0,001
0,005
0,141
0,250
0,080
0,000
0,000
0,207
0,049
Promedio Segundo Semestre
0 329 0,000
0,001
0,003
0,000
0,000
0,000
0,968
0,000
0,136
0,278
Promedio Segundo Semestre
3 277 0,011
0,000
0,000
0,052
0,270
0,008
0,016
0,000
0,329
0,038
Promedio Segundo
... ... ... ... ... ... ... ... ... ... ... ...
Semestre
Puntaje Uniandes
4 1312 0,321
0,219
0,166
0,321
0,315
0,246
0,226
0,292
0,228
0,076
Puntaje Uniandes
3 1074 0,277
0,092
0,064
0,218
0,352
0,259
0,344
0,122
0,409
0,120
Puntaje Uniandes
5 963 0,183
0,223
0,221
0,223
0,139
0,153
0,156
0,233
0,108
0,089
Puntaje Uniandes
6 705 0,098
0,217
0,229
0,111
0,087
0,135
0,088
0,143
0,053
0,047
Puntaje Uniandes
7 655 0,064
0,226
0,291
0,084
0,028
0,078
0,044
0,190
0,022
0,075
Puntaje Uniandes
2 228 0,040
0,010
0,017
0,034
0,069
0,089
0,127
0,020
0,143
0,027
Puntaje Uniandes
8 156 0,015
0,012
0,012
0,009
0,010
0,033
0,015
0,000
0,029
0,565
Puntaje Uniandes
1 7 0,003
0,000
0,000
0,000
0,000
0,007
0,000
0,000
0,008
0,000
Puntaje Uniandes
... ... ... ... ... ... ... ... ... ... ... ...
Ratio Mean 0,87 0,88 0,98 0,98 0,86 0,71 0,86 0,58 0,96 0,59 0,90
Ratio Deviation
0,16 0,08 0,03 0,03 0,11 0,10 0,11 0,27 0,07 0,18 0,17
Sexo M 3507 0,667
0,610
0,662
0,666
0,808
0,720
0,764
0,639
0,832
0,750
Sexo F 1593 0,333
0,390
0,338
0,334
0,192
0,280
0,236
0,361
0,168
0,250
Sexo missing
0 0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
Figure 38: Caracteriticas Clusters sin la variable carnet
Variables Values Probability
Programa2 NA 100,000%
Sexo M 83,161%
Desertor True 73,382%
Ratio 0,4 - 0,8 71,317%
Creditos Aprobados 1 61,523%
Colegio missing 56,011%
Creditos Totales 2 48,800%
Numero Semestres Grado 29 - 76 44,281%
Puntaje Uniandes 3 40,917%
Numero Semestres Grado 14 - 28 37,278%
Promedio Segundo Semestre 3 32,895%
Edad 25 - 30 32,615%
Promedio Primer Semestre 4 31,516%
Edad 23 - 24 29,775%
Desertor False 26,618%
Numero Creditos Primer Semestre Intentados 15 25,745%
Creditos Aprobados 2 24,175%
Edad 21 - 22 23,613%
Numero Creditos Segundo Semestre Aprobados 0 23,479%
Promedio Primer Semestre 5 23,435%
Puntaje Uniandes 4 22,802%
Numero Creditos Primer Semestre Intentados 12 22,298%
Programa1 IMEC 21,988%
Numero Creditos Segundo Semestre Intentados 0 21,837%
Promedio Segundo Semestre 4 20,693%
Creditos Totales 1 18,996%
Promedio Primer Semestre 6 18,896%
Numero Creditos Primer Semestre Aprobados 0 18,285%
Numero Creditos Segundo Semestre Aprobados 6 18,236%
Creditos Totales 3 17,818%
Numero Creditos Primer Semestre Aprobados 9 17,722%
Sexo F 16,839%
Numero Creditos Primer Semestre Aprobados 6 15,946%
Programa1 IIND 15,544%
Numero Creditos Segundo Semestre Aprobados 3 14,938%
Promedio Segundo Semestre 2 14,876%
Programa1 ICIV 14,569%
Puntaje Uniandes 2 14,252%
Numero Creditos Primer Semestre Aprobados 12 14,173%
Numero Creditos Segundo Semestre Intentados 12 13,666%
Promedio Segundo Semestre 0 13,564%
Edad 17 - 20 13,313%
Doble 0 - -1 12,270%
Programa1 IELC 12,153%
Numero Semestres Grado 6 - 13 11,625%
Numero Creditos Primer Semestre Intentados 16 11,325%
Numero Creditos Segundo Semestre Aprobados 4 11,274%
Ratio 0,8 - 0,9 11,251%
Programa1 ISIS 11,226%
Doble 0 - -1 11,129%
Puntaje Uniandes 5 10,822%
Programa1 IQUI 10,796%
Doble -1 10,729%
Numero Creditos Segundo Semestre Intentados 9 9,950%
Numero Creditos Segundo Semestre Aprobados 7 9,656%
Promedio Primer Semestre 0 9,271%
Numero Creditos Primer Semestre Intentados 0 9,271%
Numero Creditos Segundo Semestre Intentados 15 9,190%
Numero Creditos Segundo Semestre Intentados 10 9,120%
Promedio Primer Semestre 7 8,703%
Numero Creditos Segundo Semestre Intentados 13 8,646%
Numero Creditos Primer Semestre Aprobados 10 8,146%
Numero Creditos Primer Semestre Intentados 9 8,144%
Numero Creditos Primer Semestre Intentados 18 7,290%
Programa1 IAMB 6,754%
Numero Creditos Segundo Semestre Intentados 16 6,611%
Numero Creditos Segundo Semestre Aprobados 9 6,508%
Numero Creditos Primer Semestre Aprobados 7 6,063%
Promedio Segundo Semestre 5 5,402%
Numero Creditos Primer Semestre Aprobados 15 5,347%
Promedio Segundo Semestre 1 5,322%
Puntaje Uniandes 6 5,275%
Creditos Aprobados 3 5,025%
Numero Creditos Segundo Semestre Aprobados 1 5,009%
Programa1 IGEN 4,553%
Numero Creditos Primer Semestre Intentados 13 4,490%
Promedio Segundo Semestre 6 4,410%
Ratio 0,9 - 1,0 4,353%
Creditos Totales 6 4,318%
Numero Creditos Primer Semestre Aprobados 16 4,252%
Creditos Totales 5 4,201%
Creditos Aprobados 4 4,045%
Numero Creditos Segundo Semestre Intentados 6 3,843%
Numero Creditos Primer Semestre Aprobados 3 3,822%
Promedio Primer Semestre 3 3,802%
Creditos Totales 4 3,561%
Promedio Primer Semestre 8 3,497%
Numero Creditos Segundo Semestre Intentados 3 3,385%
Numero Creditos Segundo Semestre Intentados 14 3,285%
Numero Creditos Segundo Semestre Aprobados 12 3,172%
Numero Creditos Segundo Semestre Aprobados 10 3,151%
Puntaje Uniandes 8 2,911%
Creditos Aprobados 6 2,685%
Colegio 19505 2,605%
Programa1 IELE 2,372%
Creditos Totales 7 2,306%
Numero Creditos Primer Semestre Intentados 10 2,296%
Puntaje Uniandes 7 2,250%
Colegio 108381 2,195%
Numero Creditos Primer Semestre Aprobados 13 2,178%
Numero Creditos Segundo Semestre Intentados 7 2,172%
Creditos Aprobados 5 2,150%
Numero Creditos Segundo Semestre Intentados 19 2,101%
Numero Creditos Segundo Semestre Aprobados 8 2,086%
Colegio 34306 1,925%
Numero Creditos Primer Semestre Intentados 6 1,862%
Colegio 80127 1,845%
Numero Creditos Segundo Semestre Intentados 4 1,785%
Numero Creditos Primer Semestre Intentados 19 1,742%
Promedio Segundo Semestre 8 1,596%
Colegio 32730 1,571%
Numero Creditos Segundo Semestre Intentados 18 1,568%
Colegio 98640 1,560%
Colegio 19810 1,554%
Colegio 22012 1,554%
Numero Creditos Primer Semestre Intentados 3 1,543%
Colegio 66431 1,543%
Numero Creditos Segundo Semestre Aprobados 2 1,535%
Colegio 42473 1,385%
Numero Creditos Primer Semestre Intentados 14 1,365%
Numero Creditos Segundo Semestre Intentados 11 1,279%
Colegio 35816 1,261%
Numero Creditos Primer Semestre Aprobados 4 1,239%
Numero Creditos Primer Semestre Aprobados 11 1,237%
Colegio 19794 1,164%
Numero Creditos Primer Semestre Intentados 8 1,157%
Colegio 19406 1,156%
Colegio 19448 1,146%
Colegio 14472 1,092%
Colegio 102632 1,045%
Colegio 46771 1,021%
Colegio 3 0,982%
Colegio 23739 0,929%
Promedio Segundo Semestre 7 0,833%
Numero Creditos Segundo Semestre Intentados 17 0,830%
Colegio 3459 0,789%
Colegio 22848 0,786%
Colegio 21154 0,775%
Numero Creditos Primer Semestre Intentados 17 0,771%
Colegio 21485 0,771%
Puntaje Uniandes 1 0,771%
Colegio 53363 0,771%
Colegio 3418 0,762%
Numero Creditos Primer Semestre Aprobados 18 0,758%
Numero Creditos Segundo Semestre Intentados 20 0,730%
Colegio 24281 0,579%
Colegio 21899 0,569%
Colegio 49387 0,526%
Colegio 24216 0,511%