escuelas promotoras · 3 resumen ejecutivo el programa de escuelas promotoras se inicia en el año...

1

ESCUELAS PROMOTORAS

Evaluación de Impacto

Diciembre 2019

2

Autoridades

Gobernadora de la Provincia de Buenos Aires Lic. María Eugenia Vidal

Jefe de Gabinete de Ministros Dr. Federico Salvai

Director General de Cultura y Educación Lic. Gabriel Sánchez Zinny

Subsecretario de Educación Lic. Sergio Siciliano

Directora Provincial de Evaluación y Planeamiento Mg. Agustina Blanco

Director de Información y Estadística

Mg. Jhonn Espinoza

Directora de Evaluación e Investigación Educativa

Carla Marina De la Concepción

Jefe de Gabinete Dirección Provincial de Evaluación y Planeamiento

Martin Nasiff

Equipo responsable del informe:

Coordinación: Carla Marina De la Concepción Directora de Evaluación e Investigación Educativa

Dr. Nicolas Garcette Ex Director de Evaluación e Investigación Educativa

Recolección de la información estadística: Soledad Álvarez, Verónica Ardenghi, Yésica Benavidez, Marcela Braschi, Carla De la Concepción, Bárbara Cerrillo, Manuel Galli, Hernán Guajardo, Verónica López, Marisa Olivieri, Ezequiel Reginato, Eliana Sterkel, Gloria Segretin, Florencia Vallina.

Diseño de la muestra, sistematización de los datos y análisis econométrico: Santiago Cerutti y Nicolás Saguí

3

Resumen ejecutivo

El programa de Escuelas Promotoras se inicia en el año 2018 como una prueba piloto de

un nuevo formato para la escuela secundaria, impulsando diferentes estrategias que se

focalizan en las trayectorias y el aprendizaje de los estudiantes (articulación entre niveles

educativos, semana de recibimiento, acompañamiento de trayectorias educativas,

trabajo pedagógico institucional y evaluación colegiada). Su objetivo es generar mejoras

tanto en los indicadores de eficiencia interna de las escuelas como en los aprendizajes de

los alumnos.

El presente informe presenta evidencia empírica acerca de los resultados del programa

Escuelas Promotoras sobre el desempeño de los alumnos de escuelas estatales del

conurbano que se incorporaron al mismo durante el año 2019.

A partir de la combinación de dos técnicas de evaluación de impacto (pareamiento y

diferencias en diferencias) y la aplicación de una prueba de aprendizajes para medir las

habilidades de los alumnos en dos momentos del año, se midieron los efectos del

programa sobre el desempeño escolar.

Analizando los resultados de 96 escuelas y cerca de 2.000 estudiantes encontramos que

el programa ha generado un efecto positivo y estadísticamente significativo sobre el

desempeño en lengua, tanto medido en términos de puntajes como en cantidad de

respuestas correctas. La diferencia de puntajes entre los grupos que asisten a Escuelas

Promotoras y los que no aumentó entre 0,16 y 0,18 desvíos estándar, en promedio. En

términos de respuestas correctas dicha diferencia representó, en promedio, media

pregunta correcta más. No se encontraron efectos estadísticamente significativos sobre

el desempeño en matemática, sin embargo, ambos grupos mejoraron sus desempeños.

4

Contenido

I. Introducción: el Programa de Escuelas Promotoras .................................................... 5

Elementos que componen el programa ........................................................................... 5

Teoría de cambio ............................................................................................................... 8

II. Revisión de la literatura ............................................................................................. 10

III. Aspectos metodológicos de la evaluación ................................................................. 14

La evaluación de impacto ................................................................................................ 14

Diferencias en diferencias con pareamiento ................................................................. 15

Selección de la muestra (Grupo de Tratamiento) .......................................................... 17

Selección del Grupo de Control ...................................................................................... 17

IV. Datos ......................................................................................................................... 20

El Instrumento de relevamiento de capacidades .......................................................... 20

Medición de las capacidades: Teoría de Respuesta al Ítem .......................................... 23

Aspectos básicos ..................................................................................................... 23

Supuestos subyacentes y modelo aplicado ........................................................... 24

V. Análisis descriptivo de los resultados......................................................................... 27

VI. Impacto del programa Escuelas Promotoras ............................................................. 32

El modelo de regresión.................................................................................................... 32

Resultados ........................................................................................................................ 33

VII. Conclusiones ............................................................................................................. 36

VIII. Bibliografía ................................................................................................................ 38

IX. Anexo N°1 ................................................................................................................. 40

X. Anexo N° 2. Notas metodológicas ............................................................................. 42

Teoría de Respuesta al Ítem: el modelo de dos parámetros ......................................... 42

Bondad de ajuste y validez de los supuestos ................................................................. 45

Dificultad de los ítems............................................................................................. 45

Discriminación de los ítems .................................................................................... 46

Ajuste de la función de respuesta .......................................................................... 47

Supuesto de unidimensionalidad ........................................................................... 49

Supuesto de independencia local .......................................................................... 49

La escala de habilidad latente y el puntaje verdadero .................................................. 51

5

I. Introducción: el Programa de Escuelas Promotoras

La propuesta pedagógica de Escuelas Promotoras comenzó a implementarse en forma

gradual y progresiva durante el año 2018 en escuelas de educación secundaria de gestión

estatal y de gestión privada. Durante 2019, la propuesta se amplió a una mayor cantidad

de escuelas, siendo la adhesión de forma voluntaria. Su propósito fundamental es

implementar modificaciones en el formato de la escuela secundaria que favorezcan la

trayectoria escolar de los estudiantes, promoviendo distintas formas de organización

para enseñar y aprender, recuperando y profundizando experiencias pedagógicas

exitosas ya implementadas en la Provincia de Buenos Aires.

La propuesta refuerza los fines de la educación secundaria tales como acompañar las

trayectorias estudiantiles, consolidar el avance por trayectoria en ambos ciclos, fortalecer

el trabajo pedagógico institucional, fomentar los proyectos socio-comunitarios, propiciar

acciones de articulación entre niveles y con el mundo del trabajo, diseñar planes de

egreso y promover el sentido de pertenencia del profesor a la institución y a la

experiencia educativa.

Se trata de una experiencia pedagógica integral y progresiva. Para ello, se requiere que

las instituciones involucradas adhieran a la misma, incorporando proyectos para la

selección del Profesor Acompañante de Trayectorias y/o la continuidad del ya designado,

a fin de garantizar un espacio de trabajo conjunto, avalado por la autoridad institucional.

A continuación, se presentan las estrategias y acciones que deben desarrollarse para

garantizar la implementación del programa.

Elementos que componen el programa

1. Proyecto Institucional: diseñar, poner en marcha y liderar el Proyecto Institucional

utilizando herramientas de gestión innovadoras para la implementación de los

dispositivos propios de la propuesta.

2. Articulación entre niveles: desarrollar la estrategia de articulación entre el nivel

secundario y el nivel primario, encuadrada en un marco de responsabilidad de ambos

niveles, a fin de dar continuidad a las trayectorias escolares en el contexto de la educación

obligatoria.

Para acompañar el pasaje de un nivel a otro, se deben implementar dispositivos y

propuestas para favorecer la recepción de los ingresantes, la articulación de los saberes

a aprender y la construcción del “ser” estudiante secundario favoreciendo la pertenencia

al grupo, a la escuela, al nivel y a la comunidad.

6

3. Semana de recibimiento: implementar un período específico destinado al recibimiento

de los ingresantes a primer año en la escuela secundaria.

Para ese período de recibimiento, la institución debe organizar una grilla horaria y una

selección de actividades con los actores responsables.

Los ejes de la semana de recibimiento son: la escuela secundaria y los actores de la

comunidad educativa, los propósitos de la educación secundaria, la propuesta

organizacional y curricular de la educación secundaria, las normativas del nivel, la

convivencia y la construcción colectiva de los Acuerdos Institucionales de Convivencia

(AIC), los espacios de participación juvenil, las prácticas académicas, la organización del

estudio y las políticas de cuidado.

4. Acompañamiento a las trayectorias: fortalecer el seguimiento de los estudiantes a

través de un docente de la institución, denominado Profesor Acompañante de

Trayectorias (PAT), que tiene la función de acompañar las trayectorias del grupo durante

todo el ciclo básico, articulando su tarea con el equipo de conducción, los profesores del

curso, el Equipo de Orientación Escolar (EOE), los preceptores, las familias y otras

instituciones vinculadas.

El PAT construye una mirada integral sobre las trayectorias escolares que implica una

doble consideración: académica y vincular. Su papel consiste en: guiar, orientar y ayudar

a construir el rol de estudiante secundario, potenciar y sostener sus trayectorias

escolares reales, favorecer la articulación interna de la propuesta pedagógica,

intercambiar e informar acerca de buenas prácticas, entre otras acciones. Todo lo

anterior debe suceder en el marco del proyecto institucional, bajo la supervisión del

equipo directivo y el Inspector de Enseñanza.

La cantidad asignada de módulos institucionales1 a cada PAT está directamente

relacionada con la matrícula de primer año, como puede observarse en la Tabla N°1. Los

módulos institucionales del PAT son de desempeño obligatorio en la institución. Se

destinan al trabajo con el grupo de estudiantes a cargo, la atención a las familias, la

articulación con docentes, preceptores, el Equipo de Orientación Escolar y directivos y la

participación en instancias de evaluación colegiada.

1 Un módulo institucional corresponde a 60 minutos de trabajo institucional.

7

Tabla N°1. Cantidad de módulos según matrícula de primer año.

Matrícula de primer año Cantidad de módulos

1 - 30 4

31 - 40 5

41 - 50 6

51 - 60 7

61 - 70 8

71 - 80 9

81 - 90 10

Fuente: Elaboración propia en base a datos provistos por la Dirección de Nivel Secundario.

5. Trabajo pedagógico institucional: desarrollar una propuesta de prácticas pedagógicas a

partir de “saberes integrados”, con estrategias de enseñanza y aprendizaje basadas en

problemas y/o proyectos pedagógicos específicos.

Se deben considerar el desarrollo de proyectos socio-comunitarios centrados en la

participación de los estudiantes que den respuesta a problemas complejos del entorno,

permitiendo la integración de los estudiantes con la comunidad y el fortalecimiento de la

participación social y la responsabilidad ciudadana. Para ello se requiere un trabajo

docente cooperativo y articulado en términos de una planificación pedagógica conjunta,

el monitoreo y la evaluación colegiada de los procesos de enseñanza y de aprendizaje. A

fin de garantizar un espacio de trabajo conjunto, se asignan Módulos Institucionales

Pedagógicos (MIP) a los docentes de primer año dentro del marco de la propuesta. Los

MIP prevén una reunión institucional obligatoria con la participación de los docentes

incluidos en la experiencia que permite cumplir con los objetivos antes detallados.

La carga horaria equivale a dos MIP semanales para los docentes que cuentan con un

mínimo de cuatro módulos. Dicha carga se incrementa si el docente posee más de ocho

módulos en las secciones de primer y segundo año involucradas en la experiencia2: se

añade un módulo institucional de desempeño efectivo adicional por cada cuatro módulos

de clase en primer año. El objetivo es implementar dispositivos de recuperación de

aprendizajes no acreditados a partir de los informes de calificación en las áreas

disciplinares similares y para tareas de complementación curricular. Las reuniones se

deben implementar fuera del horario escolar y deben ser definidas por el director con

acuerdo institucional.

6. Evaluación Colegiada: implementar una propuesta de evaluación, acreditación y

promoción de manera colegiada.

2 Esta forma de asignación corresponde al presente año, mientras que en 2018 se asignaban 2 módulos institucionales a todos los docentes PAT, independientemente de la cantidad de módulos que reunían.

8

La valoración de las trayectorias consiste en un espacio profesional de análisis, con

instancias participativas de todos los docentes que trabajan con el estudiante, y con los

aportes significativos de los PAT. La evaluación, promoción y acreditación total o parcial

es, por lo tanto, una decisión colegiada y producto del acuerdo. Para ello se utilizan

diversas matrices de evaluación elaboradas a tal fin, conservando la escala de calificación

actual.

En caso de que se determine que un estudiante no ha alcanzado satisfactoriamente las

expectativas de logro planteadas en el proyecto áulico, se continúa en el período de

diciembre con las prácticas de enseñanza y de aprendizaje. De ser necesario, se retoma

la enseñanza y el aprendizaje hasta el logro de los desempeños esperados en el período

de febrero/marzo, cuando se define la promoción. Si el estudiante promociona al año

siguiente con saberes no acreditados, la escuela planifica una propuesta pedagógica

específica, acorde a la trayectoria de cada estudiante y a la disponibilidad de los recursos

institucionales, a fin de alcanzar las expectativas de logro.

Por último, en la Tabla N°2 se detalla la cantidad de Escuelas Promotoras Estatales en

2018 y 2019. Durante el primer año, en las 297 escuelas donde se desplegó el programa,

se asignaron 9.340 módulos, 2.183 correspondientes a módulos PAT y 7.157 a módulos

MIP. Dado que aún no finaliza el segundo año de implementación, no se cuenta con las

cifras correspondientes para 2019.

Tabla N°2. Número de escuelas promotoras Estatales 2018-2019.

Cantidad de escuelas

Escuelas promotoras 2018 297

Continúan en 2019 289

No continúan en 2019 6

Escuelas promotoras total 2019 583

Nuevas escuelas promotoras 294

Fuente: Elaboración propia en base a datos provistos por la Dirección de Nivel Secundario.

Teoría de cambio

Para comprender en profundidad cómo funciona un programa es importante plantear

una teoría de cambio. La Imagen N° 1 resume la teoría de cambio estilizada del programa

de Escuelas Promotoras, explicitando la cadena lógica que vincula a las actividades con

los resultados esperados. La presente evaluación de impacto se focaliza puntualmente

en el objetivo de mejorar el aprendizaje de los estudiantes, debido a que los datos

necesarios para conocer los efectos sobre abandono y repitencia no se encuentran

disponibles al día de la fecha.

9

Imagen N° 1. Teoría de cambio del programa de Escuelas Promotoras

Fuente: Elaboración propia

Productos

Proyecto institucional

Articulación de niveles

Semana de recibimiento

Acompañamiento a las trayectorias

Trabajo pedagógico institucional

Evaluación colegiada

Resultados

Adecuación de los estudiantes a la escuela

secundaria

Fortalecimiento del vínculo profesor-

alumno

Aumento de la integración y el compañerismo

Mejor manejo del tiempo de estudio

autónomo

Mejora en la capacidad de esfuerzo de los

estudiantes

Impactos

Mejora en el aprendizaje

Disminución del abandono y la

repitencia

10

II. Revisión de la literatura

Según la clasificación de programas educativos realizada por la Iniciativa Internacional

para la Evaluación de Impacto (Snilstveir, y otros, 2016), las intervenciones en educación

pueden agruparse según el factor de la comunidad educativa intervenido (Imagen N° 2).

En este sentido, el programa de Escuelas Promotoras sería una innovadora propuesta

entre aquellas que se focalizan en intervenciones al interior de la escuela, incluyendo

elementos asociados a programas de estructura pedagógica y de atención individual del

estudiante.

Los programas de estructura pedagógica comprenden capacitaciones a maestros,

provisión de materiales apropiados, modificaciones curriculares y nuevos abordajes de

aprendizaje utilizando monitoreo y seguimiento de maestros para generar evidencia,

entre otros. Por otra parte, los programas de atención en el estudiante agrupan

intervenciones dirigidas de manera individual en función de las habilidades o

características del alumno, con el objetivo de seguirlo para intentar ayudarlo en su

aprendizaje, retenerlo, etc.

El trabajo mencionado releva 21 estudios sobre programas de estructura pedagógica

aplicados en diferentes países en vías de desarrollo (Brasil, Camboya, Chile, Costa Rica,

Kenia, Liberia, Mali, Filipinas, Sudáfrica y Uganda) y encuentra que dichas intervenciones

generaron importantes mejoras en el aprendizaje, tanto en lengua como en matemática,

en la mayoría de los contextos.

Por su parte, los programas de atención individual en el estudiante, como la educación

remedial3 o la segmentación de alumnos por habilidad, muestran resultados

inconcluyentes. En particular, 4 programas de educación remedial en Chile, India y

México no encuentran resultados precisos, aunque sugieren que dicha forma de

intervención puede servir para mejorar el seguimiento de los resultados de aprendizaje

de los alumnos. A su vez, 2 estudios para Kenia e India muestran que el seguimiento de

alumnos por habilidad tuvo efectos relativamente pequeños tanto en aprendizaje de

lengua como de matemática.

3 Los programas de educación remedial o recuperación buscan brindar un apoyo focalizado a aquellos estudiantes que muestran un desempeño bajo en relación a sus compañeros y a lo esperado para el respectivo nivel educativo.

11

Imagen N° 2. Clasificación de las políticas educativas I

Fuente: Elaboración propia en base a Snilstveir y otros (2016)

Por otro lado, el Banco Interamericano de Desarrollo (BID), en su revisión de políticas

públicas para el desarrollo de habilidades (Busso, y otros, 2017), realiza una primera

distinción por etapa o nivel (primera infancia, infancia, adolescencia, educación superior

y adultos), y una segunda clasificación según el área de intervención o problemática

tratada sobre la que la intervención resulta más efectiva (matriculación y graduación,

rendimiento académico, y desarrollo de habilidades socioemocionales).

Dentro de este esquema, el programa de Escuelas Promotoras se encuentra, en primer

lugar, entre las iniciativas destinadas a la adolescencia, por lo que debe lidiar con las

dificultades propias de esta compleja edad en la que las habilidades de auto-regulación

resultan menos maduras (Albert, y otros, 2011). Si bien ésta etapa se caracteriza por una

tendencia a responder a estímulos socioemocionales y recompensas (Spear, 2010), existe

una alta probabilidad de elegir recompensas inmediatas pequeñas en lugar de

recompensas mayores en el futuro (Steinberg, y otros, 2009).

Adicionalmente, el programa propone un esquema integral de intervención que implica

un seguimiento individualizado sobre las trayectorias educativas de alumnos en riesgo,

así como formas de colaboración y retroalimentación de prácticas entre docentes, con el

objetivo de mejorar tanto el rendimiento académico de los estudiantes como el

ausentismo y la deserción escolar. Este tipo de intervenciones integrales y focalizadas son

capaces de abordar problemas específicos enfrentados por los adolescentes, que no

necesariamente responden a formas más simples y directas de intervención como las

12

políticas de transferencias, y que se transforman en trabas para el adecuado progreso

durante los años de estudio.

Los autores distinguen cuatro tipos de políticas destinadas a mejorar el aprendizaje en el

nivel secundario, revisando la evidencia empírica sobre sus efectos: transferencias

condicionadas4; el modelo de educación “Sin Excusas” aplicado en Estados Unidos5; la

extensión de la jornada escolar; y la provisión de incentivos monetarios y subsidios a la

demanda (para asistencia a escuelas privadas de preferencia).

Los programas de transferencias condicionadas han tenido un impacto bajo en el

aprendizaje. Sin embargo, los incentivos monetarios destinados a que los alumnos

mejoren sus puntajes han probado ser efectivos, y lo mismo puede decirse de una

extensión de la jornada escolar y de la provisión de vouchers o subsidios de demanda

(Busso, y otros, 2017). Con respecto al modelo “Sin Excusas”, los efectos sobre el

aprendizaje han sido considerables (Curto, y otros, 2011); (Dobbie, y otros, 2011);

(Abdulkadiroğlu, y otros, 2011); (Angrist, y otros, 2013); (Tuttle, y otros, 2013).

En cuanto a los programas de refuerzo escolar, la evidencia indica que pueden ser

efectivos, aunque los efectos son moderados. Cantrell y otros (2014) encuentran

resultados módicos en un programa de lectura para adolescentes de bajo rendimiento.

Lavy y otros (2005) evalúan un plan de instrucción adicional en Israel cuyo objetivo es

preparar a los estudiantes para los exámenes de matrícula, obteniendo efectos positivos

en los niveles de matriculación. Banerjee y otros (2007) encuentran resultados más

pronunciados en una intervención en India que consiste en la contratación de mujeres

jóvenes para dar soporte de enseñanza a los estudiantes con retraso en habilidades

básicas de lectura, escritura y aritmética. Los resultados son particularmente visibles en

los alumnos con peores desempeños en aprendizaje.

Por último, la mayor parte de las intervenciones destinadas a aumentar la matriculación

y la graduación se centran en reducir los costos directos y de oportunidad de asistir a la

escuela (transferencias condicionadas y no condicionadas, becas, premios), seguidos por

la provisión de insumos escolares (capacitaciones a docentes, libros, prácticas de

gestión). Políticas educativas similares al programa de Escuelas Promotoras se han

probado en mucho menor medida: las estrategias de apoyo personalizado, orientación,

coaching y provisión de información se incluyen en el 6% de las evaluaciones revisadas

en el trabajo en cuestión, mientras que estrategias más integrales, que incluyen

4 Los programas de transferencias condicionadas tienen como objetivo la redistribución del ingreso en favor de personas en situaciones de vulnerabilidad y consisten en desembolsos periódicos condicionados a determinadas acciones por parte de los receptores. Se han convertido en una pieza clave de los sistemas de protección social y suelen tener diversos componentes relacionados con la educación. En el caso argentino, la Asignación Universal por Hijo tiene entre sus requisitos la asistencia de los menores a un establecimiento educativo. 5 El modelo “Sin Excusas” propone un enfoque alternativo de educación incluyendo prácticas como la imposición de expectativas de aprendizaje altas para todos, la retroalimentación frecuente entre profesores, la provisión de tutorías individuales y la utilización de datos de manera intensiva para guiar la instrucción.

13

asesoramiento a padres, mecanismos para detectar alumnos en situación de riesgo,

desarrollo de habilidades socioemocionales, programas de estudio novedosos y apoyo

personalizado, se examinan sólo en un 4% de las evaluaciones presentadas.

Los programas destinados a mejorar la matriculación y graduación han generado algunas

mejoras, pero modestas. Más específicamente, los programas de transferencias

monetarias y otras formas de reducir costos directos y de oportunidad tienden a generar

impactos más favorables y consistentes en la matriculación, sobre todo en contextos de

baja matriculación. Sin embargo, tienen resultados mucho más modestos en términos de

graduación. Esto se debe a que no necesariamente incentivan a los alumnos a progresar

de forma adecuada durante el secundario hasta graduarse. Otros factores importantes

se hacen notar, particularmente en los contextos donde la matriculación es alta, como,

por ejemplo, la pertinencia de la educación. Por otra parte, los programas en cuestión

resultan altamente costo-efectivos.

A partir de lo anterior, los autores encuentran que mejorar la focalización de los

programas, aumentar las recompensas de la graduación y plantear estrategias más

integrales pueden tener buenos resultados. Por ejemplo, “Diplomas Now” es un

programa de Estados Unidos que trabaja con sistemas de prevención temprana basados

en asistencia, conducta, desempeño académico. Además, proporciona un apoyo

académico más adecuado y personalizado a través de la combinación de una estrategia

de “escuelas dentro de escuelas”, coaching entre pares de docentes, y cursos de

recuperación. Los resultados preliminares indican que ha logrado reducir

significativamente las tasas de abandono.

Otras intervenciones intentan mejorar la percepción de los alumnos respecto de los

beneficios futuros de la educación secundaria, brindando información personalizada

sobre los retornos de la educación y oportunidades de financiamiento: “Career

Academies” es una propuesta integral que incluye programas de estudio académico y

profesional, así como la colaboración con empleadores locales para fomentar el

aprendizaje aplicado y la preparación para la Universidad. La evidencia señala que ha

generado importantes efectos sobre la deserción (Kemple, y otros, 2000). A su vez, se

destaca su impacto sobre los ingresos laborales en la adultez (Kemple, y otros, 2008).

Finalmente, ciertas intervenciones intentan abordar directamente las conductas de

riesgo brindando información a las familias. Por ejemplo, “Family Check Up” brinda apoyo

a los padres para que aborden de manera adecuada a sus hijos en situación de riesgo

(Stormshak, y otros, 2010). De igual manera, Berlinski y otros (2016) analizan una

intervención que proporciona información a los padres sobre el ausentismo, conducta y

calificaciones de sus hijos con resultados prometedores.

14

III. Aspectos metodológicos de la evaluación

La evaluación de impacto

La evaluación de impacto busca medir los efectos directamente atribuibles que cierto

programa tiene sobre variables de interés o resultado. Un escenario ideal para conseguir

lo anterior sería poder comparar el estado de las variables de resultado de un grupo de

individuos en la “situación que reciben el programa” con el estado de esas mismas

variables, para el mismo grupo, en la “situación donde no se benefician del programa”.

Sin embargo, resulta evidentemente imposible registrar a la misma persona “siendo y no

siendo” beneficiaria de un programa al mismo tiempo. Esto es lo que se conoce como

“problema del contrafactual”. De allí que, utilizando distintas técnicas estadísticas, se

busca simular un grupo de comparación que sea similar al grupo intervenido, tanto en

características observables como no observables.

La metodología más apropiada para asegurarse un buen contrafactual es el diseño

experimental. Según estas técnicas, la selección de los participantes al programa entre

los potenciales beneficiarios debe ser realizada mediante un mecanismo puramente

aleatorio. De esta manera, los individuos que no participan del programa constituyen

automáticamente un buen contrafactual: como el programa ha sido asignado de manera

aleatoria, se puede asumir que las características de los individuos que conforman ambos

grupos son distribuidas también de manera aleatoria. Eso implica que los grupos de

tratamiento y control son, en ausencia del programa, estadísticamente idénticos en

promedio.

Las restantes metodologías aplicables, que se conocen como diseños cuasi-

experimentales, tienen en común el hecho de que se utilizan cuando la participación de

los individuos del programa no es definida por un procedimiento aleatorio. En estos

casos, el contrafactual debe crearse a partir del grupo de individuos que no participan del

programa, es decir, a partir del grupo de comparación. Dado que la selección de escuelas

que participan del programa de Escuelas Promotoras no fue realizada de forma aleatoria,

se ha optado por un diseño cuasi-experimental similar al utilizado en el año 20186. Se

trata de un diseño que combina dos técnicas estadísticas: en primer lugar, la utilización

de un método de pareamiento para generar un grupo de control ex post lo más parecido

posible al grupo de tratamiento en cuanto a características relevantes observables; en

segundo lugar, y previa aplicación en dos momentos de una prueba estandarizada a los

grupos de tratamiento y control, la estimación de un modelo de diferencias en

diferencias, para cuantificar el efecto del programa en base a los resultados de las

6 Véase el Informe de Evaluación de Impacto 2018, pp. 21-28. Link: http://www.abc.gov.ar/planeamiento/sites/default/files/informe_final_promotoras_version_extendida_0.pdf

http://www.abc.gov.ar/planeamiento/sites/default/files/informe_final_promotoras_version_extendida_0.pdf


15

pruebas. La anterior combinación de métodos tiene por objetivo eliminar la mayor

cantidad posible de sesgos potenciales de medición de efectos del programa como se

detalla a continuación.

Diferencias en diferencias con pareamiento

La técnica de diferencias en diferencias cuantifica el impacto de un programa definiendo

el efecto, no en términos de la diferencia ex post en la variable de resultado entre

participantes y no participantes, sino como la diferencia que existe entre ambos grupos

en la variación temporal de dicha variable. En otras palabras, primero se compara la

situación antes y después de la implementación del programa para cada grupo (primera

diferencia); luego, se compara la evolución del grupo de tratamiento con la evolución del

grupo de control (segunda diferencia). Esto permite medir el impacto de la intervención,

saldando cualquier diferencia pre-existente que se mantiene constante en el tiempo y

reconociendo explícitamente que parte de la variación temporal en el resultado de

aquellos que reciben el programa se habría producido, en cualquier caso, con o sin

programa, debido a otros factores.

En términos algebraicos, el efecto en la variable de resultado se puede representar de la

siguiente manera:

𝑬𝒇𝒆𝒄𝒕𝒐 𝒅𝒆𝒍 𝒑𝒓𝒐𝒈𝒓𝒂𝒎𝒂 = 𝑪 − 𝑨 − [𝐃 − 𝐁]

Donde C y 𝐴 son los promedios de la variable de resultado en el grupo de tratamiento

antes y después de la aplicación del programa, respectivamente; y B y 𝐷 son los

promedios de la variable de resultado en el grupo de control, antes y después de la

aplicación del programa, respectivamente (Ver Gráfico N°9 en la Sección IV).

El modelo de diferencias en diferencias logra solucionar algunos problemas que se

presentan en otros tipos de diseño amenazando la validez interna de la evaluación; a

saber, que el modelo utilice un grupo de control permite prevenir sesgos provocados por

la variación de factores contemporáneos al programa que puedan tener efectos sobre la

variable de resultado. A su vez, dado que se estima una diferencia en la variación de la

variable de resultado entre grupos de tratamiento y control, se eliminan algunas de las

fuentes de sesgo de selección que la existencia de factores no observables provoca en

otras técnicas. Cabe recordar que dicho método asume la inexistencia de diferencias en

dichos factores entre los grupos. Más específicamente, como el impacto no se mide en

términos de niveles, sino de tasas de variación del resultado, se elimina el posible sesgo

provocado por aquellos factores inobservables que no varían en el tiempo (algo que no

se modifica en el tiempo no puede haber sido la causa de la evolución diferencial del

resultado en el grupo de tratamiento).

16

A pesar de los beneficios señalados, el modelo de diferencias en diferencias no está

exento de limitaciones que pueden amenazar la validez interna de las conclusiones si no

se cumplen determinados supuestos:

1) En primer lugar, es necesario que los individuos, tanto del grupo de tratamiento como

de control, reaccionen de la misma manera a cambios en factores contemporáneos al

programa que pueden influir sobre la variable de resultado. Existen dos formas de

intentar corroborar el cumplimiento de este postulado. Si se posee información de la

variable de resultado en múltiples períodos previos a la implementación del programa,

es posible contrastar si ésta ha evolucionado de manera similar en ambos grupos cuando

se han producido variaciones en otros factores influyentes. Una alternativa, cuando dicha

información no existe, consiste en estimar el modelo de diferencias en diferencias luego

de haber seleccionado los grupos de tratamiento y control mediante el uso de una técnica

de pareamiento. Dado que las técnicas de pareamiento garantizan una elevada similitud

entre ambos grupos, cabe esperar que unos y otros reaccionen de la misma manera a

factores contemporáneos.

En este trabajo, la técnica de diferencias en diferencias se combina con una aplicación de

una técnica de pareamiento a nivel establecimiento en la etapa previa de selección del

grupo de control, debido a la imposibilidad de contar con datos de desempeño previos a

la primera aplicación de la prueba de aprendizaje. De esta forma, suponiendo que

determinadas características de la sección y el establecimiento representan

fehacientemente las características de los alumnos, se eliminan aquellos sesgos

derivados de la selección de grupos de escuelas de naturaleza diferente, cuyos alumnos

pudieran evolucionar de forma distinta en ausencia de la intervención.

2) En segundo lugar, es necesario suponer que no existen diferencias entre los individuos

del grupo de tratamiento y de control en características no observables que varíen a lo

largo del tiempo. Esta es una de las condiciones o supuestos más difíciles de corroborar

a la hora de verificar la validez interna de un diseño de diferencias en diferencias. En el

caso que nos compete, existen diversos factores no observables que pueden variar en el

tiempo afectando el rendimiento diferencial de los alumnos y que, en principio, no

pueden ser rastreados a la hora de plantear un cuasi-experimento de este estilo. Uno de

ellos es, por ejemplo, el grado de motivación de los alumnos. A pesar de este

inconveniente, es necesario aclarar que el escenario en que estos factores representan

un verdadero problema para la validez interna de los resultados es aquel en que varían y

afectan de manera diferente a los grupos de tratamiento y control en promedio. En este

sentido, se espera que los factores inobservables estén lo suficientemente

correlacionados con los factores observables como para ser controlados por el

pareamiento a nivel escuela y por los factores individuales a nivel alumno.

17

Cabe aclarar que para completar un modelo de los desempeños que estime el impacto

del programa, resta controlar los efectos sobre los desempeños de ambos grupos

derivados de factores individuales, así como los efectos escolares derivados de

características particulares de los establecimientos que no varían en el tiempo y que no

han sido pareados. Los primeros constituyen la razón de ser del cuadernillo

complementario: son relevados utilizando dicha herramienta con el objetivo de construir

variables individuales observables que permitan controlar el modelo a estimar en caso

de que existan diferencias significativas entre los dos grupos de alumnos. Los efectos

escolares se controlan con efectos fijos por escuela. En relación a los factores individuales

inobservables, no hay en principio forma de corroborar la inexistencia de dichos sesgos,

aunque se espera que estén lo suficientemente correlacionados con los factores

observables como para ser controlados por el pareamiento a nivel escuela y por los

factores individuales a nivel alumno.

Selección de la muestra (Grupo de Tratamiento)

La selección de la muestra se basó en criterios similares a los aplicados en la evaluación

de impacto realizada en 2018. Sin embargo, dado que se busca estimar los efectos

atribuibles únicamente al programa de Escuelas Promotoras durante el año 2019, se

excluyeron del análisis aquellas que participaron del mismo en ambos años.

Por otra parte, para conformar el Grupo de Tratamiento (GT), con el fin de reducir

distintos tipos de sesgos, no se consideraron ciertos establecimientos, a saber: aquellos

que forman parte del programa provincial “Red de Escuelas de Aprendizaje”; aquellos

que conformaron el grupo de control en la evaluación de impacto del año 2018; los que

formaron parte del piloto de Aprender 20197; y aquellos que, por diferentes razones,

sufrieron interrupciones temporales en el ciclo lectivo durante 2018. Además, al igual que

el año pasado, por razones logísticas y de interés de la política pública, se focalizó en las

escuelas de gestión estatal ubicadas en el conurbano bonaerense. A partir de las

consideraciones antes mencionadas, la selección final del GT quedó conformada por 48

establecimientos de gestión estatal del conurbano bonaerense.

Selección del Grupo de Control

El siguiente paso consistió en seleccionar, mediante una técnica de pareamiento, una

escuela “gemela” por cada una de las 48 escuelas de tratamiento con el objetivo de

conformar el Grupo de Control (GC), siendo el objetivo encontrar, en una muestra de no

participantes, aquellas escuelas que tienen la mayor similitud posible con las

7 Esto se debe a que las fechas de evaluación fueron muy próximas.

18

participantes en términos de características observables en la instancia previa a la

implementación del programa8.

Las variables seleccionadas para realizar el pareamiento fueron: la matrícula total de

primer año de la escuela, como aproximación del tamaño del establecimiento; el ratio de

alumnos con Asignación Universal por Hijo (AUH) sobre la matrícula total de la escuela,

como aproximación de la vulnerabilidad socioeconómica de los alumnos asistentes; y la

tasa de repitencia en primer año de cada establecimiento.

La técnica de pareamiento utilizada fue la minimización de las distancias euclídeas (𝑑𝐸),

que se define como la distancia “ordinaria” entre dos puntos de un espacio euclídeo9. Por

ejemplo, en un espacio bidimensional, la distancia euclídea 𝑑𝐸 entre dos puntos 𝑃1 y 𝑃2

de coordenadas cartesianas (𝑥, 𝑦) se escribe:

𝒅𝑬(𝑷𝟏, 𝑷𝟐) = √(𝒙𝟐 − 𝒙𝟏)𝟐 + (𝒚𝟐 − 𝒚𝟏)𝟐

De esta forma, considerando a cada una de las variables mencionadas (matrícula, ratio

AUH y tasa de repitencia) como una dimensión (M, AUH y R, respectivamente) y a las

escuelas 𝐴 y 𝐵 como dos puntos, la distancia euclídea entre ambas se define como:

𝒅𝑬(𝑨, 𝑩) = √(𝑴𝑩 − 𝑴𝑨)𝟐 + (𝑨𝑼𝑯𝑩 − 𝑨𝑼𝑯𝑨)𝟐 + (𝑹𝑩 − 𝑹𝑨)𝟐

Vale aclarar que, previamente, es necesario expresar las variables en escalas homogéneas

para evitar que aquellas con mayor varianza y unidad de medida tengan mayor injerencia

relativa. La estandarización es un método muy simple y de uso frecuente para crear

escalas comparables y fue la opción elegida en este estudio.

Luego de calcular y comparar todas las distancias entre cada escuela perteneciente al GT

y el resto de escuelas estatales que cumplían los requisitos antes mencionados dentro de

su mismo distrito, se asignaron las parejas cuya distancia resultaba menor, conformando

así el GC.

Finalmente, se seleccionó aleatoriamente una sección de primer año de cada

establecimiento, cuidando que ambos grupos estén balanceados en términos del turno y

8 El número total de escuelas involucradas en el operativo ascendió a 112 establecimientos (56 de tratamiento y 56 de control). Sin embargo, el análisis se realizó sobre 96 establecimientos: en algunas escuelas correspondientes al grupo de tratamiento finalmente no se implementó el programa; en otras, los estudiantes simplemente no respondieron los exámenes. En la Tabla N°9 del Anexo N°1 se muestran las cifras del relevamiento completo. 9 Otra técnica de pareamiento muy utilizada es el cálculo de puntajes de propensión (Rosenbaum & Rubin, 1983). Estos puntajes se definen como la probabilidad condicional de pertenecer al grupo de tratamiento, a partir de los valores de variables seleccionadas. Sin embargo, aunque los puntajes de propensión pueden estimarse utilizando la mayoría de los paquetes de software estadísticos, los diagnósticos no son rutinarios y pueden ser complejos. Esto se aplica en particular a los métodos que examinan la sensibilidad a pequeños cambios en la especificación del puntaje de propensión (Dehejia, 2005). El procedimiento que se propone en este estudio es más simple y permite comprender la comparación realizada en base a múltiples variables sin la necesidad de conocimientos estadísticos avanzados.

19

que cuenten con una cantidad de alumnos lo más cercana a 30 posible con el fin de

maximizar la cantidad de alumnos evaluados. De esta forma, la muestra final quedó

conformada por un total de 96 secciones de primer año, 48 representativas de las

Escuelas Promotoras y 48 establecimientos de control10.

En la Tabla N°3 se presentan los promedios por grupo de las tres variables utilizadas en el

proceso de pareamiento. Si bien se observan grupos muy balanceados en términos de las

características del establecimiento utilizadas, lo que se busca es que los dos grupos de

alumnos que se evalúen sean lo más similares posibles en términos de las características

individuales de sus integrantes. Este aspecto se evalúa en la siguiente sección, luego de

presentado el instrumento de medición de las características individuales.

Tabla N°3. Factores de pareamiento, promedios por grupo

Grupo Porcentaje de

alumnos con AUH

Tasa de repitencia

1er año

Matrícula 1er año

Relevamiento

Anual (RA) 2017

Control 62,2 15,1 82,1

Tratamiento 62,7 17,2 83,1

Total 62,5 16 83

Fuente: Elaboración propia.

10 Para un desarrollo más extenso del esquema de validez de los resultados y de las posibilidades de generalización a partir del procedimiento muestral mencionado, véase el Informe de Evaluación de Impacto 2018, pp. 20-23. Link: http://www.abc.gov.ar/planeamiento/sites/default/files/informe_final_promotoras_version_extendida_0.pdf



20

IV. Datos

El Instrumento de relevamiento de capacidades

La prueba estandarizada de aprendizajes aplicada fue diseñada por la Secretaría de

Evaluación Educativa nacional en base al banco de ítems disponibles11. Se divide en dos

bloques, uno de matemática y uno de lengua. Para cada asignatura se cuenta con 30

ítems distribuidos en dos modelos, por lo que cada alumno contesta 15 preguntas de

matemática y 15 de lengua. La selección de ítems se realizó con miras a cumplir con tres

condiciones: a) reflejasen los contenidos y capacidades indicados por los expertos; b)

presentasen buenos indicadores psicométricos; y c) estuviesen equilibrados en cuanto a

niveles de dificultad y discriminación estimados según la Teoría de Respuesta al Ítem12.

Además, las pruebas incorporan un cuestionario complementario diseñado en base al

cuestionario complementario de las Pruebas Aprender para el módulo de factores

sociodemográficos individuales, a la encuesta “California Healthy Kids Survey” para el

módulo de clima escolar, la “Learning Environment Scale” para el módulo de relación con

profesores y calidad docente, y las Escalas de Autosuficiencia y Determinación de

Schwarzer y Duckworth para el módulo de capacidades socioemocionales. El objetivo de

esta encuesta es relevar factores escolares y extraescolares que pueden incidir en los

niveles de desempeño de los estudiantes, así como la autopercepción de habilidades y la

opinión sobre el clima escolar imperante13.

Las tomas se realizaron los días 24 de abril y 5 de noviembre, habiéndose previamente

designado, para cada escuela, un aplicador capacitado para administrar los cuestionarios.

Estos últimos fueron entregados en cajas selladas con fajas de seguridad en cada una de

las Jefaturas Distritales correspondientes. Los aplicadores debían encargarse de llevar su

caja a la escuela asignada y abrirla en presencia del directivo de la institución, para luego

proceder a aplicar la evaluación. Cada aplicador contaba con un instructivo que detallaba

cómo proceder en el operativo y ciertas pautas para explicar el propósito de la evaluación

a los estudiantes.

De esta forma, se logró relevar de manera efectiva en cada operativo alrededor de 2.000

alumnos de un total de aproximadamente 2.600 conformado por las 96 secciones

11 La prueba es una réplica de la utilizada para la evaluación del programa durante 2018. Si bien existen advertencias sobre la reutilización de los instrumentos, en el presente caso se espera que no produzca ningún tipo de sesgo en los resultados debido a que: 1) la prueba se aplica en una muestra diferente de escuelas y en una nueva cohorte de alumnos; 2) el objetivo final no es comparar con las escuelas evaluadas el año pasado, sino analizar la evolución de las Escuelas Promotoras que adoptaron el programa a partir de 2019; 3) los ítems utilizados no han sido dados a conocer públicamente luego de su aplicación. 12 En la siguiente sección se explica detalladamente esta teoría; en el Anexo N° 2. Notas metodológicasse analizan las propiedades de los exámenes utilizados a la luz de la Teoría de Respuesta al Ítem. 13 Para una exposición más completa de los aspectos relevados en el cuestionario complementario, véase el Informe de Evaluación de Impacto 2018, pp. 16-17. Link: http://www.abc.gov.ar/planeamiento/sites/default/files/informe_final_promotoras_version_extendida_0.pdf


21

mencionadas14, con niveles de presentismo mayores al 70%. Tal y como lo muestra la

Tabla N°4, luego de eliminar aquellos casos donde los porcentajes de respuesta de los

ítems de matemática y/o lengua eran menor al 50%15, dicho número se redujo a 1.336

exámenes aptos para el análisis en abril y a 1.459 exámenes para el mes de noviembre.

Tabla N°4. Relevamiento y tasas de participación

Secciones Matrícula Presentes % Respondientes* %

Abril

No Promotora 48 1.297 1.023 78,9 639 62,46

Promotora 48 1.365 1.046 76,6 697 66,63

Total 96 2.662 2.069 77,7 1.336 64,57

Noviembre

No Promotora 48 1.294 966 74,7 664 68,74

Promotora 48 1.344 958 71,3 795 82,99

Total 96 2.638 1.924 72,9 1.459 75,83

* Alumnos que respondieron el 50% o más de alguna de las dos evaluaciones. Fuente: Elaboración propia.

Como se aclaró en la sección anterior, a partir del cuestionario complementario se puede

contrastar la distribución de características individuales en los grupos de tratamiento y

control. Esto permite, en última instancia, evidenciar si los grupos son similares en dichos

aspectos a los efectos de suponer que evolucionarían de igual forma en ausencia de

intervención. En la Tabla N°5 y en el Gráfico N°1 se verifica que el pareamiento de

establecimientos logró generar grupos de alumnos con características sumamente

similares. Como puede observarse, sólo dos variables presentaron una diferencia inter-

grupos estadísticamente significativa al 95% de confianza. Dichas discrepancias podrían

sesgar los resultados en la medida en que las variables en cuestión fueran omitidas del

análisis siendo relevantes para explicar los desempeños de los alumnos en la prueba. En

este sentido, el control de dichos efectos diferenciales se realizará en el análisis de

regresión que se presenta más adelante.

14 En la práctica esto implicó más de 3.300 cuadernillos por cada operativo, de los cuales alrededor de 1.400 retornaron sin ninguna respuesta marcada, pudiendo deberse tanto a alumnos que efectivamente no quisieron contestar el examen, a alumnos que no asistieron ese día, o a exámenes adicionales que se envían para cubrir eventuales diferencias en la matrícula reportada por el establecimiento. 15 Es necesario aclarar que esta depuración de datos es estadísticamente muy importante y se lleva a cabo en la mayoría de las pruebas estandarizadas, incluida Aprender.

22

Tabla N°5 Test de medias entre grupo de control y grupo de tratamiento antes del programa

Variables Promotoras Control Significatividad

Mujer 53,1% 51,6% No

Asistió al Nivel Inicial 95,7% 97,7% Al 5%

Repitió algún año 36,5% 32,0% Al 5%

Recibió apoyo escolar el año pasado 17,3% 18,5% No

No dedica horas diarias al estudio 8,9% 9,2% No

Tiene o está por tener hijo/a 4,5% 3,5% No

Alguno de sus padres finalizó la secundaria 62,9% 64,0% No

Ayuda a sus padres en su trabajo 42,1% 40,8% No

Vive bajo condiciones de hacinamiento 27,0% 26,9% No

Tarda más de media hora en llegar a la escuela 12,7% 11,9% No

Puntaje en Lengua 501,2 497,2 No

Puntaje en Matemática 497,5 492,5 No

N° de respuestas correctas en Lengua 7,23 7,09 No

N° de respuestas correctas en Matemática 5,58 5,52 No


Gráfico N°1. Balance de características individuales entre grupos.


0% 20% 40% 60% 80% 100%

Mujer

Asistió al Nivel Inicial

Repitió algún año

Recibió apoyo escolar el año pasado

No dedica horas diarias al estudio

Tiene o está por tener hijo/a

Alguno de sus padres finalizó la secundaria

Ayuda a sus padres en su trabajo

Vive bajo condiciones de hacinamiento

Tarda más de media hora en llegar a la escuela

Alumnos

Promotoras

Control

23

Medición de las capacidades: Teoría de Respuesta al Ítem

Aspectos básicos

La Teoría de Respuesta al Ítem (en adelante TRI) es el marco teórico en el que se

fundamentan los modelos de análisis utilizados en gran parte de las evaluaciones

estandarizadas internacionales hoy en día. En nuestro país, tanto el Operativo Nacional

de Evaluación (ONE) durante el periodo 2005-2013 como el Operativo Aprender desde

2016 fueron analizados utilizando modelos que se derivan de ella.

La TRI descansa sobre dos postulados básicos: 1) El desempeño de un examinado en un

ítem dado puede ser predicho, o más bien explicado, por un factor llamado rasgo latente

o habilidad. Dicho factor puede ser asociado a un número real 𝜃 perteneciente a una

escala arbitraria; 2) La relación entre el desempeño (probabilidad de responder

correctamente a un ítem dado) de un examinado y dicho factor 𝜃 puede ser descrita por

una función continua, monótona creciente, llamada curva de características del ítem

(CCI). Dicha función internalizará mayor información sobre las características del ítem

cuanto más complejo sea el modelo TRI elegido16.

El corpus teórico de la TRI fue desarrollado con el objetivo de solucionar algunas de las

limitaciones o defectos de la Teoría Clásica de Respuesta (TCR):

En primer lugar, en la TCR, la habilidad del examinado y las características del test

no son independientes. En otras palabras, no pueden ser separadas, por lo que

ninguna se puede interpretar sino en función de la otra. A partir de esto surgen

dos consecuencias indeseadas: 1) Las características de los ítems dependen del

grupo de personas a las que se ha aplicado el test y, por lo tanto, no pueden ser

tenidas realmente en cuenta a la hora de diseñar exámenes para otro grupo de

personas, aun cuando ambos grupos sean representativos de la población

objetivo; 2) Los puntajes de diferentes test están expresados en diferentes escalas

y no existe una relación funcional conocida entre dichas escalas. Aun cuando el

mismo test se aplique a diferentes grupos, si dichos grupos difieren en su

habilidad, el grado de error en el cálculo de sus puntuaciones diferirá.

Un segundo problema de la TCR tiene que ver con la denominada confianza del

test y más específicamente con su expresión concreta: el error estándar de

medida. En el contexto de la teoría clásica, la confianza es definida como “la

correlación entre las puntuaciones en aplicaciones paralelas de un test”. En la

práctica, satisfacer la noción de aplicaciones paralelas de un test es prácticamente

16 Aquí el concepto de complejidad refiere a la cantidad de parámetros de los ítems que el modelo considera a la hora de estimar las curvas de características. En el siguiente apartado se introducen las variantes más populares de dicho modelo.

24

imposible dado que implica suponer que el error estándar de medida es el mismo

para todos los respondientes. Como ha sido señalado antes, si los diferentes

grupos de examinados tienen diferentes niveles de habilidad, los puntajes simples

tendrán diferentes grados de error de medida.

Una tercera limitación señalada a la teoría clásica es que se orienta al test y no al

ítem. Es decir, la teoría clásica provee información sobre el desempeño de los

examinados con respecto al test completo, pero no sirve para hacer inferencias

sobre cuál será el desempeño de un individuo o grupo de individuos ante un ítem

específico.

En resumen, la TRI ha sido desarrollada con el objetivo de lograr: 1) Características de los

ítems que no sean dependientes del grupo de examinados; 2) Puntuaciones que

describan la habilidad del examinado y que no sean dependientes del test aplicado; 3) La

construcción de un modelo de análisis basado en el ítem y no en el test completo; 4) Que

dicho modelo no requiera la aplicación de test estrictamente paralelos para constatar su

confiabilidad.

Supuestos subyacentes y modelo aplicado

Dos supuestos básicos en relación a los datos sobre los cuales el modelo es aplicado

deben cumplirse para que la TRI sea apropiada:

1. Unidimensionalidad: El conjunto de ítems de un test mide sólo una habilidad

latente. Por razones obvias, este supuesto no puede cumplirse de manera

estricta. Sin embargo, lo que se requiere para asegurar un cumplimiento

suficientemente adecuado del postulado es la presencia de un componente o

factor dominante dentro del set de habilidades que influencian el desempeño en

el test.

2. Independencia local: Para niveles dados o fijos de habilidad, las respuestas de los

examinados a cualquier par de ítems son estadísticamente independientes. Esto

implica que la habilidad modelada es el único factor que afecta las respuestas de

los examinados. Por lo tanto, una vez tenida en cuenta, no existe relación entre

las respuestas de los estudiantes a diferentes ítems.

La validez de ambos supuestos puede ser chequeada a través de diversos métodos,

utilizando evidencia indirecta. A su vez, los modelos TRI son modelos falseables, es decir,

resulta posible (y necesario) constatar la bondad del ajuste del modelo a la estructura de

datos para elegir el modelo que mejor ajuste. En otras palabras, un modelo de respuesta

al ítem determinado puede no ser apropiado para un esquema particular de datos por lo

25

que, en última instancia, conseguir las características deseables de la TRI dependerá de

una buena elección del modelo de estimación17.

Los modelos TRI unidimensionales más populares para el análisis de datos dicotómicos

de respuestas son los modelos de uno, dos y tres parámetros, así nombrados por el

número de características de los ítems que cada uno incorpora y estima. El modelo de un

parámetro incorpora sólo la dificultad del ítem (𝑏), mientras que el modelo de dos

parámetros incorpora la discriminación (𝑎) y el modelo de tres parámetros agrega,

además, un parámetro (𝑐) que tiene en cuenta la posibilidad de respuestas al azar

(adivinación) en bajos niveles de habilidad.

En el presente trabajo se utilizó un modelo de dos parámetros basado en una función

logística. Dicho modelo fue desarrollado por Birnbaum (1968) y posee el siguiente

formato para la curva de características de los ítems:

(1) 𝑷𝒓𝒊(𝑰 = 𝟏|𝜽) =𝒆𝒙𝒑(𝑫.𝒂𝒊.(𝜽−𝒃𝒊)

𝟏+𝒆𝒙𝒑(𝑫.𝒂𝒊.(𝜽−𝒃𝒊))

Donde 𝑷𝒓𝒊(𝑰 = 𝟏|𝜽) es la probabilidad de que un examinado con una habilidad 𝜽

responda correctamente el item 𝒊; 𝒃𝒊 es la dificultad del ítem 𝒊 expresada en la misma

escala que 𝜽 y representa el nivel de habilidad necesario para detentar una probabilidad

de 50% de responder correctamente el ítem en cuestión; 𝒂𝒊 representa la discriminación

del ítem 𝒊 dando cuenta de la capacidad del ítem para distinguir entre individuos con

diferentes niveles de habilidad y 𝑫 es un escalar.

Para que un ítem brinde información confiable debe contar con un parámetro de

discriminación estadísticamente significativo y un parámetro de dificultad razonable. En

el presente estudio se eliminaron ítems con parámetros de discriminación menores a

0,15 (muy bajo poder de discriminación) y con niveles de dificultad por encima de 4

(respondidos de manera correcta por muy pocos alumnos) o por debajo de -4 18. En el

Gráfico N° 2 se presentan las curvas de características de los ítems de lengua y

matemática finalmente utilizados en el presente estudio, agrupados por modelo de

examen19.

17 En elAnexo N° 2. Notas metodológicasse presentan pruebas para dar cuenta del grado de cumplimiento de los supuestos por parte de los datos utilizados. A su vez, se presenta un análisis de la bondad del ajuste del modelo seleccionado. 18 Estos dos criterios también son utilizados en el análisis de las pruebas estandarizadas Aprender 19 En el Anexo N° 2. Notas metodológicasse presentan los parámetros de todos los ítems y se explican y estudian en detalle algunas curvas de características del modelo de estimación elegido.

26

Gráfico N°2. Curvas características de los ítems.


27

V. Análisis descriptivo de los resultados

Existen numerosas formas de analizar la evolución de resultados a partir de una prueba

estandarizada (cantidad de respuestas correctas, puntajes TRI, niveles de desempeño,

entre otras); pero antes de contrastar los resultados entre los grupos de tratamiento

(escuelas promotoras) y control, el primer aspecto que nos interesa estudiar es la

evolución general de las respuestas a los ítems utilizados, es decir, cómo se modificó el

nivel de respuestas correctas de cada pregunta.

El Gráfico N°3 muestra la distribución de las variaciones en las respuestas correctas de

todos los ítems de lengua y matemática. En la mayoría de los ítems de matemática las

respuestas correctas mejoraron de abril a noviembre, mientras que en lengua las

diferencias estuvieron más repartidas. Más específicamente, el Gráfico N°4 muestra

cuáles fueron los ítems en los que el porcentaje de respuestas correctas mejoró y cuáles

aquellos en los que sucedió lo contrario. En ninguno de los ítems las variaciones

superaron los 6 puntos porcentuales.

Gráfico N°3. Diferencias porcentuales en las respuestas correctas de los items.


28

Gráfico N°4. Diferencias porcentuales en la respuesta correctas de cada item.


Ahora bien, para hablar de la evolución del rendimiento de los estudiantes, los

indicadores más adecuados suelen ser la cantidad de respuestas correctas y los puntajes

estimados según un modelo TRI. En la Tabla N°6 pueden encontrarse ambos indicadores

para los dos momentos en donde fue aplicado el cuestionario. Para ambas asignaturas la

evolución, tanto del número de respuestas correctas como de los puntajes, fue superior

en los alumnos que asisten a Escuelas Promotoras. A diferencia de lo sucedido en

matemática, donde ambos grupos mejoraron en promedio sus rendimientos, en lengua

solamente el grupo de tratamiento logró aumentarlos. En el Gráfico N°5 y en el Gráfico

N°6 se muestran las distribuciones de ambas variables diferenciadas según grupo de

tratamiento y de control.

Es importante aclarar que las escalas de puntajes no son comparables entre asignaturas,

pero sí lo son entre momentos del tiempo. Esto se debe a que las pruebas estuvieron

conformadas por los mismos ítems en ambos períodos, lo que permitió un procesamiento

conjunto de la totalidad de las evaluaciones, haciendo innecesario el posterior proceso

de escalamiento inter-temporal habitual mediante ítems de anclaje.

29

Tabla N°6. Evolución de los resultados promedios según grupo.

Indicador

Abril Noviembre Variación (%)

Tratamiento Control

Tratamiento Control

Tratamiento Control

Puntaje

Lengua 501,2 497,2 512,4 489,6 2,23 -1,53 Matemática 497,5 492,5 509,7 500,8 2,44 1,68

N° de respuestas correctas

Lengua 7,23 7,09 7,63 6,88 5,47 -2,98 Matemática 5,58 5,52 5,90 5,70 5,80 3,22


Gráfico N°5. Distribución de respuestas correctas en Lengua según grupo.


30

Gráfico N°6. Distribución de puntajes según grupo y materia.


Es importante aclarar que las mejoras del grupo de tratamiento podrían estar impulsadas

sólo por algunas escuelas en particular que hayan logrado aumentar en gran magnitud

sus resultados. Para descartar esta hipótesis, en el Gráfico N°7 y Gráfico N°8 se presentan

los promedios a nivel escuela en la cantidad de respuestas correctas y puntajes TRI,

respectivamente. Los gráficos se estructuran con un momento de tiempo en cada eje,

con lo cual, la recta identidad (línea roja entrecortada) representa los casos en que los

desempeños se mantuvieron inalterados; a su vez, las escuelas por encima de dicha recta

mejoraron sus rendimientos, mientras que las escuelas por debajo lo empeoraron. Como

puede observarse, una mayor cantidad de Escuelas Promotoras mejoraron sus resultados

promedio en relación a las del grupo de control, sobre todo en lengua.

31

Gráfico N°7. Evolución de la cantidad de respuestas correctas promedio por escuela.


Gráfico N°8. Evolución de los puntajes promedio por escuela.


32

VI. Impacto del programa Escuelas Promotoras

El modelo de regresión

La estimación del modelo de diferencias en diferencias presentado en la Sección III se

basa en un “pool” de datos con la siguiente especificación:

(2) 𝒀𝒊𝒆𝒕 = 𝜷𝟎 + 𝜷𝟏 ∗ 𝑻𝒕 + 𝜷𝟐 ∗ 𝑷𝒊𝒆 + 𝜷𝟑 ∗ (𝑷𝒊𝒆 ∗ 𝑻𝒊) + 𝝁𝒆 + 𝝐𝒊𝒆𝒕

Donde 𝒊 indexa a los alumnos, 𝒆 a las escuelas y 𝒕 a los dos momentos del tiempo. La

variable 𝒀𝒊𝒆𝒕 es el resultado de interés, medido ya sea como el puntaje TRI o la cantidad

de respuestas correctas en matemática o lengua del alumno 𝒊, de la escuela 𝒆, en el

momento 𝑡; la variable 𝑻𝑡 toma el valor 1 si se trata de una nota obtenida en noviembre

y 0 si se trata de una nota de abril; 𝑷𝒊𝒆 indica si el alumno pertenece al grupo de

tratamiento, valiendo 1 en caso positivo y 0 en caso contrario. El término de interacción

entre las dos variables mencionadas (𝑷𝒊𝒆 ∗ 𝑻𝒊) representa la doble diferencia encargada

de capturar el efecto del programa a través del coeficiente 𝜷𝟑 tal y como lo muestran el

Gráfico N°9 y la Tabla N°7. Por último, 𝝁𝒆 corresponde al conjunto de efectos fijos por

escuela y 𝝐𝒊𝒆𝒕 al término de error, el cual se supone que no se encuentra correlacionado

con las variables explicativas.

Gráfico N°9. Representación gráfica de la metodología de diferencias en diferencias.


33

Tabla N°7. Interpretación de los coeficientes de estimación

Coeficiente Cálculo en Gráfico N°1

Interpretación

𝜷𝟎 B Promedio de línea de base

𝜷𝟏 D-B Tendencia temporal del grupo de control

𝜷𝟐 A-B Diferencia entre los dos grupos antes de la intervención

𝜷𝟑 (C-A) - (D-B) Efecto del programa: diferencias en los cambios a lo largo del tiempo entre los grupos


Resultados

Al estimar el modelo mencionado tanto para lengua como para matemática obtenemos

los valores que aparecen en la Tabla N°8 20. El hecho de que el puntaje obtenido mediante

la TRI internalice la dificultad y la discriminación de los ítems convierte a esta variable en

la más apropiada para el análisis, sin embargo, también se presentan las estimaciones

considerando como variable dependiente la cantidad de respuestas correctas (estimador

de habilidad de la TCR).

A su vez, para cada una de las variantes mencionadas se presentan dos especificaciones

diferentes: las columnas impares representan las estimaciones del modelo descripto en

la ecuación 2, en donde se establecen efectos fijos por escuela para controlar por las

particularidades de cada establecimiento; mientras que en las columnas pares se

controla, adicionalmente, con la variable de repitencia. Esto se debe a que fue la única

que, siendo significativa para explicar el puntaje de los alumnos, no resultó

completamente balanceada entre los dos grupos antes de iniciar el programa21.

La diferencia en el puntaje de lengua entre los alumnos asistentes a las escuelas

promotoras y los alumnos de las escuelas de control se incrementó en favor de los

primeros entre 0,16 y 0,18 desvíos estándar, en promedio, según la especificación

considerada22. Esta diferencia es estadísticamente significativa al 5% en todos los casos y

al 1% para el modelo más completo. En cambio, en el caso de matemática, no se encontró

ninguna diferencia en la evolución del puntaje a favor de los alumnos de las escuelas

promotoras; 𝛽3 es positivo pero de una magnitud muy pequeña que resulta

estadísticamente indistinta de cero en ambas especificaciones.

20 En las tablas se omiten los coeficientes 𝛽1 𝑦 𝛽2, que representan las dos primeras diferencias para la variable objetivo (diferencial promedio temporal y diferencial promedio inter-grupos). 21 Para captar dicho efecto se incluyó una interacción de la variable repitencia con las variables de momento y tratamiento. 22 El puntaje o habilidad latente se presenta en una escala con media 500 y desvío estándar 100, por lo tanto, un aumento de 16 puntos en el puntaje equivale a 0,16 desvíos estándar.

34

Al observar los resultados utilizando la cantidad de respuestas correctas como variable

dependiente, encontramos que son muy similares a los obtenidos para los puntajes,

aunque se expresen en diferente unidad de medida. Esto es esperable dada la gran

correlación existente entre la habilidad latente y la cantidad de respuestas correctas: el

programa muestra un impacto en lengua en las escuelas promotoras que asciende

aproximadamente a media pregunta de diferencia favorable, lo que equivale a 0,15

desvíos estándar, respecto de las escuelas de control.

Por último, tanto en el Gráfico N°10 como en el Gráfico N°11 se ilustran los resultados

mencionados. Las líneas horizontales representan los intervalos de confianza estimados

para cada coeficiente 𝛽3, en cada modelo considerado, con un 95% de confianza. Cuando

dichos intervalos contienen al valor cero (línea punteada vertical), no se puede rechazar

la hipótesis de que el coeficiente es estadísticamente igual a cero, con un nivel de

significancia del 5%. Alternativamente, si el intervalo de confianza no contiene al valor

cero, se puede rechazar dicha hipótesis y concluir que el programa tuvo un efecto

estadísticamente significativo al nivel de confianza señalado.

Tabla N°8. Regresiones

Errores estándar entre paréntesis.

*** p<0,01, ** p<0,05, * p<0,1

(1) (2) (3) (4) (5) (6) (7) (8)

Efecto del programa (β₃) 0,497** 0,554** 0,083 0,118 15,924** 17,668*** 1,196 1,667

(0,22) (0,23) (0,16) (0,17) (6,22) (6,55) (6,20) (6,56)

Observaciones 3.831 3.408 3.870 3.421 3.831 3.408 3.870 3.421

R² 0,123 0,154 0,112 0,141 0,122 0,155 0,114 0,148

Efectos fijos por escuela SI SI SI SI SI SI SI SI

Interacción con repitencia NO SI NO SI NO SI NO SI

Cantidad de respuestas correctas

Lengua Matemática

Puntajes

Lengua Matemática

35

Gráfico N°10. Efectos del programa de Escuelas Promotoras sobre los puntajes estimados.

Nota: Los segmentos representan los intervalos de confianza al 95%.

*** p<0,01, ** p<0,05, * p<0,1

Gráfico N°11. Efectos del programa de Escuelas Promotoras sobre la cantidad de respuestas correctas.

Nota: Los segmentos representan los intervalos de confianza al 95%.

*** p<0,01, ** p<0,05, * p<0,1

36

VII. Conclusiones

El programa de Escuelas Promotoras se inicia en el año 2018 como una prueba piloto de

un nuevo formato para la escuela secundaria, impulsando diferentes estrategias —

articulación entre niveles educativos, semana de recibimiento, acompañamiento de

trayectorias educativas, trabajo pedagógico institucional, evaluación colegiada— que se

focalizan en las trayectorias y el aprendizaje de los estudiantes. Su objetivo es generar

mejoras tanto en los indicadores de eficiencia interna de las escuelas como en los

aprendizajes de los alumnos.

El presente informe presenta evidencia empírica acerca de los resultados del programa

Escuelas Promotoras sobre el desempeño de los alumnos de escuelas estatales del

conurbano que se incorporaron al mismo durante el año 2019. A partir de una evaluación

de impacto (similar a la realizada en 2018), se midieron los efectos del programa sobre el

desempeño escolar y las habilidades cognitivas de los estudiantes.

Para lograr lo anterior, se planteó un diseño cuasi-experimental que implicó la aplicación

de una prueba de aprendizajes y un cuadernillo complementario. Estos fueron aplicados

a un grupo de Escuelas Promotoras (grupo de tratamiento) y a un conjunto de escuelas

similares que aún no han sido alcanzadas por el programa (grupo de control), en dos

ocasiones diferentes a lo largo del año (abril y noviembre).

A partir de la información recolectada, se desarrollaron dos tipos de análisis de

resultados: a) un estudio descriptivo que explora la evolución de los resultados en ambos

grupos; b) un modelo econométrico con dos especificaciones que permiten estimar las

variaciones en las diferencias entre cada grupo de los puntajes calculados mediante la

TRI y en la cantidad de respuestas correctas, atribuible únicamente a la aplicación del

programa. Los resultados obtenidos pueden resumirse en los siguientes puntos:

Para ambas asignaturas la evolución del promedio simple de los desempeños ha

sido superior en los alumnos que asisten a Escuelas Promotoras. A diferencia de lo

sucedido en matemática, donde ambos grupos mejoraron en promedio sus

rendimientos, en lengua solamente el grupo de tratamiento logró aumentar su

promedio.

El programa ha generado un efecto positivo y estadísticamente significativo sobre

el desempeño en lengua, tanto medido en términos de puntajes como de cantidad

de respuestas correctas. La diferencia de puntajes entre los grupos de tratamiento

y control aumentó, en promedio, entre 0,16 y 0,18 desvíos estándar. En términos

de respuestas correctas dicha diferencia representó, en promedio, media pregunta

correcta más.

37

El programa no ha generado efectos estadísticamente significativos sobre el

desempeño en matemática, aun cuando las escuelas de ambos grupos hayan

mejorado su desempeño.

Por último, se realizó un análisis del funcionamiento de los exámenes, la bondad de ajuste

del modelo utilizado y la validez de los supuestos de la Teoría de Respuesta al Ítem,

situado en el Anexo de Notas Metodológicas, del cual surgen las siguientes conclusiones:

Las dificultades estimadas han cubierto el rango de capacidades de los alumnos,

aunque lo han hecho de manera dispar. Ese resultado puede deberse a la relativa

escasez de ítems utilizados. Por su parte, las discriminaciones estimadas han

abarcado un amplio espectro de valores, lo que indica que el modelo de dos

parámetros resulta apropiado.

El ajuste de la función de respuesta ha sido preciso en la mayoría de los ítems

incluidos en el análisis. Sin embargo, el modelo ha presentado un ajuste mucho

mejor en los ítems de Lengua que en los de Matemática.

Se corroboraron los supuestos de la Teoría de Respuesta al Ítem. En el caso de la

unidimensionalidad, los autovalores según correlaciones tetracóricas han

mostrado que se cumple, aunque en diferentes grados: es muy claro en el caso

de los exámenes de Lengua, mientras que es menos concluyente en Matemática.

Por su parte, las distribuciones de correlaciones inter-item, agrupadas alrededor

de valores nulos, han mostrado que el supuesto de independencia local parece

cumplirse, sobre todo en el caso de matemática.

38

VIII. Bibliografía

Abdulkadiroğlu, A, y otros. 2011. Accountability and flexibility in public schools: Evidence

from Boston's charters and pilots. s.l. : The Quarterly Journal of Economics, 2011. Vol.

126(2).

Albert, D y Steinberg, L. 2011. Judgment and decision making in adolescence. s.l. : Journal

of Research on Adolescence, 2011.

Angrist, J D, Pathak, P A y Walters, C R. 2013. Explaining charter school effectiveness. s.l. :

American Economic Journal: Applied Economics, 2013. Vol. 5(4).

Baker, J L. 2000. Evaluating the impact of development projects on poverty: A handbook

for practitioners. s.l. : The World Bank, 2000.

Banerjee, A V, y otros. 2007. Remedying education: Evidence from two randomized

experiments in India. s.l. : he Quarterly Journal of Economics, 2007. Vol. 122(3).

Berlinski, S, y otros. 2016. Reducing parent-school information gaps and improving

education outcomes: Evidence from high frequency text messaging in Chile. s.l. :

Manuscrito no publicado, 2016.

Berniell, L, y otros. 2016. RED 2016. Más habilidades para el trabajo y la vida: los aportes

de la familia, la escuela, el entorno y el mundo laboral. 2016.

Birnbaum, A L. 1968. Some latent trait models and their use in inferring an examinee's

ability,. s.l. : Statistical theories of mental test scores., 1968.

Busso, M, y otros. 2017. Aprender mejor: políticas públicas para el desarrollo de

habilidades. s.l. : BID, 2017.

Cantrell, S C, y otros. 2014. The impact of supplemental instruction on low-achieving

adolescents’ reading engagement. s.l. : The Journal of Educational Research, 2014. Vol.

107(1).

Curto, V E, Fryer Jr, R G y Howard, M L. 2011. It may not take a village: Increasing

achievement among the poor. s.l. : Whither opportunity, 2011.

Dobbie, W y Fryer Jr, R G. 2011. Are high-quality schools enough to increase achievement

among the poor? Evidence from the Harlem Children's Zone. s.l. : American Economic

Journal: Applied Economics, 2011. Vol. 3(3).

Duckworth, A L, y otros. 2007. Grit: perseverance and passion for long-term goals. s.l. :

Journal of personality and social psychology, 2007. Vol. 92(6).

Gertler, P J, et al. 2016. Impact evaluation in practice. s.l. : The World Bank, 2016.

39

Kemple, J J y Snipes, J C. 2000. Career Academies: Impacts on Students' Engagement and

Performance in High School. 2000.

Kemple, J J y Willner, C J. 2008. Career academies: Long-term impacts on labor market

outcomes, educational attainment, and transitions to adulthood. s.l. : New York, NY:

MDRC, 2008.

Khandker, S B, Koolwal, G y Samad, H. 2009. Khandker, S., B. Koolwal, G., & Samad, H.

(2009). Handbook on impact evaluation: quantitative methods and practices. s.l. : The

World Bank, 2009.

Lavy, V y Schlosser, A. 2005. Targeted remedial education for underperforming teenagers:

Costs and benefits. s.l. : Journal of Labor Economics, 2005. Vol. 23(4).

Muñiz Fernández, J. 2010. Las teorías de los tests: teoría clásica y teoría de respuesta a los

ítems. s.l. : Papeles del Psicólogo: Revista del Colegio Oficial de Psicólogos, 2010.

Schwarzer, R y Jerusalem, M. 1995. Optimistic self-beliefs as a resource factor in coping

with stress. In Extreme stress and communities: Impact and intervention. s.l. : Springer,

Dordrecht, 1995.

Snilstveir, B, y otros. 2016. The impact of education programmes on learning and school

participation in low –and middle- income conuntries: a systematic review summary report,

3ie Systematic Review Summary 7. s.l. : International Initiative for Impact Evaluation (3ie),

2016.

Spear, L. 2010. The behavioral neuroscience of adolescence. s.l. : WW Norton & Company,

2010.

Steinberg, L, y otros. 2009. Age differences in future orientation and delay discounting.

s.l. : Child development, 2009. Vol. 80(1).

Stormshak, E A, Fosco, G M y Dishion, T J. 2010. Implementing interventions with families

in schools to increase youth school engagement: The Family Check-Up model. s.l. : School

Mental Health, 2010. Vol. 2(2).

Tuttle, C C, y otros. 2013. KIPP Middle Schools: Impacts on Achievement and Other

Outcomes. Final Report. s.l. : Mathematica Policy Research, Inc, 2013.

40

IX. Anexo N°1

Tabla N°9. Relevamientos y tasas de participación original

Secciones Matrícula Presentes %

Abril 112 3.130 2.368 75,7

Noviembre 112 3.071 2.248 73,2 Fuente: elaboración propia

Gráfico N°12. Distribución de distancias euclídeas por distrito.

Fuente: elaboración propia

Tabla N° 10. Porcentaje de alumnos que contestaron correctamente cada ítem Lengua

Ítem Abril Noviembre Diferencia Ítem Abril Noviembre Diferencia

1 56,3 51,1 -5,2 23 51,2 51,8 0,6 19 53,9 49,7 -4,1 12 62,5 63,5 1,0 13 51,6 50,1 -1,5 10 29,5 30,7 1,2 30 40,8 39,4 -1,4 26 28,8 30,0 1,2 9 51,1 49,9 -1,2 17 58,8 60,1 1,3 7 56,8 55,6 -1,1 29 46,0 47,5 1,5

27 51,7 50,7 -1,0 8 44,4 46,3 1,9 24 49,8 48,8 -1,0 16 62,3 64,3 2,0 5 51,7 50,8 -0,9 21 31,8 34,2 2,4

11 46,0 45,3 -0,7 4 34,1 36,5 2,4 14 28,7 28,2 -0,5 3 61,7 64,5 2,8 18 49,7 49,2 -0,5 22 51,4 54,2 2,8 20 61,5 61,0 -0,5 25 51,8 55,1 3,3 28 53,9 53,5 -0,4 15 42,1 45,4 3,4 2 61,0 61,4 0,4 6 32,1 36,6 4,5


41

Tabla N°11. Porcentaje de alumnos que contestaron correctamente cada ítem Matemática

Ítem Abril Noviembre Diferencia Ítem Abril Noviembre Diferencia

3 35,9 34,6 -1,3 10 24,9 26,8 1,9 6 46,2 45,1 -1,1 22 22,4 24,5 2,1

15 45,8 45,0 -0,8 18 21,3 23,5 2,2 8 26,6 26,3 -0,3 13 35,1 37,6 2,5

17 60,9 61,0 0,1 12 37,1 39,7 2,6 4 51,8 52,5 0,7 19 53,2 56,1 2,9 5 33,8 34,6 0,8 1 67,4 71,1 3,7 7 41,1 42,2 1,1 23 61,2 64,8 3,7

20 33,8 35,2 1,3 11 30,5 34,8 4,3 2 39,7 41,1 1,5 24 44,3 49,2 4,9

14 69,6 71,2 1,7 21 34,7 39,6 4,9 9 41,5 43,4 1,9 16 19,9 25,5 5,6


42

X. Anexo N° 2. Notas metodológicas

Teoría de Respuesta al Ítem: el modelo de dos parámetros

Como se explicitó en el cuerpo del trabajo, para estimar las capacidades de los alumnos

se utilizó un modelo de dos parámetros basado en una función logística con el siguiente

formato para la curva de características de los ítems:

(3) 𝑷𝒓𝒊(𝑰 = 𝟏|𝜽) =𝒆𝒙𝒑(𝑫.𝒂𝒊.(𝜽−𝒃𝒊)

𝟏+𝒆𝒙𝒑(𝑫.𝒂𝒊.(𝜽−𝒃𝒊))

donde Pri (I=1| 𝜽) es la probabilidad de que un examinado con una habilidad 𝜽 responda

correctamente el item i; 𝒃i es la dificultad del ítem i expresada en la misma escala que 𝜽;

𝒂i representa la discriminación del ítem i y D es un escalar.

En el anterior modelo, el parámetro de dificultad representa el nivel de habilidad

necesario para detentar una probabilidad de 50% de responder correctamente el ítem

en cuestión y determina, a su vez, la posición horizontal de la curva de características en

el espectro de habilidad latente. Por su parte, el parámetro de discriminación da cuenta

de la capacidad del ítem para distinguir entre individuos con diferentes niveles de

habilidad y determina la forma de la pendiente de la curva en el punto 𝑏i. En la Tabla N°

12 se presentan los parámetros estimados de cada uno de los ítems de Lengua y

Matemática finalmente utilizados.

Según lo expresado antes, a mayor discriminación los ítems presentan una curva de

características con una forma de “S” más marcada, que se desplaza horizontalmente

según la dificultad de cada uno. El Gráfico N° 13 muestra la curva de características de los

ítems N°2 y N°5 del modelo 1 de Lengua. El ítem N°2 cuenta con parámetros b = -0,43 y

a = 1,69, mientras que el ítem N°5 tiene parámetros b = -0,08 y a = 1,61. Como puede

observarse, a mayor dificultad, más a la derecha se encontrará la curva de características

de un ítem en la escala de la habilidad, lo que implica que será necesario detentar una

mayor competencia para responderlo correctamente. Cuando la habilidad latente y la

dificultad del ítem sean iguales, el estudiante detentará exactamente el 50% de la

probabilidad de responder correctamente dicho ítem (líneas punteadas). En este caso,

los ítems presentan niveles de discriminación muy similares, por lo que sus pendientes

son prácticamente iguales.

43

Tabla N° 12. Parámetros psicométricos de los ítems

Item Lengua Matemática

Dificultad Discriminación Dificultad Discriminación

1 -0,17 1,93 -0,88 1,21 2 -0,43 1,69 0,75 0,57 3 -0,68 0,96 0,69 1,06 4 0,77 0,91 -0,31 0,32 5 -0,08 1,61 0,97 0,76 6 0,96 0,75 0,69 0,25 7 -0,30 1,11 0,52 0,72 8 0,15 1,43 3,00 0,35 9 -0,05 1,56 0,53 0,62

10 1,13 0,86 2,60 0,42 11 0,20 0,95 1,73 0,43 12 -0,63 1,07 0,49 1,24 13 -0,07 0,70 0,69 0,95 14 2,09 0,46 -1,47 0,65 15 0,32 0,90 0,26 0,83 16 -0,54 1,46 1,69 0,82 17 -0,39 1,37 -0,53 1,02 18 0,02 0,95 1,28 1,24 19 -0,15 0,54 -0,35 0,58 20 -0,42 1,69 1,19 0,58 21 0,95 0,86 0,60 1,09 22 -0,13 1,28 2,93 0,42 23 -0,08 0,89 -0,54 1,28 24 -0,01 1,96 0,17 0,90 25 -0,21 0,78 - - 26 1,16 0,87 - - 27 -0,07 1,15 - - 28 -0,29 0,56 - - 29 0,21 0,67 - -

30 0,71 0,61 - - Fuente: Elaboración propia

Por su parte, el Gráfico N° 14 muestra las curvas de características de los ítems N° 9 y N°

13 del modelo 1 de Lengua, con parámetros b = -0,05 y -0,07, y a =1,56 y 0,7,

respectivamente. En este caso, los ítems presentan un nivel similar de dificultad (con lo

que tienen prácticamente el mismo nivel de habilidad asociado a una probabilidad del

50% de responder correctamente), pero difieren considerablemente en su

discriminación: las pendientes de sus curvas de características son muy diferentes, pero

no sucede lo mismo con su ubicación en la escala de habilidades.

44

Gráfico N° 13. Curvas de características de los ítems N°2 y N°5 de Lengua


Gráfico N° 14. Curvas de características de los ítems N°9 y N°13 de Lengua


Lo dicho anteriormente redunda en la necesidad de descartar aquellos ítems que no

aportan información o proveen información contradictoria: se trata de los ítems cuya

discriminación estimada es negativa (implicaría que mayor habilidad disminuye la

probabilidad de responder correctamente) o estadísticamente no significativa, así como

aquellos que presentan niveles de dificultad extremos (por ejemplo, los que han sido

respondidos por todos o ningún alumno).

0

0,25

0,5

0,75

1

Pro

bab

ilid

ad

-4 -3 -2 -1 0 1 2 3 4Habilidad(θ)

Ítem 2 Ítem 5

0

0,25

0,5

0,75

1

Pro

bab

ilid

ad

-4 -3 -2 -1 0 1 2 3 4Habilidad(θ)

Ítem 9 Ítem 13

45

Bondad de ajuste y validez de los supuestos

Como se dijo antes, existen formas de corroborar el ajuste del modelo elegido a los datos,

así como el cumplimiento de los supuestos de la TRI necesarios para que el análisis sea

válido:

Dificultad de los ítems

Una primera recomendación para la estimación precisa de las competencias de los

alumnos es que las dificultades de los ítems deben barrer todo el espectro de la escala

de habilidad. Esta recomendación es importante a la hora de armar y calibrar los

exámenes. En los Gráfico N° 15 y Gráfico N° 16 se presentan las distribuciones de

competencias y dificultades para Lengua y Matemática respectivamente. Como puede

observarse, en el presente caso, la condición antes descripta no se cumple de manera

total, aunque se considera que existe una dispersión bastante aceptable de los niveles de

dificultad23. En el caso de Lengua, la dispersión es menor y se encuentra bastante

centrada en el cero, con un leve sesgo hacia la derecha. El caso de Matemática es más

problemático dado que existe un sesgo importante hacia ítems difíciles.

Gráfico N° 15. Distribución de competencias y dificultades, Lengua


23 Una de las principales razones por la que no se ha cubierto toda la escala de capacidades radica en que los exámenes utilizados fueron diseñados a partir de una menor cantidad de ítems disponibles, lo que redundó en exámenes más cortos de lo estrictamente deseable.

0

0,2

0,4

0.6

0,8

De

nsid

ad

-3 -2 -1 0 1 2 3

Competencia Dificultad

46

Gráfico N° 16. Distribución de competencias y dificultades, Matemática


Discriminación de los ítems

Como se dijo antes, el grado de ajuste de la función de respuesta a la estructura de datos

debe determinar la elección del modelo a utilizar. En este sentido, existen formas de

corroborar que el modelo de dos parámetros introducido anteriormente fue una opción

superadora respecto del modelo de un único parámetro. Siendo el modelo de dos

parámetros una generalización que asume la posibilidad de que existan ítems con

diferentes grados de discriminación, una primera forma de corroborar su mayor

adecuación a la estructura de datos es constatando la existencia de diferentes niveles de

discriminación de los ítems. En la teoría clásica, la discriminación de un ítem viene dada

por la denominada correlación biserial del ítem, es decir, la correlación que existe entre

la variable dicotómica de respuesta a dicho ítem y la variable continua del puntaje

obtenido. En el Gráfico N° 17, se presentan los parámetros de discriminación de todos los

ítems estimados mediante TRI contra las correlaciones biseriales de cada uno de dichos

ítems. Como puede observarse, el amplio espectro de niveles de discriminación

estimados va en consonancia con las correlaciones biseriales. Esto se cumple claramente

en el caso de Lengua y en menor medida para Matemática. Lo anterior indica que, en

principio, el modelo de dos parámetros es más apropiado.

0

0,2

0,4

0.6

0,8

De

nsid

ad

-2 -1 0 1 2 3 4 5

Competencia Dificultad

47

Gráfico N° 17. Discriminaciones contra correlaciones biseriales según disciplina


Se realizaron, también, tests de ratio de verosimilitud para cada modelo y asignatura con

el objetivo de constatar, de una manera más precisa, el hecho de que el modelo de dos

parámetros ajusta mejor a los datos. En todos los casos, la hipótesis nula de que no

existen diferencias significativas de ajuste entre los modelos de uno y dos parámetros fue

rechazada con el 99% de confianza.

Ajuste de la función de respuesta

Aun cuando el modelo de dos parámetros sea una buena opción, es menester chequear

el ajuste puntual del modelo elegido. Según Hambelton et. al (1991), una de las mejores

formas de chequear la bondad del ajuste del modelo es a través de un análisis de los

residuos de estimación. Para ese fin, se puede observar la curva de características de cada

ítem superponiendo la proporción de respuestas correctas promedio para una serie de

categorías de habilidad igualmente distribuidas. Cuando estos últimos valores (discretos)

se encuentren cerca de la curva de características y distribuidos de manera aleatoria a su

alrededor, se podrá concluir que dicha función ajusta bien a los datos de desempeño. A

continuación, se presentan los Gráfico N° 18 y Gráfico N° 19 que dan cuenta del ajuste del

modelo para dos ítems, uno de Lengua y otro de Matemática:

0.3

0.4

0.5

0.6

Bis

eria

l

0 0.5 1 1.5 2Discriminación

Lengua Matemática

48

Gráfico N° 18. Ajuste de la función de respuesta para el ítem 7 del modelo 2 de Lengua


Gráfico N° 19. Ajuste de la función de respuesta para el ítem 14 del modelo 1 de matemática


Como puede observarse, los ítems presentados dan cuenta de un ajuste bastante preciso

de las curvas de características de dos parámetros a la estructura de los datos. La mayoría

de los ítems presentó ajustes similares, con mayor o menor grado de discriminación,

aunque en el caso de Matemática fue necesario descartar algunos ítems que presentaron

un mal funcionamiento, a saber: el ítem 4 del modelo 1 y los ítems 3, 7 y 12 del modelo

2. En términos generales, el modelo ajustó mucho mejor para los ítems de Lengua, dado

que presentaron mayores niveles y mayor variabilidad en los parámetros de

discriminación.

0

0.25

0.5

0.75

1

Pro

bab

ilid

ad

-4 -3 -2 -1 0 1 2 3 4Habilidad(θ)

0

0.25

0.5

0.75

1

Pro

bab

ilid

ad

-4 -3 -2 -1 0 1 2 3 4Habilidad(θ)

49

Supuesto de unidimensionalidad

Una forma de examinar el cumplimiento del supuesto de unidimensionalidad presentado

en la sección anterior es a través de un análisis factorial o de un análisis de componente

principal. Si el supuesto se cumple se puede esperar que el primer autovalor de la matriz

de correlaciones tetracóricas entre ítems sea mucho mayor que los restantes24. El Gráfico

N° 20 muestra los autovalores de las matrices de correlaciones tetracóricas para cada uno

de los exámenes. En rojo y naranja se pueden observar los autovalores para las matrices

de los modelos de Lengua, en verde y oliva se aprecian los autovalores para las matrices

correspondientes a los modelos de Matemática. En todos los casos, se observa que el

primer factor explica la mayor parte de la varianza. La condición de unidimensionalidad

se cumple, aunque en grados diferentes: en el caso de Lengua el cumplimiento del

supuesto es mucho más claro que en Matemática.

Gráfico N° 20. Autovalores según correlaciones tetracóricas, por modelo


Supuesto de independencia local

Para corroborar el cumplimiento del supuesto de independencia local se puede proceder

de manera similar al caso anterior. Contando con una serie de rangos cortos que

permiten “fijar” el parámetro de habilidad latente, se construyen las correlaciones

tetracóricas entre ítems para cada uno de dichos intervalos y para cada modelo de

examen. Se esperaría que un histograma de dichas correlaciones muestre una

distribución unimodal y centrada alrededor de cero. El Gráfico N° 21 muestra dicha

24 El coeficiente de correlación tetracórica se utiliza especialmente para correlacionar variables dicotómicas que han sido creadas a partir de variables continuas. Como ha sido explicado anteriormente, en el presente caso, se supone que las respuestas dicotómicas a los ítems reflejan ubicaciones individuales en un rasgo latente continuo.

01

23

45

Auto

va

lor

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15Factor

Modelo 1 Lengua Modelo 2 Lengua

Modelo 1 Matemática Modelo 2 Matemática

50

distribución para los exámenes de Lengua, mientras que el Gráfico N° 22 hace lo propio

con los exámenes de Matemática25.

Gráfico N° 21. Distribución de correlaciones tetracóricas inter-item, Lengua


Gráfico N° 22. Distribución de correlaciones tetracóricas inter-item, Matemática


25 Se presentan las correlaciones inter-item para aquellos ítems y rangos en los que existía variabilidad y la correlación no era perfecta. Estos últimos casos eran suficientes como para introducir ruido en los gráficos dado el tamaño de la muestra y la cantidad de ítems de los exámenes. Por otra parte, se observan bastantes correlaciones no nulas debido a que tomar una serie de rangos de habilidad (que a su vez asegure suficiente variabilidad inter-item) no fija por completo dicha variable y, por lo tanto, no elimina de manera absoluta el sesgo de dicho cálculo.

050

10

015

020

0

Fre

cue

ncia

-1 -.75 -.5 -.25 0 .25 .5 .75 1Correlaciones inter-item

050

10

015

020

0

Fre

cue

ncia

-1 -.75 -.5 -.25 0 .25 .5 .75 1Correlaciones inter-item

51

Como puede observarse, sin estar centradas estrictamente en cero, la mayoría de las

correlaciones se agrupan alrededor de valores nulos, con un pequeño sesgo hacia los

valores negativos. En el Gráfico N° 23 se contrastan nuevamente las distribuciones

anteriores.

Gráfico N° 23. Distribución de correlaciones tetracóricas inter-item.


La escala de habilidad latente y el puntaje verdadero

El propósito de evaluar es asignar alguna forma de puntaje a los estudiantes que refleje

el nivel de desarrollo de una habilidad o alcance de un atributo. Cualquiera sea la forma

que dichos puntajes adopten, deben ser interpretados con sumo cuidado. En la Teoría

Clásica de Respuesta, el puntaje asignado a cada estudiante se corresponde con el

número de respuestas correctas, dicho valor se considera un estimador insesgado del

puntaje verdadero del estudiante. El puntaje verdadero es desconocido y se define como

la esperanza matemática de la cantidad de respuestas correctas y puede definirse como

la cantidad de respuestas correctas de un examen específico más un término de error.

Por su parte, en la Teoría de Respuesta al Ítem, un parámetro de habilidad latente o

competencia (𝜃) es estimado para cada alumno a partir de un modelo logístico elegido.

Dicho parámetro no es obtenido de forma sencilla como en el caso de la teoría clásica: se

trata de una estimación que requiere la utilización de metodologías más complejas, como

por ejemplo, el estimador de máxima verosimilitud26. Sin entrar en mayores detalles, se

puede decir que, si el modelo ajusta bien a los datos, la escala de habilidad latente

26 El método de estimación empleado excede los límites del presente trabajo. Se trata de un modelo logístico estimado a partir de un estimador de máxima verosimilitud. Las estimaciones fueron realizadas con el software Stata14 utilizando el programa IRT.

-1

-0.7

5-0

.5-0

.25

0

0.2

50.5

0.7

5

1

Co

rrela

cio

nes in

ter-

item

Lengua Matemática

52

siempre estará monótonamente relacionada con el puntaje verdadero del estudiante y

dicha relación será no-lineal y positiva.

Es importante discutir la naturaleza de la competencia o habilidad latente. Se entiende

por habilidad latente aquella aptitud o competencia preponderante en la resolución del

examen, es decir, medida por el set de ítems del test en cuestión. Cabe señalar que dicha

habilidad no es necesariamente algo innato o invariable. En cuanto a la escala en que se

expresa al estimarla, no se trata de una escala proporcional o de intervalo, sino que

apenas puede ser considerada como una escala ordinal. Es decir, a la hora de interpretar

el estimador de habilidad, se puede saber si un alumno mostró una mayor o menor

competencia que otro. Sin embargo, los valores no pueden compararse en términos

relativos (ver en qué medida un desempeño es mayor o menor que otro) si no se realiza

una transformación de la escala.

La transformación más importante de la escala de habilidad es para llevarla a una escala

de puntaje verdadero. A partir del modelo de dos parámetros, se puede estimar, para

cada alumno y nivel de habilidad, la probabilidad de responder correctamente a cada uno

de los ítems del test. Una posterior sumatoria de estas probabilidades se considera un

estimador insesgado del puntaje verdadero de cada alumno, y está medido en una escala

proporcional 0-k, donde k es la cantidad de ítems. Se trata de un estimador más preciso

que la cantidad de respuestas correctas y que se puede interpretar en el mismo sentido

que esa cantidad. En el Gráfico N° 24 puede observarse la relación no lineal, siempre

creciente, entre la habilidad latente estimada y el estimador de puntaje verdadero, para

cada asignatura y modelo de prueba. También queda claro que existe una mayor

dificultad promedio de Matemática sobre Lengua y una leve diferencia de dificultad

general en los modelos (diferencia entre las curvas según color), al interior de cada

asignatura, que parece ser mayor en Matemática.

53

Gráfico N° 24. Relación entre la habilidad latente y el puntaje verdadero


30

040

050

060

070

080

0

Pun

taje

/Hab

ilid

ad

late

nte

2 4 6 8 10 12Puntaje Verdadero

Lengua Modelo 1 Lengua Modelo 2

Matemática Modelo 1 Matemática Modelo 2

escuelas promotoras · 3 resumen ejecutivo el programa de escuelas promotoras se inicia en el año...

Documents