antecedentes ¿cómo medir? ev. aleatoria mitos pasos .... evidencia... · antecedentes ¿cómo...
TRANSCRIPT
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Herramientas de Evaluación en Proyectos
de Innovación Social
23 de abril – 14 de mayo 2014
Santiago, Chile
Evidencia Rigurosa y Evaluación Aleatoria
2
Ryan Cooper
@ryancooper_b
J-PAL LAC
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Índice 1. Evaluando Emprendimientos Sociales
2. Tipos de Evaluación
3. Teoría de Cambio
4. Indicadores y Medición
5. Evidencia Rigurosa y Evaluación Aleatoria
6. Interpretación de Datos
7. Evaluaciones aleatorias: ¿Cómo se implementan?
8. Evaluación de Principio a Fin
3
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Objetivos Después de esta sesión los participantes serán
capaces de:
1. Entender a qué nos referimos con “causalidad”.
2. Comprender la dificultad de atribuir causalidad en las
ciencias sociales.
3. Diferenciar una evaluación experimental de una
evaluación no experimental.
4. Entender las ventajas y desventajas de distintos
métodos de evaluación de impacto.
5. Identificar las etapas claves para el diseño de una
evaluación experimental.
4
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Esquema de la Presentación
5
1. Antecedentes
2. ¿Cómo evaluar impacto?
3. El método experimental
4. Respuestas a críticas comunes sobre evaluaciones aleatorizadas
5. Pasos clave para su diseño
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Relaciones causales
7
El objetivo de muchos estudios en las ciencias sociales y naturales es encontrar relaciones de causa-efecto entre variables o eventos.
¿Por qué es importante establecer relaciones causales? En la ciencia: mejorar teorías, modelos y cómo
entendemos el mundo.
En la práctica: mejorar la calidad de las decisiones (políticas públicas, sistemas de incentivos, etc).
Antecedentes
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Problema de atribución causal
9
Aún habiendo definido nuestro programa (el tratamiento) y las variables que vamos a medir el resultado, contestar estas preguntas no es trivial.
¿Por qué?
Antecedentes
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Problema de atribución causal: Ejemplo
10
Queremos medir el impacto de ofrecer crédito a micro-
emprendedores sobre el rendimiento de sus negocios.
Si comparamos a las personas que tomaron
préstamos con aquellos que no lo hicieron,
podemos estar comparando peras con manzanas.
¿Por qué?
Antecedentes
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Problema de atribución causal
11
Problema de selección
Las personas que eligen una acción tienen características distintas a las personas que no lo hacen.
¿Qué variables llevan a unas personas a tomar un préstamo? Menos aversión al riesgo
Distintas expectativas del futuro
…
Antecedentes
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Impacto
12
El problema de la evaluación de impacto:
Evaluación típica:
¿Cómo han cambiado las vidas de los
beneficiarios después del comienzo del
programa?
Evaluación con grupo de control:
¿Cómo han cambiado las vidas de
los beneficiarios a causa del
programa?
GRUPO DE TRATAMIENTO
Recibe beneficios
del programa
GRUPO CONTROL
No recibe beneficios
Antecedentes
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
¿Cuál fue el impacto?
14
Tiempo
Ing
reso
s
Programa de
Micro-crédito
T=0
Inicio Programa
¿Cómo medir?
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
¿Cuál fue el impacto del programa de micro-crédito sobre los ingresos de los emprendedores?
A. Positivo
B. Negativo
C. No hubo impacto
D. No se sabe
15
Positiv
o
Negativ
o
No hubo im
pacto
No se sa
be
25% 25%25%25%
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
¿Cuál fue el impacto?
16
Tiempo
Ing
reso
s
Programa de
Micro-crédito
T=0
Inicio Programa
Impacto
¿Cómo medir?
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
¿Cuál fue el impacto?
17
Tiempo
Ing
reso
s
Programa de
Micro-crédito
T=0
Inicio Programa
Impacto
¿Cómo medir?
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
¿Qué es impacto?
18
Resultados que los participantes del
programa obtienen un tiempo
después de participar en el programa
Resultados que esos mismos
participantes hubieran obtenido en ese
mismo momento si no hubieran
participado en el programa (hipotético)
IMPACTO
¿Cómo medir?
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Problema de Contrafactual
19
10 días enfermo
20 días enfermo
Ya no podemos
identificar el
impacto
¿Cómo medir?
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
¿Qué es el “contrafactual”?
A. La probabilidad de que los individuos del grupo tratado y control se asemejen entre sí.
B. El estado no observable que los participantes del programa habrían experimentado si no hubieran participado en el programa.
C. El grupo que no recibe el programa.
20
A. B. C.
33% 33%33%
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Contrafactual
21
Es hipotético: Representa el estado del mundo que los participantes
del programa habrían experimentado si no hubieran participado en el programa.
Problema: El contrafactual no se puede observar en la realidad.
Solución: Necesitamos estimar o construir un contrafactual.
¿Cómo medir?
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Estimando el contrafactual
22
Se hace mediante la selección de un grupo de personas que no participaron en el programa.
Este grupo se llama el grupo de control o el grupo de comparación.
La forma de seleccionar este grupo es una decisión clave en el diseño de cualquier evaluación de impacto.
¿Cómo medir?
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Seleccionando el grupo control
23
El objetivo es seleccionar un grupo que, en
promedio, sea exactamente igual al grupo de
participantes en todas las dimensiones,
excepto en si reciben o no el programa.
Impacto del crédito sobre la rentabilidad de los
micro-emprendedores.
• Misma situación económica, misma expectativas de
futuro, mismo nivel de educación, mismo nivel de
aversión al riesgo, etc., en promedio.
¿Cómo medir?
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Métodos de evaluación de impacto
24
Evaluaciones experimentales Grupos de control y tratamiento creados aleatoriamente
Muy confiables
Métodos no experimentales 1. Participantes antes vs. Participantes después
2. Diferencia simple (participantes vs. no participantes)
3. Diferencias en diferencias (combina 1 y 2)
4. Emparejamiento
5. Variables instrumentales
6. Regresión discontinua
7. Otros…
¿Cómo medir?
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Métodos no experimentales
25
Todos los métodos tratan de hacer lo mismo:
1. Estimar qué hubiera pasado sin el programa, observando a un grupo de control.
2. Calcular la diferencia entre el grupo de control y el grupo de tratamiento. La principal diferencia entre los distintos métodos
es cómo estiman el contrafactual, i.e. quién forma el grupo de control.
Problema: en evaluaciones no experimentales, los grupos a comparar pueden no ser comparables.
¿Cómo medir?
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Métodos no experimentales: Ejemplo
26
Supongamos que queremos medir el impacto de un programa que proporciona computadoras a escuelas de escasos recursos sobre el rendimiento educativo de los estudiantes.
Tomamos los puntajes SIMCE de los estudiantes antes y después de la entrega de las computadoras y concluimos que el impacto es un aumento de 12 puntos.
¿Cómo medir?
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Antes y Después ¿Cuál es el impacto del programa sobre el rendimiento de los estudiantes?
SIMCE
Tiempo T=2010 T=2011
B
A
233
245
(1) Observamos
resultados antes
(oct. 2010) y
después (oct. 2011)
del programa.
(2) En una evaluación
“antes y después”,
estamos asumiendo
que el impacto es
igual a A-B.
¿Cómo medir?
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Antes y Después
Ahora supongamos que el
contexto cambia durante el
mismo periodo.
Nuevos Libros de Texto:
o Impacto “real”=A-C.
o A-B es una sobre-estimación.
SIMCE
Tiempo T=0 T=1
α = 12 pts
B
A
233
245
C ?
D ?
Impacto?
Impacto?
Protestas:
o Impacto “real”=A-D.
o A-B es una sub-
estimación.
Condición pre-programa: no controla por otros
factores que varían en el tiempo.
¿Cómo medir?
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Diferencia Simple
29
Comparamos el puntaje promedio de…
Niños que recibieron computadoras
Niños que no recibieron computadoras
vs.
¿Cómo medir?
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Diferencia Simple
30
¿Son un buen grupo de comparación aquellos que: Eligen no participar?
No son elegibles para participar?
Sesgo de selección: Ocurre cuando las características de la población están
correlacionadas con su condición de participación en el programa, y a su vez afectan al resultado.
Por ejemplo, la escuelas con los directores más motivados e informados postulan al programa de entrega de computadores. En este caso, el impacto del programa se puede confundir con el impacto de tener a un director motivado e informado.
¿Cómo medir?
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Diferencia Simple
31
¡El programa NO funciona!
¿O sí?
En base a esta información, se concluiría que el programa tuvo un impacto negativo.
Sin embargo, cuando se observan los datos, aparece que los grupos no son muy similares.
Con programa Sin programa Diferencia
SIMCE 233 246 - 13
¿Cómo medir?
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Diferencia Simple
32
Características de los grupos
Con programa Sin programa Diferencia
SIMCE 233 246 - 13
Tratamiento Control
Porcentaje particular subvencionado 20% 40%
Porcentaje municipal 45% 15%
¡Estamos comparando peras con manzanas!
¿Cómo medir?
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Diferencia en Diferencias
33
Comparamos el cambio en el puntaje promedio de…
Niños que recibieron computadoras
Niños que no recibieron computadoras
con el cambio
en puntaje
promedio
de…
¿Cómo medir?
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Diferencia en Diferencias S
IMC
E
B=233
C=284
D=281
T=0 T=1 Tiempo
Con
Programa
Sin Programa
Impacto = 9pts
A=245
¿Cómo medir?
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Diferencia en Diferencias
35
Este método compara la evolución del grupo de participantes con la evolución del grupo de no participantes.
Con este método, no es problemático que los dos grupos partan de situaciones distintas antes del programa.
Para que el contrafactual sea válido, lo crucial es que ambos grupos deberían presentar la misma evolución en ausencia del programa.
Los datos históricos pueden darle credibilidad a este supuesto. Pero en última instancia, no puedo comprobar si es cierto.
¿Cómo medir?
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
El método experimental
37
Tome una muestra de postulantes a un programa y asígnelos de forma aleatoria (cara o cruz) a: Un grupo de tratamiento: recibe el tratamiento.
Un grupo de control: no recibe el tratamiento durante el período de evaluación.
Comparamos los resultados entre ambos grupos.
Ev. Aleatoria
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
¿Por qué es importante que se realice un sorteo para asignar a grupos de tratamiento o control?
A. Sortear garantiza que el programa o servicio tendrá impacto
B. Porque facilita la distribución del programa o servicio
C. Sortear garantiza que en promedio los dos grupos serán iguales
D. Es la única manera de crear un grupo de comparación
39
A. B. C. D.
25% 25%25%25%
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
¿Por qué aleatorizar?
40
Al tener una asignación aleatoria, los grupos no difieren de ninguna manera sistemática. Estadísticamente, los grupos son iguales en promedio.
Cualquier diferencia observable al finalizar el programa puede ser atribuida al programa.
T C
Ev. Aleatoria
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
¿Por qué aleatorizar?
41
En la práctica, que los grupos sean estadísticamente
idénticos significa que, en promedio, no hay diferencias
significativas en los promedios de sus características.
Ej.: Programa de Tutorías a Niños de 4º Básico: balance inicial
Esperamos encontrar diferencias chicas, que no sean
estadísticamente significativas a lo largo de la muestra.
Características Tratamiento Control Diferencia
Prueba de comprensión de lectura y producción de texto
52,68 51,19 1,49
Ev. Aleatoria
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Programa: Tutorías 4º Básica
42
Balance en características iniciales
Variables Grupo de
Tratamiento Grupo de Control
Diferencia
Años Educación de la Madre 10,65 10,35 0,30
(0,31)
Ingresos de la Familia 261,615,80 248.089,60 13.526,20
(16.476,20)
Puntaje: Lenguaje 257,31 251,15 6,16
(4,82)
Puntaje: Matemáticas 249,98 243,33 6,65
(5,10)
Tamaño Escuela 71,70 74,30 -2,60 (7,70)
Ev. Aleatoria
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Ventajas de las evaluaciones experimentales
43
Si son correctamente diseñadas e implementadas:
Eliminan cualquier sesgo que puede haber en una evaluación no experimental.
La aleatorización hace que los grupos sean comparables en variables observables y no observables.
No es necesario hacer demasiados supuestos, como en las evaluaciones no experimentales.
Los resultados son fáciles de interpretar. ¡Importante para la evaluación de proyectos sociales!
Ev. Aleatoria
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
¿Hay diferencias entre los resultados experimentales y los no experimentales?
44
Programa de Lectura en India:
Implementado por Pratham, una ONG en India.
El programa proporcionó tutores para ayudar a niños con dificultades en la escuela.
El programa de tutores se implementó en escuelas primarias públicas en 2002-2003.
Los maestros de estas escuelas decidieron qué niños se educarían con los tutores (aquellos con resultados académicos más bajos).
Case 2: Remedial Education in IndiaEvaluating the Balsakhi Program
Incorporating random assignment into the program
Case 2: Remedial Education in IndiaEvaluating the Balsakhi Program
Incorporating random assignment into the program
Ev. Aleatoria
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Programa de Lectura: Indicadores de Resultados
45
A los niños se les aplicaron pruebas de lenguaje y matemáticas al comienzo del año escolar (pre-test) y al final del año (post-test)
PREGUNTA: ¿Cómo determinamos el impacto del programa?
Ev. Aleatoria
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Impacto del Programa de Tutores
46
Método Impacto Estimado
Antes y después 26.42*
Diferencia simple -5.05*
Diferencias en diferencias 6.82*
Regresión 1.92
Experimento Aleatorio 5.87*
*: Significativo estadísticamente al nivel de 5%
Conclusión: ¡El método que utilizamos
importa!
Ev. Aleatoria
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
¿Por qué diferentes métodos nos podrían entregar resultados de impacto diferentes?
A. Porque miden el impacto de diferentes poblaciones de beneficiarios
B. Porque miden aspectos diferentes de un proyecto
C. Porque miden el impacto en diferentes periodos de tiempo
D. Porque la estimación del contrafactual puede diferir entre métodos
47
A. B. C. D.
25% 25%25%25%
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
4. Respuestas a críticas típicas sobre las evaluaciones aleatorias
48
Mitos
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
¿Qué argumentos has escuchado en contra de las evaluaciones aleatorias? (Elige tres)
A. Son demasiado caras
B. Toman demasiado tiempo
C. No son éticas
D. Son demasiado difíciles de diseñar/implementar
E. No válidas externamente (resultados no generalizables)
F. Son menos prácticos que otros métodos a la hora de implementar, y no mucho mejores
G. Nos pueden decir cuál es el impacto, pero no por qué ni cómo ocurrió (la caja negra)
49
A. B. C. D. E. F. G.
14% 14% 14% 14%14%14%14%
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Ética
50
Tres dimensiones a considerar: 1. “Que nadie quede peor” (Estudios en
general)
2. Protección de información / privacidad sujetos (Estudios en General)
3. Dejar gente fuera del programa (RCT – Aquí nos enfocaremos en este punto)
Mitos
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Ética
51
Desafío inicial:
Focalización: “Llegar a los
más pobres de los pobres”
Evaluación: “Entregar casas
por sorteo”
Mitos
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Ética
52
Focalizar Manzanas con manzanas Mejor focalización
MAS POBRES MENOS POBRES
Si voy a unas pocas
comunidades, puede
ser que focalice mal e
incluya a hogares
menos pobres.
Si voy a más
comunidades es fácil
alcanzar a más hogares
más pobres.
Esto es más justo y me
permite aleatorizar.
Inclu
ir
Mitos
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Costos
53
Lo caro es conseguir datos de calidad y el rigor (tamaño de muestra). Eso vale para cualquier método de evaluación.
¿Son caras en comparación con qué? Proyectos sin evidencia de impacto pueden salir muy caros.
Más vale pocas evaluaciones rigurosas que muchas evaluaciones baratas pero poco confiables.
Gran parte de lo que se busca con evaluaciones experimentales son soluciones costo-efectivas.
La evidencia es un bien público.
Mitos
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Duración de evaluaciones aleatorias
54
Ocurre lo mismo con otros métodos de evaluación de impacto: es necesario esperar que la intervención produzca sus resultados.
En muchas evaluaciones, se calculan los resultados demasiado temprano.
Mitos
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
5. Pasos claves para la evaluación experimental
55
Pasos
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Pasos claves para el diseño de un experimento
56
1. Diseñar el estudio cuidadosamente.
Definir el problema, la sub-población de interés, el tratamiento,
las variables a medir, etc.
2. Asignar aleatoriamente las unidades a tratamiento o
control.
3. Recolectar datos de línea de base.
No es estrictamente necesaria pero muy recomendable, ayuda
a verificar balance, tamaño muestra, interacciones.
4. Verificar que la asignación generó grupos similares.
Chequear balance
Pasos
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Pasos claves para el diseño de un experimento
57
5. Monitorear el proceso para garantizar la integridad del
experimento. Que no se dé el programa a los miembros del grupo de control y
sí se les dé a los del grupo de tratamiento
6. Recolectar datos de seguimiento después de la
intervención tanto para el grupo de tratamiento como
para el grupo control.
7. Estimar el impacto del programa, comparando los
resultados promedio del grupo de tratamiento vs. los
resultados promedio del grupo de control.
8. Determinar si el impacto (la diferencia entre los grupos)
es estadísticamente significativo.
Pasos
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Aleatorización
58
TIEMPO
Ale
ato
riza
ció
n
Línea base Línea final
Tratamiento
Control
Pasos
Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos
Conclusiones generales
59
Existen muchas formas de estimar el impacto de un programa.
En este curso, queremos transmitir que un método es superior a los demás:
los experimentos aleatorios Argumento conceptual: Si son correctamente diseñados
y realizados, los experimentos aleatorios constituyen el método más confiable para estimar el impacto de un programa.
Argumento empírico: Diferentes métodos pueden generar diferentes estimaciones del impacto.