antecedentes ¿cómo medir? ev. aleatoria mitos pasos .... evidencia... · antecedentes ¿cómo...

Antecedentes ¿Cómo medir? Ev. Aleatoria Mitos Pasos

Herramientas de Evaluación en Proyectos

de Innovación Social

23 de abril – 14 de mayo 2014

Santiago, Chile

Evidencia Rigurosa y Evaluación Aleatoria

2

Ryan Cooper

[email protected]

@ryancooper_b

J-PAL LAC

mailto:[email protected]


Índice 1. Evaluando Emprendimientos Sociales

2. Tipos de Evaluación

3. Teoría de Cambio

4. Indicadores y Medición

5. Evidencia Rigurosa y Evaluación Aleatoria

6. Interpretación de Datos

7. Evaluaciones aleatorias: ¿Cómo se implementan?

8. Evaluación de Principio a Fin

3


Objetivos Después de esta sesión los participantes serán

capaces de:

1. Entender a qué nos referimos con “causalidad”.

2. Comprender la dificultad de atribuir causalidad en las

ciencias sociales.

3. Diferenciar una evaluación experimental de una

evaluación no experimental.

4. Entender las ventajas y desventajas de distintos

métodos de evaluación de impacto.

5. Identificar las etapas claves para el diseño de una

evaluación experimental.

4


Esquema de la Presentación

5

1. Antecedentes

2. ¿Cómo evaluar impacto?

3. El método experimental

4. Respuestas a críticas comunes sobre evaluaciones aleatorizadas

5. Pasos clave para su diseño


1. Antecedentes

6


Relaciones causales

7

El objetivo de muchos estudios en las ciencias sociales y naturales es encontrar relaciones de causa-efecto entre variables o eventos.

¿Por qué es importante establecer relaciones causales? En la ciencia: mejorar teorías, modelos y cómo

entendemos el mundo.

En la práctica: mejorar la calidad de las decisiones (políticas públicas, sistemas de incentivos, etc).

Antecedentes


Ejemplos de preguntas causales

Antecedentes


Problema de atribución causal

9

Aún habiendo definido nuestro programa (el tratamiento) y las variables que vamos a medir el resultado, contestar estas preguntas no es trivial.

¿Por qué?

Antecedentes


Problema de atribución causal: Ejemplo

10

Queremos medir el impacto de ofrecer crédito a micro-

emprendedores sobre el rendimiento de sus negocios.

Si comparamos a las personas que tomaron

préstamos con aquellos que no lo hicieron,

podemos estar comparando peras con manzanas.

¿Por qué?

Antecedentes


Problema de atribución causal

11

Problema de selección

Las personas que eligen una acción tienen características distintas a las personas que no lo hacen.

¿Qué variables llevan a unas personas a tomar un préstamo? Menos aversión al riesgo

Distintas expectativas del futuro

…

Antecedentes


Impacto

12

El problema de la evaluación de impacto:

Evaluación típica:

¿Cómo han cambiado las vidas de los

beneficiarios después del comienzo del

programa?

Evaluación con grupo de control:

¿Cómo han cambiado las vidas de

los beneficiarios a causa del

programa?

GRUPO DE TRATAMIENTO

Recibe beneficios

del programa

GRUPO CONTROL

No recibe beneficios

Antecedentes


2. ¿Cómo evaluar impacto?

13

¿Cómo medir?


¿Cuál fue el impacto?

14

Tiempo

Ing

reso

s

Programa de

Micro-crédito

T=0

Inicio Programa

¿Cómo medir?


¿Cuál fue el impacto del programa de micro-crédito sobre los ingresos de los emprendedores?

A. Positivo

B. Negativo

C. No hubo impacto

D. No se sabe

15

Positiv

o

Negativ

o

No hubo im

pacto

No se sa

be

25% 25%25%25%



16

Tiempo

Ing

reso

s

Programa de

Micro-crédito

T=0

Inicio Programa

Impacto

¿Cómo medir?



17

Tiempo

Ing

reso

s

Programa de

Micro-crédito

T=0

Inicio Programa

Impacto

¿Cómo medir?


¿Qué es impacto?

18

Resultados que los participantes del

programa obtienen un tiempo

después de participar en el programa

Resultados que esos mismos

participantes hubieran obtenido en ese

mismo momento si no hubieran

participado en el programa (hipotético)

IMPACTO

¿Cómo medir?


Problema de Contrafactual

19

10 días enfermo

20 días enfermo

Ya no podemos

identificar el

impacto

¿Cómo medir?


¿Qué es el “contrafactual”?

A. La probabilidad de que los individuos del grupo tratado y control se asemejen entre sí.

B. El estado no observable que los participantes del programa habrían experimentado si no hubieran participado en el programa.

C. El grupo que no recibe el programa.

20

A. B. C.

33% 33%33%


Contrafactual

21

Es hipotético: Representa el estado del mundo que los participantes

del programa habrían experimentado si no hubieran participado en el programa.

Problema: El contrafactual no se puede observar en la realidad.

Solución: Necesitamos estimar o construir un contrafactual.

¿Cómo medir?


Estimando el contrafactual

22

Se hace mediante la selección de un grupo de personas que no participaron en el programa.

Este grupo se llama el grupo de control o el grupo de comparación.

La forma de seleccionar este grupo es una decisión clave en el diseño de cualquier evaluación de impacto.

¿Cómo medir?


Seleccionando el grupo control

23

El objetivo es seleccionar un grupo que, en

promedio, sea exactamente igual al grupo de

participantes en todas las dimensiones,

excepto en si reciben o no el programa.

Impacto del crédito sobre la rentabilidad de los

micro-emprendedores.

• Misma situación económica, misma expectativas de

futuro, mismo nivel de educación, mismo nivel de

aversión al riesgo, etc., en promedio.

¿Cómo medir?


Métodos de evaluación de impacto

24

Evaluaciones experimentales Grupos de control y tratamiento creados aleatoriamente

Muy confiables

Métodos no experimentales 1. Participantes antes vs. Participantes después

2. Diferencia simple (participantes vs. no participantes)

3. Diferencias en diferencias (combina 1 y 2)

4. Emparejamiento

5. Variables instrumentales

6. Regresión discontinua

7. Otros…

¿Cómo medir?


Métodos no experimentales

25

Todos los métodos tratan de hacer lo mismo:

1. Estimar qué hubiera pasado sin el programa, observando a un grupo de control.

2. Calcular la diferencia entre el grupo de control y el grupo de tratamiento. La principal diferencia entre los distintos métodos

es cómo estiman el contrafactual, i.e. quién forma el grupo de control.

Problema: en evaluaciones no experimentales, los grupos a comparar pueden no ser comparables.

¿Cómo medir?


Métodos no experimentales: Ejemplo

26

Supongamos que queremos medir el impacto de un programa que proporciona computadoras a escuelas de escasos recursos sobre el rendimiento educativo de los estudiantes.

Tomamos los puntajes SIMCE de los estudiantes antes y después de la entrega de las computadoras y concluimos que el impacto es un aumento de 12 puntos.

¿Cómo medir?


Antes y Después ¿Cuál es el impacto del programa sobre el rendimiento de los estudiantes?

SIMCE

Tiempo T=2010 T=2011

B

A

233

245

(1) Observamos

resultados antes

(oct. 2010) y

después (oct. 2011)

del programa.

(2) En una evaluación

“antes y después”,

estamos asumiendo

que el impacto es

igual a A-B.

¿Cómo medir?


Antes y Después

Ahora supongamos que el

contexto cambia durante el

mismo periodo.

Nuevos Libros de Texto:

o Impacto “real”=A-C.

o A-B es una sobre-estimación.

SIMCE

Tiempo T=0 T=1

α = 12 pts

B

A

233

245

C ?

D ?

Impacto?

Impacto?

Protestas:

o Impacto “real”=A-D.

o A-B es una sub-

estimación.

Condición pre-programa: no controla por otros

factores que varían en el tiempo.

¿Cómo medir?


Diferencia Simple

29

Comparamos el puntaje promedio de…

Niños que recibieron computadoras

Niños que no recibieron computadoras

vs.

¿Cómo medir?


Diferencia Simple

30

¿Son un buen grupo de comparación aquellos que: Eligen no participar?

No son elegibles para participar?

Sesgo de selección: Ocurre cuando las características de la población están

correlacionadas con su condición de participación en el programa, y a su vez afectan al resultado.

Por ejemplo, la escuelas con los directores más motivados e informados postulan al programa de entrega de computadores. En este caso, el impacto del programa se puede confundir con el impacto de tener a un director motivado e informado.

¿Cómo medir?


Diferencia Simple

31

¡El programa NO funciona!

¿O sí?

En base a esta información, se concluiría que el programa tuvo un impacto negativo.

Sin embargo, cuando se observan los datos, aparece que los grupos no son muy similares.

Con programa Sin programa Diferencia

SIMCE 233 246 - 13

¿Cómo medir?


Diferencia Simple

32

Características de los grupos

Con programa Sin programa Diferencia

SIMCE 233 246 - 13

Tratamiento Control

Porcentaje particular subvencionado 20% 40%

Porcentaje municipal 45% 15%

¡Estamos comparando peras con manzanas!

¿Cómo medir?


Diferencia en Diferencias

33

Comparamos el cambio en el puntaje promedio de…

Niños que recibieron computadoras

Niños que no recibieron computadoras

con el cambio

en puntaje

promedio

de…

¿Cómo medir?


Diferencia en Diferencias S

IMC

E

B=233

C=284

D=281

T=0 T=1 Tiempo

Con

Programa

Sin Programa

Impacto = 9pts

A=245

¿Cómo medir?


Diferencia en Diferencias

35

Este método compara la evolución del grupo de participantes con la evolución del grupo de no participantes.

Con este método, no es problemático que los dos grupos partan de situaciones distintas antes del programa.

Para que el contrafactual sea válido, lo crucial es que ambos grupos deberían presentar la misma evolución en ausencia del programa.

Los datos históricos pueden darle credibilidad a este supuesto. Pero en última instancia, no puedo comprobar si es cierto.

¿Cómo medir?


3. Método experimental

36

Ev. Aleatoria


El método experimental

37

Tome una muestra de postulantes a un programa y asígnelos de forma aleatoria (cara o cruz) a: Un grupo de tratamiento: recibe el tratamiento.

Un grupo de control: no recibe el tratamiento durante el período de evaluación.

Comparamos los resultados entre ambos grupos.

Ev. Aleatoria


38

T

C

El método experimental

Ev. Aleatoria


¿Por qué es importante que se realice un sorteo para asignar a grupos de tratamiento o control?

A. Sortear garantiza que el programa o servicio tendrá impacto

B. Porque facilita la distribución del programa o servicio

C. Sortear garantiza que en promedio los dos grupos serán iguales

D. Es la única manera de crear un grupo de comparación

39

A. B. C. D.

25% 25%25%25%


¿Por qué aleatorizar?

40

Al tener una asignación aleatoria, los grupos no difieren de ninguna manera sistemática. Estadísticamente, los grupos son iguales en promedio.

Cualquier diferencia observable al finalizar el programa puede ser atribuida al programa.

T C

Ev. Aleatoria


¿Por qué aleatorizar?

41

En la práctica, que los grupos sean estadísticamente

idénticos significa que, en promedio, no hay diferencias

significativas en los promedios de sus características.

Ej.: Programa de Tutorías a Niños de 4º Básico: balance inicial

Esperamos encontrar diferencias chicas, que no sean

estadísticamente significativas a lo largo de la muestra.

Características Tratamiento Control Diferencia

Prueba de comprensión de lectura y producción de texto

52,68 51,19 1,49

Ev. Aleatoria


Programa: Tutorías 4º Básica

42

Balance en características iniciales

Variables Grupo de

Tratamiento Grupo de Control

Diferencia

Años Educación de la Madre 10,65 10,35 0,30

(0,31)

Ingresos de la Familia 261,615,80 248.089,60 13.526,20

(16.476,20)

Puntaje: Lenguaje 257,31 251,15 6,16

(4,82)

Puntaje: Matemáticas 249,98 243,33 6,65

(5,10)

Tamaño Escuela 71,70 74,30 -2,60 (7,70)

Ev. Aleatoria


Ventajas de las evaluaciones experimentales

43

Si son correctamente diseñadas e implementadas:

Eliminan cualquier sesgo que puede haber en una evaluación no experimental.

La aleatorización hace que los grupos sean comparables en variables observables y no observables.

No es necesario hacer demasiados supuestos, como en las evaluaciones no experimentales.

Los resultados son fáciles de interpretar. ¡Importante para la evaluación de proyectos sociales!

Ev. Aleatoria


¿Hay diferencias entre los resultados experimentales y los no experimentales?

44

Programa de Lectura en India:

Implementado por Pratham, una ONG en India.

El programa proporcionó tutores para ayudar a niños con dificultades en la escuela.

El programa de tutores se implementó en escuelas primarias públicas en 2002-2003.

Los maestros de estas escuelas decidieron qué niños se educarían con los tutores (aquellos con resultados académicos más bajos).

Case 2: Remedial Education in IndiaEvaluating the Balsakhi Program

Incorporating random assignment into the program

Case 2: Remedial Education in IndiaEvaluating the Balsakhi Program

Incorporating random assignment into the program

Ev. Aleatoria


Programa de Lectura: Indicadores de Resultados

45

A los niños se les aplicaron pruebas de lenguaje y matemáticas al comienzo del año escolar (pre-test) y al final del año (post-test)

PREGUNTA: ¿Cómo determinamos el impacto del programa?

Ev. Aleatoria


Impacto del Programa de Tutores

46

Método Impacto Estimado

Antes y después 26.42*

Diferencia simple -5.05*

Diferencias en diferencias 6.82*

Regresión 1.92

Experimento Aleatorio 5.87*

*: Significativo estadísticamente al nivel de 5%

Conclusión: ¡El método que utilizamos

importa!

Ev. Aleatoria


¿Por qué diferentes métodos nos podrían entregar resultados de impacto diferentes?

A. Porque miden el impacto de diferentes poblaciones de beneficiarios

B. Porque miden aspectos diferentes de un proyecto

C. Porque miden el impacto en diferentes periodos de tiempo

D. Porque la estimación del contrafactual puede diferir entre métodos

47

A. B. C. D.

25% 25%25%25%


4. Respuestas a críticas típicas sobre las evaluaciones aleatorias

48

Mitos


¿Qué argumentos has escuchado en contra de las evaluaciones aleatorias? (Elige tres)

A. Son demasiado caras

B. Toman demasiado tiempo

C. No son éticas

D. Son demasiado difíciles de diseñar/implementar

E. No válidas externamente (resultados no generalizables)

F. Son menos prácticos que otros métodos a la hora de implementar, y no mucho mejores

G. Nos pueden decir cuál es el impacto, pero no por qué ni cómo ocurrió (la caja negra)

49

A. B. C. D. E. F. G.

14% 14% 14% 14%14%14%14%


Ética

50

Tres dimensiones a considerar: 1. “Que nadie quede peor” (Estudios en

general)

2. Protección de información / privacidad sujetos (Estudios en General)

3. Dejar gente fuera del programa (RCT – Aquí nos enfocaremos en este punto)

Mitos


Ética

51

Desafío inicial:

Focalización: “Llegar a los

más pobres de los pobres”

Evaluación: “Entregar casas

por sorteo”

Mitos


Ética

52

Focalizar Manzanas con manzanas Mejor focalización

MAS POBRES MENOS POBRES

Si voy a unas pocas

comunidades, puede

ser que focalice mal e

incluya a hogares

menos pobres.

Si voy a más

comunidades es fácil

alcanzar a más hogares

más pobres.

Esto es más justo y me

permite aleatorizar.

Inclu

ir

Mitos


Costos

53

Lo caro es conseguir datos de calidad y el rigor (tamaño de muestra). Eso vale para cualquier método de evaluación.

¿Son caras en comparación con qué? Proyectos sin evidencia de impacto pueden salir muy caros.

Más vale pocas evaluaciones rigurosas que muchas evaluaciones baratas pero poco confiables.

Gran parte de lo que se busca con evaluaciones experimentales son soluciones costo-efectivas.

La evidencia es un bien público.

Mitos


Duración de evaluaciones aleatorias

54

Ocurre lo mismo con otros métodos de evaluación de impacto: es necesario esperar que la intervención produzca sus resultados.

En muchas evaluaciones, se calculan los resultados demasiado temprano.

Mitos


5. Pasos claves para la evaluación experimental

55

Pasos


Pasos claves para el diseño de un experimento

56

1. Diseñar el estudio cuidadosamente.

Definir el problema, la sub-población de interés, el tratamiento,

las variables a medir, etc.

2. Asignar aleatoriamente las unidades a tratamiento o

control.

3. Recolectar datos de línea de base.

No es estrictamente necesaria pero muy recomendable, ayuda

a verificar balance, tamaño muestra, interacciones.

4. Verificar que la asignación generó grupos similares.

Chequear balance

Pasos


Pasos claves para el diseño de un experimento

57

5. Monitorear el proceso para garantizar la integridad del

experimento. Que no se dé el programa a los miembros del grupo de control y

sí se les dé a los del grupo de tratamiento

6. Recolectar datos de seguimiento después de la

intervención tanto para el grupo de tratamiento como

para el grupo control.

7. Estimar el impacto del programa, comparando los

resultados promedio del grupo de tratamiento vs. los

resultados promedio del grupo de control.

8. Determinar si el impacto (la diferencia entre los grupos)

es estadísticamente significativo.

Pasos


Aleatorización

58

TIEMPO

Ale

ato

riza

ció

n

Línea base Línea final

Tratamiento

Control

Pasos


Conclusiones generales

59

Existen muchas formas de estimar el impacto de un programa.

En este curso, queremos transmitir que un método es superior a los demás:

los experimentos aleatorios Argumento conceptual: Si son correctamente diseñados

y realizados, los experimentos aleatorios constituyen el método más confiable para estimar el impacto de un programa.

Argumento empírico: Diferentes métodos pueden generar diferentes estimaciones del impacto.

¡Gracias!

60

Ryan Cooper

[email protected]

@ryancooper_b

J-PAL LAC

mailto:[email protected]

antecedentes ¿cómo medir? ev. aleatoria mitos pasos .... evidencia... · antecedentes ¿cómo...

Documents