0. modelos de elección discreta

21
J. Ignacio García Pérez Curso 2011-2012 Master de Economía y Evaluación 1 MODELOS DE ELECCIÓN DISCRETA Y DATOS DE DURACIÓN J. IGNACIO GARCÍA PÉREZ Master de Economía y Evaluación de Políticas Universidad Pablo de Olavide, 2012 0. Modelos de elección discreta Función de verosimilitud En base a N observaciones independientes que siguen una distribución: La densidad de y i dado x i puede escribirse como: El logaritmo de L para cada observación i Y para la totalidad de la muestra: N i i l L 1 ) ( ) ( ) ( 1 log ) 1 ( ) ( log ) ( i i i i i x G y x G y l y i y i i x G x G x y f i 1 1 ) / ( ) ( ) | 1 ( X G X y P

Upload: truongngoc

Post on 08-Feb-2017

222 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: 0. Modelos de elección discreta

J. Ignacio García Pérez Curso 2011-2012

Master de Economía y Evaluación 1

MODELOS DE ELECCIÓN DISCRETA Y DATOS DE DURACIÓN

J. IGNACIO GARCÍA PÉREZMaster de Economía y Evaluación de PolíticasUniversidad Pablo de Olavide, 2012

0. Modelos de elección discretaFunción de verosimilitud

En base a N observaciones independientes que siguen una distribución:

La densidad de yi dado xi puede escribirse como:

El logaritmo de L para cada observación i

Y para la totalidad de la muestra: N

i ilL 1 )()(

)(1log)1()(log)( iiiii xGyxGyl

y

i

y

ii xGxGxyf i 11)/(

)()|1( XGXyP

Page 2: 0. Modelos de elección discreta

J. Ignacio García Pérez Curso 2011-2012

Master de Economía y Evaluación 2

1. ¿Qué son datos de duración?

Si tenemos una muestra aleatoria de trabajadores que entran en el desempleo en el periodo tt y los seguimos a cada uno hasta que salen del mismo,

las semanas o meses que cada uno de ellos ha estado desempleado son una observación de la variable aleatoria TT = “duración de la experiencia o spellspell de desempleo”.

Existen muchos tipos de comportamiento en el tiempo que pueden ser considerados como movimientos en el tiempo de un estado a otro: Movimiento entre estados laborales, maritales, ... Duraciones de huelgas, de programas de formación, de

una patente.... Duración hasta que se produce una inversión, una

compra en bolsa, la vuelta desde la emigración...

1. ¿Qué son datos de duración?

La observación de un individuo que sale del estado estudiado en el momento tt será una realización de la variable TT, es decir, observamos que T = t.T = t. Interpretamos esta observación como que la duración del

individuo en el estado estudiado es igual a tt periodos. Normalmente, los datos de duración no se observan todos

de forma “completa”. Es usual que alguno de los individuos de nuestra muestra

abandone el estado de observación antes de que se le vea transitar al estado de interés: EXISTE CENSURA POR LA DERECHA. Para estos individuos solo observaremos que T > t, T > t, es decir,

que la duración de su estancia en el estado estudiado es mayor que la observada en el momento de abandonar la muestra (t).(t).

También puede existir CENSURA POR LA IZQUIERDA si no observamos a todos los individuos desde el momento de inicio de la experiencia o spellspell.

Page 3: 0. Modelos de elección discreta

J. Ignacio García Pérez Curso 2011-2012

Master de Economía y Evaluación 3

1. ¿Qué son datos de duración?

1. ¿Qué son datos de duración?

Si tenemos una muestra aleatoria de NN trabajadores, NN--CC con observaciones completas (tt11, t, t2 2 , ... , , ... , ttNN--CC ) y CC individuos con observaciones censuradas (ttNN--C+1 C+1 , ..., , ..., ttNN ), podemos estimar un modelo de duración sobre esta muestra.

El objeto de estudio será la probabilidad de salir del estado estudiado en el momento tt, condicional en haber permanecido en ese estado al menos t t periodos (además de otras posibles variables que influyan en dicha probabilidad)

Esta probabilidad condicional se llama “tasa de salida” (función de riesgo o “hazardhazard”)

Veremos en la siguiente sección como esta probabilidad caracteriza totalmente la distribución de la variable aleatoria TT Por tanto, con estudiar esta tasa, estamos estudiando la distribución entera de la variable de interés.

Dada la especificación utilizada, la forma natural de estimar estos modelos será por MÁXIMA VEROSIMILITUD.

Page 4: 0. Modelos de elección discreta

J. Ignacio García Pérez Curso 2011-2012

Master de Economía y Evaluación 4

2. Conceptos básicos

Si consideramos las experiencias de una muestra aleatoria en un cierto estado.

La duración de cada experiencia es estocástica y la denotamos como TT, siendo tt la realización concreta de esta variable aleatoria.

Dicha variable aleatoria es continua. La función de distribución acumulada de TT se denota como F(t) = F(t) = PrPr (T (T t)t) y la función de densidad como f(t).f(t). Y definimos la función de supervivencia como

En tiempo discreto, la tasa de salida se define como la probabilidad de que la experiencia termine en el momento tt, dado que no se ha terminado antes de tt.

En tiempo continuo tendremos que:

)(1)( tFtF

Pr , ( ) lim

0

T t t dt T tt

dtdt

P r( )( ) P rP r( )

T tt T t T tT t

2. Conceptos básicos

Por tanto, la tasa de salida es la tasa a la que el “spellspell” se completa exactamente en la duración tt, dado que no se ha completado antes de dicha duración.

La tasa de salida depende de la duración en la medida en que su valor cambia con t t : así una dependencia positiva (negativa) de la duración significa que el hazardhazard crece (decrece) con la duración.

Se puede demostrar que la tasa de salida ofrece una caracterización completa de la distribución de T:

tduutF

0)(exp)(

)(1)()(tF

tft

tduuttf

0)(exp)()(

Page 5: 0. Modelos de elección discreta

J. Ignacio García Pérez Curso 2011-2012

Master de Economía y Evaluación 5

2. Conceptos básicos

Por tanto, la estimación de los modelos de duración se puede centrar en la estimación de esta tasa de salida.

Además, esto tiene dos justificaciones teóricas: La teoría económica, a menudo se centra en explicar la tasa a la

que los individuos abandonan un determinado estado (Ej: el desempleo)

Debido a la presencia de censura para duraciones altas, puede no tener mucho sentido modelizar la distribución para esas duraciones tan altas: Nos podemos centrar en la distribución condicional más que en la incondicional (mas aun sabiendo que no estamos obviando nada)

Aunque nos centraremos aquí en la estimación de forma reducida de estas tasas de salida, no hay que olvidar que, en la mayoría de los casos, la teoría económica nos provee de formas funcionales para estas tasas de salida.

Por tanto, lo que estimaremos puede no tener una contrapartida directa en la Teoría Económica.

Aunque nos centraremos aquí en la estimación de forma reducida de estas tasas de salida, no hay que olvidar que, en la mayoría de los casos, la teoría económica nos provee de formas funcionales para estas tasas de salida.

Por tanto, lo que estimaremos puede no tener una contrapartida directa en la Teoría Económica.

2. Conceptos básicos: Estimación No paramétrica (Kaplan-Meier, 1958)

Si tenemos una muestra de “spellsspells” de distintas duraciones, sin necesidad de especificar una función de distribución para dichas duraciones podemos estimar de manera no paramétrica la forma de la función de riesgo (el hazard) o la función de supervivencia de dicha muestra:

Si tenemos una muestra de nn duraciones (independientes e identicamente distribuidas), ordenadas desde la duración más corta a la más larga:

Esta muestra puede tomar kk valores distintos. Definimos como nnkk el número de observaciones para el cual

la duración es al menos k. k. (incluyendo observaciones completas como censuradas).

Y definimos hhkk el número de observaciones que terminan exactactamente en la duración k. k.

1 2 3 .... nt t t t

Page 6: 0. Modelos de elección discreta

J. Ignacio García Pérez Curso 2011-2012

Master de Economía y Evaluación 6

2. Conceptos básicos: Estimación No paramétrica (Kaplan-Meier, 1958) Podemos obtener una estimación de la tasa de

salida (hazard) de la siguiente forma:

Y, como se puede demostrar que:

tendremos que la función de supervivencia se obtiene como

Veámoslo con un ejemplo:1 1

1 ( ) 1 ( ) 1t t

s

s s s

hF t sn

Pr( )( ) PrPr( )

k

k

hT tt T t T tT t n

t

s

stF1

)(1)(1

43,34%95,24%4,76%2112019

45,50%96,00%4,00%251318

47,40%93,33%6,67%302327

50,78%88,57%11,43%354146

57,34%88,10%11,90%425255

65,09%86,54%13,46%527374

75,21%86,15%13,85%659493

87,30%91,89%8,11%746362

95,00%95,00%5,00%804241

Supervivencia1-hazardhazardnhObs.

CensuradasObs.

CompletasT

2. Conceptos básicos: Estimación No paramétrica (Kaplan-Meier, 1958)

Page 7: 0. Modelos de elección discreta

J. Ignacio García Pérez Curso 2011-2012

Master de Economía y Evaluación 7

3. Estimación de modelos de duración

Queremos estimar una probabilidad con una muestra aleatoria de N individuos, entrantes en un estado y que pueden tener duraciones completas o censuradas.

La forma natural de hacerlo es por Máxima Verosimilitud. El objeto de esta función, como ya hemos dicho, es la tasa de

salida o hazardhazard. Comúnmente este hazardhazard se escribe también condicional en

una serie de variables explicativas (xx):

Por lo tanto, lo que estudiamos es la distribución de T T condicionada a una serie de regresores xx:

Y también podemos estudiarla condicionada a cierta heterogeneidad inobservable ():

( )i it x

)( xtF ii

( )i i iF t x

3. Estimación de modelos de duración La función de verosimilitud tendrá la siguiente forma:

Si solo tuviéramos duraciones completas:

Si hubiera observaciones completas y censuradas:

N

i

N

i

t duxiuxitixitifL i

10

1),(exp),(ln)(ln

N

CNi

CN

i

N

CNi

CN

i

t duxiut duxiuxitiL

xitiFxitifL

ii

10

10

11

),(expln),(exp),(ln

)(1ln)(ln

Page 8: 0. Modelos de elección discreta

J. Ignacio García Pérez Curso 2011-2012

Master de Economía y Evaluación 8

4. Tiempo Continuo: El modelo de riesgo proporcional

TT es una variable aleatoria continua. La distribución (léase el hazardhazard) de TT varía entre individuos

aparte de con la propia duración. Existe tanto heterogeneidad observada (xx) como inobservada

() que suponemos que no varía a lo largo del tiempo. El hazardhazard de un individuo ii con características x, x, será:

Donde se conoce como “riesgo base” o “baselinebaselinehazardhazard” y el resto de términos recogen el efecto de la heterogeneidad.

El supuesto fundamental es que el efecto de dicha heterogeneidad es PROPORCIONAL PARA CADA DURACIÓN (dos individuos distintos tienen tasas de salida proporcionales para cada duración).

)'()(),( xtxt ii

)(t

La popularidad de este modelo es comparable a la del modelo de regresión lineal en el análisis de regresión.

De hecho, muchas aplicaciones se hacen sin tener en cuenta la heterogeneidad inobservable, esto es, suponiendo que = 1= 1.

Este modelo se estima por Verosimilitud Parcial bajo un rango muy amplio de especificaciones para Ej: el método de Cox (1972), estima consistentemente sin tener

que hacer ningún supuesto sobre el riesgo base. La forma más general de estimar el riesgo base es especificar:

También podemos utilizar un polinomio en la duración. Por otra parte, tenemos que hacer un supuesto sobre la distribución de

la heterogeneidad inobservable ya que la verosimilitud se escribirá en función de:

)(t

dgxitifxitif )(),()(0

max

1

( ) T

jj

t T j

4. Tiempo Continuo: El modelo de riesgo proporcional

Page 9: 0. Modelos de elección discreta

J. Ignacio García Pérez Curso 2011-2012

Master de Economía y Evaluación 9

Una función de distribución usual en la literatura para es la F. Gamma.

También se suele utilizar una distribución discreta, en función de puntos masa (véase Heckman & Singer, 1984):

En principio, los dos efectos en el hazard, el de la duración y el de la heterogeneidad inobservable son intercambiables solo son identificables si imponemos una forma funcional particular para g() y para el riesgo base.

Por ejemplo, si el riesgo base es igual a 11 y g(g()) es no degenerada, los individuos con altas saldrán antes del desempleo y el resto saldrán después si no identificamos bien podríamos estar concluyendo que existe dependencia negativa de la duración.

1 1

2 1

.

. 1-con prob p

con prob p

4. Tiempo Continuo: El modelo de riesgo proporcional

Esta no identificación, por suerte, solo se produce cuando no existen otras variables exógenas afectando al hazardhazard.

Elbers & Ridder (1982) prueban que cuando hay más regresores no hay dos combinaciones distintas de heterogeneidad y dependencia de la duración que den un mismo resultado en términos de distribución de duraciones.

Apoyándose en este resultado, Heckman and Singer (1984) proponen un método que no requiere un supuesto funcional sobre la distribución de : Partiendo del modelo sin heterogeneidad inobservable y utilizando la

distribución discreta de puntos masa para , se pueden ir añadiendo puntos a esta distribución hasta representar totalmente la distribución de .

Este método es suficientemente flexible para captar la heterogeneidad inobservable como si fuera “efectos aleatorios” en un modelo de datos de panel pero con la ventaja de no tener que imponer una forma funcional determinada para .

4. Tiempo Continuo: El modelo de riesgo proporcional

Page 10: 0. Modelos de elección discreta

J. Ignacio García Pérez Curso 2011-2012

Master de Economía y Evaluación 10

5. MODELOS EN TIEMPO DISCRETO Es bastante común en la práctica encontrarse con duraciones

que no pueden considerarse como continuas porque son observadas solo en intervalos discretos de tiempo (Ej: meses, semanas...)

En este caso la tasa de salida sería:

Dado que la tasa de salida es ahora una probabilidad, condicional, lo natural sería utilizar un modelo de elección discreta para estimarla:

Donde F( )F( ) sería una función de distribución conocida, entre las que se suelen utilizar la logística o la normal.

Nótese que este modelo es más general que el anterior (el de riesgo proporcional) dado que se permite que el efecto de la duración y el del resto de regresores PUEDA SER NO PROPORCIONAL.

( , , ) Pr , ,t x T t T t x

Pr , , 't tT t T t x F x

5. MODELOS EN TIEMPO DISCRETO

En este caso la relación entre la tasa de salida y la distribución de T es más fácil de mostrar:

Y operando tendremos que:

)(1)1()(

)Pr(...)1Pr(1)Pr(

)Pr()Pr(Pr)(

tFtFtF

tt

tTtTtTtTt

t

sstF

1

)(1)(1

1

1

)(1)()Pr(t

s

stt

Page 11: 0. Modelos de elección discreta

J. Ignacio García Pérez Curso 2011-2012

Master de Economía y Evaluación 11

5. MODELOS EN TIEMPO DISCRETO

¿CÓMO SE ESTIMAN ESTOS MODELOS? Si para cada duración reescribimos:

etc. donde yyt t = = I I ( T = t )( T = t ) y wwtt = = I I ( T ( T t ).t ).

Se trataría de estimar un modelo binario para cada duración, con las observaciones supervivientes a dicha duración.

Normalmente, estableceremos restricciones en los parámetros de manera que, al final, estaremos estimando conjuntamente todas estas ecuaciones pero con algunas restricciones de igualdad entre los parámetros de cada una de ellas.

1111 ',,11Pr,,11Pr xFxwyxTT

2222 ',,22Pr,,22Pr xFxwyxTT

5. MODELOS EN TIEMPO DISCRETO

Por tanto, en esta forma de estimar, cada periodo de observación de cada individuo (si el “spell” dura tt periodos, observamos al individuo tt--11periodos sin salir y el periodo final saliendo del desempleo) cuenta como una observación distinta, para ese individuo.

Cada una de estas observaciones servirá para estimar uno de los modelos binarios antes especificados.

Y si especificamos un único modelo, con restricciones de igualdad entre coeficientes, tendremos igualmente t t observaciones para cada individuo,

es decir, estaremos estimando con una muestra de tt11+ t+ t22+ ... + + ... + ttNNobservaciones Por tanto, tenemos que expandir nuestra base de datos de NN

observaciones para tener las tt observaciones de cada individuo (una por intervalo de duración) junto con el resto de regresores y las variables dependientes yyitit y ccii ..

Page 12: 0. Modelos de elección discreta

J. Ignacio García Pérez Curso 2011-2012

Master de Economía y Evaluación 12

5. MODELOS EN TIEMPO DISCRETO

La función de verosimilitud para una muestra de entrantes en un determinado estado será:

Si llamamos yyitit = = I I ( T( Tii = t= tii )):

1

1

11

1 1 1

Pr( ) Pr( )

( ) 1 ( ) 1 ( )

i i

i ii i

Nc c

i ii

c cN t t

ii s s

L T t T t

t s s

)(1ln1)(lnln1 1

jyjyLN

i

t

jijij

i

5. MODELOS EN TIEMPO DISCRETO

Por tanto un individuo con una experiencia completa (TTii = t= tii ) contribuirá a la verosimilitud con tt observaciones:

Y un individuo con experiencia censurada (TTii ttii ) contribuiráigualmente con tt observaciones:

Y finalmente, tenemos que integrar sobre la distribución de :

1

1

ln ' ln 1 'i

i i

t

i it t j jj

F x F x

i

i

t

jjj xF

1'1ln

1 1

ln ln ( , ) 1 ln 1 ( , ) ( )iN t

ij i ij ii j

L y c j y c j dG

Page 13: 0. Modelos de elección discreta

J. Ignacio García Pérez Curso 2011-2012

Master de Economía y Evaluación 13

5. MODELOS EN TIEMPO DISCRETO

CONCLUSIÓN: Un modelo de duración en tiempo discreto puede ser estimado como una secuencia de modelos de elección binaria sobre poblaciones distintas (las supervivientes a cada duración) Estos modelos se estiman, normalmente, imponiendo restricciones

de igualdad de parámetros entre las distintas ecuaciones para cada duración. Por ejemplo, si en la estimación de la tasa de salida del

desempleo pensamos que el efecto de cobrar prestaciones por desempleo es distinto para cada duración, especificaremos el modelo con una interacción entre la duración y la variable indicador de cobrar prestaciones (así el efecto serápotencialmente distinto para cada duración).

Es muy importante darse cuenta de que para estimar con una muestra que incluye las NN observaciones correspondientes a las NN experiencias, necesitamos una base expandida de tt11+ t+ t22+ ... + + ... + ttNN observaciones.

6. EFECTOS DE UN TRATAMIENTO CON MODELOS DE DURACIÓN

Normalmente, tanto un tratamiento como el resultado que se espera de este son fenómenos realizados en un momento determinado del tiempo. Ej: el efecto de un programa de formación, el de un castigo por no

buscar empleo activamente, etc. Típicamente, los modelos tradicionales de análisis de un tratamiento

sufren fuertes problemas de selección muestral que tienen que corregir.

La literatura de análisis de un tratamiento no ha considerado con mucho interés el especifico “timing” de los hechos ocurridos en conjunción con los problemas de selección.

Con un modelo de duración, podemos controlar adecuadamente el problema de selección que se produce cuando un sujeto es sometido a un tratamiento en un momento concreto de su experiencia de desempleo, por ejemplo.

Con este modelo podemos estudiar con precisión cual es el posible efecto de este tratamiento sobre la tasa de salida de ese estadoconcreto.

Page 14: 0. Modelos de elección discreta

J. Ignacio García Pérez Curso 2011-2012

Master de Economía y Evaluación 14

Un punto de partida intuitivo sería considerar todos los individuos que aún no han recibido el tratamiento en un momento concreto del tiempo y que aún no han abandonado el estado estudiado comparar los que reciben el tratamiento con aquellos que no.

Para no tener problemas de selección (puede que los que reciben el tratamiento sean una muestra seleccionada) podemos condicionar en el momento del tratamiento comparar para los mismos individuos que ocurre antes y después del tratamiento.

Sin embargo, para hacer esto se necesita que los individuos no hayan abandonado el estado en el momento de aplicación del tratamiento.

Un método alternativo (Abbring & Van den Berg, 2003) puede ser condicionar en el momento de salida y examinar la tasa a la que el tratamiento es recibido (tiempo hasta que se recibe un tratamiento).

Lo que ayuda a identificar el efecto del tratamiento controlando por la selección muestral es precisamente la interacción entre el momento de llegada del tratamiento y el de salida del estado.

6. EFECTOS DE UN TRATAMIENTO CON MODELOS DE DURACIÓN

Una ventaja sustancial de este modelo es que no necesita restricciones de exclusión en alguno de los dos procesos estudiados.

A diferencia del método de diferencias en diferencias, con el modelo de duración comparamos distintos individuos en dos momentos distintos del tiempo para identificar el efecto del tratamiento.

Se plantean dos tasas de salida:

Donde TTmm recoge la duración hasta que se sale del estado estudiado y TTpp la duración hasta que llega el tratamiento (también podría haber XX).

Si VVmm y VVpp fueran independientes, entonces sería una variable exógena más y podríamos estimar consistentemente el efecto de este tratamiento.

Sin embargo, este no será normalmente el caso.

m

ttmmpm

pppp

VtVtt

VtVtp

)()(

)(

)( ptt

6. EFECTOS DE UN TRATAMIENTO CON MODELOS DE DURACIÓN

Page 15: 0. Modelos de elección discreta

J. Ignacio García Pérez Curso 2011-2012

Master de Economía y Evaluación 15

La estrategia de identificación es la siguiente: Consideremos el subconjunto de aquellos cuyo “spellspell” termina en

el momento TTmm = = ttmm . Si el tratamiento aumenta la salida de este estado, entonces un

grupo relativamente grande de los que salieron en ttmm habrían sido tratados justo antes de este momento.

Por tanto, condicional en ttmm, la tasa de llegada del tratamiento (pp) debería aumentar justo antes de ttmm .

Y este aumento debería darse condicional también en el resto de regresores y la heterogeneidad inobservable.

En Abbring & Van den Berg (2003) se construye un test para confirmar si este efecto existe o no en el contexto del modelo de duración explicado.

6. EFECTOS DE UN TRATAMIENTO CON MODELOS DE DURACIÓN

7. Aplicación: “Punitive Sanctions and theTransition Rate from Welfare to Work”

En un artículo publicado en el J. Labor Economics (2004), Van den Berg et al. muestran el efecto de sanciones en la percepción de prestaciones sobre la salida del desempleo con prestaciones asistenciales.

De nuevo, el principal problema es que la imposición de sanciones no es exógena a las características de los desempleados (existe selección).

La solución viene de la modelización conjunta de la tasa a la que llegan sanciones y la tasa a la que se sale del desempleo, condicional en la llegada de sanciones.

Se identifica el efecto del tratamiento explotando la variación en el “timing” de los eventos observados.

Las dos tasas de salida serán: sssss

usuusuu

vxtvxt

vttxttvxt

'exp)(,

)('exp)(,,

Page 16: 0. Modelos de elección discreta

J. Ignacio García Pérez Curso 2011-2012

Master de Economía y Evaluación 16

7. Aplicación: “Punitive Sanctions and theTransition Rate from Welfare to Work”

¿Cómo identificamos ? Considerando los individuos que reciben una sanción en el momento

tt. El grupo de control natural consiste en los individuos con subsidio en

ese periodo pero que todavía no han recibido sanción. Sin embargo una condición necesaria para identificar es que la

asignación de la sanción en ese periodo tt debe ser aleatoria. El modelo de duración nos provee esa aleatoriedad a través de la

propia tasa de llegada de sanciones. Por tanto, la propia secuencia de eventos “imposición de sanción”

y “salida del desempleo” nos identifica el efecto causal: Si las sanciones son seguidas de una salida más rápida del

desempleo, el efecto será positivo. Nótese que la propia selección muestral NO daría pie a esa rápida

sucesión de eventos.

El valor estimado de es 0.91 (significativo) Aumenta la tasa de salida un 140%.El valor estimado de es 0.91 (significativo) Aumenta la tasa de salida un 140%.

8. APLICACIÓN: LA MUESTRA CONTINUA DE VIDAS LABORALES

La base de datos que utilizaremos en esta práctica es la Muestra Continua de Vidas Laborales (MCVL) de la Seguridad Social.

Esta base, recién puesta a disposición para la investigación en Marzo de 2006, se basa en una muestra de personas que han estado en situación de afiliado en alta para cotización, o han recibido alguna pensión o prestación por desempleo en el año 2005.

Para cada persona contiene información sobre la vida laboral - en algunos casos de varias décadas-, de sus salarios y de las pensiones contributivas recibidas.

Page 17: 0. Modelos de elección discreta

J. Ignacio García Pérez Curso 2011-2012

Master de Economía y Evaluación 17

8. APLICACIÓN: LA MUESTRA CONTINUA DE VIDAS LABORALES

A partir de la población de referencia del año 2005 se obtuvo una muestra aleatoria de 1,1 millones de personas, un 4% del total.

Para cada individuo incluido en la muestra se cuenta con una exhaustiva información tanto sobre sus características personales como sobre su situación laboral.

Respecto a su situación laboral se cuenta con información sobre el tipo de contrato, su duración exacta, su grupo de cotización (que nos permite medir la cualificación requerida para su puesto de trabajo) y el sector, tamaño y tipo de empresa donde trabaja.

8. APLICACIÓN: LA MUESTRA CONTINUA DE VIDAS LABORALES

Además, también contamos con información completa sobre las bases de cotización, que coinciden con el salario para aquéllos que cobren menos de la base máxima y mas de la mínima, para cada empleo y sobre la pensión que disfrutan aquellos que ya están jubilados.

Para trabajar con esta base de datos (con información sobre la vida laboral completa de más de un millón de trabajadores) tenemos que aplicar una serie de filtros y transformaciones.

Los principales filtros realizados son: Eliminar registros repetidos y los simultáneos a otros más

largos. Unificar empleos con el mismo empleador cuando el

periodo de no-empleo intermedio es menor a 15 días (en general, la duración del desempleo debe ser mayor a 15 días).

Unificar empleos que comienzan antes que terminen los anteriores.

Page 18: 0. Modelos de elección discreta

J. Ignacio García Pérez Curso 2011-2012

Master de Economía y Evaluación 18

8. APLICACIÓN: LA MUESTRA CONTINUA DE VIDAS LABORALES

En esta práctica haremos varias cosas: Estudiaremos la tasa de salida del desempleo al

empleo, primero de forma no paramétrica(KAPLAN-MEIER)

Estimaremos el modelo de COX con estos datos Expandiremos la muestra para tener los datos

listos para estimar un modelo de duración en tiempo discreto y calcularemos los K-M hazardsde nuevo.

Estimaremos la salida del desempleo usando la metodología más general que no impone el supuesto de proporcionalidad

8. APLICACIÓN: LA MUESTRA CONTINUA DE VIDAS LABORALES

Usaremos el programa CREABASEPARO_CURSODURACION.DO

Donde se trabaja con la base_ "MCVL_mujeres_inmigra_paradas.dta",

El programa de expansión de la base de datos consiste en: expand duratunmes sort codind spell by codind spell: gen durparo=_n gen depenparo=0 replace depenparo=1 if spell~=spell[_n+1] & failunmes==1

Page 19: 0. Modelos de elección discreta

J. Ignacio García Pérez Curso 2011-2012

Master de Economía y Evaluación 19

9. Programas de Stata escritos por el Prof. Stephen Jenkins

9.1 pgmhaz(8) Este programa, escrito por Jenkins permite estimar modelos de duración

en tiempo discreto, basados en el supuesto de riesgo proporcional y con heterogeneidad inobservable.

El programa se consigue en la web: http://www.stata.com/stb/stb39/sbe17/ o haciendo un update en Stataescribiendo: ssc install pgmhaz8.

Este programa estima por Máxima Verosimilitud dos modelos de duración discretos (para datos agrupados, realmente). Uno no controla porHeterogeneidad Inobservable y el otro supone que dicha heterogeneidad sigue una distribución gamma.

Los regresores pueden incluir tanto variables constantes como dependientes de la duración de cada spell y la especificación de la dependencia de la duración es muy general.

Este programa necesita que los datos estén adecuadamente organizados de cara a estimar modelos discretos de duración, esto es, estén basados en la muestra expandida de duraciones.

9. Programas de Stata escritos por el Prof. Stephen Jenkins

9.2 hshaz

Este otro programa estima el mismo modelo discreto de duración bajo el supuesto de riesgos proporcionales pero asumiendo como distribución para la heterogeneidad inobservable la función discreta en base a los supuestos de Heckman & Singer (1984).

El número de puntos masa puede ser elegido en cada caso, siendo el caso base el de dos puntos.

El programa se puede obtener haciendo un update en Stata escribiendo: ssc install hshaz.

Page 20: 0. Modelos de elección discreta

J. Ignacio García Pérez Curso 2011-2012

Master de Economía y Evaluación 20

10. OTROS TEMAS

I. MODELO DE RIESGOS EN COMPETENCIA (“Competing Risks”)

La salida de un estado no tiene por qué tener un destino único. Ej: salida del desempleo al empleo o a la inactividad

La estimación de estos modelos es muy sencilla si no existe heterogeneidad inobservable en la salida a los distintos estados (que esté correlacionada entre ellos o que sea la misma)

Las observaciones de las salidas al estado no estudiado se consideran como observaciones censuradas a la hora de estimar la tasa de salida a un determinado estado.

Sin embargo, si existe heterogeneidad inobservable y está correlacionada entre estados (normalmente será la misma) el problema se complica:

Hay que escribir la función de verosimilitud para la salida a cada uno de los estados conjuntamente e integrarla sobre la función de distribución de la heterogeneidad inobservable.

10. OTROS TEMAS

II. ESTIMACIÓN CON MÁS DE UN “SPELL”POR INDIVIDUO (“Multiple Spells”)

Cada vez existen más bases de datos que ofrecen más de un “spellspell”por individuo para el estudio de la salida hacia un mismo estado.

Ej: historias laborales, tiempo hasta el nacimiento de hijos, etc. Estas duraciones son extracciones independientes de una misma

distribución univariante F(t/x,v)F(t/x,v) aunque las duraciones observadas para un mismo individuo están, evidentemente, correlacionadas pues todas dependen de un mismo término vv.

Por ejemplo, en el caso de observar para cada individuo dos duraciones completas, la verosimilitud será función de la densidad:

),(,,, 21221121 2

1 2

12,1 vvdGvxtfvxtfxttfv v

Page 21: 0. Modelos de elección discreta

J. Ignacio García Pérez Curso 2011-2012

Master de Economía y Evaluación 21

10. OTROS TEMAS

II. ESTIMACIÓN CON MÁS DE UN “SPELL”POR INDIVIDUO (“Multiple Spells”)

En términos de modelos de panel, la aproximación a la presencia de heterogeneidad inobservable es como la de “efectos aleatorios”

No obstante, también aquí se está intentando desarrollar una aproximación parecida a los “efectos fijos”, tratando de diferenciar para eliminar la presencia de heterogeneidad inobservable.

También se suelen considerar efectos retardados de duraciones pasadas sobre la duración actual (“lagged durations”)

Ej: la duración de experiencias pasadas de desempleo afectan a la duración presente (Heckman & Borjas, 1980).

10. OTROS TEMAS

II. ESTIMACIÓN CON MÁS DE UN “SPELL”POR INDIVIDUO (“Multiple Spells”)

Sin embargo, si lo que relaciona ambas duraciones es la heterogeneidad inobservable, estaremos de nuevo ante un problema de dependencia espurea entre duraciones.

Normalmente, puede existir ambos tipos de relaciones por lo que para estudiar el efecto de la duración pasada o de otra sobre la duración estudiada, habrá que controlar muy bien por la presencia de heterogeneidad inobservable.

Nótese que en presencia de más de una observación por individuo, no obstante, la distribución de la heterogeneidad inobservable podrá ser identificada en mucho mejores condiciones.

De hecho, lo realmente interesante sería encontrar la técnica de diferenciación de efectos fijos que se aplica para datos de panel.