análisis de datos con stata - · pdf filef. vela contains data from dadslab.dta obs :...

Download ANÁLISIS DE DATOS CON STATA -  · PDF fileF. VELA Contains data from dadslab.dta obs : 4 vars : 4 27 Dec 2009 21:47

If you can't read please download the document

Upload: lamthu

Post on 06-Feb-2018

218 views

Category:

Documents


0 download

TRANSCRIPT

  • ANLISIS DE DATOS

    CON STATA (Manejo de base de datos)

    Fortino Vela Pen [email protected]

    Agosto, 2011

    mailto:[email protected]

  • F. VELA

    Las bases de datos econmicos pueden ser de

    diversos tipos:

    1. Corte transversal (cross section).

    2. Series de Tiempo (time series)

    3. Combinacin de cortes transversales (pooling cross section)

    4. Datos panel (panel data)

    Las caractersticas particulares de cada tipo de datos deben ser consideradas a fin sacar provecho del anlisis que se realizara de estos datos.

    Introduccin

  • F. VELA

    Una base de datos de corte transversal

    consiste en una muestra de individuos, hogares,

    empresas, ciudades, estados, pases u otras

    unidades, tomada en algn punto dado en el

    tiempo (Wooldrige, 2010: 5).

    Una de sus caractersticas ms importantes

    radica que, en muchas ocasiones, se obtienen

    de un proceso de muestreo aleatorio.

    Constituye el tipo de datos con el que se inicia

    el estudio del anlisis economtrico.

    Corte transversal

  • F. VELA

    Fuente: Tomado de Wooldridge, 2010: 7.

  • F. VELA

    Una base de datos de series de tiempo

    consiste de las observaciones de una o varias

    variables a lo largo del tiempo (Wooldrige,

    2010: 8).

    Una de sus caractersticas ms importantes

    radica que, rara vez, puede suponerse que las

    observaciones sean independientes del

    tiempo.

    Constituye el tipo de datos ms comn en la

    economa y su estudio es ms complejo.

    Series de tiempo

  • F. VELA

    Fuente: Tomado de Wooldridge, 2010: 9.

  • F. VELA

    Al resultado de combinar diferentes cortes

    transversales se le da el nombre de una base

    de datos pooling.

    Permite ampliar el tamao de la muestra.

    Constituye el tipo de datos que permite analizar

    los efectos de los cambios en polticas pblicas

    al observar las diferencias que presentan las

    variables en el tiempo.

    Combinacin de cortes transversales

  • F. VELA

    Datos panel

    Un conjunto de datos de panel (o longitudinal)

    consiste en una serie de tiempo por cada unidad

    de una base de datos de corte transversal

    (Wooldrige, 2010: 10).

    Su caracterstica que los distingue de las

    combinaciones de cortes transversales, es que

    durante un intervalo de tiempo se siguen a las

    mismas unidades de observacin de un corte

    transversal.

  • F. VELA

    Fuente: Tomado de Wooldridge, 2010: 9.

  • F. VELA

    Las bases de datos se han constituido en una de las herramientas ms ampliamente difundidas en la actual sociedad de la informacin en todos los campos del conocimiento.

    Dada la variedad de tpicos en diferentes

    niveles de anlisis- que se captan en una base de datos est puede estar conformada por un conjunto de archivos en los que se distribuye la informacin obtenida de acuerdo con los temas considerados.

    Las bases de datos

  • F. VELA

    Existen cuatro comandos (mtodos) para

    combinar bases de datos:

    1. Aadiendo (appending).

    2. Combinando (merging)

    3. Juntando (joining)

    4. Cruzando (crossing)

    La versin 11 introduce una nueva sintaxis para el comando merge.

    Combinando bases de datos1/

    1/ Para estas notas es necesario obtener los archivos de datos dmus1 y dmus2 de net from http://www.stata-press.com/data/dmus,

    en la forma net get dmus1 y net get dmus2. De igual manera, se requiere obtener de net from http://www.stata-

    press.com/data/kk2, los archivos net get data y net get kksoep.

  • F. VELA

    Los comandos ms utilizados son append y

    merge.

    Para nuestros fines, inicialmente podemos

    considerar a una base de datos (archivo)

    como un arreglo rectangular entre

    observaciones (renglones) y variables

    (columnas).

    append aade observaciones (renglones) a

    una base de datos.

    merge se agregan variables (columnas) a

    una base de datos.

  • F. VELA

    id var1

    1

    2

    3

    4

    5

    id var1

    6

    7

    8

    9

    10

    archivo 1 archivo 2

    id var1

    1

    2

    3

    4

    5

    id var2

    1

    2

    3

    4

    5

    archivo 3 archivo 4

    Bases de datos en diferentes situaciones

    id var1

    1

    2

    3

    4

    5

    id var2

    1

    9

    10

    5

    3

    archivo 5 archivo 6

    id var1

    1

    1

    1

    2

    2

    id var2

    1

    2

    3

    4

    5

    archivo 7 archivo 8 (hogares) (individuos)

    Caso 1: aadir observaciones

    Caso 2: combinar variables

    Caso 3: seguir observaciones y combinar variables

    Caso 4: agregar obs. y aadir var. diferentes niveles

  • F. VELA

    Appending

    Parte de contar con bases de datos para las

    mismas variables pero para observaciones

    distintas.

    Por ejemplo, moms.dta y dads.dta.

    Cada base de datos contiene las mismas

    variables pero para distintos individuos:

    famid= identificador de la familia

    age= edad

    race= raza

    hs= nivel de educacin de preparatoria

    variable clave

  • F. VELA

    use moms

    list +-------------------------+

    | famid age race hs |

    |-------------------------|

    1. | 3 24 2 1 |

    2. | 2 28 1 1 |

    3. | 4 21 1 0 |

    4. | 1 33 2 1 |

    +-------------------------+

    +-------------------------+

    | famid age race hs |

    |-------------------------|

    1. | 1 21 1 0 |

    2. | 4 25 2 1 |

    3. | 2 25 1 1 |

    4. | 3 31 2 1 |

    +-------------------------+

    use dads

    list

  • F. VELA

    Se desea aadir a las observaciones en una

    sola base de datos.

    Existen dos formas de hacer esta tarea.

    clear

    append using moms dads

    list

    clear

    use moms

    append using dads

    list

    1a

    2da

    o bien

  • F. VELA

    +-------------------------+ | famid age race hs |

    |-------------------------|

    1. | 3 24 2 1 |

    2. | 2 28 1 1 |

    3. | 4 21 1 0 |

    4. | 1 33 2 1 |

    5. | 1 21 1 0 |

    |-------------------------|

    6. | 4 25 2 1 |

    7. | 2 25 1 1 |

    8. | 3 31 2 1 |

    +-------------------------+

  • F. VELA

    En la ltima forma, se denomina al archivo moms.dta como la base de datos maestra

    (master) debido a que esta se encuentra activa

    en la memoria.

    Por su parte, a la base de datos dads.dta se le

    denomina la base de datos usuaria (using)

    dado que es la que se especifica despus de la sintaxis using.

    clear

    use moms

    append using dads

    list

  • F. VELA

    Sin embargo, al aadir los datos no se puede

    identificar la fuente de datos de donde

    provienen las observaciones.

    Para ajustar esto se puede emplear la siguiente

    sintaxis:

    clear

    append using moms dads,gen(datasrc)

    list, sepby(datasrc)

  • F. VELA

    +-----------------------------------+

    | datasrc famid age race hs |

    |-----------------------------------|

    1. | 1 3 24 2 1 |

    2. | 1 2 28 1 1 |

    3. | 1 4 21 1 0 |

    4. | 1 1 33 2 1 |

    |-----------------------------------|

    5. | 2 1 21 1 0 |

    6. | 2 4 25 2 1 |

    7. | 2 2 25 1 1 |

    8. | 2 3 31 2 1 |

    +-----------------------------------+

    Es posible considerar mltiples bases de datos y

    realizar el mismo procedimiento para aadir

    observaciones en una sola.

  • F. VELA

    Por ejemplo, considerando los archivos br_clarence.dta, br_isaac.dta y

    br_sally.dta, que contienen informacin

    sobre la revisin bibliogrfica de tres sujetos

    distintos para los mismos tres libros.

    dir br*.dta

    use br_clarence

    list

    clear

    append using br_clarence br_isaac br_sally,gen(rev)

    list, sepby(rev)

  • F. VELA

    dir br*.dta

    0.8k 6/26/11 15:22 br_clarence.dta

    0.8k 6/26/11 15:22 br_isaac.dta

    0.8k 6/26/11 15:22 br_sally.dta

    +--------------------------------------------------------------+

    | booknum book rating |

    |--------------------------------------------------------------|

    1. | 1 A Fistful of Significance 5 |

    2. | 2 For Whom the Null Hypothesis is Rejected 10 |

    3. | 3 Journey to the Center of the Normal Curve 6 |

    +--------------------------------------------------------------+