ANLISIS DE DATOS
CON STATA (Manejo de base de datos)
Fortino Vela Pen [email protected]
Agosto, 2011
mailto:[email protected]
F. VELA
Las bases de datos econmicos pueden ser de
diversos tipos:
1. Corte transversal (cross section).
2. Series de Tiempo (time series)
3. Combinacin de cortes transversales (pooling cross section)
4. Datos panel (panel data)
Las caractersticas particulares de cada tipo de datos deben ser consideradas a fin sacar provecho del anlisis que se realizara de estos datos.
Introduccin
F. VELA
Una base de datos de corte transversal
consiste en una muestra de individuos, hogares,
empresas, ciudades, estados, pases u otras
unidades, tomada en algn punto dado en el
tiempo (Wooldrige, 2010: 5).
Una de sus caractersticas ms importantes
radica que, en muchas ocasiones, se obtienen
de un proceso de muestreo aleatorio.
Constituye el tipo de datos con el que se inicia
el estudio del anlisis economtrico.
Corte transversal
F. VELA
Fuente: Tomado de Wooldridge, 2010: 7.
F. VELA
Una base de datos de series de tiempo
consiste de las observaciones de una o varias
variables a lo largo del tiempo (Wooldrige,
2010: 8).
Una de sus caractersticas ms importantes
radica que, rara vez, puede suponerse que las
observaciones sean independientes del
tiempo.
Constituye el tipo de datos ms comn en la
economa y su estudio es ms complejo.
Series de tiempo
F. VELA
Fuente: Tomado de Wooldridge, 2010: 9.
F. VELA
Al resultado de combinar diferentes cortes
transversales se le da el nombre de una base
de datos pooling.
Permite ampliar el tamao de la muestra.
Constituye el tipo de datos que permite analizar
los efectos de los cambios en polticas pblicas
al observar las diferencias que presentan las
variables en el tiempo.
Combinacin de cortes transversales
F. VELA
Datos panel
Un conjunto de datos de panel (o longitudinal)
consiste en una serie de tiempo por cada unidad
de una base de datos de corte transversal
(Wooldrige, 2010: 10).
Su caracterstica que los distingue de las
combinaciones de cortes transversales, es que
durante un intervalo de tiempo se siguen a las
mismas unidades de observacin de un corte
transversal.
F. VELA
Fuente: Tomado de Wooldridge, 2010: 9.
F. VELA
Las bases de datos se han constituido en una de las herramientas ms ampliamente difundidas en la actual sociedad de la informacin en todos los campos del conocimiento.
Dada la variedad de tpicos en diferentes
niveles de anlisis- que se captan en una base de datos est puede estar conformada por un conjunto de archivos en los que se distribuye la informacin obtenida de acuerdo con los temas considerados.
Las bases de datos
F. VELA
Existen cuatro comandos (mtodos) para
combinar bases de datos:
1. Aadiendo (appending).
2. Combinando (merging)
3. Juntando (joining)
4. Cruzando (crossing)
La versin 11 introduce una nueva sintaxis para el comando merge.
Combinando bases de datos1/
1/ Para estas notas es necesario obtener los archivos de datos dmus1 y dmus2 de net from http://www.stata-press.com/data/dmus,
en la forma net get dmus1 y net get dmus2. De igual manera, se requiere obtener de net from http://www.stata-
press.com/data/kk2, los archivos net get data y net get kksoep.
F. VELA
Los comandos ms utilizados son append y
merge.
Para nuestros fines, inicialmente podemos
considerar a una base de datos (archivo)
como un arreglo rectangular entre
observaciones (renglones) y variables
(columnas).
append aade observaciones (renglones) a
una base de datos.
merge se agregan variables (columnas) a
una base de datos.
F. VELA
id var1
1
2
3
4
5
id var1
6
7
8
9
10
archivo 1 archivo 2
id var1
1
2
3
4
5
id var2
1
2
3
4
5
archivo 3 archivo 4
Bases de datos en diferentes situaciones
id var1
1
2
3
4
5
id var2
1
9
10
5
3
archivo 5 archivo 6
id var1
1
1
1
2
2
id var2
1
2
3
4
5
archivo 7 archivo 8 (hogares) (individuos)
Caso 1: aadir observaciones
Caso 2: combinar variables
Caso 3: seguir observaciones y combinar variables
Caso 4: agregar obs. y aadir var. diferentes niveles
F. VELA
Appending
Parte de contar con bases de datos para las
mismas variables pero para observaciones
distintas.
Por ejemplo, moms.dta y dads.dta.
Cada base de datos contiene las mismas
variables pero para distintos individuos:
famid= identificador de la familia
age= edad
race= raza
hs= nivel de educacin de preparatoria
variable clave
F. VELA
use moms
list +-------------------------+
| famid age race hs |
|-------------------------|
1. | 3 24 2 1 |
2. | 2 28 1 1 |
3. | 4 21 1 0 |
4. | 1 33 2 1 |
+-------------------------+
+-------------------------+
| famid age race hs |
|-------------------------|
1. | 1 21 1 0 |
2. | 4 25 2 1 |
3. | 2 25 1 1 |
4. | 3 31 2 1 |
+-------------------------+
use dads
list
F. VELA
Se desea aadir a las observaciones en una
sola base de datos.
Existen dos formas de hacer esta tarea.
clear
append using moms dads
list
clear
use moms
append using dads
list
1a
2da
o bien
F. VELA
+-------------------------+ | famid age race hs |
|-------------------------|
1. | 3 24 2 1 |
2. | 2 28 1 1 |
3. | 4 21 1 0 |
4. | 1 33 2 1 |
5. | 1 21 1 0 |
|-------------------------|
6. | 4 25 2 1 |
7. | 2 25 1 1 |
8. | 3 31 2 1 |
+-------------------------+
F. VELA
En la ltima forma, se denomina al archivo moms.dta como la base de datos maestra
(master) debido a que esta se encuentra activa
en la memoria.
Por su parte, a la base de datos dads.dta se le
denomina la base de datos usuaria (using)
dado que es la que se especifica despus de la sintaxis using.
clear
use moms
append using dads
list
F. VELA
Sin embargo, al aadir los datos no se puede
identificar la fuente de datos de donde
provienen las observaciones.
Para ajustar esto se puede emplear la siguiente
sintaxis:
clear
append using moms dads,gen(datasrc)
list, sepby(datasrc)
F. VELA
+-----------------------------------+
| datasrc famid age race hs |
|-----------------------------------|
1. | 1 3 24 2 1 |
2. | 1 2 28 1 1 |
3. | 1 4 21 1 0 |
4. | 1 1 33 2 1 |
|-----------------------------------|
5. | 2 1 21 1 0 |
6. | 2 4 25 2 1 |
7. | 2 2 25 1 1 |
8. | 2 3 31 2 1 |
+-----------------------------------+
Es posible considerar mltiples bases de datos y
realizar el mismo procedimiento para aadir
observaciones en una sola.
F. VELA
Por ejemplo, considerando los archivos br_clarence.dta, br_isaac.dta y
br_sally.dta, que contienen informacin
sobre la revisin bibliogrfica de tres sujetos
distintos para los mismos tres libros.
dir br*.dta
use br_clarence
list
clear
append using br_clarence br_isaac br_sally,gen(rev)
list, sepby(rev)
F. VELA
dir br*.dta
0.8k 6/26/11 15:22 br_clarence.dta
0.8k 6/26/11 15:22 br_isaac.dta
0.8k 6/26/11 15:22 br_sally.dta
+--------------------------------------------------------------+
| booknum book rating |
|--------------------------------------------------------------|
1. | 1 A Fistful of Significance 5 |
2. | 2 For Whom the Null Hypothesis is Rejected 10 |
3. | 3 Journey to the Center of the Normal Curve 6 |
+--------------------------------------------------------------+