dostop do raziskovalnih podatkov v adp in ......izkoriščanje podatkov, ki jih je zbral nekdo drugi...
TRANSCRIPT
ADP delavnica
Irena Vipavc Brvar
ADP, Univerza v Ljubljani, marec 2013
DOSTOP DO RAZISKOVALNIH PODATKOV V ADP IN NJIHOVA ANALIZA
http://www.adp.fdv.uni-lj.si/
Vse
bin
a
Vsebina predavanja
• Splošno o arhivu in mikro podatkih
• Sekundarna analiza
• Metapodaki
• Dostop do metapodatkov in podatkov preko ADP
• Analiza podatkov v Nesstarju
• Mednarodne podatkovne baze
AD
P
Arhiv družboslovnih podatkov
je osrednji slovenski družboslovni arhiv podatkov,
pokriva vsa pomembnejša družboslovna področja,
Naloge:
shranjuje podatke iz preteklih raziskav za ponovno uporabo (zagotavlja, da so podatki ohranjeni pred tehnološko zastarelostjo in fizičnim uničenjem),
preveri, potrdi in pripravi podatke in pripadajočo dokumentacijo raziskave,
uporabnikom omogoča enostaven dostop do podatkov v številnih formatih in
nudi storitve s področja metodologije in statističnih obdelav.
”podatki” - računalniško berljive podatkovne datoteke
.. prepisi intervjujev, avdio in video zapisi
O p
od
atk
ih
Kaj so podatki?
Mik
ro p
od
atk
i Vprašalnik
Mik
ro p
od
atk
i
Seznam spremenljivk
Mik
ro p
od
atk
i
Podatki
Se
ku
nd
arn
a a
na
liza
Shematski prikaz paradigne sekundarne analize (Toš, 1988)
Se
ku
nd
arn
a a
na
liza
Sekundarna analiza
Uporabimo že zbrane podatke za testiranje hipotez in jih ne zbiramo sami.
Se nanaša na raziskovalno prakso, ki vključuje izkoriščanje podatkov, ki jih je zbral nekdo drugi ali podatkov, ki so bili primarno zbrani za nek drug namen (npr. administrativni zapisi).
Ključni elementi s katerimi se srečujemo so:
- dostop do podatkov in njihova uporabnost
- ohranjevanje zaupnosti in zasebnosti, ki jih je respondentom jamčil primarni raziskovalec
- lastninske pravice in lastništvo nad podatki
Se
ku
nd
arn
a a
na
liza
Razloge za uporabo sekundarne analize lahko razdelimo v tri skupine (Hayman v Štebe, 1999):
- Konceptualno-vsebinski razlogi (primerjava med različnimi časovnimi obdobji; že testirani vprašalniki; različni nameni uporabe)
- Metodološki razlogi (kombinacija več virov podatkov; slabost – nepoznavanje podrobnosti zbranih podatkov- kakovost)
- Ekonomski razlogi (prihranek denarja in časa)
Me
tap
od
atk
i
Metapodatki
Metapodatke lahko definiramo kot “vse informacije potrebne za obveščanje in procesiranje statističnih struktur”. (Grossmann v Vipavc in Klep, 2003).
Pri kakovostnem oblikovanju metapodatkovnih standardov imajo velik pomen uporabniki informacij.
razvoj standardov (DDI)
Mednarodna izmenjava opisov raziskav (zapis v XML)
Možnost analize podatkov
Meta
podatk
i Kaj hraniti
- podatke,
- spremljajočo dokumentacijo,
- informacije o vzorčenju,... podatke, ki se lahko zgubijo.
Spremljajoča dokumentacija naj vsebuje informacije kot izvor podatkov; kaj je bil osnovni namen zbiranja; kdo so bili avtorji in naročniki oz. sponzorji; kako so bili podatki zbrani; kakšni so pravni pogoji uporabe podatkov; opis spremenljivk; kako so bili podatki združeni – kodirna shema; v kakšnem formatu je hranjena računalniško berljiva podatkovna datoteka; na katerem mediju je hranjena.......
Opis
razis
kave
Standard na katerem temelji priprava vsebin za ADP je XML DDI (The Data Documentation Initiative).
Po tem standardu je kodirna knjiga sestavljena iz:
Opis dokumenta (Document Description)
Opis raziskave (Study Description)
- Naslov, avtor, izdelava in distribucija
- Vsebina raziskave
- Metodologija
- Dostop do podatkov
Opis podatkov (Data Files Description)
Opis spremenljivk (Variable Description)
Ostali dokumenti (Other Documentation)
Standard DDI 2.0
Motivacijski seminar, april 2009
ISK
AN
JE P
OD
AT
KO
V –
PO
SE
RIJ
AH
ISK
AN
JE P
OD
AT
KO
V –
OP
IS R
AZ
ISK
AV
E
ISK
AN
JE P
OD
AT
KO
V –
OP
IS R
AZ
ISK
AV
E
Opis spremenljivk Opis raziskave Opis podatkov Ostali dokumenti
ISK
AN
JE P
OD
AT
KO
V –
OP
IS R
AZ
ISK
AV
E
ISK
AN
JE P
OD
AT
KO
V –
OP
IS R
AZ
ISK
AV
E
ISK
AN
JE P
OD
AT
KO
V –
OP
IS R
AZ
ISK
AV
E
ISK
AN
JE P
OD
AT
KO
V –
OP
IS R
AZ
ISK
AV
E
ISK
AN
JE P
OD
AT
KO
V –
OP
IS R
AZ
ISK
AV
E
ISK
AN
JE P
OD
AT
KO
V –
OP
IS R
AZ
ISK
AV
E
ISK
AN
JE P
OD
AT
KO
V –
OP
IS R
AZ
ISK
AV
E
ISK
AN
JE P
OD
AT
KO
V –
OP
IS R
AZ
ISK
AV
E
Opis
razis
kave
NESSTAR je
virtualna podatkovna knjižnica, ki omogoča iskanje, lociranje, pregledovanje in snemanje mnogo raznovrstnih statističnih in drugih podatkov in metapodatkov.
Opis
razis
kave
Opis
razis
kave
Opis
razis
kave
Opis
razis
kave
Opis
razis
kave
Opis
razis
kave
Za analizo podatkov potrebujemo uporabniško ime in geslo za NESSTAR.
IZPOLNEM NAROČILO
REG
ISTRACIJA
_
1
2
3
REG
ISTRACIJA
_
!
Geslo je veljavno
do konca tekočega
študijskega leta
Pri uporabniškem
imenu namesto "@"
vpišete "AT“
Opis
razis
kave
Opis
razis
kave
Opis
razis
kave
Rezultate dvo dimenzionalnih tabel (predvsem, kadar
se število enot med skupinami razlikuje) prikazujemo
v odstotkih po neodvisni spremenljivki. Običaj je,
da se neodvisna spremenljivka (npr. spol) prikazuje v
stolpcu, odvisna pa v vrstici.
Opis
razis
kave
Opis
razis
kave
Iska
nje
Iskanje spremenljivke
Iska
nje
Okno za napredno iskanje
Iska
nje
Rezultat iskanja besede ZRTEV
Mednaro
dne ra
zis
kave
Dodamo še podatke iz mednarodne datoteke.
Ne pozabimo na ugodnosti, ki izhajajo iz mednarodnega sodelovanja arhivov!!
Ne pozabimo CITIRATI gradiva, ki smo ga uporabili.
Citiramo tako vprašalnike, kodirne knjige, kot tudi podatkovne datoteke.
Primeri citiranja so na razpolago v opisih raziskav. Seveda ga prilagodimo pravilom objave svojih gradiv.
Viri se navajajo tako na koncu kot pod samo tabelo ali grafom!
Kako citiram raziskavo?
Kos, Drago in skupina.
2005. Socialno prostorski vpliv
avtocest v Sloveniji,2002. Datoteka
podatkov. Univerza v Ljubljani,
Center za raziskovanje javnega
mnenja in množičnih komunikacij,
Center za prostorsko sociologijo.
Ljubljana: Arhiv družboslovnih
podatkov. Dostopno prek:
http://www.adp.fdv.uni-
lj.si/opisi/ceste02/ (3. marec 2013)
Kos, Drago in skupina. Socialno
prostorski vpliv avtocest v Sloveniji,
2002 [datoteka podatkov]. Ljubljana:
Univerza v Ljubljani. Center za
prostorsko sociologijo [izdelava].
Ljubljana: Univerza v Ljubljani. Arhiv
družboslovnih podatkov [distribucija
], junij 2005.
ADP: FDV:
GESIS – Leibniz Institute for the Social Sciences M
ED
NARO
DN
I PO
DATKI
•Mednarodna splošna družboslovna anketa
(ISSP)
•Evrobarometer
•Evrobarometer držav kandidatk
•Evrobarometer srednje in vzhodne Evrope
•Evropska raziskava vrednot (EVS)
MED
NARO
DN
I PO
DATKI
Mednaro
dne ra
zis
kave
Pomembnejše mednarodne raziskave
Prosto dostopne za raziskovalne namene ISSP – International Social Survey Programme Mednarodna splošna družboslovna anketa [1985 – 2004) – Vloga države; razumevanje vloge državljana – Družbeni stiki – Neenakost – Družina – Stališča o delu; odnos do dela – Raziskava o vernosti in cerkvi – Ekologija – Narodna identiteta
Mednaro
dne ra
zis
kave
EB – Eurobarometer [1975 – 2002)
CEEB – Central and Eastern EB [1990 – 1997]
Evrobarometer srednje in vzhodne Evrope
CCEB – Candidate Countries EB [2001 – 2004]
Evrobarometer držav kandidatk
Politične in ekonomske spremembe; Evropska unija; mediji; družbene razmere v državah kandidatkah; mladina v novi Evropi; kultura; identiteta in vrednote; Euro, širitev EU in finančne storitve; pokojninski sistem; zdravje; itd..
Mednaro
dne ra
zis
kave
EVS – European Values Study [1981, 1990, 1999)
http://zacat.gesis.org/webview/index.jsp
EES – European Election Study [2004]
CSES – Comparative Study of Electoral Systems [1996 – 2001, 2001 – 2005)
ESS – European Social Survey [2002, 2004)
ICVS – International Crime Victimisation Survey [1998 – 2000)
Motivacijski seminar, april 2009
Mednaro
dne ra
zis
kave
Pri analizi vzorčenih podatkov je zelo pomembno uteževanje. Omogoča, da damo različne uteži različnim enotam v zgodbi analize. Običajno se uporablja za popravek odklona od vzorca, ki naj bi predstavljal določeno populacijo.
Če ste, na primer, zmerili višino 50 moških in 10 žensk v določeni državi z enako spolno porazdelitvijo bo povprečna višina tega vzorca odstopala od povprečne višine v celotni populaciji, saj so moški običajno višji od žensk. Vzorec je zato potrebno utežiti in tako “približati” dejanski populaciji. Potrebno je torej zmanjšati vpliv moške večine v vzorcu. Višine moških množimo z 0,2, višine žensk pa z 1 (moški: 50*0.2=10, ženske: 10*1=10).
Mednaro
dne ra
zis
kave
V ESS sta ponujeni dve uteži,ki jih lahko uporabimo (velikokrat moramo):
- vzorčna utež (design weight - dweight). Kar nekaj držav vključenih v raziskavo ni moglo zagotoviti enake verjetnosti za vključitev posameznikov starejših od 15 let. Tako so v določenih državah bolj zastopani posamezniki iz določenih skupin (npr. posamezniki iz večjih družin) in drugi manj. Te "napake" odpravimo z vzorčno utežjo.
- populacijska utež (the Population Size weight - pweight). To utež uporabljamo pri primerjavi dveh ali več držav. Utež upošteva, da je večina držav vključenih v raziskavo imela enako velikost vzorca ne glede na velikost njihove dejanske populacije. Verjetnostna teorija namreč dokazuje, da je vzorec 1000 respondentov enako uporaben za državo z 10 milijoni prebivalci kot za države s samo 1 milijonom. Brez uteževanja bi združeni podatki nad-reprezentirali manjše države. Populacijska utež torej uvaja takšno prilagoditev, da je država predstavljena proporcionalno glede na svojo velikost.
Mednaro
dne ra
zis
kave
Pri prikazovanju tabel v odstotkih morate vedno uporabiti utežene podatke.
Osnovni pravili:
- vedno uporabimo vzorčno utež in
- kadar primerjamo podatke dveh ali več držav in kadar jih združujemo v skupine (npr. države članice EU) moramo uporabiti tako vzorčno kot populacijsko utež.
Mednaro
dne ra
zis
kave
Uteževanje
Mednaro
dne ra
zis
kave
Prednosti uporabe gradiv podatkovnih arhivov
Možnost kompleksnih analiz:
• domačih in tujih kontinuiranih raziskav
- vključevanje časovne komponente
- študij specializiranih populacij
• primerjalnih mednarodnih datotek
- večnivojska analiza
- upoštevanje merske kvalitete spremenljivk
Problemi mednarodnih anket
• Princip ekvivalence – Jowel: How comparable is comparative research?
• Heterogenost populacije že na nacionalnem nivoju (jezik, običaji izražanja, izobrazba) – mednarodne razlike v sistemih razmišljanja, institucionalnih okvirih in vrednotah
• Metodološki enotni standardi, prevajanje vprašalnikov
Me
dn
aro
dn
o p
rime
rjaln
o ra
zis
ko
va
nje
Eden od osnovnih ciljev mednarodnega primerjalnega raziskovanja je primerjava konceptov med državami oz. kulturami. Zato je pomembno, da so ti koncepti, v vseh državah vključenih v raziskavo, merjeni na ustreznen način.
Še več, zato, da se lahko naredi ustrezna primerjava lestvice, morajo biti koncepti merjeni na ustrezno primerljiv način.
(J. Billiet, 2004)
(....primeri napačnih prevodov)
Pris
top
k ra
zis
ko
va
nju
PRISTOP K RAZISKOVANJU
Raziskovanja in samo-izobraževanja o raziskovalnih tehnikah se najlažje naučimo skozi zglede. Le-te nam že nudijo večji raziskovalni centri in arhivi.
Nekaj uporabnih povezav:
- ESS EDUNET
(Nudi okolje raziskovanja teoretičnih vprašanj z empiričnimi podatki. Razviti moduli: Imigration, Well-being, Family, gender and work, Human values in Social and political trust.)
- How to guide: Survey Data Analysis for your Dissertation
(Vključuje napotke kako se lotiti raziskovanja, povezave na podatkovne datoteke, postopke analize (celo nekaj programskih stavkov v SPSS).)
- Analyses guide
(Primeri podatkovnih analiz s programom STATA, SPSS, predstavi problem uteževanja, analiza časovne vrste..)
Pris
top
k ra
zis
ko
va
nju
PRISTOP K RAZISKOVANJU
Poslužujmo se javnih virov podatkov, čeprav agregatnih.
- Ministrstvo za pravosodje – sodna statistika
- Ministrstvo za notranje zadeve
- Statistični urad RS (letopis, statistične informacije)
Čla
nki
Primeri člankov
Na internetu najdemo številne članke, ki vključujemo empirične podatke.
Na tem mestu povezujemo nekatere. S tem bi vaš želeli podučiti o količini tabel, grafov, ki jih avtorji uporabljajo in v splošnem na sestavo članka.
- Mills, Melinda in drugi (2008): Gender equality and fertility intentions in Italy and the Netherlands (na podlagi ESS podatkov)
- Ferrati Giulia in Dalla Zuanna Gianpiero (2010): Siblings and human capital: A comparison between Italy and France
- Martin, Valerie, Mills, Melinda in Le Bourdais Celine: The Consequences of Parental Divorce in the Life Course: Outcome o Canadian Children (na podlagi Canadian General Social Survey)
Prim
er
Kako NE prikazujemo podatkov
Vir: Sodna
statistika 2007
Za dodatna pojasnila smo dostopni na
VA
JA
1. Na Nesstarju poišči eno od raziskav iz serije SJM.
2. Iz seznama spremenljivk si izberi spremenljivko, ki ima vsaj štiri vrednosti.
3. Izbrano spremenljivko smiselno rekodiraj tako, da bo nova spremenljivka vsebovala največ tri vrednosti.
4. Naredi tabelo, kjer bo v stolpcu spremenljivka “spol”, v vrstici pa na novo rekodirana spremenljivka.
5. Tabelo izvozi v Excel.
6. Zgornjo tabelo prikaži z enim od grafičnih prikazov (v stolpcih, tortni diagram..)
7. Sliko izvozi v .pdf.
8. Najdi spremenljivko tudi v drugih raziskavah. Naredi primerjavo.
Uporabniško ime in geslo pridobim v ADP.
VA
JA
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
... s podobnim narodnostnim izvorom, kot ga
ima večina prebivalcev Slovenije?
... z drugačnim narodnostnim izvorom, kot ga
ima večina prebivalcev Slovenije?
... iz bogatejših evropskih držav?
... iz revnejših evropskih držav?
.. iz bogatejših držav zunaj Evrope?
... iz revnejših držav zunaj Evrope?
Naklonjenost do priseljencev
mnogim naj dovoli priselitev nekaterim naj dovoli zelo redkim naj dovoli nikomur naj ne dovoli
Vir: SJM022
VA
JA
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
... s podobnim narodnostnim izvorom, kot ga
ima večina prebivalcev Slovenije? 2002
... s podobnim narodnostnim izvorom, kot ga
ima večina prebivalcev Slovenije? 2008
... z drugačnim narodnostnim izvorom, kot ga
ima večina prebivalcev Slovenije? 2002
... z drugačnim narodnostnim izvorom, kot ga
ima večina prebivalcev Slovenije? 2008
... iz revnejših držav zunaj Evrope? 2002
... iz revnejših držav zunaj Evrope? 2008
Naklonjenost do priseljencev 2
mnogim naj dovoli priselitev nekaterim naj dovoli zelo redkim naj dovoli nikomur naj ne dovoli
Vir: SJM022 in SJM081
VA
JA
Naklonjenost do priseljencev iste narodnosti
Vir: ESS02
VA
JA
Naklonjenost do priseljencev druge narodnosti
Vir: ESS02