proaktiv datainsamling med mått som beskriver .../menu/standard... · proaktiv datainsamling med...

54
Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015 Peter Lundquist och Carl-Erik Särndal SCB och Stockholms universitet 1 Version 2015-04-18 PL

Upload: others

Post on 20-Jun-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Proaktiv datainsamling

med mått som beskriver

svarsmängdens kvalitet

SUREC-kurs, Stockholms universitet, 20/4-2015

Peter Lundquist och Carl-Erik Särndal

SCB och Stockholms universitet

1

Version 2015-04-18 PL

Page 2: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Disposition: Kurs

1. Surveybakgrund

Allmänt om bortfall, hjälpvariabler och deras roll

2. Datainsamling och Estimation

Datainsamling som tidsberoende process, begreppet

obalans, estimationsfasen

3. Proaktiv (monitored) datainsamling

Kontroll och ingrepp i datainsamlingen, experiment,

empiriska och teoretiska resultat

4. Avslutande kommentarer

2

Page 3: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Surveybakgrund

1. Allmänt om bortfall i survey undersökningar

2. Hjälpvariablerna och deras roll

3. Exempel

3

Page 4: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Debatt nyligen om bortfall,

med början i DN 2015-01-18

Några inslag:

• ”SCB slår larm om bortfall” : Rubrik in DN 2015-01-18

• Privata surveyinstitut (Inizio, Novus) medverkar; DN

2015-01-28

• Projektledaren för SCB:s bortfallsprojekt intervjuad,

Sveriges Radio c:a 2015-02-15; målet: Komma

tillbaks till 70- o 80-talens bortfallsnivåer

• SCB:s metodexperter förklarar ”hur SCB gör” SvD

2015-03-03

4

Page 5: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Debatten nyligen om bortfall, med början i

DN 2015-01-18

5

Page 6: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Bakgrund till vår kurs

Höga krav på svarsandelen från kunder/användare

• Det är kostsamt för SCB att öka svarsandelen.

(Effektivisering och bättre kontroll av datainsamlingen

behövs; Responsive design.)

• Viktigt att öka kunskapen om och inse nyttan av

indikatorer som bättre beskriver resultatet av

datainsamlingen än bara (vägd eller ovägd) svarsandel.

(Risk för bias i skattningarna av målvariablerna.)

• Studier på AKU, HEK och ULF väcker frågor kring

dagens datainsamlingsstrategier.

(Indikatorer har signalerat att vi behöver förbättra

rutinerna för datainsamlingen)

6

Page 7: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Typ av undersökning

Individundersökningar

• Metodiken som vi ska beskriva är tillämpad främst

på individundersökningar, men går även att

använda på andra typer (företag, organisationer,

skolor osv.)

• Vi fokuserar på individundersökningar; det är för

sådana vi har gjort våra studier.

• Bortfallet är i regel betydligt högre – därmed ett

mer akut problem – i individundersökningar

7

Page 8: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

8

Partiellt- eller objektsbortfall

X=observerade data, O=saknade data

Register variabler Målvariabler

Urvals-

enhet

1 2 1 2 3 4

1 X X X X X X

2 X X X X X O

3 X X X X O X

4 X X X O O X

5 X X X X X X

6 X X O O O O

partiellt

objekt

Page 9: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Med bortfall menar vi här objektsbortfall

Objektsbortfall

Urvalsenheten (individen) svarar inte på undersökningen.

Partiellt bortfall

Formuläret eller enkäten är ofullständigt besvarad, dvs.

svar saknas på en eller flera frågor.

I denna kurs: Bortfall = objektsbortfall.

Bortfall = data saknas eller kan inte hittas

9

Page 10: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Ett historiskt perspektiv

Klassiskt exempel på felprognos

• Landon mot Roosevelt

i USA:s presidentval 1936

• Literary Digest hade korrekt förutsett vinnaren i de fem

senaste valen, men här blev det fel

• 10M enkäter utskickade, 2.3M kom in

• Literary Digest läsare

• Register av bilägare och telefonabonnenter

10

Page 11: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Hansen-Hurwitz planen 1946

I första fasen används en billigare datainsamlings-

metod (t.ex. postenkät). Bland icke-svarande dras

sedan ett suburval, oftast med en dyrare

datainsamlingsmetod (intervjuarledd insamling).

Om det hela görs rätt och man lyckas få in svar av alla

i andra fasen kan en väntevärdesriktig estimator

konstrueras. (Svagheten givetvis: Att alla i andra

fasen svarar.)

Denna metod har inspirerat mycket av det som görs

idag. Den används i mixed-mode undersökningar och i

responsive design.

11

Page 12: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Bortfallets utveckling över tiden

12

19

70

19

77

19

84

19

88

20

05

0

5

10

15

20

25

30

1963 1970 1977 1984 1991 1998 2005 2012

%

År

Bortfallsandelar i AKU 1963-2013

Totalt Ej anträffad Avböjd medverkan Övrigt

Page 13: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

13

Orsaker till bortfall

Några vanliga skäl:

• Man misslyckas med att hitta/identifiera urvalspersonen

• Man misslyckas med att få kontakt med urvalspersonen

• Urvalspersonen vägrar att svara

• Urvalspersonen är förhindrad att medverka (sjuk, bortrest etc.)

• Språkproblem

• Frågeformuläret går förlorat

Kan ni komma på något mer?

Page 14: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

14

Beräkningar av svarsandelen

Svensk standard för bortfallsberäkningar *

Sedan 2005 finns en svensk standard för

bortfallsberäkningar.

Den har tagits fram av Svenska statistiker-

samfundets surveysektion i samarbete med

representanter från statistikansvariga myndigheter,

olika opinions- och marknadsundersökningsföretag

samt från universitetssektorn.

AAPOR: http://www.aapor.org/uploads/Standard_Definitions_07_08_Final.pdf

*Bortfallssnurran: http://www.statistikframjandet.se

Page 15: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

15

n Urvalet

Datainsamling

nS

Svar

(S)

Komponenter i bortfallsberäkning

nB

Bortfall

(B)

nO

Okänd status

(O)

Övertäckning

(Ø)

nF

Fullständiga svar

(F)

nP

Partiella svar

(P)

Page 16: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Management/ planering

Metodik / design

IT / infrastruktur

Internt/ externt

varumärke

Samhälle

Denna grafik från ett projekt på SCB redovisar projektgruppens syn; ska betraktas som ett exempel på hur man kan systematisera synen på bortfall i den egna organisationen.

Bortfallsfaktorer enligt SCB

16

Page 17: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Vårt arbete en del i tårtan

• Vårt arbete är inriktat på metodik/design, främst för

att få en bra svarsmängd

• SCB har projekt (inom ramen för Bortfallsprojektet)

som riktar in sig på andra faktorer än de som vi tar

upp i den här kursen. (Andra tårtbitar)

17

Page 18: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

18

Varför bortfall är skadligt

Varje objekt i urvalet har en känd urvalssannolikhet

Grunden för statistisk inferens är

uppfylld

Bortfall förstör detta!

Sannolikheten för ett objekt att ingå i den slutliga

svarsmängden är produkten av urvalssannolikheten och

sannolikheten att svara (som är okänd, om den existerar).

Stickprovet är troligen inte längre

representativt eller balanserat;

följden blir bias

Page 19: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Effekter av bortfall

Sämre precision

Skattningens precision blir sämre än planerat eftersom

färre observationer kommer in. Förebyggs genom att ta till

större urval från början.

Systematiskt fel (bortfallsbias)

Värre är att bortfallet kommer att ge en skev (biased)

skattning av undersökningsvariabeln om egenskapen att

svara är korrelerad med undersökningsvariabeln.

Vanligtvis många undersökningsvariabler, och bland dem

troligen både sådana som påverkas och sådana som inte

påverkas av bortfallet (se Groves 2006).

19

Page 20: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

20

Meta-Analys av bortfallsstudier

• Ca 30 studier, några med flera olika skattningar

• Alla har y-data för hela stickprovet s

• Absolutvärdet av det skattade borfallsfelet (i procent) är

(r är svarsmängden från urvalet s )

Groves (2006) : Nonresponse Rates and Nonreponse Bias

s

sr

y

yy 100

Page 21: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

21

0

10

20

30

40

50

60

70

0.0 20.0 40.0 60.0 80.0

Nonresponse Rate

Perc

en

tag

e A

bso

lute

Rela

tive B

ias o

f

Resp

on

den

t M

ean

Groves (2006) Nonresponse Rates and Nonreponse Bias

Page 22: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

22

Groves’ slutsatser

• Bortfallsfel (bortfallsbias) förekommer!

• Svarsprocenten i sig är ingen bra indikator på

bortfallsfelet

• Utan studier av bortfallsfelet är det svårt att veta

om bortfallet är ett problem i en undersökning

Vi återkommer till dessa punkter under dagen.

Groves (2006) Nonresponse Rates and Nonreponse Bias

Page 23: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Bortfall – deterministisk syn

Bortfall

Svarande

Population

N objekt

NNR objekt

NR objekt

Populationen består av de som alltid svarar

och de som aldrig svarar.

En deterministisk syn som var vanlig när bortfallet

var ”litet”

23

Page 24: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Bortfallsfel - deterministisk

NRNR

RR

U yN

Ny

N

Ny

)()( NRRNR

R yyN

NyAvvikelse

Bortfallsfelet är alltså en funktion av bortfallsandelen och

skillnaden mellan de som alltid svarar och de som aldrig

svarar.

Notera: Populationsandelar

24

Page 25: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

EXEMPEL

Antag att 72% alltid svarar:

Den genomsnittliga inkomsten för de som alltid svarar:

Den genomsnittliga inkomsten för de som aldrig svarar:

Bortfallsfel - deterministisk

202000Ry

8400)172000202000()72,01()( RyAvvikelse

72,0N

NR

172000NRy

Vi överskattar alltså inkomsten. Frågan är om 8400 SEK är mycket?

SEK

SEK

25

Page 26: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Bortfall som kvantifierad variabel

• För varje individ i stickprovet inträffar (och noteras)

antingen svar eller icke-svar (bortfall); för den förra

kategorin kan målvariabel-värdet 𝑦𝑘 också noteras.

• För varje individ är det vanligen i förväg okänt om svar

eller icke-svar ska bli fallet.

• Vi kvantifierar en svarsindikatorvariabel så här:

26

svarar inte individ om0

svarar individ om1

k

kIk

Page 27: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Informationen vi har att jobba med i bortfallssituationen

Svarsindikatorn 𝑰𝒌 : För varje individ i stickprovet

Målvariabeln 𝒚𝒌 : För varje svarande individ.

Hjälpinformationen 𝐱𝒌 : För varje individ i stickprovet

(ev. i hela populationen)

27

Page 28: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Bortfallsmekanism

En del bidrag till litteraturen baserar sig på en stokastisk

bortfallsmekanism, en som kan innehålla bl.a. en tänkt

bortfallssannolikhet för varje individ i populationen, eller

för varje individ i stickprovet (då kanske beroende på

stickprovet som hade råkat realiseras).

Vi använder inte bortfallsmekanismer eller bortfalls-

sannolikheter i denna kurs. De behövs inte för vår

framställning här.

28

Page 29: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

29

Hantering av bortfall

(1) Minska risken: försöka designa undersökningen så att

bortfallet är lågt (kan vara dyrt och svårt), eller i varje

fall agera så att svarsmängden blir väl balanserad

(2) Använd modeller för att justera vikterna i

estimationen.

(3) Ignorera bortfallet (Låtsas som om det vore

slumpmässigt: Förkastligt beteende)

Vi fokuserar på (1) och är medvetna om att det finns massor av saker som kan behandlas i en kurs om bortfall, saker som görs inom bortfallsområdet men som vi inte tar upp. Som vi ska se finns en naturlig koppling i vårt arbete mellan (1) och (2).

Page 30: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Bortfallsreducerande åtgärder

• Belöningar

• Fler kontaktförsök

• Kortare intervju

• Byte av insamlingsmetod

• Byte av intervjuare

• Smartare utnyttjande av process- och registerdata

• Kontaktstrategier

• ...

OBS: Vi vet inte om en högre svarsandel är ”bättre”

ur synpunkten ”reducerat bortfallsfel”.

30

Page 31: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Återkontakter (intervjuarledda)

31

Alla “bra” undersökningar genomför mer än ett

kontaktförsök för att få svar från hittills ej anträffade

urvalspersoner. Analys av återkontakter kan ge

information om bortfallsfelet bland de kvarvarande

individerna I bortfallet.

En hel del arbete inom det här området har genomförts

på ESS (European Social Survey) *.

*Se t.ex. Stoop, Billiet, Koch, and Fitzgerald (2010)

Page 32: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Adaptiv/Responsive design

Två begrepp: responsive design är ett specialfall av adaptiv design (Schouten, Bethlehem & Cobben).

• Vilken av designerna man använder bestäms av valen i samband med planeringen av datainsamlingen.

• I båda fallen ges urvalsenheterna ”olika” behandling för att ”maximera svarskvaliteten” till en given kostnad.

• Metoderna är begränsade till behandlingar som är kontrollerbara och använder observerbara data.

32

Page 33: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Adaptiv/Responsive design

Synsättet bygger på att populationen (individerna, företagen

etc.) är heterogen i sitt svarsmönster och att kostnaderna att

få en intervju varierar mellan objekten i populationen.

Objekten föredrar också olika kommunikationssätt med

datainsamlingsavdelningen.

En adaptiv design tar hänsyn till detta genom att tillåta olika

kontaktstrategier för olika delgrupper i populationen. Genom

att använda hjälpinformation (register och processdata) under

datainsamlingen kan delgrupperna ges olika behandlingar.

33

Page 34: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Adaptiv/Responsive design

Detta betyder också att en adaptiv design använder

hjälpinformation för att justera dels svarsmängden under

insamlingsfasen, dels estimaten i den efterföljande

estimationsfasen. Notera att adaptiv design tar inte bort

behovet av omsorgsfull estimation efter avslutad

datainsamling; den är fortfarande nödvändig!

En viktig designfaktor är datainsamlingsmetoden. Idag, med

ökande bortfall och stigande kostnader, är en mixed-mode

design tänkbar för surveyorganisationen. Denna typ av

design är i regel att betrakta som adaptiv.

34

Page 35: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Adaptiv/Responsive design

Adaptiv design (medicin, Thompson & Seber)

• Behandlingarna är bestämda i förväg men kan också

uppdateras under datainsamlingen

• En statisk adaptiv design utnyttjar objektens egenskaper

(från RTB, IoF etc.) för att bestämma behandlingarna innan

datainsamlingen

• En dynamisk adaptiv design använder processdata (och ev.

register) för bestämma behandlingarna

• Har (i förväg) bestämda faser under datainsamlingen

• När en fas har uppnått det bestämda målet är fasen klar

och man byter till nästa fas eller avslutar insamlingen

35

Page 36: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Adaptiv/Responsive design

Responsive design (Groves & Heeringa 2006)

• Delar in datainsamlingen i minst två faser

• Identifierar lämpliga behandlingar under

datainsamlingens första fas (processdata utnyttjas)

• När en fas har uppnått ett bestämt mål är fasen klar,

och man byter till nästa fas eller avslutar insamlingen

Responsive design används då inte mycket är känt i förväg

om stickprovet eller behandlingarna. Efter första fasen liknar

detta upplägg en adaptiv design.

36

Page 37: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

1.2 Bortfallssituationen,

de tillgängliga data,

speciellt hjälpvariablerna

37

Page 38: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Population (U)

Svarsmängd (r)

Urval (s)

Det här är vår situation : U s r

population urval svarsmängd

38

Page 39: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Viktiga termer och begrepp

i det som följer Målpopulationen 𝑈 = {1,… , 𝑘, … , 𝑁} består av N individer

(objekt) indexerade 𝑘 = 1, 2, … ,𝑁.

Ett sannolikhetsurval s dras från U så att individ k har den

kända inklusionssannolikheten 𝜋𝑘 = 𝑃 𝑘 ∈ 𝑠 > 0.

Om variabeln y är vår målvariabel så vill vi skatta

populationstotalen 𝑌 = 𝑦𝑘𝑈 .

Vi skriver Σ𝐴 för summan Σ𝑘∈𝐴 där A är en mängd

individer 𝐴 ⊆ 𝑈.

39

Page 40: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Sannolikhetsurval med lika urvalssannolikheter

(som t.ex. OSU = obundet slumpmässigt urval)

• N = storleken på populationen, U

• n = storleken på stickprovet s

• designvikt 𝑑𝑘 = 𝑁/𝑛 för alla objekt 𝑘 ϵ 𝑠

• m = storleken på svarsmängden r

Exempel

svarsandelen nmdIdPs ks kk //

40

Page 41: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Viktiga termer och begrepp

• Balanserad svarsmängd (definition)

• Svarsmängdens obalans (mätbar storhet)

• Representativitet hos svarsmängden (mätbar)

• Svarsintensitet (mätbart instrument för att

övervaka datainsamlingen)

Alla bygger på en hjälpvektor x kolumnvektorn: [Jx1]

känd för hela urvalet

41

Page 42: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Bortfall försvårar

teoretiska framsteg därför att

• Vi inte vet hur r genererades ifrån s

• Svarssannolikheter är okända

(om sådana överhuvudtaget anses existera)

• Väntevärdesriktig estimation omöjliggörs

• Vi inte kan anta att r är en slumpmässig delmängd

från s

• inte ens givet en x-vektor; det som kallas MAR

(Missing At Random)

• Situationen är alltid det som kallas NMAR

(Not Missing At Random)

För MAR och NMAR se t.ex. Little och Rubin (2002)

42

Page 43: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Variabler vi har till förfogande :

Målvariabel (en av flera): 𝑦𝑘 observerad för 𝑘 ∈ 𝑟

Hjälpvektor: 𝐱𝑘 känd alla 𝑘 ∈ 𝑠 (ev. alla 𝑘 ∈ 𝑈)

Svarsindikator: 𝐼𝑘 observerad för 𝑘 ∈ 𝑠

= sticksprovsmedeltalet för 𝑰𝒌

s kr ks ks kk dddIdP //Svarsandel:

43

Låt oss ta några exempel på hjälpvektorer.

Hjälpvariablerna är kontinuerliga eller kategoriska;

det senare är ofta fallet

Page 44: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Exempel 1:

x-vektor med fullständigt korsade grupper

Utbildning (hög/låg; 2 grupper) × äger fastighet (ja eller nej;

2 grupper) × födelseland (Sverige eller annat; 2 grupper)

Då blir x-vektorns dimension

J = 2 × 2 × 2 = 8

Och x-vektorn har precis 8 möjliga värden, för den enda

”ettan” i vektorn kan finnas på 8 möjliga ställen

𝐱𝑘 = (0, 0, … , 1, … , 0, 0)′

44

Page 45: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Exempel 2:

x-vektor med fullständigt korsade grupper

ålder (4 grupper) × kön (2 grupper) × region (5 grupper)

Då blir x-vektorns dimension

J = 4 × 2 × 5 = 40

Och x-vektorn har precis 40 möjliga värden, för den enda

”ettan” i vektorn kan finnas på 40 möjliga ställen

𝐱𝑘 = (0, 0, … , 1, … , 0, 0)′

45

Page 46: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Exempel 3: Lite krångligare med

icke-korsade egenskaper i x-vektorn

Educ (2) x Owner (2) x Origin (2) (dessa tre korsade)

Phone (2) ; Age (4) ; Civil (2) ; Gender (2)

𝐱 = ( 𝐸𝑑𝑢𝑐 × 𝑂𝑤𝑛𝑒𝑟 × 𝑂𝑟𝑖𝑔𝑖𝑛 + 𝑃ℎ𝑜𝑛𝑒 + 𝐴𝑔𝑒 + 𝐶𝑖𝑣𝑖𝑙 + 𝐺𝑒𝑛𝑑𝑒𝑟)

Age kodas med någon av (1,0,0) , (0,1,0), (0,0,1), (0,0,0)

Denna x-vektor har ”bara” dimension 14

J = (2 × 2 × 2) + 1 + 3 + 1 + 1 = 14

men den har 256 möjliga värden:

2 × 2 × 2 × 2 × 4 × 2 × 2 = 256

fast alla kanske inte finns representerade i ett datamaterial.

Det gör egentligen inget, bara matrisen (som vi kommer till)

kan inverteras. 46

Page 47: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Olika typer av hjälpvektorer

(vanligen kallade x-vektorer)

Monitoringvektorn ”övervakningsvektorn”

x-variablerna utvalda för balansering av datainsamlingen

Kalibreringsvektorn

x-variablerna utvalda för användande i estimationen

Hur vektorerna ser ut bestäms av valda strategier för

datainsamling och efterföljande estimation. Man kan

använda samma vektor i båda, men justeringar av

vektorn med hänsyn till datainsamlingen kan behövas.

47

Page 48: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

48

Kalibrering

Kalibrerad viktning är numera att betrakta som

standard i viktiga SCB-undersökningar.

Tack vare att under de senaste två decennierna

vidareutvecklades ”den gamla metodkunskapen”,

med namn som ”poststratifiering” och ”raking ratio”,

enkla specialfall kända sedan 1940-talet.

Se vidare Lundström och Särndal (2005)

Page 49: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Hur väljer man en effektiv hjälpvektor?

Riktlinjer

främst för estimationen men även för datainsamlingen

(beroende på vilken datainsamlingsstrategi man väljer)

Hjälpvektorn ska :

1. Förklara ”benägenheten” att svara.

2. Förklara centrala målvariabler.

3. Identifiera de viktigaste redovisningsgrupperna.

Från Lundström och Särndal (2005)

49

Page 50: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Exempel: logit-modell för variabeln svar Parameter Parameterskattning Pr > ChiSq.

Intercept 0.22 0.0604

Ålder ≤ 24 0.86 <.0001

Ålder 35-64 -0.03 0.6812

Ålder 65-74 0.36 0.0025

Ålder ≥75 0.31 0.0172

Född i Sverige 0.25 0.0010

Kvinna 0.28 <.0001

Anställd 0.20 0.0113

Gift 0.34 <.0001

Storstad -0.31 <.0001

Ersättning (soc/stöd) -0.42 0.0060

Fastighet 0.22 0.0005

Hög utbildning 0.38 <.0001

50

ULF 2009

Page 51: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

För estimationen : Stegvis selektion

med indikator

Ett verktyg för val av hjälpvariabler för

kalibreringsvektorn i estimationen :

där

Indikatorn 𝐻3 beror inte på 𝑦 (ofta en fördel)

Vi återkommer i nästa avsnitt till kalibreringsestimatorn.

Se t.ex. Särndal and Lundström (2010)

2/1

;

;

2/1

3 11

dr

ds

r k

r kk

s k

s kk

m

m

d

md

d

mdH

kr kkks kkk ddm xxxx1)()(

51

Page 52: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

Steg Inkluderad variabel H310

3

0 (trivial) 0

1 TELEPHONE (2) 211

2 COUNTRY OF BIRTH (2) 227

3 SOCIAL ALLOWANCE (2) 240

4 EDUCATION LEVEL (2) 251

5 AGE CLASS (6) 260

6 INCOME CLASS (5) 266

7 CIVIL STATUS (2) 271

8 PROPERTY OWNERSHIP (2) 273

9 IMMIGRATION AFTER 2000 (2) 275

10 SEX (2) 278

11 GEOGRAPHICAL REGION (3) 279

Stegvis selektion, indikatorn 𝑯𝟑

52 ULF 2009

Page 53: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

53

Vad uppnås med viktjusteringen ?

Vi vill ”justera skattningarna” genom kalibrerad viktning, för att

minska bortfallets snedvridande inverkan. Kan vi det?

Ja, det går och är effektivt, i de flesta fallen

Om hjälpvektorn har samband med målvariabeln (från tämligen

svagt till starkt), då minskas bortfallets snedvridande effekt. Det

kan vara med stora belopp, om sambandet starkt.

Men om hjälpinformationen har mycket svagt samband så kan

felet öka (fast inte mycket). Vi ska se empiriska exempel på

det.

I Skandinavien har vi ”massor” av hjälpvariabler att ta till, så

problemet med ökande fel uppstår knappast.

Page 54: Proaktiv datainsamling med mått som beskriver .../menu/standard... · Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015

SLUT PÅ DEL 1

54