m. russo - la strategia di campionamento dell’indagine di copertura del 15° censimento generale...
DESCRIPTION
La misurazione della qualità del 15° Censimento generale della popolazione e delle abitazioni: i risultati dell’indagine di copertura (PES)TRANSCRIPT
La strategia di campionamento
dell’Indagine di copertura
del 15° Censimento generale della
Popolazione e delle Abitazioni
Monica Russo
27 giugno 2014
Obiettivi dell’indagine e parametri di interesse
L’indagine di copertura – o Post Enumeration Survey (PES) – è
un’indagine condotta in connessione con il 15° Censimento generale
della Popolazione e delle Abitazioni ed è volta alla determinazione degli
errori per eccesso (sovracopertura) o per difetto (sottocopertura)
intervenuti nel conteggio censuario.
Per i fini sopra delineati i parametri di popolazione oggetto di stima più
importanti sono:
• il tasso di copertura, espresso come rapporto tra il numero di unità
enumerate al Censimento (al netto della sovracopertura) e la
dimensione effettiva della popolazione,
• il tasso di sottocopertura, dato dal rapporto tra il numero di unità
sfuggite all’enumerazione censuaria (al netto della sovracopertura) e
la dimensione effettiva della popolazione.
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
1
La popolazione obiettivo e i domini di interesse
La popolazione obiettivo della PES 2011 è costituita dagli individui
residenti in abitazioni esistenti nel territorio nazionale (escluse le
convivenze) alla data del 9 ottobre 2011.
La finalità primaria dell’indagine in esame è l’ottenimento delle stime dei
predetti parametri con riferimento ai seguenti ambiti territoriali:
• l’intero territorio nazionale,
• le regioni geografiche e le Province autonome di Trento e Bolzano.
Inoltre, è prevista la determinazione delle suddette stime relativamente a:
(i) domini territoriali sub-regionali (le province) e sub-provinciali (i tredici
comuni metropolitani); (ii) domini di studio costituiti da individui classificati
secondo l’età (in classi) e la nazionalità. Essendo questi ultimi domini non
pianificati, la precisione delle stime ad essi inerenti può essere migliorata
sia introducendo una post-stratificazione nello stimatore studiato per
l’indagine, sia attraverso l’adozione di stimatori speciali per piccole aree.
Questi domini di studio rappresentano comunque un obiettivo secondario.
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
2
Il disegno di campionamento
() La PES 2011 adotta un disegno di campionamento di tipo areale a due
stadi di selezione:
il primo stadio è costituito dai comuni, stratificati in base al
concatenamento delle regioni geografiche (le Province autonome di
Trento e Bolzano sono trattate come regioni a sé) e delle 5 classi di
dimensione demografica dei comuni secondo le modalità:
- meno di 5.000 ab.
- tra 5.000 e 10.000 ab.
- tra 10.000 e 20.000 ab.
- tra 20.000 e 100.000 ab.
- oltre 100.000 ab. e i 13 comuni metropolitani (Torino, Genova, Milano,
Venezia, Bologna, Firenze, Roma, Napoli, Bari, Palermo, Catania,
Cagliari e Messina);
le unità di secondo stadio sono invece rappresentate dalle sezioni di
Censimento, stratificate in base alla dimensione demografica delle
sezioni in 3 modalità definite dai terzili della distribuzione della
popolazione di sezione; tutti gli individui appartenenti alle sezioni
campione vengono enumerati.
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
3
Il disegno di campionamento
() Determinato il n° totale e per strato di individui campione, 𝑛 e 𝑛ℎ, in funzione
degli errori attesi delle stime del tasso di copertura, si definisce il n° di
comuni campione per strato ℎ (ℎ = 1, … ,𝐻), 𝑚ℎ, in modo da rispettare la
condizione che il valore atteso del n° di individui campione relativo al
generico strato ℎ sia uguale al n° programmato; in simboli
𝑁ℎ𝑐𝑗 𝜋ℎ𝑐𝑗𝑗∈𝑐
= 𝑛ℎ𝑐∈ℎ
in cui: 𝑐 ed 𝑗 denotano rispettivamente gli indici di comune e sezione; 𝑁ℎ𝑐𝑗 è
il n° di individui residenti nella generica sezione 𝑗 del comune 𝑐 dello strato
ℎ; 𝜋ℎ𝑐𝑗 è la probabilità di inclusione della sezione 𝑗 del comune 𝑐 dello strato
ℎ; 𝑠ℎ𝑐 = 𝑠ℎ = 𝑛 ℎ 𝑁ℎ 𝑆ℎ è il n° minimo di sezioni campione per comune
campione, determinato attraverso una procedura di tipo iterativo, facendo
variare il n° minimo di individui da intervistare in ciascun comune campione,
𝑛 ℎ, in modo da rispettare il n° complessivo desiderato di comuni che si
intende far partecipare all’indagine; 𝑁ℎ 𝑆ℎ è il n° medio di individui per
sezione riferito ad ℎ; inoltre, si ha 𝜋ℎ𝑐𝑗= 𝜋ℎ𝑐 poiché tutte le sezioni del
comune 𝑐 hanno la stessa probabilità di essere incluse nel campione.
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
4
Il disegno di campionamento
() Risolvendo l’equazione rispetto all’incognita 𝑚ℎ si ottiene:
𝑚ℎ =𝑛ℎ𝑠ℎ
1
𝑁ℎ 𝑁ℎ𝑐
1
𝑆ℎ 𝑁ℎ𝑐𝑖𝑖∈𝑐𝑐∈ℎ
−1
dove: 𝑁ℎ𝑐 e 𝑁ℎ denotano il n° di individui residenti rispettivamente nel
comune 𝑐 dello strato ℎ e nello strato ℎ; 𝑆ℎ è il n° di sezioni nello strato ℎ.
Il meccanismo probabilistico di formazione del campione prevede
l’estrazione delle unità primarie con probabilità variabili senza ripetizione e
l’estrazione delle unità secondarie con probabilità uguali senza ripetizione.
L’indagine ha coinvolto 255 comuni campione e 2.507 sezioni, per un totale
di 332.710 individui intervistati.
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
5
Quando si verifica un errore di copertura?
L’operazione di enumerazione censuaria può essere affetta da:
• errore di sovracopertura:
tipo 1: si verifica quando per lo stesso individuo esistono due o
più ritorni censuari nella stessa sezione di censimento
tipo 2: si verifica quando per lo stesso individuo si hanno due ritorni censuari
ma in sezioni di censimento diverse
tipo 3: si verifica quando un individuo viene enumerato solo all’indirizzo
errato; quindi, è presente solo la metà errata della duplicazione nei
ritorni censuari
tipo 4: è un ritorno censuario che non avrebbe mai dovuto verificarsi poiché
fittizio o perché non facente parte della popolazione di riferimento.
N.B. In fase di stima si considerano gli errori di tipo 2 e 3. Gli errori di tipo 1 sono corretti
attraverso il processamento dei dati censuari, quelli di tipo 4 sono identificati con
ulteriore lavoro sul campo.
• errore di sottocopertura: si verifica quando una unità residente in Italia alla
data del 9 ottobre 2011 non viene rilevata dal censimento.
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
6
Il processo di stima
Fasi in cui si articola il processo di stima:
Determinazione del Dual-System Estimator (DSE) corretto per
sovracopertura:
– Stima della sovracopertura
– Calcolo del DSE
Regression Estimator (RE)
Sample Balance Adjustment (SBA)
Determinazione delle stime del totale “vero” (incognito) della
popolazione residente a livello regionale e nazionale
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
7
Flowchart del processo di stima
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
8
Censimento
2011 PES
Ricerca del n° di duplicazioni
Stima
Sovracopertura
Matching tra
Censimento e PES
DSE corretto per
sovracopertura
Regression Estimator
(stima la popolazione a
livello di regione)
Sample Balance
Adjustment
Stime della
popolazione a
livello regionale
Aggregazione delle
stime regionali
(stima la popolazione a
livello nazionale)
Stima della
popolazione a
livello nazionale
Stima della sovracopertura
(a) La sovracopertura è una mistura di:
Duplicazioni
Conteggi nel posto sbagliato
Enumerazioni errate.
La nostra strategia di stima è di operare degli aggiustamenti netti:
riducendo le stime Dual-System attraverso una stima della
sovracopertura
imputando il minor numero di individui
non rimuovendo i duplicati
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
9
Stima della sovracopertura
(b) La metodologia di stima della sovracopertura si articola in 3 punti:
i) stima del numero di duplicazioni attraverso la PES
ii) stima dei conteggi nel posto sbagliato attraverso la PES
iii) calibrazione di i) mediante il numero di duplicazioni rilevate al
Censimento (il campione PES non è disegnato per ottenere stime
del numero di duplicazioni)
Assunzione chiave: la PES definisce la corretta localizzazione
dell’individuo alla data del 9 ottobre 2011
attraverso la risposta dell’intervistato alla
domanda 1.5 del questionario PES
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
10
Flowchart della stima della sovracopertura
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
11
Abbinati
Censimento-PES
nello stesso luogo
Abbinati
Censimento-PES
in luoghi diversi
Stima delle
duplicazioni nei
conteggi censuari
attraverso la PES
Stima dei
conteggi esatti
del Censimento
Stima dei
conteggi errati
del Censimento
Tasso di
duplicazione
Stima calibrata dei
conteggi errati del
Censimento attraverso
uno stimatore rapporto
Propensione alla
sovracopertura
Duplicazioni
individuate al
Censimento
Stima della sovracopertura
(d) La propensione alla sovracopertura è calcolata per ripartizione, modalità
dell’indice Hard to Count (HtC) e classi di età; è data dal rapporto
𝛾𝑎𝑤,𝑔 =𝑝𝑜𝑝𝑜𝑙𝑎𝑧𝑖𝑜𝑛𝑒 𝑡𝑜𝑡𝑎𝑙𝑒
𝑝𝑜𝑝𝑜𝑙𝑎𝑧𝑖𝑜𝑛𝑒 𝑣𝑒𝑟𝑎=𝑐𝑜𝑛𝑡𝑒𝑔𝑔𝑖 𝑒𝑠𝑎𝑡𝑡𝑖 + 𝑐𝑜𝑛𝑡𝑒𝑔𝑔𝑖 𝑒𝑟𝑟𝑎𝑡𝑖
𝑐𝑜𝑛𝑡𝑒𝑔𝑔𝑖 𝑒𝑠𝑎𝑡𝑡𝑖=𝑌𝑎𝑤,𝑔 + 𝐸𝑎𝑤,𝑔
𝑌𝑎𝑤,𝑔
1
𝛾𝑎𝑤,𝑔 = fattore di sovracopertura: riduce il contributo di ogni
individuo alla DSE,
in cui:
𝑔 indica la ripartizione geografica (Nord-Ovest, Nord-Est, Centro, Sud,
Isole) incrociata con le modalità dell’indice HtC: p=1 (‘enumerazione
facile’), p=2 (‘enumerazione di media difficoltà’) e p=3 (‘enumerazione
difficile’)
𝑎𝑤 è la classe di età (0-2 e 25-60 anni, 3-17 anni, 18-24 anni, 61 e più anni)
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
12
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
Stima della sovracopertura
(e) La stima della propensione alla sovracopertura è fornita da
𝛾 𝑎𝑤,𝑔 =𝑌 𝑎𝑤,𝑔 + 𝐸 𝑎𝑤,𝑔
𝑌 𝑎𝑤,𝑔=
𝑤𝑗𝑔 𝑐𝑎𝑤,𝑖,𝑗𝑔𝑖∈𝑗 + 𝑃
𝐷 𝑤𝑘𝑏𝑘∈𝑆𝑏
𝑘≠𝑗𝑏 𝑜𝑎𝑤,𝑖,𝑘𝑏,𝑗𝑔𝑖∈𝑘𝑗∈𝑆𝑔𝑗∈𝑠𝑔
𝑤𝑗𝑔 𝑐𝑎𝑤,𝑖,𝑗𝑔𝑖∈𝑗𝑗∈𝑠𝑔
in cui: 𝑖 indice di individuo
𝑏 indica la ripartizione geografica incrociata con le modalità dell’indice HtC
𝑘 indice di sezione
𝑤𝑗𝑔, 𝑤𝑘𝑏 pesi campionari assegnati rispettivamente alla sezione 𝑗 appartenente a 𝑔 e
alla sezione 𝑘 appartenente a 𝑏
𝑐𝑎𝑤,𝑖,𝑗𝑔 variabile che assume il valore 1 se l’individuo 𝑖 è correttamente conteggiato dal
Censimento nella sezione 𝑗 dell’area 𝑔 e 0 altrimenti
𝑜𝑎𝑤,𝑖,𝑘𝑏,𝑗𝑔 variabile che assume il valore 1 se l’individuo è conteggiato erroneamente dal
Censimento nella sezione 𝑗 dell’area 𝑔 poiché la sua corretta enumerazione è
la sezione 𝑘 dell’area 𝑏, con 𝑘 ≠ 𝑗 e 𝑏 che può anche coincidere con 𝑔 𝑃
𝐷 = 𝑤𝑗𝑔 𝑤𝑘𝑏𝑘∈𝑆𝑏
𝑘≠𝑗𝑏 𝑜𝑖,𝑘𝑏,𝑗𝑔𝑖∈𝑘 𝑐𝑖,𝑗𝑔𝑗∈𝑠𝑔𝑔
13
tasso di duplicazione, dato dal rapporto tra
il n° di duplicazioni individuate nei conteggi
censuari e la stima PES dello stesso
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
Calcolo del DSE
Stimato il fattore di sovracopertura, 1 𝛾𝑎𝑤𝑔 , si determina per ciascuno degli 𝑚𝑟 𝑎𝑝
comuni campione 𝑐 il DSE corretto per sovracopertura in base all’espressione
𝐷𝑆𝐸𝑜 𝑎𝑝𝑐 = 𝑁 𝑎𝑝𝑐𝑜𝐶 =
𝑁 +1,𝑎𝑝𝑐 + 1 𝑁1+,𝑎𝑝𝑐 𝛾 𝑎𝑤𝑔 + 1
𝑁 11,𝑎𝑝𝑐 + 1− 1
dove:
𝑎 sono le classi di età: 0-2, 3-7, 8-17, 18-24, 25-29, 30-34, 35-39, 40-44, 45-49,
50-54, 55-59, 60-64, 65-69, 70-74, 75-79, 80-84, 85 e più, separatamente per i
due sessi
𝑝 è l’indice HtC 𝑝 = 1,2,3
𝑟 è l’indice di regione geografica (𝑟 = 1,… , 21, Trento e Bolzano sono tenute distinte)
𝑐 è l’indice di comune 𝑐 = 1,… , 𝑚𝑟 𝑎𝑝 .
Tale modello rappresenta una variante del modello di Petersen (o di omogeneità
entro le liste), in cui il totale censuario 𝑁1+,𝑎𝑝𝑐 è corretto per la stima della
propensione alla sovracopertura ed è stata apportata la correzione di Chapman per
applicazioni del DSE a piccole popolazioni.
14
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
Calcolo del DSE
Punto di partenza: Modello di Petersen (o di omogeneità entro le liste).
Si suppone che la PES ripeta le operazioni di Censimento su tutto il territorio
nazionale.
Si indichi con C la lista ottenuta con il Censimento e con I quella ottenuta con
l’indagine. Le ipotesi alla base del modello sono:
1. la popolazione di riferimento è chiusa e di dimensione fissata pari a 𝑁
2. le probabilità che l’unità 𝑖 appartenga o meno alla lista C e che appartenga o meno alla
lista I possono essere espresse mediante una distribuzione multinomiale in cui le
probabilità congiunte e quelle marginali sono riportate nel prospetto seguente:
15
Lista C
Si No
Si 𝑝𝑖,11 𝑝𝑖,12 𝑝𝑖,1+
No 𝑝𝑖,21 𝑝𝑖,22 𝑝𝑖,2+
𝑝𝑖,+1 𝑝𝑖,+2 1
Lista I
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
Calcolo del DSE
3. le due liste, C e I, possono essere considerate il risultato di N prove mutualmente
indipendenti usando le distribuzioni multinomiali descritte al punto 2; per ogni singola unità
𝑖 si definisce una variabile 𝑥𝑖𝑎𝑏 pari ad 1 se l’unità 𝑖 cade nella cella ab e 0 altrimenti
𝑎, 𝑏 = 1,2 ; per le unità della popolazione la situazione può essere rappresentata come
segue:
dove 𝑁𝑎𝑏 = 𝑥𝑖𝑎𝑏𝑁𝑖=1 è il n° di unità nella cella ab 𝑎, 𝑏 = 1,2 , 𝑁𝑎+ = 𝑥𝑖𝑎𝑏
2𝑏=1
𝑁𝑖=1
𝑎 = 1,2 e 𝑁+𝑏 = 𝑥𝑖𝑎𝑏2𝑎=1
𝑁𝑖=1 𝑏 = 1,2 ; ovviamente le quantità 𝑁22 e N non sono
osservabili
4. è possibile determinare senza errore quali unità registrate nella lista I sono presenti nella
lista C e quali no (ossia, non sono presenti errori di abbinamento)
5. entrambe le liste sono depurate da errori di registrazione e duplicazione
16
Lista C
Si No
Si 𝑁11 𝑁12 𝑁1+
No 𝑁21 𝑁22 𝑁2+
𝑁+1 𝑁+2 N
Lista I
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
Calcolo del DSE
6. le probabilità che le unità siano incluse nella lista C, 𝑝𝑖1+ 𝑖 = 1, … ,𝑁 , e le probabilità
che le unità siano incluse nella lista I, 𝑝𝑖+1 𝑖 = 1, … ,𝑁 , sono costanti per ciascuna
lista, ossia soddisfano le condizioni 𝑝𝑖1+ = 𝑝1+ e 𝑝𝑖+1 = 𝑝+1 ; d’altra parte le due
probabilità 𝑝1+ e 𝑝+1 sono generalmente differenti.
In assenza di sovracopertura, avendo assunto l’indipendenza delle due
rilevazioni, una stima della numerosità della popolazione è data da
𝑁 =𝑁+1 𝑁1+𝑁11
Poiché con la PES non si effettua un’enumerazione completa su tutte le sezioni
censuarie ma solo su un campione di esse, le quantità 𝑁+1 e 𝑁11 sono stimabili
sulla base delle osservazioni campionarie.
Pertanto, la stima di N è ottenibile nel seguente modo
𝑁 =𝑁 +1 𝑁1+
𝑁 11
17
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
Regression Estimator (RE)
Per la regione geografica 𝑟 e il gruppo di popolazione 𝑎, sono date le 𝑚𝑟 𝑎
coppie di valori 𝑥𝑎𝑝𝑐 , 𝐷𝑆𝐸𝑜 𝑎𝑝𝑐 , in cui 𝑚𝑟 𝑎 = 𝑚𝑟 𝑎𝑝𝑝 e 𝑥𝑎𝑝𝑐 è il totale
censuario nei comuni campione della regione 𝑟 per il gruppo di popolazione 𝑎,
mentre 𝐷𝑆𝐸𝑜 𝑎𝑝𝑐 è il DSE calcolato nel modo su descritto.
Dopo aver stimato con il metodo dei minimi quadrati il coefficiente angolare 𝛽𝑟 𝑎
della retta di regressione interpolante la nuvola di punti definiti dalle 𝑚𝑟 𝑎 coppie
di valori, si determina una stima della popolazione a livello di regione geografica
𝑟, gruppo di popolazione 𝑎 e modalità 𝑝 dell’indice HtC moltiplicando 𝛽 𝑟 𝑎 per
𝑋𝑟 𝑎𝑝 , che rappresenta il totale censuario inerente a tutti i comuni della regione 𝑟
per il gruppo di popolazione 𝑎 e modalità 𝑝 dell’indice HtC:
𝑁 𝑎𝑝𝑟 = 𝛽 𝑟 𝑎 𝑋𝑟 𝑎𝑝
18
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
Sample Balance Adjustment (SBA)
Questa prima stima di 𝑁𝑎𝑝𝑟 è poi corretta per un fattore di aggiustamento, 𝐹𝑝
𝑝 = 1,2,3 , che serve per bilanciare il campione qualora esso risulti un outlier.
In circostanze normali, il campione estratto per la PES è rappresentativo della
copertura del Censimento, poiché esso è stato disegnato a tal fine. Tuttavia, in
ogni selezione campionaria esiste il rischio che il campione estratto sia un
outlier (ossia, appartenga alle code della distribuzione) tra tutti i possibili
campioni; in altri termini, il campione PES potrebbe, per puro effetto del caso,
individuare sezioni di censimento in cui, ad esempio, il censimento ha
conteggiato l’intera popolazione e presentare, pertanto, sottocopertura zero.
Il procedimento SBA si prefigge l’obiettivo di valutare se il campione PES è
sufficientemente rappresentativo comparandolo con tutti gli altri possibili
campioni che potevano essere selezionati (se non lo è, le stime dei tassi di
copertura avrebbero una distribuzione asimmetrica, troppo alti o troppo bassi) e
correggere eventualmente la stima 𝑁 𝑎𝑝𝑟 attraverso un bilanciamento del
campione stesso.
19
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
Sample Balance Adjustment (SBA)
A tal fine, sono stati utilizzati i questionari censuari dummy corrispondenti alle
famiglie per le quali non è stato ricevuto un ritorno censuario; essi sono ritenuti
essere la migliore proxy della copertura.
La procedura consta nei seguenti passi:
1. Si analizza la correlazione tra le 𝑚𝑟 𝑝 coppie 𝑞 𝑟 𝑝𝑐 , 𝑞 𝑟 𝑝𝑐 , in cui 𝑞 𝑟 𝑝𝑐 e 𝑞 𝑟 𝑝𝑐
rappresentano rispettivamente il non-response rate (ovvero, il rapporto tra il
n° di questionari censuari dummy e il n° complessivo di questionari censuari)
e la sua stima tramite la PES, al fine di stabilire se la variabile è una buona
proxy della non risposta (quindi della copertura) e, pertanto, può essere
usata se il campione relativo ad uno o più comuni risulta essere non
rappresentativo. In tal caso (ossia, se la correlazione è maggiore di 0.5), un
aggiustamento basato su di essi migliorerebbe lo stimatore regressione se il
campione non è bilanciato.
20
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
Sample Balance Adjustment (SBA)
2. Si confronta il n° di questionari censuari dummy nella regione 𝑟 e modalità 𝑝
dell’HtC, 𝑌𝑟 𝑝, noto da Censimento, e la sua stima, 𝑌 𝑟 𝑝, ottenuta attraverso la
PES utilizzando uno stimatore rapporto.
Se 𝑌 𝑟 𝑝 risulta significativamente diverso da 𝑌𝑟 𝑝, allora il campione PES
inerente alla regione 𝑟 e modalità 𝑝 dell’HtC è verosimilmente non bilanciato.
Tuttavia, per una ulteriore e più valida verifica di tale circostanza, è opportuno
ricorrere all’impiego del test seguente.
3. Essendo nota la distribuzione dei valori veri dei questionari censuari dummy
relativi a tutti i comuni della regione 𝑟 e aventi modalità 𝑝 dell’HtC, si
determina la varianza (e non la stima) di 𝑌 𝑟 𝑝, Var 𝑌 𝑟 𝑝 .
Si costruisce quindi l’intervallo di confidenza al 95% intorno al valore vero 𝑌𝑟 𝑝:
𝑌𝑟 𝑝 − 2 Var 𝑌 𝑟 𝑝 ≤ 𝑌𝑟 𝑝 ≤ 𝑌𝑟 𝑝 + 2 Var 𝑌 𝑟 𝑝
Se la stima cade all’interno dell’intervallo allora non c’è evidenza che il
campione sia outlier; se invece cade in una delle due code, allora il campione
è un outlier. In quest’ultimo caso è opportuno applicare un fattore di
aggiustamento per migliorare il bilanciamento del campione.
21
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
Sample Balance Adjustment (SBA)
4. Si calcola il fattore:
𝐹𝑟 𝑝 =
𝑌𝑟 𝑝 + 𝑋𝑟 𝑝
𝑋𝑟 𝑝
𝑀𝑟 𝑝
𝑚𝑟 𝑝 𝑌𝑟 𝑝𝑐 + 𝑋𝑟 𝑝𝑐
𝑚𝑟 𝑝
𝑐=1
𝑀𝑟 𝑝
𝑚𝑟 𝑝 𝑋𝑟 𝑝𝑐
𝑚𝑟 𝑝
𝑐=1
N.B. Se il campione è esattamente bilanciato: 𝐹𝑟 𝑝 = 1
Se il campione sottostima: 𝐹𝑟 𝑝 > 1
Se il campione sovrastima: 𝐹𝑟 𝑝 < 1
Dato il fattore 𝐹𝑟 𝑝, si determina la stima bilanciata di 𝑁𝑎𝑝𝑟 :
𝑁 𝑎𝑝𝑟 = 𝐹𝑟 𝑝 𝑁 𝑎𝑝𝑟 = 𝐹𝑟 𝑝 𝛽 𝑟 𝑎 𝑋𝑟 𝑎𝑝
22
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
Determinazione delle stime del totale “vero” (incognito) della
popolazione residente a livello regionale e nazionale
Le stime a livello regionale sono immediatamente ottenibili sommando rispetto
alle modalità 𝑝 dell’indice HtC e ai gruppi di popolazione 𝑎:
𝑁 𝑟 = 𝑁 𝑎𝑝𝑟
𝑝𝑎
= 𝐹𝑟 𝑝 𝑁 𝑎𝑝𝑟
𝑝𝑎
= 𝐹𝑟 𝑝 𝛽 𝑟 𝑎 𝑋𝑟 𝑎𝑝
𝑝𝑎
Sommando poi su tutte le regioni si ottiene la stima a livello nazionale:
𝑁 = 𝑁 𝑟𝑟
= 𝑁 𝑎𝑝𝑟
𝑝𝑎
= 𝐹𝑟 𝑝 𝑁 𝑎𝑝𝑟
𝑝𝑎
= 𝐹𝑟 𝑝 𝛽 𝑟 𝑎 𝑋𝑟 𝑎𝑝
𝑝𝑎
23
La strategia di campionamento dell’Indagine di copertura del 15° Censimento generale della Popolazione e delle
Abitazioni, Monica Russo – Roma, 27 giugno 2014
Valutazione della precisione delle stime della PES
L’affidabilità delle stime dei parametri di interesse dell’indagine PES è stata
valutata attraverso il calcolo dei coefficienti di variazione percentuale e degli
intervalli di confidenza. Tali indicatori sono basati sulla stima della varianza delle
stime prodotte dall’indagine in oggetto calcolata applicando il metodo bootstrap.
I campioni bootstrap sono stati ottenuti a partire da una pseudo-popolazione
costruita replicando i comuni e le sezioni campione un numero di volte pari ai
loro corrispondenti pesi campionari.
Siano 𝜃 1, … , 𝜃 𝑎 , … , 𝜃 𝐴 le stime del parametro 𝜃 ottenute applicando agli A
campioni bootstrap uno stimatore avente una forma funzionale uguale a quella
dello stimatore 𝜃 utilizzato per l’ottenimento delle stime dell’indagine (basate
sull’utilizzo dei dati del disegno campionario originario).
La stima bootstrap della varianza dello stimatore 𝜃 è data da:
𝑉 𝐵𝑆 𝜃 =1
𝐴 − 1 𝜃 𝑎 −
1
𝐴 𝜃 𝑎
𝐴
𝑎=1
2𝐴
𝑎=1
24