giovanna nicolini donata marasini -...

16
Campionamento per popolazioni rare ed elusive: la matrice dei profili Giovanna Nicolini Donata Marasini Working Paper n.02.2003 – gennaio Dipartimento di Economia Politica e Aziendale Università degli Studi di Milano via Conservatorio, 7 20122 Milano tel. ++39/02/50321501 fax ++39/02/50321450 E Mail: [email protected] Pubblicazione depositata presso gli Uffici Stampa della Procura della Repubblica e della Prefettura di Milano

Upload: doanthuan

Post on 15-Feb-2019

240 views

Category:

Documents


0 download

TRANSCRIPT

Campionamento per popolazioni rare ed elusive: la matrice dei profili

Giovanna Nicolini Donata Marasini

Working Paper n.02.2003 – gennaio

Dipartimento di Economia Politica e Aziendale Università degli Studi di Milano via Conservatorio, 7 20122 Milano tel. ++39/02/50321501 fax ++39/02/50321450 E Mail: [email protected] Pubblicazione depositata presso gli Uffici Stampa della Procura della Repubblica e della Prefettura di Milano

1

Campionamento per popolazioni rare ed elusive: la matrice dei profili

Donata Marasini (*) Dipartimento di Statistica – Università degli Studi di Milano-Bicocca

[email protected]

Giovanna Nicolini (*) Dipartimento di Economia Politica e Aziendale – Università degli Studi di Milano

[email protected]

1. Introduzione Come è noto la moderna teoria dei campioni da popolazioni finite considera non

solo insiemi di unità di prefissata ampiezza, ma si estende anche a popolazioni delle quali non si conosce la dimensione e/o la dislocazione, le così dette popolazioni rare e/o elusive, potendo accadere che una popolazione sia nel contempo l’una e l’altra. Sono esempi la collettività di coloro che sono affetti dal morbo di Alzheimer (rara), l’insieme delle famiglie con un componente scomparso (rara), la collettività degli immigrati senza permesso di soggiorno (elusiva), l’insieme di coloro che non hanno fissa dimora (elusiva), l’insieme degli animali di una razza in via di estinzione (rara ed elusiva).

Il problema connesso con dette popolazioni riguarda le liste delle unità, intese nel significato più ampio del termine. Infatti per le popolazioni elusive generalmente o non è disponibile alcuna lista, ovvero si dispone di una o più liste incomplete che possono avere intersezioni, ossia le unità di interesse possono figurare in più liste. Per le popolazioni rare, le liste complete possono anche essere disponibili, tuttavia sono di difficile impiego perché contenute in liste più ampie cui appartengono molte unità che non sono d’interesse per l’indagine; di conseguenza occorre esaminare un elevato numero di unità prima di ottenere quelle con le caratteristiche desiderate.

Per affrontare popolazioni del tipo suddetto sono state proposte tecniche ad hoc, l’una nata indipendentemente dall’altra. Tuttavia da un’analisi approfondita di alcune di queste, di quelle cioè che si ritengono più impiegate perché di maggiore diffusione nella letteratura, emerge come, almeno sotto l’aspetto teorico, l’una possa essere ricondotta all’altra tramite uno strumento al quale verrà attribuito il nome di “matrice dei profili”. Ciò non significa ovviamente che sotto l’aspetto applicativo le tecniche siano equivalenti; ciascuna può essere idonea per la risoluzione del particolare problema affrontato.

Nelle righe che seguono l’attenzione verrà fissata su quattro tecniche e precisamente: il campionamento per centri che viene impiegato in assenza di liste; il multiple frame che si trova in presenza di liste incomplete; il campionamento per network che ha il problema della numerosità eccessiva della lista; il campionamento adattivo che sotto un certo aspetto presenta o il problema della mancanza di liste, o quello di un’eccessiva ampiezza delle liste a disposizione.

(*) L’impostazione del lavoro è unitaria, tuttavia i primi due paragrafi sono attribuiti a D. Marasini, gli ultimi due a G. Nicolini.

2

Come emergerà, il multiple frame è un caso particolare del campionamento per

centri, mentre, sotto l’aspetto strettamente teorico, il network coincide con il campionamento adattivo.

Passate in rassegna le quattro tecniche verrà introdotta la matrice dei profili facendole assumere, come si è già anticipato, il ruolo di elemento unificatore delle tecniche medesime.

2. Le quattro tecniche Le tecniche di campionamento prese in considerazione verranno introdotte in

brevissima sintesi lasciando al minimo gli aspetti teorici e dedicando a ciascuna, per motivi di chiarezza espositiva, un sottoparagrafo. Un ultimo sottoparagrafo è dedicato a esempi che vogliono essere di supporto ai quattro metodi.

2.1 Il campionamento per centri Il campionamento per centri, introdotto nella letteratura statistica con specifico

riferimento a una popolazione di immigrati (Blangiardo G.C., 1996), prevede l’esistenza di L gruppi, denominati centri, che sono punti di aggregazione delle N unità comprese nella prefissata popolazione P oggetto d’attenzione. Così, se le unità sono individui, i centri sono, ad esempio, luoghi di culto e di svago o luoghi di assistenza sociale e sanitaria. Da ogni centro, del quale si conosce l’esistenza e l’ubicazione ma non la numerosità delle unità componenti o frequentanti, viene estratto con tecnica casuale un numero prefissato di unità; ad esempio dal centro iG si estraggono in unità, ),...,1( Li = .

Con riguardo al problema dell’immigrazione, le unità coincidono per l’appunto con gli immigrati che possono essere regolari, cioè con permesso di soggiorno, e irregolari, cioè senza permesso: i cosiddetti clandestini.

Su ciascuna unità si rileva poi sia la manifestazione che le compete del fenomeno Y oggetto di interesse, sia l’informazione riguardante quali e quanti centri l’unità medesima frequenta abitualmente. La prima informazione è l’elemento chiave di ogni indagine campionaria, la seconda caratterizza, in un certo senso, ogni unità in modo tale che può fissarsi l’attenzione sull’insieme di unità che presentano la stessa caratterizzazione r , sulle unità cioè che frequentano gli stessi centri. Questa possibilità provoca intersezioni fra centri così che, se iN è il numero delle unità che frequentano

iG , risulta i

L

iNN ∑

=

≤1

.

Una delle stime (Mecatti F., Migliorati S., 2001) proposte per il valore medio Y del fenomeno Y è la seguente:

r

riL

i

R

r

yy

γ∑∑= =

=1 1

(1)

dove: riy è il totale della variabile di interesse relativo a quelle unità che sono state estratte nel centro iG e hanno caratterizzazione r , cioè frequentano gli stessi centri,

3

mentre il coefficiente rγ è pari a i

riiL

ir

unα

γ ∑=

=1

, dove NNi

i =α è un opportuno peso

che è possibile assegnare al centro iG anche in assenza di informazioni sia sulla

composizione numerica iN del medesimo, sia sulla numerosità totale N della popolazione P e riu è pari a 1 se la caratterizzazione r prevede il centro iG e 0 altrimenti, ),...,1( Li = ; infine R è il numero delle diverse caratterizzazioni, potendo essere al più 12 −= LR .

2.2 Il multiple frame Nel multiple frame si dispone di L liste della medesima popolazione P, da

ciascuna di queste si estrae un campione casuale; i dati campionari vengono poi combinati per migliorare le stime dei parametri di interesse. Le L liste possono essere incomplete e in genere sono parzialmente sovrapposte. E’ proprio a causa di questa parziale sovrapposizione che il multiple frame può essere inteso, assimilando la lista al centro, come un caso particolare del campionamento per centri; la particolarità consiste nel fatto che sono note le dimensioni iN delle liste. Una delle stime proposte per il multiple frame (Skinner C.J., 1991), opportunamente modificata, valida per il totale Y del fenomeno Y è la seguente:

r

riL

i

R

r

yy

δ∑∑= =

=1 1

ˆ (2)

dove i

riiL

ir N

un∑=

=1

δ . Il fatto che con la (1) si stimi Y e con la (2) Y non deve stupire;

nel primo caso, infatti, è possibile al più avere informazioni a proposito di NNii =α , nel secondo sono note le numerosità iN ma non N , dal momento che, a causa delle

intersezioni tra centri, risulta i

L

iNN ∑

=

≤1

.

2.3 Il campionamento per network Con tale campionamento vengono estratti, ad esempio con tecnica casuale

semplice, n gruppi fra gli L di cui si compone la popolazione P oggetto di interesse costituita da N unità.

Con riguardo al fenomeno Y del quale si cercano informazioni, vengono esaminate tutte le unità contenute in ciascuno dei gruppi estratti, così che i gruppi vengono ad assumere il ruolo degli usuali grappoli; ancora, nel campione, oltre alle unità esaminate in via diretta, perché comprese nel gruppo estratto, vengono inserite altre unità che sono connesse alle prime da un prefissato legame.

Le unità coinvolte dal legame formano un network di molteplicità pari al numero dei gruppi che entrano in gioco nella sua formazione. Ad esempio, se il gruppo coincide con una famiglia e se il legame è “essere fratelli”, il soggetto compreso nella famiglia estratta e tutti i suoi fratelli appartenenti o meno alla stessa famiglia formano un network. Viceversa una coppia di coniugi osservata nella stessa famiglia, poiché non soddisfa il legame prefissato, non può appartenere allo stesso network.

4

Il fatto che un’unità possa essere compresa nel campione c o direttamente, perché è stato scelto il gruppo che la comprende, o indirettamente, perché è compresa in un network, fa spostare l’attenzione dalle unità ai network.

Per la stima del totale Y di Y, si ricorre allo stimatore di Horvitz-Thompson modificato (Thompson S.K., 1992) facendo intervenire le probabilità di inclusione dei network chiamati in causa, che, per il k-esimo osservato di molteplicità km , risulta essere:

−=

nLnmL k

k 1π (3)

( nk ≤≤1 e anche nk ≥ ), così che la stima y diviene:

∑∈

=ck k

kyyπ

ˆ (4)

dove ky è il totale del fenomeno Y rilevato sul k-esimo network esaminato.

2.4 Il campionamento adattivo Nel campionamento adattivo vengono estratte, ad esempio con tecnica casuale

semplice, n unità fra le N che costituiscono la popolazione P. Sia sy' il valore del fenomeno Y osservato sulla unità s -esima, ),...,1( ns = ; se è soddisfatta la condizione

hy s >' , essendo h una prefissata costante a priori, si esaminano le unità ad essa “adiacenti”. Ad esempio, se le unità sono zone geografiche e di forma rettangolare, il criterio di “adiacenza” può prevedere di esaminare le quattro zone confinanti. Se in una o più unità adiacenti il corrispondente valore di Y risulta maggiore di h si procede nell’analizzare le adiacenti a queste ultime; non appena si trova un’unità dove il valore è minore di h, cioè dove non è soddisfatta la predetta condizione, l’indagine si arresta.

Così operando può accadere che dalla s-esima unità osservata inizialmente se ne osservino altre adiacenti. L’insieme di tutte le unità esaminate in conseguenza della s-esima, per le quali l’osservazione del fenomeno soddisfa la condizione prefissata, viene detto network di molteplicità pari al numero delle unità che lo formano. Le unità fra le n iniziali dove l’indagine si è arrestata, poiché il corrispondente valore di Y non soddisfa la condizione, forma un network di molteplicità pari a 1. La stima y del totale Y coincide con la (4), dove ky , in analogia al caso precedente, rappresenta il totale del fenomeno Y rilevato nel k -esimo network osservato che ha probabilità di inclusione pari alla (3), (Thompson S.K., 1990). Se il network k-esimo ha molteplicità pari a 1 perché hy s <' , risulta ks yy =' .

Ovviamente se ciascuno degli L gruppi è formato da una sola unità così che NL = , il campionamento per network coincide formalmente con quello adattivo; in tal

senso si ha nk ≤≤1 .. Si può quindi considerare quest’ultimo come un caso particolare del primo.

5

Negli esempi che seguono verranno chiarite le diverse situazioni associate ai campionamenti esaminati.

2.5 Alcuni esempi Con riguardo agli esempi proposti nell’introduzione, si può affermare che

un’indagine sull’età media degli immigrati regolari o irregolari può realizzarsi con il ricorso al campionamento per centri, analogamente accade se l’indagine riguarda il numero di coloro che non hanno fissa dimora, dove i centri sono in questo contesto rappresentati da luoghi di ricovero o mense. In entrambi i casi i soggetti possono frequentare più di un centro, ovvero i centri medesimi si intersecano.

Un’indagine sul numero di individui affetti dal morbo di Alzheimer può essere realizzata con il ricorso al multiple frame, dove i centri sono gli ospedali e le unità sono i malati. Nella situazione appena considerata si può disporre di liste da parte degli ospedali che però possono presentare intersezioni dal momento che uno stesso malato può essere stato ricoverato in più di un ospedale.

Un’indagine sul numero di scomparsi in una prefissata località può realizzarsi con la tecnica network; i gruppi sono allora le famiglie e il legame è quello di una prefissata parentela.

Infine un’indagine sul numero di animali di una razza in via di estinzione può essere realizzato con il campionamento adattivo; in questo caso le unità sono appezzamenti di terra sui quali si sa che esistono gli animali e la condizione per continuare l’indagine è che un appezzamento contenga almeno h animali, mentre la condizione di adiacenza riguarda l’esame delle zone limitrofe. Nell’esempio le unità su cui si lavora sono gli appezzamenti di terreno, ma ciò che interessa stimare è il numero di animali che si trovano sugli appezzamenti.

3. La matrice dei profili La prima situazione considerata nel presente paragrafo prevede che la

popolazione P sia costituita da N unità appartenenti a uno o più degli L gruppi (centri) iG di numerosità iN , ),...,1( Li = . Il fatto che ogni unità può appartenere anche a più gruppi crea delle ovvie intersezioni fra i gruppi medesimi che portano, come si è

già osservato, alla condizione i

L

iNN ∑

=

≤1

prevista dal campionamento per centri e dal

multiple frame. Per tali campionamenti vale quanto segue. Ad ogni unità viene associato un vettore di dimensione L formato dai due numeri

1 e 0; 1 indica l’appartenenza a un gruppo, 0 la non appartenenza. Il vettore viene denominato profilo e può considerasi una sorta di fotografia

dell’unità indicando i suoi legami con i gruppi esistenti; il profilo è ciò che nel paragrafo precedente è stato denominato con il termine generico di caratterizzazione.

L’insieme degli N vettori dà luogo a una matrice NxL detta, nel linguaggio dei centri, matrice dei profili.

Così se 7=N , 4=L , 31 =N , 62 =N , 23 =N , 14 =N , con

ii

NN ∑=

=<=4

1

127 , e se la matrice dei profili viene ad assumere la forma:

6

1000011000100110001100110011

7

6

5

4

3

2

1

4321

aaaaaaa

GGGG

(5)

la medesima indica che le unità 21, aa , 3a hanno lo stesso profilo, altrettanto accade

ad 4a , 6a mentre 5a ha profilo diverso dalle restanti unità e così pure 7a . In particolare, il profilo associato ad 21, aa , 3a indica che le tre unità

appartengono contemporaneamente ai due gruppi 1G e 2G , quello associato alle unità 4a , 6a indica che le medesime appartengono sia al gruppo 2G sia al gruppo 3G ,

mentre 5a appartiene solo a 2G e 7a solo a 4G . Se in questo contesto ad un insieme di profili uguali si attribuisce il nome di

network, nella situazione riassunta dalla (5) si identificano quattro network: ),,( 3211 aaav = , ),( 642 aav = , )( 53 av = , )( 74 av = di molteplicità rispettivamente

1,1,2,2 4321 ==== mmmm , dove, come si ricorderà, per molteplicità si intende il numero dei gruppi coinvolti nel network.

Deve essere subito sottolineato, anche per quanto si dirà nel seguito, che l’associazione profilo-network è puramente formale con la conseguenza che nel campionamento per centri, quindi anche nel multiple frame, nessuna delle unità che entra a far parte del campione è in grado di generare un network ma solo un profilo ed è per questo che l’attenzione viene rivolta al profili.

Fissa restando la popolazione P le cui N unità sono ripartite in L gruppi di

numerosità iN , si supponga ora che i

L

iNN ∑

=

=1

, cioè che gli L gruppi non abbiano

intersezioni, condizione prevista negli altri due tipi di campionamento considerati, cioè per network e adattivo.

L’estensione della matrice dei profili al campionamento per network avviene nel modo seguente.

Si supponga che ogni unità di P possa, o meno, avere un legame con una o più delle altre unità appartenenti allo stesso gruppo o ad altri. Ad ogni unità può allora essere associato un vettore di dimensione L formato dai numeri 1 e 0; il numero 1 indica la presenza dell’unità nel gruppo estratto o la presenza di un legame con unità di altri gruppi, il numero 0 l’assenza di legame. Chiamato profilo un tale vettore che caratterizza i legami di un’unità con tutte le altre, l’insieme di questi dà luogo alla matrice dei profili NxL nella quale si riconoscono diversi network. Tuttavia in questo contesto un insieme di profili uguali non necessariamente dà luogo ad un unico network.

7

Così, ad esempio, considerando una popolazione dove 7=N e 4=L ma con

1,3,2 321 === NNN e 14 =N , risultando iiNN ∑

=

==4

17 , la matrice (5) indica

che le due unità, ad esempio 1a e 2a , del gruppo 1G hanno un legame con 3a del

gruppo 2G , tale legame genera il network ),,( 321*1 aaa=ν che coincide con il network

1ν osservato sulla stessa matrice nell’ambito del campionamento per centri: in questo caso un insieme di profili uguali si identifica con un network. Analogamente si può dire per i network ),( 64

*2 aa=ν , )( 5

*3 a=ν e )( 7

*4 a=ν .

Se si considera invece il caso in cui 7=N , 4=L , 1,2,3 321 === NNN , 14 =N , la matrice dei profili ha, ad esempio, la struttura:

1000010000110011001100110011

7

6

5

4

3

2

1

4321

aaaaaaa

GGGG

(6)

Nel campionamento per centri l’insieme dei cinque profili del tipo )0,0,1,1( costituisce un unico network ),,,,( 543211 aaaaa=ν , mentre nel campionamento per network, tale insieme non necessariamente costituisce un solo network. Infatti può accadere, ad esempio, che: 1G comprenda 1a , 2a , 3a , 2G comprenda 4a , 5a , 3G comprenda 6a e 4G comprenda 7a e che i cinque profili uguali diano luogo a due

differenti network e precisamente ),,( 541*1 aaa=ν , ),( 32

*2 aa=ν , risultando invece

perfettamente identificati i due altri network )( 6*3 a=ν , )( 7

*4 a=ν . La difficoltà

nell’identificare con esattezza i network risiede nel fatto che le unità di uno stesso gruppo possono, o meno, avere legami e pertanto per rendere operativa la matrice dei profili è sufficiente conoscere l’informazione sulla composizione dei singoli gruppi, informazione del tutto recuperabile.

Nella presente situazione ogni unità compresa nel campione individua non solo un profilo ma altresì il suo network di appartenenza ed è ad esso che tale campionamento fa riferimento. Infatti la scelta casuale di uno o più gruppi porta con sé uno o più network e la probabilità di inclusione del k -esimo è in via naturale fornita dalla (3).

Ovviamente se NL = , ossia se ogni gruppo è costituito da una sola unità, fisso restando tutto quanto premesso, la matrice dei profili caratterizza il campionamento adattivo e gli insiemi di profili uguali in questo caso identificano i network della popolazione P di riferimento, senza la necessità di ulteriori informazioni.

8

4. Esempi Per meglio chiarire il ruolo della matrice dei profili nei campionamenti esaminati,

in particolare in quella per centri e nel network, dal momento che i due restanti sono casi particolari di questi, si considerino i seguenti esempi.

Con riguardo alla matrice (5), si supponga che nel campionamento per centri si siano osservate: dal gruppo 1G le unità 1a , 2a , da 2G le unità 3a , 4a , da 3G l’unità

6a e da 4G l’unità 7a . La matrice osservata, sottomatrice della (5), è la seguente:

100001100110001100110011

7

6

4

3

2

1

4321

aaaaaa

GGGG

(7)

Indicate con 764321 ',',',',',' yyyyyy le intensità del fenomeno Y associate alle unità 764321 ,,,,, aaaaaa che fanno parte del campione ed individuati i tre profili =1r (1,1,0,0); =2r (0,1,1,0) e =3r (0,0,0,1), le quantità riy della (1) risultano:

7346234223122111 ',',',','' yyyyyyyyyyy ====+= , dove 11y , ad esempio, rappresenta l’intensità di Y associata alle due unità 1a e 2a osservate nel gruppo 1G che hanno profilo 1r . Si ha quindi:

3

34

2

2322

1

1211

γγγyyyyyy +

++

+= (8)

con:

711,

721

762,

762

732

4

43

3

3

2

22

2

2

1

11 ==+=+=+=+=

αγ

ααγ

ααγ

nnnnn

E poiché 11211 yyy =+ è l’intensità associata al network 1υ osservato nel

campione che coincide con il network 1ν della popolazione, 22322 yyy =+ quella associata al network 2υ che coincide con 2ν , 334 yy = quella associata al network 3υ che coincide con 4ν , con quest’ultima notazione la (8) può così riproporsi:

3

3

2

2

1

1

γγγyyyy ++= (9)

Si supponga ora che nel campionamento per network l’osservazione abbia fornito

le stesse quantità ottenute nel caso precedente e cioè: è stato estratto 1G che

9

contiene 1a , 2a e che, avendo legami con 3a genera il network *1υ che coincide con il

network *1ν della popolazione; è stato estratto 3G che contiene 6a che è legato con

4a e dà luogo al network *2υ che coincide con *

2ν ; è stato estratto 4G che contiene solo

7a e forma il network *3υ che coincide con *

4ν . La matrice osservata è pertanto la (7) e la stima del totale, impiegando la (4) è:

3

3

2

2

1

1ˆπππyyyy ++= (10)

dove 74

373

17

1;75

373

27

1 321 =

−==

−== πππ

Nel confronto fra la (9) e la (10), escludendo il valore N dal momento che la prima

riguarda una media e la seconda un totale, emerge che i valori 321 ,, yyy associati ai network sono gli stessi ciò che cambia sono i coefficienti di ponderazione: 321 ,, γγγ nel primo campionamento e 321 ,, πππ , cioè le probabilità di inclusione dei network, nel secondo.

Con riguardo alla matrice (6), si supponga ora che l’osservazione nel campionamento per centri abbia fornito: 1a da 1G ; 4a da 2G ; 6a da 3G ; 7a da 4G , mentre nel campionamento per network siano stati estratti i gruppi 2G , 3G , 4G . Nel primo caso la matrice osservata è:

1000010000110011

7

6

4

1

4321

aaaa

GGGG

(11)

nel secondo caso è:

10

10000100001100110011

7

6

5

4

1

4321

aaaaa

GGGG

(12)

entrambe sottomatrici della (6). Ricordando che il network 1v nel campionamento per centri è formato da ),,,,( 54321 1

aaaaav = , è immediato osservare che nel caso dei centri la stima (1) non può riprodurre il valore associato a detto network. Infatti, con riguardo alla matrice (11), per la (1) si ha:

3

34

2

23

1

1211

γγγyyyy

y +++

=

dove: 111 'yy = , 734623412 ',',' yyyyyy === ; così che 1211 yy + fornisce l’intensità

associata al network osservato 1υ che non coincide con il network 1ν della popolazione in quanto 54321211211 ''''''' yyyyyyyyy ++++≠+=+ ; mentre 623 'yy = è l’intensità associata al network osservato 2υ che coincide con il network della popolazione 2ν e 734 'yy = è l’intensità associata al network osservato 3υ che coincide con il network della popolazione 3ν . Con riguardo alla matrice (12) relativa al campionamento per network, per la (4) si ha:

3

3

2

2

1

1

πππyyy

y ++=

dove 5411 ''' yyyy ++= , è l’intensità associata al network osservato *

1υ che coincide

con il network *1ν della popolazione; 62 'yy = è l’intensità associata al network *

2υ che

coincide con il network della popolazione *3ν e 73 'yy = è l’intensità associata al

network osservato *3υ che coincide con il network della popolazione *

4ν . Da quanto sopra discende che nella logica del campionamento per centri i profili

presenti nel campione possono non riprodurre i network della popolazione, nella logica del network i profili presenti nel campione riproducono i network della popolazione. Concludendo, la matrice di profili, che interpreta la popolazione di riferimento, vale nei quattro casi appena considerati ed è pertanto l’elemento unificatore. Tuttavia una sua sottomatrice, che interpreta quanto si è osservato con l’esperimento campionario, può o meno rappresentare la stessa situazione.

11

Riferimenti bibliografici Blangiardo G.C. (1996), Il campionamento per centri o ambienti di aggregazione

nelle indagini sulla presenza straniera, in “Studi in onore di Giampiero Landenna”, Giuffrè, Milano, 15-30.

Mecatti F., Migliorati S. (2001), Center sampling: theory and estimation, Technical Report 01-06, Department of Statistics, Pennsylvania State University.

Skinner C.J. (1991), On th efficiency of raking ratio estimation for multiple frame surveys, Journal of the American Statistical Association 86, 779-784.

Thompson S.K. (1992), Sampling, Wiley, New York, 148-158. Thompson S.K. (1990), Adaptive cluster sampling, Journal of the American

Statistical Association 85, 1050-1059.

Summary

We have compared four methods (center sampling, multiple frame, network and adaptive sampling) usually proposed for samples drawn from rare and/or elusive populations, for which we haven’t a frame or, if we have, is incomplete. As the multiple frame can be considered a particular case of center sampling and adaptive a particular case of network, the comparison will be made between center and network. To make a survey on a rare and/or elusive population with L units (that are partially overlapping for the centers and completely separate for the network) and N observation units we will draw, at random, some units and define a “profile” for every observation unit in the first method and define a “network” in the second one. In this paper we will show that in theory one method can be considered like the other through a support known as “profile matrix”, which in population has the size NxL . Thus, using this matrix, in the center sampling a set of equal profiles can be called network, while in the network sampling a set of equal profiles can be taken for a network or more than one. This means that once the sample has been drawn, only if a set of equal profiles characterizes a single network will the numerator of the estimators proposed for the two methods will then coincide.

La serie dei Working Papers del Dipartimento di Economia Politica e Aziendale può essere richiesta al seguente indirizzo: Sezione Working Papers - Dipartimento di Economia Politica e Aziendale - Università degli Studi di Milano, Via Conservatorio 7 - 20122 Milano - Italy - fax 39-02-50321450 - Email: [email protected]. A partire dal numero 98.01, i working papers sono scaricabili dal sito Internet del dipartimento, all’indirizzo: http://www.economia.unimi.it The Working Paper Series of the Dipartimento di Economia Politica e Aziendale can be requested at the following address: Sezione Working Papers - Dipartimento di Economia Politica e Aziendale - Università degli Studi di Milano, Via Conservatorio 7 - 20122 Milano - Italy - fax 39-02-50321450 - Email: [email protected]. From number 98.01, working papers are downloadable from the Internet website of the Department at the following location: http://www.economia.unimi.it

Papers già pubblicati/Papers already published

94.01 - D. CHECCHI, La moderazione salariale negli anni 80 in Italia. Alcune ipotesi interpretative basate sul comportamento dei sindacati 94.02 - G. BARBA NAVARETTI, What Determines Intra-Industry Gaps in Technology? A Simple Theoretical Framework for the Analysis of Technological Capabilities in Developing Countries 94.03 - G. MARZI, Production, Prices and Wage-Profit Curves:An Evaluation of the Empirical Results 94.04 - D. CHECCHI, Capital Controls and Conflict of Interests 94.05 - I. VALSECCHI, Job Modelling and Incentive Design: a Preliminary Study 94.06 - M. FLORIO, Cost Benefit Analysis: a Research Agenda 94.07 - A. D’ISANTO, La scissione di società e le altre operazioni straordinarie: natura, presupposti economici e problematiche realizzative 94.08 - G. PIZZUTTO, Esistenza dell’ equilibrio economico generale: approcci alternativi 94.09 - M.FLORIO, Cost Benefit Analysis of Infrastructures in the Context of the EU Regional Policy 94.10 - D.CHECCHI - A. ICHINO - A. RUSTICHINI, Social Mobility and Efficiency - A Re-examination of the Problem of Intergenerational Mobility in Italy 94.11 - D.CHECCHI - G. RAMPA - L. RAMPA, Fluttuazioni cicliche di medio termine nell’economia italiana del dopoguerra 95.01 - G. BARBA NAVARETTI, Promoting the Strong or Supporting the Weak? Technological Gaps and Segmented Labour Markets in Sub-Saharan African Industry 95.02 - D. CHECCHI, I sistemi di assicurazione contro la disoccupazione: un'analisi comparata 95.03 - I. VALSECCHI, Job Design and Maximum Joint Surplus 95.04 - M. FLORIO, Large Firms, Entrepreneurship and Regional Policy: "Growth Poles" in the Mezzogiorno over Forty Years 95.05 - V. CERASI - S. DALTUNG, The Optimal Size of a Bank: Costs and Benefits of Diversification 95.06 - M. BERTOLDI, Il miracolo economico dei quattro dragoni: mito o realtà? 95.07 - P. CEOLIN, Innovazione tecnologica ed alta velocità ferroviaria: un'analisi 95.08 - G. BOGNETTI, La teoria della finanza a Milano nella seconda metà del Settecento: il pensiero di Pietro Verri 95.09 - M. FLORIO, Tax Neutrality in the King-Fullerton Framework, Investment Externalities, and Growth 95.10 - D. CHECCHI, La mobilità sociale: alcuni problemi interpretativi e alcune misure sul caso italiano 95.11 - G. BRUNELLO - D. CHECCHI , Does Imitation help? Forty Years of Wage Determination in the Italian Private Sector 95.12 - G. PIZZUTTO, La domanda di lavoro in condizioni di incertezza 95.13 - G. BARBA NAVARETTI - A. BIGANO, R&D Inter-firm Agreements in Developing Countries. Where? Why? How? 95.14 - G. BOGNETTI - R. FAZIOLI, Lo sviluppo di una regolazione europea nei grandi servizi pubblici a rete 96.01 - A. SPRANZI, Il ratto dal serraglio di W.A. Mozart. Una lettura non autorizzata 96.02 - G. BARBA NAVARETTI - I. SOLOAGA - W. TAKACS, Bargains Rejected? Developing Country Trade Policy on Used Equipment

96.03 - D. CHECCHI - G. CORNEO, Social Custom and Strategic Effects in Trade Union Membership: Italy 1951- 1993 96.04 - V. CERASI, An Empirical Analysis of Banking Concentration 96.05 - M. FLORIO, Il disegno dei servizi pubblici locali dal socialismo municipale alla teoria degli incentivi 96.06 - G. PIZZUTTO, Piecewise Deterministic Markov Processes and Investment Theory under Uncertainty: Preliminary Notes 96.07 - I. VALSECCHI, Job Assignment and Promotion 96.08 - D. CHECCHI, L'efficacia del sistema scolastico in prospettiva storica 97.01 - I. VALSECCHI, Promotion and Hierarchy: A Review 97.02 - D. CHECCHI, Disuguaglianza e crescita. Materiali didattici 97.03 - M. SALVATI, Una rivoluzione copernicana: l'ingresso nell'Unione Economica e Monetaria 97.04 - V. CERASI - B. CHIZZOLINI - M. IVALDI, The Impact of Deregulation on Branching and Entry Costs in the Banking Industry 97.05 - P.L. PORTA, Turning to Adam Smith 97.06 - M. FLORIO, On Cross-Country Comparability of Government Statistics:OECD National Accounts 1960-94 97.07 - F. DONZELLI, Pareto's Mechanical Dream 98.01 - V. CERASI - S. DALTUNG, Close-Relationships between Banks and Firms: Is it Good or Bad? 98.02 - M. FLORIO - R. LUCCHETTI - F. QUAGLIA, Grandi e piccole imprese nel Centro-Nord e nel Mezzogiorno: un modello empirico dell'impatto occupazionale nel lungo periodo 98.03 – V. CERASI – B. CHIZZOLINI – M. IVALDI, Branching and Competitiveness across Regions in the Italian Banking Industry 98.04 – M. FLORIO – A. GIUNTA, Planning Contracts in Southern Italy, 1986-1997: a Prelimary Evaluation 98.05 – M. FLORIO – I. VALSECCHI, Planning Agreements in the Mezzogiorno: a Principle Agent Analysis 98.06 – S. COLAUTTI, Indicatori di dotazione infrastrutturale: un confronto tra Milano e alcune città europee 98.07 – G. PIZZUTTO, La teoria fiscale dei prezzi in un’economia aperta 98.08 – M. FLORIO, Economic Theory, Russia and the fading “Washington Consensus” 99.01 – A. VERNIZZI – A. SABA, Alcuni effetti della riforma della legislazione fiscale italiana nei confronti delle famiglie con reddito da lavoro dipendente 99.02 – C. MICHELINI, Equivalence Scales and Consumption Inequality: A Study of Household Consumption Patterns in Italy 99.03 – S.M. IACUS, Efficient Estimation of Dynamical Systems 99.04 – G. BOGNETTI, Nuove forme di gestione dei servizi pubblici 99.05 – G.M. BERNAREGGI, Milano e la finanza pubblica negli anni 90: attualità e prospettive

99.06 – M. FLORIO, An International Comparison of the Financial and Economic Rate of Return of Development 99.07 – M. FLORIO, La valutazione delle politiche di sviluppo locale 99.08 – I. VALSECCHI, Organisational Design: Decision Rules, Operating Costs and Delay 99.09 – G. PIZZUTTO, Arbitraggio e mercati finanziari nel breve periodo. Un’introduzione 00.01 – D. LA TORRE – M. ROCCA, A.e. Convex Functions on Rn 00.02 – S.M. IACUS – YU A. KUTOYANTS, Semiparametric Hypotheses Testing for Dynamical Systems with Small Noise 00.03 – S. FEDELI – M. SANTONI, Endogenous Institutions in Bureaucratic Compliance Games 00.04 – D. LA TORRE – M. ROCCA, Integral Representation of Functions: New Proofs of Classical Results 00.05 – D. LA TORRE – M. ROCCA, An Optimization Problem in IFS Theory with Distribution Functions 00.06 – M. SANTONI, Specific excise taxation in a unionised differentiated duopoly 00.07 – H. GRAVELLE – G. MASIERO, Quality incentives under a capitation regime: the role of patient expectations 00.08 – E. MARELLI – G. PORRO, Flexibility and innovation in regional labour markets: the case of Lombardy 00.09 – A. mauri, La finanza informale nelle economie in via di sviluppo 00.10 – D. checchi, Time series evidence on union densities in European countries 00.11 – D. checchi, Does educational achievement help to explain income inequality? 00.12 – G. BOESSO – A. VERNIZZI, Carichi di famiglia nell’Imposta sui Redditi delle Persone Fisiche in Italia e in Europa: alcune proposte per l’Italia 01.01 – G. NICOLINI, A method to define strata boundaries 01.02 – S.M. IACUS, Statistical analysis of the inhomogeneous telegrapher’s process 01.03 – M. santoni, Discriminatory procurement policy with cash limits can lower imports: an example 01.04 – D. LA TORRE, l’uso dell’ottimizzazione non lineare nella procedura di compressione di immagini con IFS 01.05 – G. masiero, patient movements and practice attractiveness 01.06 – S.M. IACUS, Statistic analysis of stochastic resonance with ergodic diffusion noise

01.07 – B. ANTONIOLI – G. BOGNETTI, Modelli di offerta dei servizi pubblici locali in Europa 01.08 – M. FLORIO, The welfare impact of a privatisation: the British Telecom case-history 01.09 – G. P. CRESPI, The effect of economic policy in oligopoly. A variational inequality approach. 01.10 – G. BONO – D. CHECCHI, La disuguaglianza a Milano negli anni ’90 01.11 – D. LA TORRE, On the notion of entropy and optimization problems 01.12 – M. FLORIO – A. GIUNTA, L’esperienza dei contratti di programma: una valutazione a metà percorso 01.13 – M. FLORIO – S. COLAUTTI, A logistic growth law for government expenditures: an explanatory analysis 01.14 – L. ZANDERIGHI, Town Center Management: uno strumento innovativo per la valorizzazione del centro storico e del commercio urbano 01.15 – ANNA MAFFIOLETTI – MICHELE SANTONI, Do trade union leaders violate subjective expected utility? Some insights from experimental data 01.16 – DAVIDE LA TORRE, An inverse problem for stochastic growth models with iterated function systems 01.17 – DAVIDE LA TORRE – MATTEO ROCCA, Some remarks on second-order generalized derivatives for C1,1 functions 01.18 – ALBERTO BUCCI, Human capital and technology in growth 01.19 – RINALDO BRAU – MASSIMO FLORIO, Privatisation as price reforms: an analysis of consumers’ welfare change in the UK 01.20 – ALDO SPRANZI, Impresa e consumerismo: la comunicazione consumeristica 01.21 – GIUSEPPE BERTOLA – DANIELE CHECCHI, Sorting and private education in Italy 01.22 – GIACOMO BOESSO, Analisi della performance ed external reporting: bilanci e dati aziendali on-line in Italia 01.23 – GIUSEPPE BOGNETTI, Il processo di privatizzazione nell’attuale contesto internazionale 02.01 – DANIELE CHECCHI – JELLE VISSER, Pattern persistence in european trade union density 02.02 – G. P. CRESPI – D. LA TORRE – M. ROCCA, Second order optimality conditions for differentiable functions 02.03 – S. M. IACUS – D. LA TORRE, Approximating distribution functions by iterated function systems 02.04 – A. BUCCI – D. CHECCHI, Crescita e disuguaglianza nei redditi a livello mondiale 02.05 – A. BUCCI, Potere di mercato ed innovazione tecnologica nei recenti modelli di crescita endogena con concorrenza imperfetta 02.06 – A. BUCCI, When Romer meets Lucas: on human capital, imperfect competition and growth 02.07 – S. M. IACUS – DAVIDE LA TORRE, On fractal distribution function estimation and applications 02.08 – P. GIRARDELLO – O. NICOLIS – G. TONDINI, Comparing conditional variance models: theory and empirical evidence 02.09 – L. CAMPIGLIO, Issues in the measurement of price indices: a new measure of inflation 02.10 – D. LA TORRE – M. ROCCA, A characterization of Ck,1 functions 02.11 – D. LA TORRE – M. ROCCA, Approximating continuous functions by iterated function systems and optimization problems 02.12 – D. LA TORRE – M. ROCCA, A survey on C1,1 functions: theory, numerical methods and applications 02.13 – D. LA TORRE – M. ROCCA, C1,1 functions and optimality conditions 02.14 – D. CHECCHI, Formazione e percorsi lavorativi dei laureati dell’Università degli Studi di Milano 02.15 – D. CHECCHI – V. DARDANONI, Mobility comparisons: Does using different measures matter? 02.16 – D. CHECCHI – C. LUCIFORA, Unions and Labour Market Institutions in Europe 02.17 – G. BOESSO, Forms of voluntary disclosure: reccomendations and business practices in Europe and U.S. 02.18 – A. MAURI – C.G. BAICU, Storia della banca in Romania – Parte Prima - 02.19 – D. LA TORRE – C. VERCELLIS, C1,1approximations of generalized support vector machines 02.20 – D. LA TORRE, On generalized derivatives for C1,1 vector functions and optimality conditions 02.21 – D. LA TORRE, Necessary optimality conditions for nonsmooth optimization problems 02.22 – D. LA TORRE, Solving cardinality constrained portfolio optimization problems by C 1,1 approximations 02.23 – M. FLORIO – K. MANZONI, The abnormal returns of UK privatisations: from underpricing to

outperformance 02.24 – M. FLORIO, A state without ownership: the welfare impact of British privatisations 1979-1997 02.25 – S.M.IACUS – D. LA TORRE, Nonparametric estimation of distribution and density functions in presence of missing data: an IFS approach 02.26 – S.M. IACUS – G. PORRO, Il lavoro interinale in Italia: uno sguardo all’offerta 02.27 – G.P.CRESPI – D. LA TORRE, M. ROCCA, Second-order optimality conditions for nonsmooth multiobjective 02.28– D. CHECCHI –T. JAPPELLI, School Choice and Quality 03.01– D. CHECCHI, The Italian educational system:family background and social stratification

03.02 – G. NICOLINI, – D.MARASIN,I Campionamento per popolazioni rare ed elusive: la matrice dei profili