popolazione, campione, parametri e stimatori popolazioneoggetto di cui si vuol ottenere una...

25
Popolazione, campione, parametri e stimatori Popolazione oggetto di cui si vuol ottenere una descrizione nel complessiva. Campione immagine parziale su cui è fondata l’analisi. È ottenuto dal piano di campionamento scegliendo tra le possibili alternative. Parametro costante che permette di descrivere gli aspetti caratteristici della distribuzione di un carattere nella popolazione. Stimatore strumento atto alla misurazione dei parametri della popolazione. Se voglio studiare la distribuzione dei redditi in F.V.G. 1- identifico la popolazione (soggetti percettori di reddito); 2- identifico il parametro sufficiente a descrivere il fenomeno (ad la media); 3- seleziono il campione (scegliendo tra i possibili disegni campion 4- ottengo una stima della media (sfruttando lo stimatore media campionaria). n i i Y n Y 1 1 per stimare N i i Y Y N 1 1

Upload: adelina-corsini

Post on 01-May-2015

222 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Popolazione, campione, parametri e stimatori Popolazioneoggetto di cui si vuol ottenere una descrizione nel complessiva. Campioneimmagine parziale su cui

Popolazione, campione, parametri e stimatori

Popolazione oggetto di cui si vuol ottenere una descrizione nel complessiva.

Campione immagine parziale su cui è fondata l’analisi. È ottenuto dal piano di campionamento scegliendo tra le possibili alternative.

Parametro costante che permette di descrivere gli aspetti caratteristici della distribuzione di un carattere nella popolazione.

Stimatore strumento atto alla misurazione dei parametri della popolazione.

Es. Se voglio studiare la distribuzione dei redditi in F.V.G.1- identifico la popolazione (soggetti percettori di reddito);2- identifico il parametro sufficiente a descrivere il fenomeno (ad esempio

la media);3- seleziono il campione (scegliendo tra i possibili disegni campionari);4- ottengo una stima della media (sfruttando lo stimatore media

campionaria).

n

iiYn

Y1

1per stimare

N

iiY Y

N 1

1

Page 2: Popolazione, campione, parametri e stimatori Popolazioneoggetto di cui si vuol ottenere una descrizione nel complessiva. Campioneimmagine parziale su cui

Popolazione, campione, parametri e stimatori

Popolazione (o Universo): è l’insieme di unita statistiche

Caratteristiche di interesse (oggetto di studio)

PNotazioni

Y

QuantitativeQualitative

Ordinali Sconnesse Discrete Continue

Unita statistiche vengono etichettate con i numeri Naturali1,2, …, N

Le cui manifestazioni nella popolazione si denotano quindi con:Y1, Y2, …, YN

Partendo dai dati grezzi

Unità 1 2 i NValori di Y Y1 Y2 Yi YN

il fenomeno può quindi essere studiato a diversi livelli di sintesi

… ………

Page 3: Popolazione, campione, parametri e stimatori Popolazioneoggetto di cui si vuol ottenere una descrizione nel complessiva. Campioneimmagine parziale su cui

Popolazione, campione, parametri e stimatori

Notazioni 1° livello – Distribuzioni di frequenza

… ………

… ………

AssolutaNi

Relativafh

Valori di Y Y1 Y2 Yh Yk

Frequenze N1 N2 Nh Nk

… ………

Valori di Y Y1 Y2 Yh Yk

Frequenze f1 f2 fh fk

N

Nf hh dove

k

hhNN

1

Valori distinti che la caratteristica assume – MODALITA’

Le frequenze relative percentuali non sono altro che fh*100

Nel caso vengano rilevate più caratteristiche della popolazione per studiare il fenomeno di interesse si parla di distribuzioni doppie…

Page 4: Popolazione, campione, parametri e stimatori Popolazioneoggetto di cui si vuol ottenere una descrizione nel complessiva. Campioneimmagine parziale su cui

Popolazione, campione, parametri e stimatori

… ………

… ………

Unità 1 2 i NValori di Y Y1 Y2 Yi YN

Valori di X X1 X2 Xi XN

I dati grezzi vengono ancora una volta rilevati come segue:

…… ……

Valori di YValori di X Y1 Y2 Yj Yt

X1 N11 N12 N1j N1t

X2 N21 N22 N2j N2t

Xh Nh1 Nh2 Nhj Nht

Xk Nk1 Nk2 Nkj Nkt

……

… …

……

………………

………………

La cui distribuzione doppia è sintetizzata dalla tabella a doppia entrata:

L’analisi statistica dei caratteri quantitativi permette tuttavia un livello di sintesi maggiore cioè quello legato allo studio dei parametri di sintesi dei fenomeni studiati. Una descrizione della popolazione può infatti essere basata anche sulla quantificazione dell’intensità media e dalla variabilità del fenomeno di interesse.

Page 5: Popolazione, campione, parametri e stimatori Popolazioneoggetto di cui si vuol ottenere una descrizione nel complessiva. Campioneimmagine parziale su cui

Popolazione, campione, parametri e stimatori

2° livello – Parametri della popolazione

La conoscenza congiunta dei valori che tali costanti assumono nella popolazione permette di descrivere in maniera molto sintetica il fenomeno osservato nella popolazione. Si può distinguere in:

1. Indici di posizione – medie;2. Indici di variabilità:3. Indici di forma (basati sui momenti terzi e quarti)

1. Indici di posizioneLa media aritmetica

Caso particolare di popolazione dicotomica (che presenta un carattere dicotomico)

Il totale (che come vedremo nel prosieguo presenta proprietà simili alla media)

N

iiYN

Y1

1

N

NY

NY A

N

ii

1

1

N

iiYYNY

1

Page 6: Popolazione, campione, parametri e stimatori Popolazioneoggetto di cui si vuol ottenere una descrizione nel complessiva. Campioneimmagine parziale su cui

Popolazione, campione, parametri e stimatori

2. Indici di variabilitàLa varianza

ed una sua forma modificata

Il coefficiente di variazione

N

ii YY

N 1

22 1

2

1

22

11

1

N

NYY

NS

N

ii

YCV

Page 7: Popolazione, campione, parametri e stimatori Popolazioneoggetto di cui si vuol ottenere una descrizione nel complessiva. Campioneimmagine parziale su cui

Popolazione, campione, parametri e stimatori

3. Indici di formaAsimmetria

positiva >0, negativa <0 e simmetria =0

Disnormalità (curtosi)

ipernormalità >3, ipornormalità <3 e normalità =3(leptocurtosi) (platicurtica) (normocurtica)

N

i

rir Y

N 1

1

N

i

rir YY

N 1

21

La definizione degli indici di forma sono necessarie le definizioni di momenti

non centrali di ordine r

centrali di ordine r

33

1

44

2

Page 8: Popolazione, campione, parametri e stimatori Popolazioneoggetto di cui si vuol ottenere una descrizione nel complessiva. Campioneimmagine parziale su cui

Popolazione, campione, parametri e stimatori

• Indici sintetici per distribuzioni doppie

Rapporto tra due fenomeni (ad esempio, il rapporto tra il totale della superficie delle case e il numero totale di abitanti, che indica la superficie media che compete ad ogni persona)

Covarianza

Coefficiente di correlazione

Coefficienti di regressione

ottenuti, ad esempio, con il metodo dei minimi quadrati.

X

Y

X

YR

N

iiiXY XXYY

N 1

1

YX

XYXY

2X

XY

XY

Page 9: Popolazione, campione, parametri e stimatori Popolazioneoggetto di cui si vuol ottenere una descrizione nel complessiva. Campioneimmagine parziale su cui

Popolazione, campione, parametri e stimatori

Per parametro di una popolazione si intende una costante che riassume le caratteristiche di interesse della popolazione.

I parametri sono oggetto della cosiddetta inferenza statistica.

In particolare si parla di inferenza quando si tenta con dei metodi di stima di assegnare ad un parametro

- un valore stima puntuale

- oppure un intervallo di valori stima per intervallo.

In alternativa si può procedere formulando una congettura la cui verifica (attraverso la teoria dei test d’ipotesi) porta all’inferenza sul valore del parametro.

In entrambi i casi si fa riferimento all’inferenza descrittiva che si distingue dall’inferenza analitica (non mero riconoscimento di caratteristiche ma studio di relazioni statistiche).

Page 10: Popolazione, campione, parametri e stimatori Popolazioneoggetto di cui si vuol ottenere una descrizione nel complessiva. Campioneimmagine parziale su cui

Popolazione, campione, parametri e stimatori

Ma cosa ha a che fare il campione con tutti questi concetti?

Il campione è un sottoinsieme (proprio o improprio, ad esempio le unità si possono anche presentare più di una volta nel campione – con ripetizione) di unità statistiche che viene assunto a “rappresentare” la popolazione.

La prima distinzione che possiamo operare è quella tra estrazione con ripetizione e senza ripetizione.

Dalla popolazione P={1, 2, …, N} s={i1, i2, …, in} campione ordinato

s ingloba, perciò, informazioni su:

- l’identità delle unità inserite nel campione- l’ordinamento durante l’estrazione delle unità stesse - il carattere d’interesse per l’indagine

Possiamo inoltre distinguere tra i campioni in cui la seconda informazione è importante e campioni in cui l’ordinamento è trascurabile (ordinati e non ordinati).

Etichette delle unità estratte

Page 11: Popolazione, campione, parametri e stimatori Popolazioneoggetto di cui si vuol ottenere una descrizione nel complessiva. Campioneimmagine parziale su cui

Popolazione, campione, parametri e stimatori

Se consideriamo:• N = numerosità delle unità statistiche della popolazione;• n = numerosità campionaria;il numero di campioni ordinati possibili sarà (disposizioni):

• se il campionamento è con ripetizione

• (N(N-1)(N-2)…(N-n)) se il campionamento è senza ripetizione

Se invece si considera un campionamento non ordinato (in cui non si è interessati all’ordine d’estrazione delle unità) i campioni possibili saranno (si debbono considerare le combinazioni):

• se il campionamento è con ripetizione

• se il campionamento è senza ripetizione (coefficiente binomiale)

n

nNC r

Nn

1,

n

NC Nn,

nrNn ND ,

!!

, nN

ND Nn

Page 12: Popolazione, campione, parametri e stimatori Popolazioneoggetto di cui si vuol ottenere una descrizione nel complessiva. Campioneimmagine parziale su cui

Popolazione, campione, parametri e stimatori

Una volta determinato il tipo di campionamento da considerare (con o senza ripetizione e ordinato o non ordinato) si deve definire il cosiddetto spazio campionario.

Lo spazio campionario è l’insieme di tutti i campioni che si possono formare data la tecnica prescelta.

Esempio. Date le quattro unità statistiche contrassegnate con gli indici 1, 2, 3 e 4. Si definiscono quattro spazi campionari distinti:- campioni ordinati di 2 elementi con ripetizione 4^2=16:

- campioni ordinati di 2 elementi senza ripetizione 4!/2!=12:

- campioni non ordinati di 2 elementi con ripetizione 5!/(2!*3!)=10:

- campioni non ordinati di 2 elementi senza ripetizione 4!/(2!*2!)=6:

3,4,4,3,2,4,4,2,2,3,3,2,1,4,4,1,1,3,3,1,1,2,2,1,4,4,3,3,2,2,1,1S

3,4,4,3,2,4,4,2,2,3,3,2,1,4,4,1,1,3,3,1,1,2,2,1S

4,4,4,3,3,3,4,2,3,2,2,2,4,1,3,1,2,1,1,1S

4,3,4,2,3,2,4,1,3,1,2,1S

Page 13: Popolazione, campione, parametri e stimatori Popolazioneoggetto di cui si vuol ottenere una descrizione nel complessiva. Campioneimmagine parziale su cui

Popolazione, campione, parametri e stimatori

L’operazione successiva all’estrazione del campione ed al rilevamento dei dati campionari è quella di analisi dei dati stessi.

Il calcolo sui dati campionari degli indici di sintesi delle caratteristiche d’interesse visti in precedenza porta alla determinazione delle cosiddette stime. In particolare si parla di:

- Media campionaria

- Varianza campionaria

- Covarianza campionaria Ecc.

Dove si sfruttano i dati campionari che vengono indicati per analogia con i dati della popolazione con y1, y2, …, yn utilizzando però le lettere minuscole.

n

iiyn

y1

1

n

ii yy

ns

1

22

1

1

n

iiiXY xxyy

ns

1

2

1

1

ninii YiYiYid ,,...,,,,

21 21

Page 14: Popolazione, campione, parametri e stimatori Popolazioneoggetto di cui si vuol ottenere una descrizione nel complessiva. Campioneimmagine parziale su cui

Popolazione, campione, parametri e stimatori

Se ad ogni campione s dello spazio campionario si associa una misura di probabilità, p(s) tale che

si ottiene un piano di campionamento.Formalmente si definisce piano di campionamento ogni funzione p(s) definita su S che soddisfa queste condizioni.

p(s) è il risultato della scelta della tecnica di estrazione delle unità campionarie.

Ad esempio, nel caso in cui si consideri un campionamento casuale semplice senza ripetizione per l’estrazione di campioni di numerosità n da una popolazione di N unità statistiche, i campioni generati hanno tutti la stessa probabilità. Quindi:

In generale è però possibile definire una funzione di probabilità ad hoc che ha conseguenze sulle proprietà statistiche dei risultati di stima legati al campionamento.

1)( ,0)( Ss

spsp

n

N1)(sp

Page 15: Popolazione, campione, parametri e stimatori Popolazioneoggetto di cui si vuol ottenere una descrizione nel complessiva. Campioneimmagine parziale su cui

Popolazione, campione, parametri e stimatori

Dopo aver definito il piano di campionamento è possibile esplicitare le nozioni di probabilità di inclusione.

Si consideri la generica unità i della popolazione P. Sia Ai l’insieme dei campioni dello spazio campionario S che comprendono l’unità i. Allora la probabilità di inclusione del primo ordine dell’unità i sarà data dalla somma delle probabilità dei campioni appartenenti ad Ai. In breve:

La nozione di probabilità di inclusione può essere estesa agli ordini di inclusione superiori al primo. Per esempio, la probabilità di inclusione di secondo ordine è la somma delle probabilità dei campioni che contengono contemporaneamente le due unità contraddistinte dagli indici i e j.

iAs

i sp )(

jispijAs

ij , ,)(

Page 16: Popolazione, campione, parametri e stimatori Popolazioneoggetto di cui si vuol ottenere una descrizione nel complessiva. Campioneimmagine parziale su cui

Popolazione, campione, parametri e stimatori

Ad esempio, si consideri la popolazione di quattro unità, P = {1, 2, 3, 4}

s {1,2} {1,3} {1,4} {2,3} {2,4} {3,4}p(s) 0.15 0.10 0.20 0.15 0.20 0.20

15.0

50.020.015.015.0

45.020.010.015.0

12

2

1

Un piano di campionamento è detto autoponderante se tutte le unità hanno la stessa probabilità di inclusione di primo ordine.

Il campionamento casuale semplice è autoponderante.

Page 17: Popolazione, campione, parametri e stimatori Popolazioneoggetto di cui si vuol ottenere una descrizione nel complessiva. Campioneimmagine parziale su cui

Popolazione, campione, parametri e stimatori

Lo scopo dell’indagine campionaria è far luce su una o più costanti caratteristiche della popolazione ignote. Per far ciò si definiscono i cosiddetti stimatori.

Uno stimatore è una sintesi quantitativa dei dati campionari due esempi già visti sono la media campionaria e la varianza campionaria. In generale,

dato θ parametro della popolazione

si definisce lo stimatore che è una V.C. perché il campione, di cui è una funzione è una V.C. (definita su S – spazio campionario)

che dato il campione s – osservato

determina la stima puntuale relativa al campione estratto.

totali trarapporto il

epopolazion della media la

XYR

Y

)( dt

)( ossdt

Page 18: Popolazione, campione, parametri e stimatori Popolazioneoggetto di cui si vuol ottenere una descrizione nel complessiva. Campioneimmagine parziale su cui

Popolazione, campione, parametri e stimatori

Lo stimatore in quanto V.C. segue una distribuzione campionaria che dipende dal piano di campionamento scelto.

Formalmente si definisce la probabilità

che è pari alla somma delle probabilità associate ai campioni che restituiscono una stima del parametro pari a x.

Data la distribuzione campionaria è possibile definire le proprietà degli stimatori. In particolare ci si concentrerà sulla

- Correttezza

- Efficienza che può essere relativa o assoluta ed è definita sulla base del confronto tra MSE

- Consistenza

xAs

spx )()ˆPr(

,)()(ˆSs

spdtE

1ˆPrlim

1

n

tN

nNn

Page 19: Popolazione, campione, parametri e stimatori Popolazioneoggetto di cui si vuol ottenere una descrizione nel complessiva. Campioneimmagine parziale su cui

Popolazione, campione, parametri e stimatori

Esempio del libro.

Page 20: Popolazione, campione, parametri e stimatori Popolazioneoggetto di cui si vuol ottenere una descrizione nel complessiva. Campioneimmagine parziale su cui

Popolazione, campione, parametri e stimatori

CorrettezzaUno stimatore si definisce non distorto quando la funzione che ne definisce il bias

è nulla.

EfficienzaUno stimatore è efficiente se ha mean square error minimo

Il concetto di efficienza relativa può essere esteso considerando uno stimatore efficiente rispetto agli stimatori appartenenti ad una particolare classe di stimatori (ad esempio, BLUE).

Nel caso non sia possibile disporre di uno stimatore efficiente e non distorto, è meglio uno stimatore corretto o efficiente?

ˆˆ EB

ˆˆ)()(ˆˆ 222BVspdtEMSE

Ss

possibile minimo il è ˆ globale

ˆˆ relativo 21

MSE

MSEMSE

stimatore dello varianzaˆˆˆ 2

EEV

Page 21: Popolazione, campione, parametri e stimatori Popolazioneoggetto di cui si vuol ottenere una descrizione nel complessiva. Campioneimmagine parziale su cui

Popolazione, campione, parametri e stimatori

Consistenza

cioè all’aumentare della numerosità campionaria la distribuzione di probabilità dello stimatore tende sempre più a concentrarsi attorno al vero valore del parametro. Per n molto grande è praticamente certo che lo stimatore coincida con il valore del parametro di interesse.

Alcuni sostituiscono la condizione con perché nel caso di popolazione finita un campione di dimensione N corrisponde alla popolazione quindi la rilevazione campionaria corrisponderebbe ad una rilevazione censuaria.

Uno stimatore si dice, infine, asintoticamente corretto se

Se uno stimatore corretto o asintoticamente corretto presenta inoltre varianza che tende a zero lo stimatore è anche consistente.

1ˆPrlim

1

n

tN

nNn

n Nn

,ˆlim

1

n

tN

nNn

E

Page 22: Popolazione, campione, parametri e stimatori Popolazioneoggetto di cui si vuol ottenere una descrizione nel complessiva. Campioneimmagine parziale su cui

Popolazione, campione, parametri e stimatori

Si definisce strategia campionaria la combinazione

piano campionario + stimatore

Nell’ambito della scelta della strategia campionaria da adottare è importante valutare il cosiddetto effetto del disegno.

Dati uno stimatore corretto del parametro di interesse ed un piano di campionamento, si chiama effetto del disegno il rapporto tra la varianza dello stimatore per il piano di campionamento in questione e la varianza dello stesso stimatore nel caso di C.C.S. a parità di dimensione campionaria.

varianza dello stimatore nel piano di campionamento selezionato

effetto del disegnovarianza dello stimatore nel piano di campionamento C.C.S.

ˆ

ˆ

0V

VDeff

Page 23: Popolazione, campione, parametri e stimatori Popolazioneoggetto di cui si vuol ottenere una descrizione nel complessiva. Campioneimmagine parziale su cui

Popolazione, campione, parametri e stimatori

Fino ad ora si è parlato di proprietà degli stimatori puntuali dei parametri della popolazione.

Un classico modo di fare inferenza statistica è quello di considerare delle stime per intervallo dei parametri andando ad identificare una regione di valori che contenga con una certa “confidenza” (fiducia) il vero valore del parametro (che non può essere con certezza quello stimato).

Se consideriamo nota la varianza di un certo parametro che sappiamo essere distribuito in modo approssimativamente normale possiamo definire

la cui distribuzione è nota (tavole della V.C. normale standard).

È quindi possibile definire una regione di valori di Z tali per cui

Da cui con alcuni passaggi algebrici si ottiene

ˆ

ˆ

VZ

1Pr 22 zZz

1ˆˆˆˆPr 22 VzVz

Page 24: Popolazione, campione, parametri e stimatori Popolazioneoggetto di cui si vuol ottenere una descrizione nel complessiva. Campioneimmagine parziale su cui

Popolazione, campione, parametri e stimatori

Si perviene quindi alla definizione dell’intervallo di confidenza al 1-α% che si indica con

Anche per il caso in cui la varianza dello stimatore non è nota è possibile usare tale formulazione andando a sostituire alla distribuzione normale standard la t di Student.

Nella maggior parte dei casi è comunque possibile considerare i quantili della normale standard se n è sufficientemente alto.

ˆˆ,ˆˆ221 VzVzIC

Grafico esemplificativo del significato di intervallo di confidenza.

Page 25: Popolazione, campione, parametri e stimatori Popolazioneoggetto di cui si vuol ottenere una descrizione nel complessiva. Campioneimmagine parziale su cui

Popolazione, campione, parametri e stimatori

Per correttezza è necessario infine citare anche i cosiddetti campionamenti non probabilistici:

- A scelta ragionata – selezione non casuale in base a conoscenze note a priori

- Bilanciato – selezione delle unità in modo tale che la media di una o più caratteristiche note sia uguale nel campione e nella popolazione

- Per quote – una volta suddivisa la popolazione in sottogruppi sulla base di caratteristiche note si vuole preservare nel campione la struttura osservata nella popolazione. Variabili che tipicamente si considerano sono: sesso, età, residenza, ecc.

Le quote sono l’ammontare di interviste da effettuare per ogni classe.

Queste metodologie di campionamento non esauriscono tutte le tipologie di campionamento non probabilistico (es. campionamento a valanga, ecc.).Infine è molto comune che vengano impiegati dei disegni campionari misti (es. campionamento probabilistico con quote dove ad una prima fase di selezione probabilistica di macro-aggregati segue una fase di selezione per quote delle unità statistiche).