basi per statistica inferenziale in matlabprofs.sci.univr.it/~farinelli/courses/algbio/slides... ·...
TRANSCRIPT
Basi perStatisticaInferenzialein Matlab
Introduzione
StimaPuntuale edintervalli dicon�denza
Intervalli dicon�denza
Basi per Statistica Inferenziale in Matlab
Laboratorio di Programmazione IICorso di Laurea in Bioinformatica
Dipartimento di Informatica - Università di Verona
Basi perStatisticaInferenzialein Matlab
Introduzione
StimaPuntuale edintervalli dicon�denza
Intervalli dicon�denza
Sommario
Introduzione
Stime puntuali ed intervalli
Basi perStatisticaInferenzialein Matlab
Introduzione
StimaPuntuale edintervalli dicon�denza
Intervalli dicon�denza
Introduzione
Basi perStatisticaInferenzialein Matlab
Introduzione
StimaPuntuale edintervalli dicon�denza
Intervalli dicon�denza
Statistica Inferenziale
Motivazioni
Fare inferenze circa un insieme di elemnti a partire da uninsieme di osservazioni
Es: inferire il risultato di un referendum dagli exit poll
inferenza → asserzioni motivate (risultato referendum)
insieme di elementi → popolazione (tutti i votanti)
insieme di osservazioni → campione (persone intervistate)
Basi perStatisticaInferenzialein Matlab
Introduzione
StimaPuntuale edintervalli dicon�denza
Intervalli dicon�denza
Statistica inferenziale ed analisi dei dati
Analisi dei dati
Dati → campione
Es: tempi di esecuzione di due algoritmi su un certonumero n di istanze di problema
inferenza → decidere quale dei due algoritmi e' piu' veloce
insieme di elemetni → tutte le possibili istanze
insieme di osservazioni → tempo di esecuzione sulle istanzen
Basi perStatisticaInferenzialein Matlab
Introduzione
StimaPuntuale edintervalli dicon�denza
Intervalli dicon�denza
Statistica inferenziale ed analisi dei dati
Example (Confronto Algoritmi)
Basi perStatisticaInferenzialein Matlab
Introduzione
StimaPuntuale edintervalli dicon�denza
Intervalli dicon�denza
Stima Puntuale ed intervalli di con�denza
Basi perStatisticaInferenzialein Matlab
Introduzione
StimaPuntuale edintervalli dicon�denza
Intervalli dicon�denza
Stima Puntuale
Stimare parametri di distribuzioni parzialmente note
Dato un campione x1, · · · , xn di valori
Voglio stimare i parametri di una distribuzione che assumosia la distribuzione della mia popolazione
Es: assumo la distribuzione Gaussiana con media evarianza non note
Voglio stimare la media e la varianza della mia distribuzione
Basi perStatisticaInferenzialein Matlab
Introduzione
StimaPuntuale edintervalli dicon�denza
Intervalli dicon�denza
Stima Puntuale: terminologia
terminologia e concetti base
Data una serie di variabili aleatorie X1, · · · ,Xn con unmodello probabilistico pX (x , θ)
Statistica: T = f (X1, · · · ,Xn)
Stimatore: θ̂ = f (X1, · · · ,Xn)
Stimatore Corretto (o non distorto): ET = θ
Basi perStatisticaInferenzialein Matlab
Introduzione
StimaPuntuale edintervalli dicon�denza
Intervalli dicon�denza
Stimatori corretti
Stimatori corretti per media e varianza
assumo pX (x , θ) = N(µ, σ)
se x1, · · · , xn sono i campioni (valori numerici)
Allora si puo dimostrare che
x̄n = 1/n∑
n
i=1xi e' uno stimatore corretto di µ
s2
n= 1/(n − 1)
∑n
i=1(xi − x̄n)2 e' uno stimatore corretto di
σ2
Basi perStatisticaInferenzialein Matlab
Introduzione
StimaPuntuale edintervalli dicon�denza
Intervalli dicon�denza
Stima puntuale in matlab
Stimare media e varianza in matlab
X = vettore di dati
mean(X) = stimatore della media
var(X) = stimatore corretto della varianza
Basi perStatisticaInferenzialein Matlab
Introduzione
StimaPuntuale edintervalli dicon�denza
Intervalli dicon�denza
Campionamento dati
Campionamento da distibuzioni note
rand(M,1) estrae M campioni dalla distribuzione uniformetra (0,1)
normrnd(MU,SIGMA,M,1) estrae M campioni dalladistribuzione normale con media MU e varianza SIGMA
Basi perStatisticaInferenzialein Matlab
Introduzione
StimaPuntuale edintervalli dicon�denza
Intervalli dicon�denza
Esempio stima puntuale
Example (Stima media e varianza di campioni)
X = vettore di dati
� X = normrnd(0,1,N,1)
mean(X) = stimatore della media
var(X) = stimatore corretto della varianza
Basi perStatisticaInferenzialein Matlab
Introduzione
StimaPuntuale edintervalli dicon�denza
Intervalli dicon�denza
Visualizzazione dati: plot
Cenni di gra�ca 2-D
plot(x,y) gra�co 2D di y rispetto ad x
help plot per vedere tutte le possibili opzioni
Example (gra�co di una distribuzione normale con media MU evarianza SIGMA)
Es: x = [-10:0.01:10]
y = normpdf(x,MU,SIGMA)
plot(x,y)
Basi perStatisticaInferenzialein Matlab
Introduzione
StimaPuntuale edintervalli dicon�denza
Intervalli dicon�denza
Visualizzazione dati: hist
Cenni di gra�ca 2-D: istogrammi
hist(x,y) istogramma dei valori in x divisi in y contenitori
help hist per vedere tutte le possibili opzioni
Example (gra�co di una distribuzione normale con media MU evarianza SIGMA)
Es: x = [-10:0.01:10]
y = normpdf(x,MU,SIGMA)
plot(x,y)
Basi perStatisticaInferenzialein Matlab
Introduzione
StimaPuntuale edintervalli dicon�denza
Intervalli dicon�denza
Intervalli di con�denza
Motivazione
La stima puntuale non ci dice il valore vero del parametro
Vogliamo che la stima ci dia un valore ragionevolmentevicino a quello vero
Intervallo di con�denza: valore percentuale di con�denzache il parametro appartenga all'intervallo stimato
Basi perStatisticaInferenzialein Matlab
Introduzione
StimaPuntuale edintervalli dicon�denza
Intervalli dicon�denza
Intervalli di con�denza: terminologia
terminologia e formule
intervallo di con�denza: Pθ(T1 < h(θ) < T2)
T1 = t1(X1, · · · ,Xn) T2 = t2(X1, · · · ,Xn)
h(θ) appartiente a (t1(x1, · · · , xn), t2(x1, · · · , xn)) con unacon�denza di livello 100α%
con�denza non probabilita' perche' valutiamo a valle delcampionamento
Basi perStatisticaInferenzialein Matlab
Introduzione
StimaPuntuale edintervalli dicon�denza
Intervalli dicon�denza
Intervallo di con�denza per la media
Popolazione normale con varianza nota
Ipotesi X1, · · · ,Xn ∼ N(µ, σ)
Obiettivo Pµ(|X̄n−µ|σ/√n< z(1+α)/2
)= α
zβ quantile β della normale standard (N(0, 1))P(X ≤ zβ) = β
Quantili sono de�niti da tabelle note
Soluzione µ̂ = X̄n ± z(1+α)/2σ√n
Basi perStatisticaInferenzialein Matlab
Introduzione
StimaPuntuale edintervalli dicon�denza
Intervalli dicon�denza
Intervallo di con�denza per la media
Popolazione normale con varianza non nota
Ipotesi X1, · · · ,Xn ∼ N(µ, σ)
Obiettivo Pµ,σ(|X̄n−µ|√S2n/n< t(1+α)/2(n − 1)
)= α
tβ(m) quantile β ad m gradi di liberta' della distribuzione tdi Student
Soluzione µ̂ = X̄n ± t(1+α)/2(n − 1)
√S2n
n
Basi perStatisticaInferenzialein Matlab
Introduzione
StimaPuntuale edintervalli dicon�denza
Intervalli dicon�denza
Stima per grandi campioni
Popolazione qualsiasi ma tanti campioni
Per grandi campioni (n>=30) possiamo assumere che lapopolazione abbia approssimativamente una distribuzione tdi student
Quindi per n grande (>=30) usiamo sempre
µ̂ = X̄n ± t(1+α)/2(n − 1)
√S2n
n
Se n e' molto grande (n>=120) allora possiamo assumereche t(1+α)/2(n − 1) ' z(1+α)/2
Quindi usiamo µ̂ = X̄n ± z(1+α)/2σ√n
Basi perStatisticaInferenzialein Matlab
Introduzione
StimaPuntuale edintervalli dicon�denza
Intervalli dicon�denza
Sommario
Calcolare intervalli di con�denza
Dati i campioni
Calcolare media mean()
Calcolare varianza var()
Calcolare formula opportuna (utilizzando z o t)
Per calcolare z o t caricare il �le corrispondente:tvaluedSample95 oppure zvaluedSample95
Basi perStatisticaInferenzialein Matlab
Introduzione
StimaPuntuale edintervalli dicon�denza
Intervalli dicon�denza
Calcolo di t e z
Come calcolare i quantili
Leggiamo i quantili da �le
Per i quantili z vedere il �le zvaluesSampled.dat
Per i quantili t vedere il �le tvaluesSampled95.dat
Attenzione: il quantile t dipende da n ma non abbiamotutti gli n nel �le
se n > 120 usare 1.6449 se n1 < n < n2 interpolare trat(n1) ed t(n2)
per interpolare utilizzare interp1(...)
Basi perStatisticaInferenzialein Matlab
Introduzione
StimaPuntuale edintervalli dicon�denza
Intervalli dicon�denza
Visualizzazione dati: errorbar
Cenni di gra�ca 2-D
molto simile a plot
errorbar(x,y,u,l) gra�co 2D di y, y+u ed y-l rispetto ad x,
help errorbar per vedere tutte le possibili opzioni
Basi perStatisticaInferenzialein Matlab
Introduzione
StimaPuntuale edintervalli dicon�denza
Intervalli dicon�denza
Esercizi
Esercizi intervalli di con�denza
Implementare zcon�nt (utilizzare zvaluesSampled.dat)
campionare gaussiana, calcolare media ed intervallo dicon�denza (utilizzare zcon�nt)gra�care media ed intervallo di con�denza al variare delnumero di campioni (utilizzare plotConfInt)
Implementare tcon�nt95 (utilizzare tvaluesSampled95.dat)
campionare gaussiana, calcolare media ed intervallo dicon�denza (utilizzare tcon�nt95)gra�care media ed intervallo di con�denza al variare delnumero di campioni (utilizzare tplotConfInt)
Basi perStatisticaInferenzialein Matlab
Introduzione
StimaPuntuale edintervalli dicon�denza
Intervalli dicon�denza
Esercizi II
Esercizi intervalli di con�denza
Calcolare media ed intervallo di con�denza per dati inmotifSearch.dat (usare tcon�nt95)
Gra�care l'andamento dei due algoritmi utilizzando errorbar