ripasso psicometria.ppt [modalità compatibilità] · d ati la ittit è s i dei i dati statistica...
TRANSCRIPT
dat
i La t ti ti è
si d
ei d
i dat
i statistica è facile!!!
anal
isan
alis
rici
di
erca
e
com
etr
di ri
ceti
psi
cnic
he
rum
enT
ecn
Ripasso Psicometria
Str
dat
i La t ti ti è
si d
ei d
i dat
i statistica è facile!!!
anal
isan
alis
rici
di
erca
e
com
etr
di ri
ceti
psi
cnic
he
rum
enT
ecn
Distribuzione normale
Str
È definita da:DISTRIBUZIONE NORMALE
È definita da:μ=media della popolazioneσ=d s della popolazioneσ=d.s. della popolazione
Ha le seguenti caratteristiche:INFINITA: va da -∞ a +∞INFINITA: va da a SIMMETRICA rispetto alla Y massima (f(x)= punto più alto
x=μ)UNIMODALE (μ=Mo=Me)UNIMODALE (μ=Mo=Me)ASINTOTICA: si avvicina all’asse delle X senza mai toccarlo
Xμ
DISTRIBUZIONE NORMALE
Per qualsiasi valore x che la variabile può assumere, attraverso la funzione si calcola la y corrispondente
2
211 ⎟
⎠
⎞⎜⎝
⎛ −−
μix
Y2
21 ⎠⎝= σ
πσi ey
yi
Xμ xi
DISTRIBUZIONE NORMALE
CRESCENTE per -∞<x<μ e DECRESCENTE per μ<x<+∞ due punti di flesso a μ ± σ
Y
πσμ 21
=yPunti di flesso
Media=Moda=Mediana
Asintotica
Xμμ-σ μ+σ-∞ +∞
DISTRIBUZIONE NORMALE
La curva NORMALE è definita dai parametri μe σAbbiamo un’ampia famiglia di distribuzioni normali con medie e deviazioni standard diverse…
Y
μ1≠ μ2 ≠ μ3
≠ ≠σ1≠ σ 2 ≠ σ 3
Xμ1μ2 μ3
DISTRIBUZIONE NORMALE
Oppure famiglie di distribuzioni normali con diversa media e con uguale deviazione standard
Yμ1≠ μ2 ≠ μ3
σ1=σ 2 =σ 3
Xμ1μ2 μ3
Qualsiasi siano i parametri e l’area della porzione di
DISTRIBUZIONE NORMALE
Qualsiasi siano i parametri μ e σ, l area della porzione di curva delimitata dalla media e un ordinata espressa in termini di deviazioni standard è costantetermini di deviazioni standard è costante
μ+σ= 34.13% della distribuzioneμ+2σ= 47.73% della distribuzioneμ+3σ= 49.86% della distribuzione
Y95 46%99.73%
68.26%95.46%
μ-σ μ+σ μ+2σ μ+3σμ-3σ μ-2σ μ
dat
i La t ti ti è
si d
ei d
i dat
i statistica è facile!!!
anal
isan
alis
rici
di
erca
e
com
etr
di ri
ceti
psi
cnic
he
rum
enT
ecn
Distribuzioni campionarie
Str
Il campionamento e l’inferenza statistica•Il problema centrale dell’inferenza statistica è quello di generalizzare alla popolazione i risultati (ad es., media, diff di i i i ) tt ti li ll didifferenze medie, associazioni, ecc.) ottenuti a livello di un campione.
•Popolazione = un insieme di unità statistiche che condividono una o più caratteristiche
•Es: la popolazione dei pazienti con diagnosi di depressione bipolare
•Campione = sottoinsieme della popolazione, composto da unità estratte preferibilmente in modo casuale dallada unità estratte preferibilmente in modo casuale dalla popolazione
•Es: i pazienti partecipanti ad un trial clinico sull’efficacia di unaEs: i pazienti partecipanti ad un trial clinico sull efficacia di una terapia per la depressione
Il campionamento e l’inferenza statistica
Sul campione si calcolano le STATISTICHE (ad es., M) del campione per conoscere i PARAMETRI (ad es μ) dellacampione per conoscere i PARAMETRI (ad es, μ) della popolazione.
Questo passaggio dalle STATISTICHE ai PARAMETRI si basa sulla conoscenza delle proprietà delle DISTRIBUZIONI DISTRIBUZIONI CAMPIONARIECAMPIONARIE d i t i ( )CAMPIONARIECAMPIONARIE dei parametri (μ)
Se si estraggono tutti i possibili campioni di ampiezza n da unaSe si estraggono tutti i possibili campioni di ampiezza n da una popolazione (con μ e σ) e si calcola per ognuno la media, ottengo:
DISTRIBUZIONE CAMPIONARIA DELLA MEDIA (dCM), anch’essa normale e caratterizzata da una media (μM) e una deviazione standard, detta errore standard ( )errore standard (σM)
DISTRIBUZIONE CAMPIONARIA DELLA MEDIA
Se la popolazione è infinita o se il campionamento è con reinserimento: la media della distribuzione
i i è l ll di d ll l icampionaria è uguale alla media della popolazione e l’ errore standard è uguale alla deviazione standard della popolazione fratto la radice di nstandard della popolazione fratto la radice di n
μμ =M Mσσ =
Se la popolazione è finita (N) o il campionamento è
μμM nM
( )senza reinserimento, la media della distribuzione campionaria è uguale alla media della popolazione
l’ t d d di t iù li te l’errore standard diventa appena più complicato:
− nNσμμ1−
=NnMσμμ =M
LEGGE DEI GRANDI NUMERIAll’aumentare di n la varianza della distribuzione campionariaAll aumentare di n la varianza della distribuzione campionaria della media diminuisce e tende a zero
Più ampi sono i campioni:Più ampi sono i campioni: più alta è la probabilità che la media di ognuno di essi sia vicina a quella della popolazione la varianza della dCM si riduce Quando N=n la varianza della dCM è zero
222
dCM2 con n= 20
22212
σσσ << MM
dCM2 con n 20
dCM1 con n= 10
popolazione
MμM1= μM2= μ
TEOREMA DEL LIMITE CENTRALE: dCM e Normale
Se si estraggono ripetuti campioni di ampiezza n da una popolazione, qualsiasi siaampiezza n da una popolazione, qualsiasi siala forma della distribuzione nella popolazione:
all’aumentare di n la distribuzione campionaria della media tende ad avvicinarsi alla normale e può essere considerata normale per n≥30
DISTRIBUZIONE CAMPIONARIA DELLA MEDIA
DISTRIBUZIONE CAMPIONARIA DELLE MEDIE con n>30DISTRIBUZIONE CAMPIONARIA DELLE MEDIE con n>30DISTRIBUZIONE DI PROBABILITA NORMALE
STANDARDIZZATAS
TRASFORMAZIONE IN z
M=media daμM= media della
d ( )
TRASFORMAZIONE IN z
Mz Mμ−
=
M media da standardizzare
dCM (=μ)
n
zσ
=
erroren σM= errore standard della dCM
i i in= ampiezza campionaria
La distribuzione riparametrizzata sulla scala z
DISTRIBUZIONE NORMALE
La distribuzione riparametrizzata sulla scala z standardizzata mantiene le caratteristiche della curva normalenormale
entro z = 1 34.13% della distribuzioneentro z = 2 47.73% della distribuzioneentro z = 3 49.86% della distribuzione
Y95 46%99.73%
68.26%95.46%
-1 1 2 3-3 -2 0
A che serve la z? A che serve l’errore standard?La trasformazione in z, traduce una differenza fra medie dallaLa trasformazione in z, traduce una differenza fra medie dalla metrica originaria (es: peso), in una nuova metrica, in cui la nuova unità di misura corrisponde all’errore standard
Possiamo risalire alla probabilità di osservare una discrepanza dalla media dell’entità espressa da z.
Infatti, la z, segue la distribuzione normale di probabilità
Rispetto alle differenze fra medie nella metrica originaria, la zi i t i t è i t t i t i i b bili ti ici aiuta a capire quanto è importante in termini probabilistici
la differenza osservata.Questo perché l’errore standard è un’unità di misura delle differenzeQuesto perché l errore standard è un unità di misura delle differenze più interessante rispetto alle unità di misura originarie.
L’errore standard rappresenta l’errore medio della stima che noi ppeffettuiamo calcolando la media campionaria
Una differenza grande svariate volte l’errore medio della stima, è un evento poco probabile e tutto ciò che è poco probabile è in genereevento poco probabile, e tutto ciò che è poco probabile è in genere molto informativo.
ESEMPIO USO z
Poniamo di aver ottenuto su un campione di nostri pazienti (n = 19) un punteggio pari a 25.5 in un test di depressione. Nel campione normativo il test ha una media di 24.1 con ds = 1.7.Il mio campione è “strano” rispetto a quello normativo?
Mz Mμ−= 124525 −
n
z M σ 58.3
197.1
1.245.25==Mz
Tavola z
ESEMPIO
Ne posso concludere che il mio campione rappresenta un caso estremo ed improbabile della popolazione
Oppure, posso sospettare che faccia parte di una popolazione diversa rispetto a quella fotografata dalpopolazione diversa rispetto a quella fotografata dal campione normativo di standardizzazione del test
Probabilità di circa 2 suProbabilità di circa 2 su diecimila
z3.58
ESEMPIO USO z - 2
Poniamo di aver ottenuto su un campione di nostri pazienti (n = 19) un punteggio pari a 24.5 in un test di depressione. Nel campione normativo il test ha una media di 24.1 con ds = 1.7.Il mio campione è “strano” rispetto a quello normativo?
Mz Mμ−= 124524 −
n
z M σ 02.1
197.1
1.245.24==Mz
Tavola z
ESEMPIO
Ne posso concludere che il mio campione rappresenta un caso relativamente banale e abbastanza rappresentativo della popolazione fotografata dal campione normativopopolazione fotografata dal campione normativo
Oppure, i dati possono confermare che il mio campione proviene probabilmente dalla medesima popolazione da cui è stato tratto il campione normativostato tratto il campione normativo
Probabilità di circa il 15%
z1.02
RIASSUMENDO…
La dCM la si ottiene calcolando la media di ciascun campione estratto da una popolazione con una sua distribuzione con μee σ
La media della dCM è la media delle medie, la deviazione t d d i l l li ti di i distandard si calcola con gli scarti di ciascuna media
campionaria dalla media delle medie
L POPOLAZIONE ò di t ib iLa POPOLAZIONE può avere distribuzione:
Normale
diversa dalla normale
non nota
Se n>30 la distribuzione delle medie dei campioni da essa estratti è NORMALE, per qualunque distribuzione dellaestratti è NORMALE, per qualunque distribuzione della variabile.
DISTRIBUZIONE CAMPIONARIA DELLA MEDIA: t di Student
La POPOLAZIONE può avere distribuzione:NormaleNormale
diversa dalla normale
non notaSe n<30 la distribuzione delle medie dei campioni è d l ti t di St d t H l ti tt i ti hdel tipo t di Student. Ha le seguenti caratteristiche:INFINITA, SIMMETRICA, UNIMODALE, ASINTOTICA
DISTRIBUZIONE t di Student a confronto con la Normale
Rispetto alla normale la varianza della distribuzione sarà maggioredistribuzione sarà maggiore
Perché n < 30 (campioni piccoli)curva più appiattita e code più lunghe (ad es. la porzione di area compresa tra ± 1 σ dalla
di à i d l 68%)media sarà minore del 68%)
Distribuzione Normale
Distribuzione t di Student
-σ μ +σ t
DISTRIBUZIONE t di Student
tLa forma della distribuzione t varia secondo la dimensione n dei campioniCiasc na distrib ione t è definita dai parametriCiascuna distribuzione t è definita dai parametri μ, σe ν = gradi di libertàLa t è quindi una Famiglia di distribuzioni legate a il
1−= nνLa t è quindi una Famiglia di distribuzioni legate a il numero di ν = gradi di libertà (all’aumentare di ν la distribuzione tende alla normale)
Di t ib i N lDistribuzione Normale
Distribuzione t di S d 30Student con ν=30
Distribuzione t diDistribuzione t di Student con ν=5
t
DISTRIBUZIONE t di Student
Come per la normale
∫∞
1)()( df∫∞−
==∞<<−∞ 1)()( dttfxp
La curva definisce una distribuzione di probabilità Distribuzione di probabilità t definita
dall’indicatore:
M μ
M
MMtσ
μˆ−
=σ s
M =ˆMσ
νM1−= nν
DISTRIBUZIONE t: RIASSUMENDO
DISTRIBUZIONE CAMPIONARIA DELLE MEDIE con n<30DISTRIBUZIONE DI PROBABILITA’ t
TRASFORMAZIONE IN t
M di dMedia della dCM
−Mt Mμ
Media da standardizzare
(=μ)
1−
=
ns
t
Errore standard1n Errore standard della dCM stimato a
partire da sGradi di libertà legati a n partire da sGradi di libertà legati a n= ampiezza campionaria
ESEMPIO USO t
Poniamo di aver ottenuto su un campione di nostri pazienti (n = 19) un punteggio medio pari a 25.3 (d.s. = 1.7) in un test di depressione. Le tabelle del campione normativo suggeriscono che punteggi superiori a 25 sono da considerarsi problematici.Quanto è problematico il mio campione?
75253.25=
−=t−M Mμ 75.
1197.1 =
−
=t
1−
=
ns
Mt Mμ
1n
Tavola t
A che serve la t
Come la trasformazione in z, la trasformazione in tscala le differenze osservate secondo una nuova
ità di i d t d ll’ t d dunità di misura data dall’errore standard.Attenzione: non confondere la distribuzione t con i
t i “T”!punteggi “T”!Questa nuova scala segue una distribuzione nota
ÈÈ possibile stabilire intervalli di confidenza intorno alla media campionaria per stimare la media della popolazionepopolazione
Possiamo sapere quanto è probabile osservare una data differenza rispetto ad una media data della popolazionedifferenza rispetto ad una media data della popolazione
Se una differenza supera di svariate volte l’errore standard di misura ci troviamo di fronte ad una differenza improbabile e quindi interessante edifferenza improbabile, e quindi interessante e informativa
dat
i La t ti ti è
si d
ei d
i dat
i statistica è facile!!!
anal
isan
alis
rici
di
erca
e
com
etr
di ri
ceti
psi
cnic
he
rum
enT
ecn
Distribuzioni campionarie
Str della differenza fra le medie
Distribuzione campionaria della differenza fra medie
Se si estraggono da due popolazioni distribuite normalmente (con medie μ1 e μ2, varianze σ1
2 e σ22 ) un gran numero di
campioni indipendenti di ampiezza n1 e n2, e si calcola lacampioni indipendenti di ampiezza n1 e n2, e si calcola la differenza tra le loro medie ottengo:
DISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA TRADISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA TRA MEDIE (dCDM)
LLa DISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA TRA MEDIE(dCDM) è caratterizzata da:
una media ( );una media (μM1-M2);
un errore standard (σM1-M2)
S i i di 30 il T d l li itSe n1 e n2 sono maggiori di 30, per il Teorema del limite centrale, la dCDM è normale qualsiasi sia la distribuzione delle popolazionip p
Distribuzione campionaria della differenza fra medie
La media della distribuzione campionaria della differenza tra medie è uguale alla differenza delle medie μ1 e μ2 delle due popolazionipopolazioni
2121 MMMM μμμ −=−
L’errore standard è uguale alla radice quadrata della
2121
somma delle varianze σ12 e σ2
2 delle due popolazioni fratto le rispettive ampiezze campionarie n1 e n2
2
22
1
21
21 nnMMσσ
σ +=−
Usando questo errore standard possiamo riscalare la differenza osservata fra le due medie in termini di errore standard (trasformazione in z)
Distribuzione campionaria della differenza fra medie
Se σ12 e σ2
2 non sono note occorre stimarle a partire d 2 2 S i d ll’ d dda s1
2 e s22 Stima dell’errore standard
VARIANZE STIMATE DELLA POPOLAZIONE
21
121 1
ˆ sn
n=σ 2
222
2 1ˆ s
nn
=σ1 1n − 2 1n −
22
11ˆ
2
22
1
21
21 −+
−=− n
sn
sMMσ
21
Distribuzione campionaria della differenza fra medie
La z rappresenta un caso particolare, più in generale:
Se n1 e n2 sono minori di 30 la DISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA TRA MEDIE (dCDM) non è ( )normale
Distribuzione t di Student con gradi di libertà:Distribuzione t di Student con gradi di libertà:
gdl = n1 + n2 - 2
⎟⎟⎞
⎜⎜⎛ +
⎟⎟⎞
⎜⎜⎛ +
−−−=
21222
211
2121 )(
nnsnsn
xxt μμ
⎟⎟⎠
⎜⎜⎝
⎟⎟⎠
⎜⎜⎝ −+ 21
21
21
2211
2 nnnn
σ)21 xx −σ
Se una differenza fra medie si traduce in una z (o t) diInterpretazione delle differenze fra medie in termini di probabilità
Se una differenza fra medie si traduce in una z (o t) di determinata entità, possiamo controllare la probabilità di osservare una differenza di quella entità
differenze maggiori di z = ±1 Capitano meno del 32% delle voltedifferenze maggiori di z = ± 2 Capitano meno del 5% delle voltedifferenze maggiori di z ± 2 Capitano meno del 5% delle voltedifferenze maggiori di z = ± 3 Capitano meno del 1% delle volte
Y95 46%99.73%
68.26%95.46%
-1 1 2 3-3 -2 0
Riassumendo
Le distribuzioni della differenza campionaria delle media sono concettualmente simili alle distribuzioni campionarie delle mediadelle media.
Siccome conosciamo la forma di queste distribuzioni (o sono normali o sono del tipo t) è possibile calcolare un indicatorenormali, o sono del tipo t) è possibile calcolare un indicatore delle differenze (o z o t) tramite il quale deriviamo un’indicazione probabilistica dell’entità delle differenze
tosservate.
La z è un caso particolare (distribuzione normale) di un caso iù l (di t ib i t)più generale (distribuzione t)
Ricordiamoci che differenze grandi (grandi z o grandi t) indicano differenze poco probabiliindicano differenze poco probabili.
Ora sappiamo tutto ciò che ci serve per affrontare la verifica delle ipotesidelle ipotesi.
dat
i La t ti ti è
si d
ei d
i dat
i statistica è facile!!!
anal
isan
alis
rici
di
erca
e
com
etr
di ri
ceti
psi
cnic
he
rum
enT
ecn
VERIFICA DELLE IPOTESI
Str
INFERENZA STATISTICATeoria della verifica dell’ipotesi :Teoria della verifica dell ipotesi :
si verifica, in termini probabilistici, se una certa affermazione relativa alla popolazione è da ritenersi vera sulla base dei dati campionari
Questo approccio è il più tipico in psicologia
Teoria della stima dei parametri:si stabilisce, in termini probabilistici, il valore numerico di uno o più parametri incogniti della popolazione a partire dai dati campionari
Questo approccio è meno frequente in psicologiaQuesto approccio è meno frequente in psicologia
Formulazione Ipotesi StatisticheRaccolta dati sul Campione (ottenuto - idealmente - con campionamento casuale)
Decisione (in base alla Teoria della Probabilità) sempre soggetta ad errore
si assume a priori un rischio accettabile (poco probabile) di errore
FORMULAZIONE DELLE IPOTESI
Si formulano due ipotesi:H : ipotesi nullaH0 : ipotesi nulla
(“non c’è effetto”)
H i t i lt ti t tiH1 : ipotesi alternativa, o sostantiva, o sperimentale
(“qualche effetto c’è”)
Per verificare un’ipotesi (H1) che afferma la p ( 1)presenza di effetti, si assume che sia invece vera un’ipotesi contraria (H0 ), che nega la presenza diun ipotesi contraria (H0 ), che nega la presenza di effetti.
FORMULAZIONE DELLE IPOTESI
Si calcola la probabilità di osservare valore pari almeno al valore “sperimentale” (quello ottenuto) assumendo come vera l’ipotesi nulla.
Se tale probabilità è bassa si decide che H0 è falsa, e H1 è verosimile.Bisogna però ricordare che H0 può essere vera, e che noi abbiamo semplicemente sbagliato campionamento.
Es: Due diverse terapie garantiscono diversa efficacia?H0 (ipotesi nulla): non esiste una differenza tra due terapie
H1 (ipotesi alternativa): esiste una differenza tra due terapie
Si cerca di falsificare probabilisticamente l’ipotesi che non vi siano diff (H ) di t h l diff ’è (H )differenze (H0) per dimostrare che la differenza c’è (H1)
FORMULAZIONE DELLE IPOTESI
Ipotesi sperimentale H può essere:Ipotesi sperimentale H1 può essere:Semplice: si fissa un unico valore del parametro
Composta: si fissano diversi valori possibili del parametro
MONODIREZIONALE (una coda) prevede la direzionedella differenza
BIDIREZIONALE (due code) non prevede direzioneH0 : μs = μc
H : μ = 60 SempliceH1: μ = 60 Sempliceoppure
μs< μc Composta Monodirezionaleμs μc poppure
μs> μc Composta Monodirezionaleoppure
μs ≠ μc Composta Bidirezionale
DECISIONE SU H0
Si calcola la probabilità associata agli eventiSi calcola la probabilità associata agli eventi osservati posto che H0 sia verase la probabilità è alta accetto Hse la probabilità è alta accetto H0
se la probabilità è bassa respingo H0 e accetto H1se la probabilità è bassa respingo H0 e accetto H1H0
Alta
Bassa Bassa
Alta
0
LIVELLO DI SIGNIFICATIVITÀ
Come si stabilisce che la probabilità associata a H è altaCome si stabilisce che la probabilità associata a H0 è altao bassa?Si definiscono dei limiti probabilistici:Si definiscono dei limiti probabilistici:
entro certi livelli di probabilità accetto H0
oltre certi livelli di probabilità rifiuto Holtre certi livelli di probabilità rifiuto H0
Il livello di significatività = α:Definisce la regione di Rifiuto di H0
α é una probabilità
Regione della distribuzione campionaria composta dai risultati che hanno una probabilità molto bassa di essere osservati quando H0 è veravera
Definisce la regione di Accettazione di H0
Regione della distribuzione campionaria composta dai risultati cheRegione della distribuzione campionaria composta dai risultati che hanno una probabilità molto alta di essere osservarti quando H0 è vera (1- α).
DECISIONE SU H0: Regioni di accettazione rifiuto per ipotesi monodirezionali
Ri d !Ricorda!L’area sotto la curva rappresenta una probabilità
H0
L’asse delle ascisse rappresenta una statistica (z o t)
Regione di accettazione
Regione di rifiuto
accettazione
(1- α)Regione di rifiuto
α
H di i l 0H1 monodirezionale 0
DECISIONE SU H0: Regioni di accettazione rifiuto per ipotesi bidirezionali
Ri d !Ricorda!L’area sotto la curva rappresenta una probabilità
H0
L’asse delle ascisse rappresenta una statistica (z o t)
Regione di accettazione
(1- α)( )Regione di rifiuto
Regione di rifiuto
α/2α/2
bidi i l0H1 bidirezionale0
LIVELLO DI SIGNIFICATIVITÀ
Sia p il valore di probabilità calcolato per l’evento osservato
α
se p > α : Accetto H0 e Rifiuto H1
pp
αse p < α : Rifiuto H0 e Accetto H1
α
p
REGOLE DI DECISIONE
Regole di decisione su gbase probabilistica
La decisione non è mai certa
La decisione è sempre soggetta ad errore
Il rischio di errore che ci sentiamo di correre è rappresentato da αè rappresentato da α
S bili il li ll di i ifiREGOLE DI DECISIONE: Errori
Stabilire il livello di α significa:Stabilire il rischio che siamo disposti a correre di commettere l’errore di
i H d è (E di I° i )respingere H0 quando è vera (Errore di I° tipo)
Si tende a stabilire un valore di α basso perché:Si tende a stabilire un valore di α basso perché: è preferibile non affermare l’esistenza di un fenomeno se non si è probabilisticamente “sicuri” della sua presenzaprobabilisticamente sicuri della sua presenza
“Andare appresso” a risultati apparentemente significativi (che dipendono da eccessivo errore di campionamento) è scientificamente p p )una perdita di tempo
α = .05 rischio di sbagliare rifiutando H0 quando essa è vera = 5 volte su 100
α = .01 rischio di sbagliare rifiutando H0 quando essa è vera = 1 volta su 100
α = .001 rischio di sbagliare rifiutando H0 quando essa è vera = 1 volta su 1000
REGOLE DI DECISIONE: Errori
S H èSe H0 è vera:
si può decidere di accettare H0 = Decisione corretta
si può decidere di rifiutare H0 = Decisione scorretta (Errore di I° tipo)
ERRORE DI I° TIPORespingo H0 quando è vera
Accetto H1 quando è falsa
Commettendo l’errore di I tipo si considera presente (vero) un effetto assente (falso) nella popolazione
La probabilità di questo errore è αα= probabilità di evidenziare un fenomeno che in realtà non esiste
α= probabilità di rintracciare un effetto presente solo in un campione (per errore di campionamento), ma assente nella popolazione di riferimento
REGOLE DI DECISIONE: Errori
Se H0 è falsa:si può decidere di rifiutare H0 : Decisione correttasi può decidere di rifiutare H0 : Decisione corretta
si può decidere di accettare H0 : Decisione scorretta (Errore di II°tipo)
ERRORE DI II° TIPOAccetto H0 quando è falsaRifiuto H1 quando è vera
Si considera assente (falso) un effetto presente (vero) nella popolazione di riferimentopopolazione di riferimentoLa probabilità di questo errore è β
β = probabilità di non evidenziare un fenomeno che in realtà esisteβ probabilità di non evidenziare un fenomeno che in realtà esisteβ = probabilità di non rintracciare un effetto assente solo nel campione osservato, ma in realtà presente nella popolazione di riferimento
P t il l di β diff di ll di òPurtroppo il valore di β, a differenza di quello di α, non può essere determinato
H H
Relazione fra α e β
H0 H1
Regione di
1-β1 αRegione di accettazione
accettazione
β1-α accettazione
βαα
D=0 D≠0
Campione appartenente ad una popolazione dove H0 è vera,
ma che conduce ad errore di I tipoCampione appartenente ad una popolazione
dove H0 è falsa, ma che conduce ad errore di I tipodove H0 è falsa, ma che conduce ad errore di II tipo
H H
Relazione fra α e β
H0 H1
Regione di
1-β1 αRegione di accettazione
accettazione
β1-α accettazione
βαα
•Se α diminuisce β aumentaD=0 D≠0
Se α diminuisce, β aumenta.Evitare errori di I° tipo può portare ad una elevata probabilità di
commettere errori di II° tipop
REGOLE DI DECISIONE
IpotesiDecisione
H0 è vera H0 è falsaDecisione
Accetto H0 Decisione Corretta(1 )
Decisione ErrataE di II° ti(1- α) Errore di II° tipo
(β )
Rifiuto H0 Decisione ErrataErrore di I° tipo
Decisione Corretta(1 β )Errore di I tipo
(α )(1 - β )
POTENZA DEL TEST
• La poten a del test è la probabilità di respingere H q ando è era H• La potenza del test è la probabilità di respingere H0 quando è vera H1
1- β• Capacità del test di condurre alla decisione corretta
1 β
• La potenza di un test è determinata fondamentalmente dalla grandezza del campionede ca p o e
• Inoltre, la potenza è determinata dalla grandezza dell’effetto.
• Infine, la potenza è in parte influenzata dal tipo di analisi statisticaeffettuata.
• L’applicabilità delle tecniche di analisi dipende a sua volta da:• L applicabilità delle tecniche di analisi dipende a sua volta da:Livello di misura
Grandezza campioneG a de a ca p o e
Distribuzione
dat
i La t ti ti è
si d
ei d
i dat
i statistica è facile!!!
anal
isan
alis
rici
di
erca
e
com
etr
di ri
ceti
psi
cnic
he
rum
enT
ecn
VERIFICA DELLE IPOTESI: I passi da seguire
Str p g
VERIFICA DELL’IPOTESI: I passi da seguire
I bIn base a:– Livello di misurazione variabile/i
CategorialeCategoriale
Ordinale
IntervalliIntervalli
Rapporti
– Caratteristiche del/dei campione/i (n° e tipo)1 CAMPIONE 2 CAMPIONI k CAMPIONI
indipendentidipendenti dipendentiindipendenti
Scelta del test statistico (di significatività)
VERIFICA DELL’IPOTESI: I passi da seguire
Definizione dell’ipotesi:H : IPOTESI NULLA (da falsificare)H0: IPOTESI NULLA (da falsificare)H1: IPOTESI ALTERNATIVA (da verificare)
IPOTESI SEMPLICE IPOTESI COMPOSTAIPOTESI SEMPLICE IPOTESI COMPOSTA
MONODIREZIONALE BIDIREZIONALE
VERIFICA DELL’IPOTESI: I passi da seguire
Fissare il livello di significatività α = probabilità prefissata di considerare H0 falsa p p 0quando è vera (errore di 1° tipo)
Si delinea la regione di rifiuto in base a:Si delinea la regione di rifiuto in base a:– α prefissato
Tipo di H (mono/bi direzionale)– Tipo di H1 (mono/bi-direzionale)
Nel fissare α devo tenere anche conto dellaNel fissare α devo tenere anche conto della potenza che mi aspetto del test, e quindi:
C id l d tt d l ff tt i ti tConsiderare la grandezza attesa del effetto ipotizzato
Avere un’idea della numerosità campionaria
Scegliere il test più potente fra quelli appropriati
VERIFICA DELL’IPOTESI: I passi da seguire
Associare una probabilità ad H0:Test statistico
Distribuzioni campionarie
Distribuzioni teoriche di probabilità(T l )(Tavole)
Decisione su H ( H ):Decisione su H0 ( H1):Se la probabilità associata ad H0 è maggiore
di ( > ) Si tt Hdi α (p > α) Si accetta H0Se la probabilità associata ad H0 è minore di
(p < ) Si rifiuta H Si accetta Hα (p < α) Si rifiuta H0 Si accetta H1
dat
i La t ti ti è
si d
ei d
i dat
i statistica è facile!!!
anal
isan
alis
rici
di
erca
e
com
etr
di ri
ceti
psi
cnic
he
rum
enT
ecn
VERIFICA DELLE IPOTESI CON 1 CAMPIONE
Str
Esempio
Sappiamo che, considerando l’intera popolazione di pazienti di un professionista negli anni precedenti ilpazienti di un professionista negli anni precedenti, il punteggio medio dei pazienti allo STAI era 24 7±1 724.7±1.7.
Scegliendo in modo casuale 36 pazienti accorsi dalScegliendo in modo casuale 36 pazienti accorsi dal professionista nell’ultimo anno, si osserva che il punteggio medio da loro ottenuto è 25 4punteggio medio da loro ottenuto è 25.4.
Possiamo inferire che i pazienti dell’anno in corsoPossiamo inferire che i pazienti dell anno in corso siano più ansiosi rispetto a quelli degli anni precedenti?precedenti?
VERIFICA DELL’IPOTESI
Popolazione con μ e σ noti1 Campione n>30p
Variabile metrica ( Media)
DISTRIBUZIONE CAMPIONARIA DELLE MEDIE
DISTRIBUZIONE DI PROBABILITA’ NORMALE
VERIFICA DELL’IPOTESI
Scelta del test statistico di significatività:Si calcola z facendo riferimento alla dCMSi calcola z facendo riferimento alla dCM
Definizione dell’ipotesi: Confronto con laDefinizione dell ipotesi: Confronto con la popolazione di riferimento
HH0: μM = μH1: μM ≠ μ (bidirezionale)H1: μM ≠ μ (bidirezionale)
μM > μ oppure μM < μ (monodirezionale)Domanda: Nell’esempio precedente, quale
ipotesi veniva formulata?ipotesi veniva formulata?
VERIFICA DELL’IPOTESI
Fissare il livello di significatività αSi delinea la regione di rifiuto secondo α e HSi delinea la regione di rifiuto secondo α e H1(mono/bi-direzionale) trovando uno zcritico sulla TavolaTavola
Si associa una probabilità ad H0standardizzando la media in oggetto
Mz MM
μ−=
n
M σ
VERIFICA DELL’IPOTESI
D i i H ( H )Decisione su H0 ( H1):Il confronto avviene tra z e zcritico (p = area dellaIl confronto avviene tra z e zcritico (p area della curva associata a H0 viene confrontata con l’area di rifiuto definita da α)
⏐z⏐<⏐z iti ⏐ = p > α⏐z⏐<⏐zcritico⏐ p > αSi accetta H0 è vera l’ipotesi nulla
⏐z⏐>⏐zcritico⏐ = p < αSi rifiuta H0 Si accetta H1 è vera l’ipotesi
alternativa
ESEMPIO
1 Campione: n=36 pazienti (n>30)Variabile metrica: punteggio STAIVariabile metrica: punteggio STAI
M=25.4;24 7 1 7μ= 24.7; σ=1.7
DISTRIBUZIONE CAMPIONARIA DELLE MEDIEDISTRIBUZIONE CAMPIONARIA DELLE MEDIE
DISTRIBUZIONE DI PROBABILITA’ NORMALEDISTRIBUZIONE DI PROBABILITA’ NORMALE
H (l di d ll di t ib iESEMPIO
H0: μM = μ (la media della distribuzione campionaria è uguale a quella della popolazione,
l di d ll’ t è lovvero la media dell’anno corrente è uguale a quella degli anni precedenti)
H1: μM > μ (monodirezionale destra, ovvero la 1 Mmedia dell’anno corrente è maggiore di quella degli anni precedenti)
α=.05 Si delinea la regione di rifiuto secondoα e H monodirezionale destra trovando uno zα e H1 monodirezionale destra trovando uno zcriticosulla Tavola
Devo rintracciare lo scostamento dalla mediaESEMPIO
Devo rintracciare lo scostamento dalla media (valore critico) che corrisponde alla probabilità alpha sotto un’ipotesi monodirezionalealpha, sotto un ipotesi monodirezionale
11-α
Regione
i i
Regionedi rifiuto
Regionedi accettazione α
z critico
95% (.95) 5% (.05)
P i t i di i li S 05
ESEMPIO
Per ipotesi monodirezionali, Se α=.05 l’area tra 0 e lo zcritico è .4500 (su una sola coda d ll di t ib i )della distribuzione); l’area oltre lo zcritico deve essere minore di 0500.0500 50% (.50) 45% (.45)
RegioneR i
1-α
i i
Regionedi rifiutoα
Regionedi accettazione
z critico
95% (.95) 5% (.05)
Tavola z
z .00 .01 .02 .03 .04 .05 .06 .07 .08 .090 .0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .0359
0.1 .0398 .0438 .0478 .0517 .0557 .0596 .0636 .0675 .0714 .07530.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1103 .11410.3 .1179 .1217 .1255 .1293 .1331 .1368 .1406 .1443 .1480 .15170.4 .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1844 .18790.5 .1915 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .22240.6 .2257 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2517 .25490.7 .2580 .2611 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .28520.8 .2881 .2910 .2939 .2967 .2995 .3023 .3051 .3078 .3106 .31330.9 .3159 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389
Z critico
1 .3413 .3438 .3461 .3485 .3508 .3531 .3554 .3577 .3599 .36211.1 .3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .38301.2 .3849 .3869 .3888 .3907 .3925 .3944 .3962 .3980 .3997 .40151 3 4032 4049 4066 4082 4099 4115 4131 4147 4162 41771.3 .4032 .4049 .4066 .4082 .4099 .4115 .4131 .4147 .4162 .41771.4 .4192 .4207 .4222 .4236 .4251 .4265 .4279 .4292 .4306 .43191.5 .4332 .4345 .4357 .4370 .4382 .4394 .4406 .4418 .4429 .44411.6 .4452 .4463 .4474 .4484 .4495 .4505 .4515 .4525 .4535 .45451 7 4554 4564 4573 4582 4591 4599 4608 4616 4625 46331.7 .4554 .4564 .4573 .4582 .4591 .4599 .4608 .4616 .4625 .46331.8 .4641 .4649 .4656 .4664 .4671 .4678 .4686 .4693 .4699 .47061.9 .4713 .4719 .4726 .4732 .4738 .4744 .4750 .4756 .4761 .4767
2 .4772 .4778 .4783 .4788 .4793 .4798 .4803 .4808 .4812 .48171−α1 α
S 05 l’ t 0 l è 4500
ESEMPIO
Se α=.05 l’area tra 0 e lo zcritico è .4500; l’area oltre lo zcritico deve essere minore di 0500.0500
Si trova il valore di z sulla tavola corrispondente a questa area zcritico=1.65 per l’ipotesi mono. dxq critico p p(quadrante positivo degli assi cartesiani)
1-αRegioned fR i di rifiutoRegione
di accettazioneα
z1.65
ESEMPIO
Calcolo della statistica zn=36, σ=1.7 ,
28.367.1
==Mσ 5.228
7.244.25=
−=z
36 28.
1-αRegionedi ifi tdi rifiutoRegione
di accettazione
z1.65 2.5
ESEMPIO
⏐2.5⏐>⏐1.65⏐ p< .05
Si rifiuta H0 Si accetta H1 si considera falso l’ipotesi nulla e “vera” quella alternativa
Posta l’uguaglianza tra μM = μ la probabilità di ottenere una media come quella osservata è minore del 5%q %fissato con α; ne concludo che:
La media dei pazienti dell’anno corrente si discostaLa media dei pazienti dell anno corrente si discosta significativamente dalla media generale.
I ll’ i i ti i iIn quell’anno i pazienti in ingresso erano significativamente più ansiosi che in passato
VERIFICA DELL’IPOTESI
P l i tPopolazione con σ non noto1 Campione n>30
Variabile metrica ( Media)
DISTRIBUZIONE CAMPIONARIA DELLE MEDIE
DISTRIBUZIONE DI PROBABILITA’ NORMALE
ERRORE STANDARD STIMATO1
ˆ−
=ns
Mσ
−= s
Mz MM
μ
1−ns
Esempio
La media della popolazione in un questionario di autostima è uguale a 100.
U i di 61 tti di i tiUn campione di 61 soggetti divorziati, selezionati a caso, sottoposto al test ottiene una media di 98±7.5.
P i l d h i di i ti hPossiamo concluderne che i divorziati hanno un’autostima più bassa rispetto alla popolazione generale?
Esempio
1 Campione: n= 61 divorziati (n>30)Variabile metrica: Punteggio al nVariabile metrica: Punteggio al questionario autostima.
M= 98; s= 7.5μ= 100
DISTRIBUZIONE CAMPIONARIA DELLE MEDIE
DISTRIBUZIONE DI PROBABILITA’ NORMALE
Esempio
H0: μM = μ(la media della distribuzione campionaria è uguale a(la media della distribuzione campionaria è uguale a
quella della popolazione)H : μ < μH1: μM < μ
(monodirezionale sinistra, cioè la media dei neo-economisti è minore di quella generale)
α=.01 Si delinea la regione di rifiutoα .01 Si delinea la regione di rifiutosecondo α e H1 (monodirezionale sinistra) trovando uno z iti sulla Tavolatrovando uno zcritico sulla Tavola
P 01 di i l l’ 0 l
Esempio
Per α=.01 monodirezionale: l’area tra 0 e lo zcritico è .4900; l’area oltre zcritico è minore di 0100.0100.
11-α
Regioned f
Regione99% (.99)
iti
di rifiutog
di accettazioneα
1% (.01)
z critico
Tavola z
Z critico 1−α
α
Per ipotesi monodirezionali Se α= 01 l’area tra 0 eEsempio
Per ipotesi monodirezionali, Se α .01 l area tra 0 e lo zcritico è .4900; l’area oltre zcritico è minore di .0100.
Il l di ll t l i d t tIl valore di z sulla tavola corrispondente a questa area è:
zcritico= -2.33 per l’ipotesi è mono. sx (quadrante negativo degli assi cartesiani)
1-α
Regione R igdi rifiuto
Regionedi accettazione
αz-2.33
61 t 7 5
Esempio
n=61, σ=non noto, s=7.5 97.
1615.7ˆ =−
=Mσ10098 161
06.297.10098
−=−
=z
11-α
Regione Regionedi rifiuto
Regionedi accettazione
αz-2.33 -2.06
Esempio
⏐2.06⏐<⏐2.33⏐ p > .01⏐ ⏐ ⏐ ⏐ pRicordare che il test confronto va effettuato sui valori assoluti delle due zdelle due z.
Si accetta H0 non posso considerare falsa l’ipotesi nulla
Posta l’uguaglianza tra μM = μ la probabilità di ottenere una media come quella osservata è maggiore dell’1% fissato con α
La media dei divorziati non si discosta significativamente d ll di ll l idalla media nella popolazione.
I divorziati mostrano un livello di autostima analogo a quello della popolazione.
VERIFICA DELL’IPOTESI
Popolazione con σ non noto1 Campione n<30p
Variabile metrica ( Media)
DISTRIBUZIONE CAMPIONARIA DELLE MEDIE
DISTRIBUZIONE DI PROBABILITA’ t
VERIFICA DELL’IPOTESI
Scelta del test statistico (di significatività):Si calcola t facendo riferimento alla dCMSi calcola t facendo riferimento alla dCM
Definizione dell’ipotesi: Il confronto è con la popolazione di riferimentopopolazione di riferimentoH0: μM = μH : μ ≠ μ (bidirezionale)H1: μM ≠ μ (bidirezionale)
μM > μ ovvero μM < μ (monodirezionale)
VERIFICA DELL’IPOTESI
Fi il li ll di i ifi ti itàFissare il livello di significatività α e calcolare i gdl .
I bα
dl 1In base a: gdl=n-1H1 (mono/bi-direzionale)
… si delinea la regione di rifiuto trovando t ll T ltcritico sulla Tavola
TAVOLA DI t
Riporta i valori di t in base a: α H gdlRiporta i valori di t in base a: α, H1, gdl• Esempio:
α =.01H1 bidirezionalen=11 gdl=10
t=±3.17
VERIFICA DELL’IPOTESI
Si associa una probabilità ad H calcolando:Si associa una probabilità ad H0 calcolando:
M −=
sMt Mμ
Decisione su H ( H ):
1−n
Decisione su H0 ( H1):Il confronto avviene tra t e tcritico trovato sulla tavola⏐ ⏐ ⏐ ⏐⏐t⏐<⏐tcritico⏐ = p > α
Si accetta H0 è verosimile l’ipotesi nulla0 p
⏐t⏐>⏐tcritico⏐ = p < αSi rifiuta H Si accetta H è plausibile l’ipotesiSi rifiuta H0 Si accetta H1 è plausibile l ipotesi
alternativa
Esempio
Vengono selezionati in modo casuale 26Vengono selezionati in modo casuale 26 pazienti Narcisisti; li si intervista e si calcola il numero medio di “relazione positive” pari anumero medio di relazione positive , pari a 10± 3.
Se la media delle “relazioni positive” fra i pazienti con altre diagnosi è 12, si può affermare che il narcisismo conduce a maggioriaffermare che il narcisismo conduce a maggiori problemi di relazione rispetto ad altre diagnosi?
Esempio
1 Campione: n = 26 Narcisisti (n<30)Variabile metrica: Numero di “relazioniVariabile metrica: Numero di relazioni positive”
M= 10; s= 3μ= 12
DISTRIBUZIONE CAMPIONARIA DELLE MEDIE
DISTRIBUZIONE DI PROBABILITA’ t
Esempio
H0: μM = μ: la media della distribuzione campionaria è uguale a quella dellacampionaria è uguale a quella della popolazione
cioè la media dei narcisisti è uguale a quella generale
H1: μM < μ (monodirezionale sinistra)i è l di di “ l i i iti ” d i i i ti ècioè la media di “relazioni positive” dei narcisisti è
minore di quella generale
Esempio
α=.05 e gdl=26-1=25 Si d li l i di ifi t d dl HSi delinea la regione di rifiuto secondo α, gdl e H1monodirezionale trovando un tcritico sulla Tavola
Quale sarà il valore critico?
Esempio
n=26, σ=non noto, s=3 6.0
1263ˆ =
−=Mσ
1210 12633.3
6.01210
−=−
=t
11-α
Regione RegioneRegionedi rifiuto
Regionedi accettazione
α
t-3.33 -1.71
Esempio
⏐3.33⏐>⏐1.71⏐ p< .05Si rifiuta H0 Si accetta H1
è plausibile l’ipotesi alternativaè plausibile l ipotesi alternativaPosta l’uguaglianza tra μM=μ la probabilità di ottenere una media come quella osservata èottenere una media come quella osservata è minore del 5% fissato con α; ne concludo che:
La media dei narcisisti si discosta significativamenteLa media dei narcisisti si discosta significativamente dalla media generale.
Si può tentativamente affermare che i narcisistiSi può tentativamente affermare che i narcisisti soffrano di problemi più gravi di tipo relazionale rispetto ad altre diagnosi.
Esempio t un campione
Con SPSS
Statistiche per un campione
26 10 0000 3 00000 58835pregiudiziN Media
Deviazionestd.
Errore std.Media
26 10,0000 3,00000 ,58835pregiudizi
Test per un campione
Valore oggetto del test = 12
3 399 25 002 2 00000 3 2117 7883pregiudizit df Sig. (2-code)
Differenzafra medie Inferiore Superiore
Intervallo di confidenzaper la differenza al
95%
-3,399 25 ,002 -2,00000 -3,2117 -,7883pregiudizi
Non viene riportato il valore critico, solo la probabilità di osservare un risultato più estremo se H0 è vera
Altro Esempio SPSS t un campione
Con SPSS Statistiche per un campione
39 000 1 863 8 298N tti iN Media
Deviazionestd.
Errore std.Media
39 5,5000 1,86378 ,29844Notti_insonn
Test per un campione
Valore oggetto del test = 5
t df Sig (2-code)Differenzafra medie Inferiore Superiore
Intervallo di confidenzaper la differenza al
95%
Valore oggetto del test = 5
1,675 38 ,102 ,50000 -,1042 1,1042Notti_insonnt df Sig. (2 code) fra medie Inferiore Superiore
VERIFICA DELL’IPOTESI per Un campione: Riassumiamo
• Nel caso in cui σ non è noto (il caso più frequente nella pratica) è sempre corretto usarefrequente nella pratica) è sempre corretto usare t.
Per n>30 i valori di t e z praticamente coincidono
è quindi indifferente fare riferimento all’una oè quindi indifferente fare riferimento all una o all’altra distribuzione.
• Si può notare, inoltre, che la formula per il p , , pcalcolo di t e z se σ non è noto è identica
dat
i La t ti ti è
si d
ei d
i dat
i statistica è facile!!!
anal
isan
alis
rici
di
erca
e
com
etr
di ri
ceti
psi
cnic
he
rum
enT
ecn
VERIFICA DELLE IPOTESI CON 2 CAMPIONI
Str
Esempio
Scegliendo in modo casuale 25 pazienti che hanno frequentato per un anno il Terapeuta A:frequentato per un anno il Terapeuta A:
si rileva che la loro media al BDI è 10.36 ±4.95
Scegliendo in modo casuale 37 pazienti che hanno frequentato per un anno il Terapeuta B:q p p
si rileva che la loro media al BDI è 15.84 ±2.00
P i ff h i i diff tPossiamo affermare che vi sia una differenza tra lo stato depressivo dei pazienti dei due terapeuti?
VERIFICA DELL’IPOTESI
Popolazioni con σ non notiPopolazioni con σ non noti2 Campioni INDIPENDENTI
Variabile indipendente dicotomica (Città)Variabile indipendente dicotomica (Città)Variabile dipendente metrica ( Medie)
DISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA TRA MEDIE
DISTRIBUZIONE DI PROBABILITA’ t
VERIFICA DELL’IPOTESI
S l d l i i (di i ifi i i à)Scelta del test statistico (di significatività): Si calcola t facendo riferimento alla dCDM
Definizione dell’ipotesi:H0: μ1 = μ2 ( μ1 - μ2 = 0)H1: μ1 ≠ μ2 (bidirezionale)
μ1 > μ2 ovvero μ1 < μ2 (monodirezionale)Fissare il livello di significatività α e calcolare
i gdl :α
In base aαgdl=n1+n2-2
( /b d l )Si delinea la regione di rifiuto trovando
H1 (mono/bi-direzionale)
tcritico sulla Tavola
VERIFICA DELL’IPOTESI
Si associa una probabilità ad H0
0)( 1 =−μμ
⎟⎟⎞
⎜⎜⎛ +
⎟⎟⎞
⎜⎜⎛ +
−−−=
21222
211
2121 )()(
nnsnsn
MMt μμ0)(
21 μμ
Decisione su H ( H ):
⎟⎟⎠
⎜⎜⎝
⎟⎟⎠
⎜⎜⎝ −+ 21
21
21
2211
2 nnnn21ˆ MM −σ
Decisione su H0 ( H1):Il confronto avviene tra t e tcritico come nel caso di un solo campionedi un solo campione.Oppure, coi software, si confronta α con p
Esempio
2 Campioni: n1=25 Terapeuta A (n<30)n2=37 Terapeuta B (n>30)
Variabile indipendente dicotomica: TerapeutaVariabile dipendente metrica: Sintomip
M1=10.36; s1=4.95 e M2=15.84; s2=2
DISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA TRA MEDIE
DISTRIBUZIONE DI PROBABILITA’ t
Esempio
H0: μ1 = μ2 (la media della popolazione dei pazienti di A è uguale a quella dei pazienti dipazienti di A è uguale a quella dei pazienti di B)H (bidi i l l di d llH1: μ1 ≠ μ2 (bidirezionale, la media della
popolazione dei pazienti di A è diversa a quella d i i ti di B)dei pazienti di B)
α=.05 Si delinea la regione di rifiutoα gsecondo α e H1 bidirezionale trovando unatcritica sulla Tavolatcritica sulla Tavola
Esempio
Rappresentazione grafica aree di accettazione e rifiuto – test bidirezionale
H0
11-αRegionedi rifiutoRegione
i i
di rifiutoRegionedi accettazione
α/2 α/2i i t criticot critico
Esempio
α=.05, bidirezionale, gdl=25+37-2=60Si delinea la regione di rifiuto secondo α, gdl e
H bidirezionale e si trova t = ?H1 bidirezionale e si trova tcritico = ?
Esempio
M1=10.36; s1=4.95 e M2=15.84; s2=2 n1=25, n2=37
−= 21 )( MMt
⎟⎟⎠
⎞⎜⎜⎝
⎛ +⎟⎟⎠
⎞⎜⎜⎝
⎛−+
+
21
21
21
222
211
2 nnnn
nnsnsn
t
84.1536.10 −
( ) ( )37253725
2372523795.425 22
=
⎟⎠⎞
⎜⎝⎛
×+
⎥⎦
⎤⎢⎣
⎡+
×+×=t
95548.548.548.5
372523725
−=−
=−
=−
=
⎠⎝ ×⎥⎦
⎢⎣ −+
( ) ( )95.5
92.067.675.1292562
621485.612
==×
=
⎟⎠⎞
⎜⎝⎛
⎥⎦⎤
⎢⎣⎡ +
=
⎠⎝⎦⎣
⏐5 95⏐>⏐2 00⏐ p< 05Esempio
⏐5.95⏐>⏐2.00⏐ p< .05
H0
11-αRegionedi rifiutoRegione
Regionedi ifi t
5 95 2 00 0 2 00
di rifiutoRegionedi accettazione
α/2 α/2
di rifiuto
t-5.95 -2.00 0 2.00
6 C t
Esempio
6 CommentoSi rifiuta H0 Si accetta H1 l’ipotesi nulla è 0 1 p
poco plausibilePosta l’uguaglianza tra μ1 = μ2 la probabilità diPosta l uguaglianza tra μ1 μ2 la probabilità di ottenere le medie osservate è minore del 5% fissato con α; ne concludo che con un rischio di errore delcon α; ne concludo che, con un rischio di errore del 5%:
Tra i pazienti di A e di B vi è una differenza nonTra i pazienti di A e di B vi è una differenza non ascrivibile al caso
La media dei sintomi dei pazienti del terapeuta ALa media dei sintomi dei pazienti del terapeuta A è significativamente diversa dalla media dei pazienti del terapeuta Bdel terapeuta B
Esempio t due campioni
Con SPSS
Esempio t due campioni
Con SPSSStatistiche di gruppog pp
25 10 3600 4 94874 98975TerapeutaAsintomi
N MediaDeviazione
std.Errore std.
Media25 10,3600 4,94874 ,9897537 15,8378 2,00712 ,32997
AB
sintomi
T t i i i di d tiTest per campioni indipendenti
Test di Levene diuguaglianza delle
varianze Test t di uguaglianza delle medie
F Sig
varianze
t df Sig (2-code)Differenzafra medie
Differenzaerrore
standard Inferiore Superiore
tervallo di confidenzper la differenza al
95%
Test t di uguaglianza delle medie
33,442 ,000 -6,054 60 ,000 -5,47784 ,90477 -7,28765 -3,66803
-5,250 29,389 ,000 -5,47784 1,04330 -7,61040 -3,34527
Assumi varianze ugNon assumerevarianze uguali
sintomiF Sig. t df Sig. (2-code)fra medie standard Inferiore Superiore
Altro esempio t due campioni
Confrontiamo due gruppi randomizzati, sottoposti a due terapie. Ci aspettiamo che la terapia “2” sia significativamente più efficace
α = .05, monodirezionale
Statistiche di gruppo
Terpia N MediaDeviazione
stdErrore std.
Media11 9,5455 4,61224 1,3906414 13,6429 6,61708 1,76849
Terpia1,002,00
Sintomi1N Media std. Media
Test per campioni indipendenti
Test di Levene diuguaglianza delle
varianze
DifferenzaDifferenza
errore
Intervallo di confidenzaper la differenza al
95%
Test t di uguaglianza delle medie
1,456 ,240 -1,744 23 ,094 -4,09740 2,34927 -8,95724 ,76243
-1,821 22,743 ,082 -4,09740 2,24976 -8,75430 ,55950
Assumi varianze ugualiNon assumerevarianze uguali
Sintomi1F Sig. t df Sig. (2-code)
Differenzafra medie
errorestandard Inferiore Superiore
95%
Esercizio:
Quale è la probabilità oltre t 1.74 su una sola coda?
Su un’ipotesi H1 monodirezionale, accetto o rifiuto l’ipotesi nulla con t=1.74 e n=25?
pt1.74
p
dat
i si
dei
di dat
ian
alis
anal
isri
ci d
i er
ca e
co
met
rdi ri
ceti
psi
cnic
he
rum
enT
ecn
Campioni dipendentiCampioni dipendenti
Str
CAMPIONI DIPENDENTI
Campione estratto casualmente dalla popolazione con caratteristiche omogeneeMisure ripetute due volte sullo stesso campione (prima e dopo sugli stessi soggetti; in diverse(prima e dopo sugli stessi soggetti; in diverse occasioni, riguardo diversi concetti…)Un gruppo sottoposto a due livelli (prima/dopo)Un gruppo sottoposto a due livelli (prima/dopo)della VARIABILE INDIPENDENTE (manipolata o non manipolata)manipolata)Rilevazione della VARIABILE DIPENDENTE due volte sullo stesso gruppostesso gruppoAnalisi statistica per rilevare una differenza tra le d il i i i ibil ll ( idue rilevazioni ascrivibile alla INDIPENDENTE (unica differenza prima/dopo)
Esempio
Vengono estratti in modo casuale 80 pazienti tra i pazienti di un gruppo di terapeutitra i pazienti di un gruppo di terapeuti
Al tempo 1 viene rilevata la loro insonniaVARIABILE INDIPENDENTE (manipolata)
I i ti i tt d t iI pazienti si sottopongono ad una terapia centrata sulla riduzione dell’attivazione emotiva: Prima/Dopo la terapiaPrima/Dopo la terapiaVARIABILE DIPENDENTE
Al tempo 2 (dopo la terapia) rilevazione dell’ insonnia
CAMPIONI DIPENDENTI
Si parla di disegni sperimentali entro i soggetti (o within)I disegni descritti per due rilevazioni sono estendibili a k rilevazioni sugli stessi soggetti g gg(campione)I disegni sperimentali possono essere mistiI disegni sperimentali possono essere misti
Vale a dire, includono sia rilevazioni entro sia tra i soggettisoggetti
Esempio
Su 8 pazienti con attacchi di panico vieneSu 8 pazienti con attacchi di panico viene rilevata la frequenza degli attacchi mensili
i d i t i bprima e dopo una psicoterapia breve. I risultati sono i seguenti:
Prima (xi) 5 8 9 6 8 4 4 8Prima (xi) 5 8 9 6 8 4 4 8Dopo (yi) 4 5 6 4 9 5 2 7
A i ti i li t ll fAssistiamo a un miglioramento nella frequenza degli attacchi di panico?
VERIFICA DELL’IPOTESI CON CAMPIONI DIPENDENTI
Il test viene effettuato sulla media delle differenzeIl test viene effettuato sulla media delle differenzedato che la variabile dipendente è su scala di misura metricametrica.
Sempre controllare la scala di misura!
Dato un campione di ampiezza n dal quale sono l i i l l lstate tratte le misure xi e yi, possiamo calcolare la
media delle differenze tra le due misure
DM
n
ii∑
== 1
nM D =
iii yxD −=
VERIFICA DELL’IPOTESI CON CAMPIONI DIPENDENTI
Nel caso di due campioni dipendenti poiché abbiamo in realtà un solo campione, ci riferiremo alla distribuzione di un’unica media data dalla differenza fra due variabili.
La verifica delle ipotesi si basa su una mediaDISTRIBUZIONE CAMPIONARIA DELLE MEDIE Distribuzione t di Student con n-1 gradi di
libertà
VERIFICA DELL’IPOTESI
Scelta del test statistico (di significatività):Si calcola t facendo riferimento alla dCM
Definizione dell’ipotesi:H0: μD = 00 μDH1: μD ≠ 0 (bidirezionale)
μD> 0 ovvero μD< 0 (monodirezionale)
Fissare il livello di significatività α e calcolare i gdl :
In base aαgdl=n-1
Si d li l i di ifi t t d
gdl n 1H1 (mono/bi-direzionale)
Si delinea la regione di rifiuto trovando tcritico sulla Tavola
VERIFICA DELL’IPOTESI
Si i b bilità d HSi associa una probabilità ad H0
0=μDn
i∑−
=s
Mt
D
DD μ0=Dμ
n
DM i
i
D
∑== 1
1−nDσ̂
( )
n
MDs
n
iDi
D
2
1∑
=
−=
Decisione su H0 ( H1):0 ( 1)Il confronto avviene tra t e tcritico come nel caso di un solo campione.
2 Campioni dipendenti ovvero due misureEsempio
2 Campioni dipendenti ovvero due misure sugli stessi soggetti: n=8
Variabile indipendente dicotomica: Tempo (prima/dopo la terapia)
Variabile dipendente metrica: Numero attacchi
DISTRIBUZIONE CAMPIONARIA DELLE MEDIE
DISTRIBUZIONE DI PROBABILITA’ t
Esempio
H0: μD = 0 (la media della differenza tra prima e dopo è uguale a zero cioè non c’èprima e dopo è uguale a zero, cioè non c è differenza prima/dopo, e la terapia non ha funzionato)funzionato)H1: μD > 0 (la media della differenza tra
i d è i di i è ’èprima e dopo è maggiore di zero, cioè c’è un decremento dopo la terapia)
α=.05 e gdl=8-1=7 Si delinea la regione di rifiuto secondo α, gdl e H1di rifiuto secondo α, gdl e H1monodirezionale trovando un tcritico sulla Tavola = 1.89a o a 89
Esempio
Si procede con il calcolo di MD e sD (utilizzando le formule con i dati grezzi)le formule con i dati grezzi)
Sogg x y D D 2Sogg. xi yi Di Di1 5 4 1 12 8 5 3 9 25110
==M3 9 6 3 94 6 4 2 45 8 9 1 1
25.18
==DM
5 8 9 -1 16 4 5 -1 17 4 2 2 4
( ) 48.125.1830 2 =−=Ds
8 8 7 1 110 30
Esempio
MD=1.25; sD=1.48 251 23.2
1848.125.1
==t
Domanda: Quale è la probabilità di osservare un valore
18−
Domanda: Quale è la probabilità di osservare un valore uguale o maggiore a 2.23 se è vera H0?
Regionedi rifiuto
Regionedi accettazione
t1.89 2.23
di rifiutodi accettazione1-α α
1.89 2.23
Esempio
⏐2.33⏐>⏐1.89⏐ p< .05Si rifiuta H Si accetta H è veraSi rifiuta H0 Si accetta H1 è vera
l’ipotesi alternativa
Posto μD = 0, la probabilità di ottenere le medie osservate è minore del 5% fissato conmedie osservate è minore del 5% fissato con α; ne concludo che:
T i i d ’è di i iTra i prima e dopo c’è una diminuzione significativa degli attacchi
I risultati suggeriscono che la terapia ha avuto l’effetto desiderato.
Con SPSS…
Statistiche per campioni appaiati
Media NDeviaz ione
std.Errore std.
Media6,5000 8 2,00000 ,707115,2500 8 2,12132 ,75000
panico_pre tes tpanico_post tes t
Coppia1
Media N std. Media
Correlazioni per campioni appaiati
panico pre test eCoppiaN Correlazione Sig.
ATTENZIONE: QUESTONON E’ IL TEST CHE CI INTERESSA
8 ,707 ,050panico_pre test epanico_post test
Coppia1
Test per cam pioni appaiatiTes t per cam pioni appaiati
D i i E td
Intervallo di conf idenzaper la dif ferenza al
95%
Dif ferenze a coppie
1,25000 1,58114 ,55902 -,07187 2,57187 2,236 7 ,060panico_pre tes t -panico_post tes t
Coppia1
MediaDeviaz ione
std.Errore std.
Media Inferiore Superiore95%
t df Sig. (2-code)
DOBBIAMO GUARDARE QUESTO!