ripasso psicometria.ppt [modalità compatibilità] · d ati la ittit è s i dei i dati statistica...

dat

i La t ti ti è

si d

ei d

i dat

i statistica è facile!!!

anal

isan

alis

rici

di

erca

e

com

etr

di ri

ceti

psi

cnic

he

rum

enT

ecn

Ripasso Psicometria

Str

dat

i La t ti ti è

si d

ei d

i dat


anal

isan

alis

rici

di

erca

e

com

etr

di ri

ceti

psi

cnic

he

rum

enT

ecn

Distribuzione normale

Str

È definita da:DISTRIBUZIONE NORMALE

È definita da:μ=media della popolazioneσ=d s della popolazioneσ=d.s. della popolazione

Ha le seguenti caratteristiche:INFINITA: va da -∞ a +∞INFINITA: va da a SIMMETRICA rispetto alla Y massima (f(x)= punto più alto

x=μ)UNIMODALE (μ=Mo=Me)UNIMODALE (μ=Mo=Me)ASINTOTICA: si avvicina all’asse delle X senza mai toccarlo

Xμ

DISTRIBUZIONE NORMALE

Per qualsiasi valore x che la variabile può assumere, attraverso la funzione si calcola la y corrispondente

2

211 ⎟

⎠

⎞⎜⎝

⎛ −−

μix

Y2

21 ⎠⎝= σ

πσi ey

yi

Xμ xi


CRESCENTE per -∞<x<μ e DECRESCENTE per μ<x<+∞ due punti di flesso a μ ± σ

Y

πσμ 21

=yPunti di flesso

Media=Moda=Mediana

Asintotica

Xμμ-σ μ+σ-∞ +∞


La curva NORMALE è definita dai parametri μe σAbbiamo un’ampia famiglia di distribuzioni normali con medie e deviazioni standard diverse…

Y

μ1≠ μ2 ≠ μ3

≠ ≠σ1≠ σ 2 ≠ σ 3

Xμ1μ2 μ3


Oppure famiglie di distribuzioni normali con diversa media e con uguale deviazione standard

Yμ1≠ μ2 ≠ μ3

σ1=σ 2 =σ 3

Xμ1μ2 μ3

Qualsiasi siano i parametri e l’area della porzione di


Qualsiasi siano i parametri μ e σ, l area della porzione di curva delimitata dalla media e un ordinata espressa in termini di deviazioni standard è costantetermini di deviazioni standard è costante

μ+σ= 34.13% della distribuzioneμ+2σ= 47.73% della distribuzioneμ+3σ= 49.86% della distribuzione

Y95 46%99.73%

68.26%95.46%

μ-σ μ+σ μ+2σ μ+3σμ-3σ μ-2σ μ

dat

i La t ti ti è

si d

ei d

i dat


anal

isan

alis

rici

di

erca

e

com

etr

di ri

ceti

psi

cnic

he

rum

enT

ecn

Distribuzioni campionarie

Str

Il campionamento e l’inferenza statistica•Il problema centrale dell’inferenza statistica è quello di generalizzare alla popolazione i risultati (ad es., media, diff di i i i ) tt ti li ll didifferenze medie, associazioni, ecc.) ottenuti a livello di un campione.

•Popolazione = un insieme di unità statistiche che condividono una o più caratteristiche

•Es: la popolazione dei pazienti con diagnosi di depressione bipolare

•Campione = sottoinsieme della popolazione, composto da unità estratte preferibilmente in modo casuale dallada unità estratte preferibilmente in modo casuale dalla popolazione

•Es: i pazienti partecipanti ad un trial clinico sull’efficacia di unaEs: i pazienti partecipanti ad un trial clinico sull efficacia di una terapia per la depressione

Il campionamento e l’inferenza statistica

Sul campione si calcolano le STATISTICHE (ad es., M) del campione per conoscere i PARAMETRI (ad es μ) dellacampione per conoscere i PARAMETRI (ad es, μ) della popolazione.

Questo passaggio dalle STATISTICHE ai PARAMETRI si basa sulla conoscenza delle proprietà delle DISTRIBUZIONI DISTRIBUZIONI CAMPIONARIECAMPIONARIE d i t i ( )CAMPIONARIECAMPIONARIE dei parametri (μ)

Se si estraggono tutti i possibili campioni di ampiezza n da unaSe si estraggono tutti i possibili campioni di ampiezza n da una popolazione (con μ e σ) e si calcola per ognuno la media, ottengo:

DISTRIBUZIONE CAMPIONARIA DELLA MEDIA (dCM), anch’essa normale e caratterizzata da una media (μM) e una deviazione standard, detta errore standard ( )errore standard (σM)

DISTRIBUZIONE CAMPIONARIA DELLA MEDIA

Se la popolazione è infinita o se il campionamento è con reinserimento: la media della distribuzione

i i è l ll di d ll l icampionaria è uguale alla media della popolazione e l’ errore standard è uguale alla deviazione standard della popolazione fratto la radice di nstandard della popolazione fratto la radice di n

μμ =M Mσσ =

Se la popolazione è finita (N) o il campionamento è

μμM nM

( )senza reinserimento, la media della distribuzione campionaria è uguale alla media della popolazione

l’ t d d di t iù li te l’errore standard diventa appena più complicato:

− nNσμμ1−

=NnMσμμ =M

LEGGE DEI GRANDI NUMERIAll’aumentare di n la varianza della distribuzione campionariaAll aumentare di n la varianza della distribuzione campionaria della media diminuisce e tende a zero

Più ampi sono i campioni:Più ampi sono i campioni: più alta è la probabilità che la media di ognuno di essi sia vicina a quella della popolazione la varianza della dCM si riduce Quando N=n la varianza della dCM è zero

222

dCM2 con n= 20

22212

σσσ << MM

dCM2 con n 20

dCM1 con n= 10

popolazione

MμM1= μM2= μ

TEOREMA DEL LIMITE CENTRALE: dCM e Normale

Se si estraggono ripetuti campioni di ampiezza n da una popolazione, qualsiasi siaampiezza n da una popolazione, qualsiasi siala forma della distribuzione nella popolazione:

all’aumentare di n la distribuzione campionaria della media tende ad avvicinarsi alla normale e può essere considerata normale per n≥30

DISTRIBUZIONE CAMPIONARIA DELLA MEDIA

DISTRIBUZIONE CAMPIONARIA DELLE MEDIE con n>30DISTRIBUZIONE CAMPIONARIA DELLE MEDIE con n>30DISTRIBUZIONE DI PROBABILITA NORMALE

STANDARDIZZATAS

TRASFORMAZIONE IN z

M=media daμM= media della

d ( )

TRASFORMAZIONE IN z

Mz Mμ−

=

M media da standardizzare

dCM (=μ)

n

zσ

=

erroren σM= errore standard della dCM

i i in= ampiezza campionaria

La distribuzione riparametrizzata sulla scala z


La distribuzione riparametrizzata sulla scala z standardizzata mantiene le caratteristiche della curva normalenormale

entro z = 1 34.13% della distribuzioneentro z = 2 47.73% della distribuzioneentro z = 3 49.86% della distribuzione

Y95 46%99.73%

68.26%95.46%

-1 1 2 3-3 -2 0

A che serve la z? A che serve l’errore standard?La trasformazione in z, traduce una differenza fra medie dallaLa trasformazione in z, traduce una differenza fra medie dalla metrica originaria (es: peso), in una nuova metrica, in cui la nuova unità di misura corrisponde all’errore standard

Possiamo risalire alla probabilità di osservare una discrepanza dalla media dell’entità espressa da z.

Infatti, la z, segue la distribuzione normale di probabilità

Rispetto alle differenze fra medie nella metrica originaria, la zi i t i t è i t t i t i i b bili ti ici aiuta a capire quanto è importante in termini probabilistici

la differenza osservata.Questo perché l’errore standard è un’unità di misura delle differenzeQuesto perché l errore standard è un unità di misura delle differenze più interessante rispetto alle unità di misura originarie.

L’errore standard rappresenta l’errore medio della stima che noi ppeffettuiamo calcolando la media campionaria

Una differenza grande svariate volte l’errore medio della stima, è un evento poco probabile e tutto ciò che è poco probabile è in genereevento poco probabile, e tutto ciò che è poco probabile è in genere molto informativo.

ESEMPIO USO z

Poniamo di aver ottenuto su un campione di nostri pazienti (n = 19) un punteggio pari a 25.5 in un test di depressione. Nel campione normativo il test ha una media di 24.1 con ds = 1.7.Il mio campione è “strano” rispetto a quello normativo?

Mz Mμ−= 124525 −

n

z M σ 58.3

197.1

1.245.25==Mz

Tavola z

ESEMPIO

Ne posso concludere che il mio campione rappresenta un caso estremo ed improbabile della popolazione

Oppure, posso sospettare che faccia parte di una popolazione diversa rispetto a quella fotografata dalpopolazione diversa rispetto a quella fotografata dal campione normativo di standardizzazione del test

Probabilità di circa 2 suProbabilità di circa 2 su diecimila

z3.58

ESEMPIO USO z - 2

Poniamo di aver ottenuto su un campione di nostri pazienti (n = 19) un punteggio pari a 24.5 in un test di depressione. Nel campione normativo il test ha una media di 24.1 con ds = 1.7.Il mio campione è “strano” rispetto a quello normativo?

Mz Mμ−= 124524 −

n

z M σ 02.1

197.1

1.245.24==Mz

Tavola z

ESEMPIO

Ne posso concludere che il mio campione rappresenta un caso relativamente banale e abbastanza rappresentativo della popolazione fotografata dal campione normativopopolazione fotografata dal campione normativo

Oppure, i dati possono confermare che il mio campione proviene probabilmente dalla medesima popolazione da cui è stato tratto il campione normativostato tratto il campione normativo

Probabilità di circa il 15%

z1.02

RIASSUMENDO…

La dCM la si ottiene calcolando la media di ciascun campione estratto da una popolazione con una sua distribuzione con μee σ

La media della dCM è la media delle medie, la deviazione t d d i l l li ti di i distandard si calcola con gli scarti di ciascuna media

campionaria dalla media delle medie

L POPOLAZIONE ò di t ib iLa POPOLAZIONE può avere distribuzione:

Normale

diversa dalla normale

non nota

Se n>30 la distribuzione delle medie dei campioni da essa estratti è NORMALE, per qualunque distribuzione dellaestratti è NORMALE, per qualunque distribuzione della variabile.

DISTRIBUZIONE CAMPIONARIA DELLA MEDIA: t di Student

La POPOLAZIONE può avere distribuzione:NormaleNormale

diversa dalla normale

non notaSe n<30 la distribuzione delle medie dei campioni è d l ti t di St d t H l ti tt i ti hdel tipo t di Student. Ha le seguenti caratteristiche:INFINITA, SIMMETRICA, UNIMODALE, ASINTOTICA

DISTRIBUZIONE t di Student a confronto con la Normale

Rispetto alla normale la varianza della distribuzione sarà maggioredistribuzione sarà maggiore

Perché n < 30 (campioni piccoli)curva più appiattita e code più lunghe (ad es. la porzione di area compresa tra ± 1 σ dalla

di à i d l 68%)media sarà minore del 68%)

Distribuzione Normale

Distribuzione t di Student

-σ μ +σ t

DISTRIBUZIONE t di Student

tLa forma della distribuzione t varia secondo la dimensione n dei campioniCiasc na distrib ione t è definita dai parametriCiascuna distribuzione t è definita dai parametri μ, σe ν = gradi di libertàLa t è quindi una Famiglia di distribuzioni legate a il

1−= nνLa t è quindi una Famiglia di distribuzioni legate a il numero di ν = gradi di libertà (all’aumentare di ν la distribuzione tende alla normale)

Di t ib i N lDistribuzione Normale

Distribuzione t di S d 30Student con ν=30

Distribuzione t diDistribuzione t di Student con ν=5

t

DISTRIBUZIONE t di Student

Come per la normale

∫∞

1)()( df∫∞−

==∞<<−∞ 1)()( dttfxp

La curva definisce una distribuzione di probabilità Distribuzione di probabilità t definita

dall’indicatore:

M μ

M

MMtσ

μˆ−

=σ s

M =ˆMσ

νM1−= nν

DISTRIBUZIONE t: RIASSUMENDO

DISTRIBUZIONE CAMPIONARIA DELLE MEDIE con n<30DISTRIBUZIONE DI PROBABILITA’ t

TRASFORMAZIONE IN t

M di dMedia della dCM

−Mt Mμ

Media da standardizzare

(=μ)

1−

=

ns

t

Errore standard1n Errore standard della dCM stimato a

partire da sGradi di libertà legati a n partire da sGradi di libertà legati a n= ampiezza campionaria

ESEMPIO USO t

Poniamo di aver ottenuto su un campione di nostri pazienti (n = 19) un punteggio medio pari a 25.3 (d.s. = 1.7) in un test di depressione. Le tabelle del campione normativo suggeriscono che punteggi superiori a 25 sono da considerarsi problematici.Quanto è problematico il mio campione?

75253.25=

−=t−M Mμ 75.

1197.1 =

−

=t

1−

=

ns

Mt Mμ

1n

Tavola t

A che serve la t

Come la trasformazione in z, la trasformazione in tscala le differenze osservate secondo una nuova

ità di i d t d ll’ t d dunità di misura data dall’errore standard.Attenzione: non confondere la distribuzione t con i

t i “T”!punteggi “T”!Questa nuova scala segue una distribuzione nota

ÈÈ possibile stabilire intervalli di confidenza intorno alla media campionaria per stimare la media della popolazionepopolazione

Possiamo sapere quanto è probabile osservare una data differenza rispetto ad una media data della popolazionedifferenza rispetto ad una media data della popolazione

Se una differenza supera di svariate volte l’errore standard di misura ci troviamo di fronte ad una differenza improbabile e quindi interessante edifferenza improbabile, e quindi interessante e informativa

dat

i La t ti ti è

si d

ei d

i dat


anal

isan

alis

rici

di

erca

e

com

etr

di ri

ceti

psi

cnic

he

rum

enT

ecn


Str della differenza fra le medie

Distribuzione campionaria della differenza fra medie

Se si estraggono da due popolazioni distribuite normalmente (con medie μ1 e μ2, varianze σ1

2 e σ22 ) un gran numero di

campioni indipendenti di ampiezza n1 e n2, e si calcola lacampioni indipendenti di ampiezza n1 e n2, e si calcola la differenza tra le loro medie ottengo:

DISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA TRADISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA TRA MEDIE (dCDM)

LLa DISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA TRA MEDIE(dCDM) è caratterizzata da:

una media ( );una media (μM1-M2);

un errore standard (σM1-M2)

S i i di 30 il T d l li itSe n1 e n2 sono maggiori di 30, per il Teorema del limite centrale, la dCDM è normale qualsiasi sia la distribuzione delle popolazionip p


La media della distribuzione campionaria della differenza tra medie è uguale alla differenza delle medie μ1 e μ2 delle due popolazionipopolazioni

2121 MMMM μμμ −=−

L’errore standard è uguale alla radice quadrata della

2121

somma delle varianze σ12 e σ2

2 delle due popolazioni fratto le rispettive ampiezze campionarie n1 e n2

2

22

1

21

21 nnMMσσ

σ +=−

Usando questo errore standard possiamo riscalare la differenza osservata fra le due medie in termini di errore standard (trasformazione in z)


Se σ12 e σ2

2 non sono note occorre stimarle a partire d 2 2 S i d ll’ d dda s1

2 e s22 Stima dell’errore standard

VARIANZE STIMATE DELLA POPOLAZIONE

21

121 1

ˆ sn

n=σ 2

222

2 1ˆ s

nn

=σ1 1n − 2 1n −

22

11ˆ

2

22

1

21

21 −+

−=− n

sn

sMMσ

21


La z rappresenta un caso particolare, più in generale:

Se n1 e n2 sono minori di 30 la DISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA TRA MEDIE (dCDM) non è ( )normale

Distribuzione t di Student con gradi di libertà:Distribuzione t di Student con gradi di libertà:

gdl = n1 + n2 - 2

⎟⎟⎞

⎜⎜⎛ +

⎟⎟⎞

⎜⎜⎛ +

−−−=

21222

211

2121 )(

nnsnsn

xxt μμ

⎟⎟⎠

⎜⎜⎝

⎟⎟⎠

⎜⎜⎝ −+ 21

21

21

2211

2 nnnn

σ)21 xx −σ

Se una differenza fra medie si traduce in una z (o t) diInterpretazione delle differenze fra medie in termini di probabilità

Se una differenza fra medie si traduce in una z (o t) di determinata entità, possiamo controllare la probabilità di osservare una differenza di quella entità

differenze maggiori di z = ±1 Capitano meno del 32% delle voltedifferenze maggiori di z = ± 2 Capitano meno del 5% delle voltedifferenze maggiori di z ± 2 Capitano meno del 5% delle voltedifferenze maggiori di z = ± 3 Capitano meno del 1% delle volte

Y95 46%99.73%

68.26%95.46%

-1 1 2 3-3 -2 0

Riassumendo

Le distribuzioni della differenza campionaria delle media sono concettualmente simili alle distribuzioni campionarie delle mediadelle media.

Siccome conosciamo la forma di queste distribuzioni (o sono normali o sono del tipo t) è possibile calcolare un indicatorenormali, o sono del tipo t) è possibile calcolare un indicatore delle differenze (o z o t) tramite il quale deriviamo un’indicazione probabilistica dell’entità delle differenze

tosservate.

La z è un caso particolare (distribuzione normale) di un caso iù l (di t ib i t)più generale (distribuzione t)

Ricordiamoci che differenze grandi (grandi z o grandi t) indicano differenze poco probabiliindicano differenze poco probabili.

Ora sappiamo tutto ciò che ci serve per affrontare la verifica delle ipotesidelle ipotesi.

dat

i La t ti ti è

si d

ei d

i dat


anal

isan

alis

rici

di

erca

e

com

etr

di ri

ceti

psi

cnic

he

rum

enT

ecn

VERIFICA DELLE IPOTESI

Str

INFERENZA STATISTICATeoria della verifica dell’ipotesi :Teoria della verifica dell ipotesi :

si verifica, in termini probabilistici, se una certa affermazione relativa alla popolazione è da ritenersi vera sulla base dei dati campionari

Questo approccio è il più tipico in psicologia

Teoria della stima dei parametri:si stabilisce, in termini probabilistici, il valore numerico di uno o più parametri incogniti della popolazione a partire dai dati campionari

Questo approccio è meno frequente in psicologiaQuesto approccio è meno frequente in psicologia

Formulazione Ipotesi StatisticheRaccolta dati sul Campione (ottenuto - idealmente - con campionamento casuale)

Decisione (in base alla Teoria della Probabilità) sempre soggetta ad errore

si assume a priori un rischio accettabile (poco probabile) di errore

FORMULAZIONE DELLE IPOTESI

Si formulano due ipotesi:H : ipotesi nullaH0 : ipotesi nulla

(“non c’è effetto”)

H i t i lt ti t tiH1 : ipotesi alternativa, o sostantiva, o sperimentale

(“qualche effetto c’è”)

Per verificare un’ipotesi (H1) che afferma la p ( 1)presenza di effetti, si assume che sia invece vera un’ipotesi contraria (H0 ), che nega la presenza diun ipotesi contraria (H0 ), che nega la presenza di effetti.


Si calcola la probabilità di osservare valore pari almeno al valore “sperimentale” (quello ottenuto) assumendo come vera l’ipotesi nulla.

Se tale probabilità è bassa si decide che H0 è falsa, e H1 è verosimile.Bisogna però ricordare che H0 può essere vera, e che noi abbiamo semplicemente sbagliato campionamento.

Es: Due diverse terapie garantiscono diversa efficacia?H0 (ipotesi nulla): non esiste una differenza tra due terapie

H1 (ipotesi alternativa): esiste una differenza tra due terapie

Si cerca di falsificare probabilisticamente l’ipotesi che non vi siano diff (H ) di t h l diff ’è (H )differenze (H0) per dimostrare che la differenza c’è (H1)


Ipotesi sperimentale H può essere:Ipotesi sperimentale H1 può essere:Semplice: si fissa un unico valore del parametro

Composta: si fissano diversi valori possibili del parametro

MONODIREZIONALE (una coda) prevede la direzionedella differenza

BIDIREZIONALE (due code) non prevede direzioneH0 : μs = μc

H : μ = 60 SempliceH1: μ = 60 Sempliceoppure

μs< μc Composta Monodirezionaleμs μc poppure

μs> μc Composta Monodirezionaleoppure

μs ≠ μc Composta Bidirezionale

DECISIONE SU H0

Si calcola la probabilità associata agli eventiSi calcola la probabilità associata agli eventi osservati posto che H0 sia verase la probabilità è alta accetto Hse la probabilità è alta accetto H0

se la probabilità è bassa respingo H0 e accetto H1se la probabilità è bassa respingo H0 e accetto H1H0

Alta

Bassa Bassa

Alta

0

LIVELLO DI SIGNIFICATIVITÀ

Come si stabilisce che la probabilità associata a H è altaCome si stabilisce che la probabilità associata a H0 è altao bassa?Si definiscono dei limiti probabilistici:Si definiscono dei limiti probabilistici:

entro certi livelli di probabilità accetto H0

oltre certi livelli di probabilità rifiuto Holtre certi livelli di probabilità rifiuto H0

Il livello di significatività = α:Definisce la regione di Rifiuto di H0

α é una probabilità

Regione della distribuzione campionaria composta dai risultati che hanno una probabilità molto bassa di essere osservati quando H0 è veravera

Definisce la regione di Accettazione di H0

Regione della distribuzione campionaria composta dai risultati cheRegione della distribuzione campionaria composta dai risultati che hanno una probabilità molto alta di essere osservarti quando H0 è vera (1- α).

DECISIONE SU H0: Regioni di accettazione rifiuto per ipotesi monodirezionali

Ri d !Ricorda!L’area sotto la curva rappresenta una probabilità

H0

L’asse delle ascisse rappresenta una statistica (z o t)

Regione di accettazione

Regione di rifiuto

accettazione

(1- α)Regione di rifiuto

α

H di i l 0H1 monodirezionale 0

DECISIONE SU H0: Regioni di accettazione rifiuto per ipotesi bidirezionali

Ri d !Ricorda!L’area sotto la curva rappresenta una probabilità

H0

L’asse delle ascisse rappresenta una statistica (z o t)

Regione di accettazione

(1- α)( )Regione di rifiuto

Regione di rifiuto

α/2α/2

bidi i l0H1 bidirezionale0

LIVELLO DI SIGNIFICATIVITÀ

Sia p il valore di probabilità calcolato per l’evento osservato

α

se p > α : Accetto H0 e Rifiuto H1

pp

αse p < α : Rifiuto H0 e Accetto H1

α

p

REGOLE DI DECISIONE

Regole di decisione su gbase probabilistica

La decisione non è mai certa

La decisione è sempre soggetta ad errore

Il rischio di errore che ci sentiamo di correre è rappresentato da αè rappresentato da α

S bili il li ll di i ifiREGOLE DI DECISIONE: Errori

Stabilire il livello di α significa:Stabilire il rischio che siamo disposti a correre di commettere l’errore di

i H d è (E di I° i )respingere H0 quando è vera (Errore di I° tipo)

Si tende a stabilire un valore di α basso perché:Si tende a stabilire un valore di α basso perché: è preferibile non affermare l’esistenza di un fenomeno se non si è probabilisticamente “sicuri” della sua presenzaprobabilisticamente sicuri della sua presenza

“Andare appresso” a risultati apparentemente significativi (che dipendono da eccessivo errore di campionamento) è scientificamente p p )una perdita di tempo

α = .05 rischio di sbagliare rifiutando H0 quando essa è vera = 5 volte su 100

α = .01 rischio di sbagliare rifiutando H0 quando essa è vera = 1 volta su 100

α = .001 rischio di sbagliare rifiutando H0 quando essa è vera = 1 volta su 1000

REGOLE DI DECISIONE: Errori

S H èSe H0 è vera:

si può decidere di accettare H0 = Decisione corretta

si può decidere di rifiutare H0 = Decisione scorretta (Errore di I° tipo)

ERRORE DI I° TIPORespingo H0 quando è vera

Accetto H1 quando è falsa

Commettendo l’errore di I tipo si considera presente (vero) un effetto assente (falso) nella popolazione

La probabilità di questo errore è αα= probabilità di evidenziare un fenomeno che in realtà non esiste

α= probabilità di rintracciare un effetto presente solo in un campione (per errore di campionamento), ma assente nella popolazione di riferimento

REGOLE DI DECISIONE: Errori

Se H0 è falsa:si può decidere di rifiutare H0 : Decisione correttasi può decidere di rifiutare H0 : Decisione corretta

si può decidere di accettare H0 : Decisione scorretta (Errore di II°tipo)

ERRORE DI II° TIPOAccetto H0 quando è falsaRifiuto H1 quando è vera

Si considera assente (falso) un effetto presente (vero) nella popolazione di riferimentopopolazione di riferimentoLa probabilità di questo errore è β

β = probabilità di non evidenziare un fenomeno che in realtà esisteβ probabilità di non evidenziare un fenomeno che in realtà esisteβ = probabilità di non rintracciare un effetto assente solo nel campione osservato, ma in realtà presente nella popolazione di riferimento

P t il l di β diff di ll di òPurtroppo il valore di β, a differenza di quello di α, non può essere determinato

H H

Relazione fra α e β

H0 H1

Regione di

1-β1 αRegione di accettazione

accettazione

β1-α accettazione

βαα

D=0 D≠0

Campione appartenente ad una popolazione dove H0 è vera,

ma che conduce ad errore di I tipoCampione appartenente ad una popolazione

dove H0 è falsa, ma che conduce ad errore di I tipodove H0 è falsa, ma che conduce ad errore di II tipo

H H

Relazione fra α e β

H0 H1

Regione di

1-β1 αRegione di accettazione

accettazione

β1-α accettazione

βαα

•Se α diminuisce β aumentaD=0 D≠0

Se α diminuisce, β aumenta.Evitare errori di I° tipo può portare ad una elevata probabilità di

commettere errori di II° tipop

REGOLE DI DECISIONE

IpotesiDecisione

H0 è vera H0 è falsaDecisione

Accetto H0 Decisione Corretta(1 )

Decisione ErrataE di II° ti(1- α) Errore di II° tipo

(β )

Rifiuto H0 Decisione ErrataErrore di I° tipo

Decisione Corretta(1 β )Errore di I tipo

(α )(1 - β )

POTENZA DEL TEST

• La poten a del test è la probabilità di respingere H q ando è era H• La potenza del test è la probabilità di respingere H0 quando è vera H1

1- β• Capacità del test di condurre alla decisione corretta

1 β

• La potenza di un test è determinata fondamentalmente dalla grandezza del campionede ca p o e

• Inoltre, la potenza è determinata dalla grandezza dell’effetto.

• Infine, la potenza è in parte influenzata dal tipo di analisi statisticaeffettuata.

• L’applicabilità delle tecniche di analisi dipende a sua volta da:• L applicabilità delle tecniche di analisi dipende a sua volta da:Livello di misura

Grandezza campioneG a de a ca p o e

Distribuzione

dat

i La t ti ti è

si d

ei d

i dat


anal

isan

alis

rici

di

erca

e

com

etr

di ri

ceti

psi

cnic

he

rum

enT

ecn

VERIFICA DELLE IPOTESI: I passi da seguire

Str p g

VERIFICA DELL’IPOTESI: I passi da seguire

I bIn base a:– Livello di misurazione variabile/i

CategorialeCategoriale

Ordinale

IntervalliIntervalli

Rapporti

– Caratteristiche del/dei campione/i (n° e tipo)1 CAMPIONE 2 CAMPIONI k CAMPIONI

indipendentidipendenti dipendentiindipendenti

Scelta del test statistico (di significatività)


Definizione dell’ipotesi:H : IPOTESI NULLA (da falsificare)H0: IPOTESI NULLA (da falsificare)H1: IPOTESI ALTERNATIVA (da verificare)

IPOTESI SEMPLICE IPOTESI COMPOSTAIPOTESI SEMPLICE IPOTESI COMPOSTA

MONODIREZIONALE BIDIREZIONALE


Fissare il livello di significatività α = probabilità prefissata di considerare H0 falsa p p 0quando è vera (errore di 1° tipo)

Si delinea la regione di rifiuto in base a:Si delinea la regione di rifiuto in base a:– α prefissato

Tipo di H (mono/bi direzionale)– Tipo di H1 (mono/bi-direzionale)

Nel fissare α devo tenere anche conto dellaNel fissare α devo tenere anche conto della potenza che mi aspetto del test, e quindi:

C id l d tt d l ff tt i ti tConsiderare la grandezza attesa del effetto ipotizzato

Avere un’idea della numerosità campionaria

Scegliere il test più potente fra quelli appropriati


Associare una probabilità ad H0:Test statistico


Distribuzioni teoriche di probabilità(T l )(Tavole)

Decisione su H ( H ):Decisione su H0 ( H1):Se la probabilità associata ad H0 è maggiore

di ( > ) Si tt Hdi α (p > α) Si accetta H0Se la probabilità associata ad H0 è minore di

(p < ) Si rifiuta H Si accetta Hα (p < α) Si rifiuta H0 Si accetta H1

dat

i La t ti ti è

si d

ei d

i dat


anal

isan

alis

rici

di

erca

e

com

etr

di ri

ceti

psi

cnic

he

rum

enT

ecn

VERIFICA DELLE IPOTESI CON 1 CAMPIONE

Str

Esempio

Sappiamo che, considerando l’intera popolazione di pazienti di un professionista negli anni precedenti ilpazienti di un professionista negli anni precedenti, il punteggio medio dei pazienti allo STAI era 24 7±1 724.7±1.7.

Scegliendo in modo casuale 36 pazienti accorsi dalScegliendo in modo casuale 36 pazienti accorsi dal professionista nell’ultimo anno, si osserva che il punteggio medio da loro ottenuto è 25 4punteggio medio da loro ottenuto è 25.4.

Possiamo inferire che i pazienti dell’anno in corsoPossiamo inferire che i pazienti dell anno in corso siano più ansiosi rispetto a quelli degli anni precedenti?precedenti?

VERIFICA DELL’IPOTESI

Popolazione con μ e σ noti1 Campione n>30p

Variabile metrica ( Media)

DISTRIBUZIONE CAMPIONARIA DELLE MEDIE

DISTRIBUZIONE DI PROBABILITA’ NORMALE


Scelta del test statistico di significatività:Si calcola z facendo riferimento alla dCMSi calcola z facendo riferimento alla dCM

Definizione dell’ipotesi: Confronto con laDefinizione dell ipotesi: Confronto con la popolazione di riferimento

HH0: μM = μH1: μM ≠ μ (bidirezionale)H1: μM ≠ μ (bidirezionale)

μM > μ oppure μM < μ (monodirezionale)Domanda: Nell’esempio precedente, quale

ipotesi veniva formulata?ipotesi veniva formulata?


Fissare il livello di significatività αSi delinea la regione di rifiuto secondo α e HSi delinea la regione di rifiuto secondo α e H1(mono/bi-direzionale) trovando uno zcritico sulla TavolaTavola

Si associa una probabilità ad H0standardizzando la media in oggetto

Mz MM

μ−=

n

M σ


D i i H ( H )Decisione su H0 ( H1):Il confronto avviene tra z e zcritico (p = area dellaIl confronto avviene tra z e zcritico (p area della curva associata a H0 viene confrontata con l’area di rifiuto definita da α)

⏐z⏐<⏐z iti ⏐ = p > α⏐z⏐<⏐zcritico⏐ p > αSi accetta H0 è vera l’ipotesi nulla

⏐z⏐>⏐zcritico⏐ = p < αSi rifiuta H0 Si accetta H1 è vera l’ipotesi

alternativa

ESEMPIO

1 Campione: n=36 pazienti (n>30)Variabile metrica: punteggio STAIVariabile metrica: punteggio STAI

M=25.4;24 7 1 7μ= 24.7; σ=1.7

DISTRIBUZIONE CAMPIONARIA DELLE MEDIEDISTRIBUZIONE CAMPIONARIA DELLE MEDIE

DISTRIBUZIONE DI PROBABILITA’ NORMALEDISTRIBUZIONE DI PROBABILITA’ NORMALE

H (l di d ll di t ib iESEMPIO

H0: μM = μ (la media della distribuzione campionaria è uguale a quella della popolazione,

l di d ll’ t è lovvero la media dell’anno corrente è uguale a quella degli anni precedenti)

H1: μM > μ (monodirezionale destra, ovvero la 1 Mmedia dell’anno corrente è maggiore di quella degli anni precedenti)

α=.05 Si delinea la regione di rifiuto secondoα e H monodirezionale destra trovando uno zα e H1 monodirezionale destra trovando uno zcriticosulla Tavola

Devo rintracciare lo scostamento dalla mediaESEMPIO

Devo rintracciare lo scostamento dalla media (valore critico) che corrisponde alla probabilità alpha sotto un’ipotesi monodirezionalealpha, sotto un ipotesi monodirezionale

11-α

Regione

i i

Regionedi rifiuto

Regionedi accettazione α

z critico

95% (.95) 5% (.05)

P i t i di i li S 05

ESEMPIO

Per ipotesi monodirezionali, Se α=.05 l’area tra 0 e lo zcritico è .4500 (su una sola coda d ll di t ib i )della distribuzione); l’area oltre lo zcritico deve essere minore di 0500.0500 50% (.50) 45% (.45)

RegioneR i

1-α

i i

Regionedi rifiutoα

Regionedi accettazione

z critico

95% (.95) 5% (.05)

Tavola z

z .00 .01 .02 .03 .04 .05 .06 .07 .08 .090 .0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .0359

0.1 .0398 .0438 .0478 .0517 .0557 .0596 .0636 .0675 .0714 .07530.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1103 .11410.3 .1179 .1217 .1255 .1293 .1331 .1368 .1406 .1443 .1480 .15170.4 .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1844 .18790.5 .1915 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .22240.6 .2257 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2517 .25490.7 .2580 .2611 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .28520.8 .2881 .2910 .2939 .2967 .2995 .3023 .3051 .3078 .3106 .31330.9 .3159 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389

Z critico

1 .3413 .3438 .3461 .3485 .3508 .3531 .3554 .3577 .3599 .36211.1 .3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .38301.2 .3849 .3869 .3888 .3907 .3925 .3944 .3962 .3980 .3997 .40151 3 4032 4049 4066 4082 4099 4115 4131 4147 4162 41771.3 .4032 .4049 .4066 .4082 .4099 .4115 .4131 .4147 .4162 .41771.4 .4192 .4207 .4222 .4236 .4251 .4265 .4279 .4292 .4306 .43191.5 .4332 .4345 .4357 .4370 .4382 .4394 .4406 .4418 .4429 .44411.6 .4452 .4463 .4474 .4484 .4495 .4505 .4515 .4525 .4535 .45451 7 4554 4564 4573 4582 4591 4599 4608 4616 4625 46331.7 .4554 .4564 .4573 .4582 .4591 .4599 .4608 .4616 .4625 .46331.8 .4641 .4649 .4656 .4664 .4671 .4678 .4686 .4693 .4699 .47061.9 .4713 .4719 .4726 .4732 .4738 .4744 .4750 .4756 .4761 .4767

2 .4772 .4778 .4783 .4788 .4793 .4798 .4803 .4808 .4812 .48171−α1 α

S 05 l’ t 0 l è 4500

ESEMPIO

Se α=.05 l’area tra 0 e lo zcritico è .4500; l’area oltre lo zcritico deve essere minore di 0500.0500

Si trova il valore di z sulla tavola corrispondente a questa area zcritico=1.65 per l’ipotesi mono. dxq critico p p(quadrante positivo degli assi cartesiani)

1-αRegioned fR i di rifiutoRegione

di accettazioneα

z1.65

ESEMPIO

Calcolo della statistica zn=36, σ=1.7 ,

28.367.1

==Mσ 5.228

7.244.25=

−=z

36 28.

1-αRegionedi ifi tdi rifiutoRegione

di accettazione

z1.65 2.5

ESEMPIO

⏐2.5⏐>⏐1.65⏐ p< .05

Si rifiuta H0 Si accetta H1 si considera falso l’ipotesi nulla e “vera” quella alternativa

Posta l’uguaglianza tra μM = μ la probabilità di ottenere una media come quella osservata è minore del 5%q %fissato con α; ne concludo che:

La media dei pazienti dell’anno corrente si discostaLa media dei pazienti dell anno corrente si discosta significativamente dalla media generale.

I ll’ i i ti i iIn quell’anno i pazienti in ingresso erano significativamente più ansiosi che in passato


P l i tPopolazione con σ non noto1 Campione n>30




ERRORE STANDARD STIMATO1

ˆ−

=ns

Mσ

−= s

Mz MM

μ

1−ns

Esempio

La media della popolazione in un questionario di autostima è uguale a 100.

U i di 61 tti di i tiUn campione di 61 soggetti divorziati, selezionati a caso, sottoposto al test ottiene una media di 98±7.5.

P i l d h i di i ti hPossiamo concluderne che i divorziati hanno un’autostima più bassa rispetto alla popolazione generale?

Esempio

1 Campione: n= 61 divorziati (n>30)Variabile metrica: Punteggio al nVariabile metrica: Punteggio al questionario autostima.

M= 98; s= 7.5μ= 100



Esempio

H0: μM = μ(la media della distribuzione campionaria è uguale a(la media della distribuzione campionaria è uguale a

quella della popolazione)H : μ < μH1: μM < μ

(monodirezionale sinistra, cioè la media dei neo-economisti è minore di quella generale)

α=.01 Si delinea la regione di rifiutoα .01 Si delinea la regione di rifiutosecondo α e H1 (monodirezionale sinistra) trovando uno z iti sulla Tavolatrovando uno zcritico sulla Tavola

P 01 di i l l’ 0 l

Esempio

Per α=.01 monodirezionale: l’area tra 0 e lo zcritico è .4900; l’area oltre zcritico è minore di 0100.0100.

11-α

Regioned f

Regione99% (.99)

iti

di rifiutog

di accettazioneα

1% (.01)

z critico

Tavola z

Z critico 1−α

α

Per ipotesi monodirezionali Se α= 01 l’area tra 0 eEsempio

Per ipotesi monodirezionali, Se α .01 l area tra 0 e lo zcritico è .4900; l’area oltre zcritico è minore di .0100.

Il l di ll t l i d t tIl valore di z sulla tavola corrispondente a questa area è:

zcritico= -2.33 per l’ipotesi è mono. sx (quadrante negativo degli assi cartesiani)

1-α

Regione R igdi rifiuto


αz-2.33

61 t 7 5

Esempio

n=61, σ=non noto, s=7.5 97.

1615.7ˆ =−

=Mσ10098 161

06.297.10098

−=−

=z

11-α

Regione Regionedi rifiuto


αz-2.33 -2.06

Esempio

⏐2.06⏐<⏐2.33⏐ p > .01⏐ ⏐ ⏐ ⏐ pRicordare che il test confronto va effettuato sui valori assoluti delle due zdelle due z.

Si accetta H0 non posso considerare falsa l’ipotesi nulla

Posta l’uguaglianza tra μM = μ la probabilità di ottenere una media come quella osservata è maggiore dell’1% fissato con α

La media dei divorziati non si discosta significativamente d ll di ll l idalla media nella popolazione.

I divorziati mostrano un livello di autostima analogo a quello della popolazione.


Popolazione con σ non noto1 Campione n<30p



DISTRIBUZIONE DI PROBABILITA’ t


Scelta del test statistico (di significatività):Si calcola t facendo riferimento alla dCMSi calcola t facendo riferimento alla dCM

Definizione dell’ipotesi: Il confronto è con la popolazione di riferimentopopolazione di riferimentoH0: μM = μH : μ ≠ μ (bidirezionale)H1: μM ≠ μ (bidirezionale)

μM > μ ovvero μM < μ (monodirezionale)


Fi il li ll di i ifi ti itàFissare il livello di significatività α e calcolare i gdl .

I bα

dl 1In base a: gdl=n-1H1 (mono/bi-direzionale)

… si delinea la regione di rifiuto trovando t ll T ltcritico sulla Tavola

TAVOLA DI t

Riporta i valori di t in base a: α H gdlRiporta i valori di t in base a: α, H1, gdl• Esempio:

α =.01H1 bidirezionalen=11 gdl=10

t=±3.17


Si associa una probabilità ad H calcolando:Si associa una probabilità ad H0 calcolando:

M −=

sMt Mμ

Decisione su H ( H ):

1−n

Decisione su H0 ( H1):Il confronto avviene tra t e tcritico trovato sulla tavola⏐ ⏐ ⏐ ⏐⏐t⏐<⏐tcritico⏐ = p > α

Si accetta H0 è verosimile l’ipotesi nulla0 p

⏐t⏐>⏐tcritico⏐ = p < αSi rifiuta H Si accetta H è plausibile l’ipotesiSi rifiuta H0 Si accetta H1 è plausibile l ipotesi

alternativa

Esempio

Vengono selezionati in modo casuale 26Vengono selezionati in modo casuale 26 pazienti Narcisisti; li si intervista e si calcola il numero medio di “relazione positive” pari anumero medio di relazione positive , pari a 10± 3.

Se la media delle “relazioni positive” fra i pazienti con altre diagnosi è 12, si può affermare che il narcisismo conduce a maggioriaffermare che il narcisismo conduce a maggiori problemi di relazione rispetto ad altre diagnosi?

Esempio

1 Campione: n = 26 Narcisisti (n<30)Variabile metrica: Numero di “relazioniVariabile metrica: Numero di relazioni positive”

M= 10; s= 3μ= 12



Esempio

H0: μM = μ: la media della distribuzione campionaria è uguale a quella dellacampionaria è uguale a quella della popolazione

cioè la media dei narcisisti è uguale a quella generale

H1: μM < μ (monodirezionale sinistra)i è l di di “ l i i iti ” d i i i ti ècioè la media di “relazioni positive” dei narcisisti è

minore di quella generale

Esempio

α=.05 e gdl=26-1=25 Si d li l i di ifi t d dl HSi delinea la regione di rifiuto secondo α, gdl e H1monodirezionale trovando un tcritico sulla Tavola

Quale sarà il valore critico?

Esempio

n=26, σ=non noto, s=3 6.0

1263ˆ =

−=Mσ

1210 12633.3

6.01210

−=−

=t

11-α

Regione RegioneRegionedi rifiuto


α

t-3.33 -1.71

Esempio

⏐3.33⏐>⏐1.71⏐ p< .05Si rifiuta H0 Si accetta H1

è plausibile l’ipotesi alternativaè plausibile l ipotesi alternativaPosta l’uguaglianza tra μM=μ la probabilità di ottenere una media come quella osservata èottenere una media come quella osservata è minore del 5% fissato con α; ne concludo che:

La media dei narcisisti si discosta significativamenteLa media dei narcisisti si discosta significativamente dalla media generale.

Si può tentativamente affermare che i narcisistiSi può tentativamente affermare che i narcisisti soffrano di problemi più gravi di tipo relazionale rispetto ad altre diagnosi.

Esempio t un campione

Con SPSS

Statistiche per un campione

26 10 0000 3 00000 58835pregiudiziN Media

Deviazionestd.

Errore std.Media

26 10,0000 3,00000 ,58835pregiudizi

Test per un campione

Valore oggetto del test = 12

3 399 25 002 2 00000 3 2117 7883pregiudizit df Sig. (2-code)

Differenzafra medie Inferiore Superiore

Intervallo di confidenzaper la differenza al

95%

-3,399 25 ,002 -2,00000 -3,2117 -,7883pregiudizi

Non viene riportato il valore critico, solo la probabilità di osservare un risultato più estremo se H0 è vera

Altro Esempio SPSS t un campione

Con SPSS Statistiche per un campione

39 000 1 863 8 298N tti iN Media

Deviazionestd.

Errore std.Media

39 5,5000 1,86378 ,29844Notti_insonn

Test per un campione


t df Sig (2-code)Differenzafra medie Inferiore Superiore


95%


1,675 38 ,102 ,50000 -,1042 1,1042Notti_insonnt df Sig. (2 code) fra medie Inferiore Superiore

VERIFICA DELL’IPOTESI per Un campione: Riassumiamo

• Nel caso in cui σ non è noto (il caso più frequente nella pratica) è sempre corretto usarefrequente nella pratica) è sempre corretto usare t.

Per n>30 i valori di t e z praticamente coincidono

è quindi indifferente fare riferimento all’una oè quindi indifferente fare riferimento all una o all’altra distribuzione.

• Si può notare, inoltre, che la formula per il p , , pcalcolo di t e z se σ non è noto è identica

dat

i La t ti ti è

si d

ei d

i dat


anal

isan

alis

rici

di

erca

e

com

etr

di ri

ceti

psi

cnic

he

rum

enT

ecn

VERIFICA DELLE IPOTESI CON 2 CAMPIONI

Str

Esempio

Scegliendo in modo casuale 25 pazienti che hanno frequentato per un anno il Terapeuta A:frequentato per un anno il Terapeuta A:

si rileva che la loro media al BDI è 10.36 ±4.95

Scegliendo in modo casuale 37 pazienti che hanno frequentato per un anno il Terapeuta B:q p p

si rileva che la loro media al BDI è 15.84 ±2.00

P i ff h i i diff tPossiamo affermare che vi sia una differenza tra lo stato depressivo dei pazienti dei due terapeuti?


Popolazioni con σ non notiPopolazioni con σ non noti2 Campioni INDIPENDENTI

Variabile indipendente dicotomica (Città)Variabile indipendente dicotomica (Città)Variabile dipendente metrica ( Medie)

DISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA TRA MEDIE



S l d l i i (di i ifi i i à)Scelta del test statistico (di significatività): Si calcola t facendo riferimento alla dCDM

Definizione dell’ipotesi:H0: μ1 = μ2 ( μ1 - μ2 = 0)H1: μ1 ≠ μ2 (bidirezionale)

μ1 > μ2 ovvero μ1 < μ2 (monodirezionale)Fissare il livello di significatività α e calcolare

i gdl :α

In base aαgdl=n1+n2-2

( /b d l )Si delinea la regione di rifiuto trovando

H1 (mono/bi-direzionale)

tcritico sulla Tavola


Si associa una probabilità ad H0

0)( 1 =−μμ

⎟⎟⎞

⎜⎜⎛ +

⎟⎟⎞

⎜⎜⎛ +

−−−=

21222

211

2121 )()(

nnsnsn

MMt μμ0)(

21 μμ

Decisione su H ( H ):

⎟⎟⎠

⎜⎜⎝

⎟⎟⎠

⎜⎜⎝ −+ 21

21

21

2211

2 nnnn21ˆ MM −σ

Decisione su H0 ( H1):Il confronto avviene tra t e tcritico come nel caso di un solo campionedi un solo campione.Oppure, coi software, si confronta α con p

Esempio

2 Campioni: n1=25 Terapeuta A (n<30)n2=37 Terapeuta B (n>30)

Variabile indipendente dicotomica: TerapeutaVariabile dipendente metrica: Sintomip

M1=10.36; s1=4.95 e M2=15.84; s2=2

DISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA TRA MEDIE


Esempio

H0: μ1 = μ2 (la media della popolazione dei pazienti di A è uguale a quella dei pazienti dipazienti di A è uguale a quella dei pazienti di B)H (bidi i l l di d llH1: μ1 ≠ μ2 (bidirezionale, la media della

popolazione dei pazienti di A è diversa a quella d i i ti di B)dei pazienti di B)

α=.05 Si delinea la regione di rifiutoα gsecondo α e H1 bidirezionale trovando unatcritica sulla Tavolatcritica sulla Tavola

Esempio

Rappresentazione grafica aree di accettazione e rifiuto – test bidirezionale

H0

11-αRegionedi rifiutoRegione

i i

di rifiutoRegionedi accettazione

α/2 α/2i i t criticot critico

Esempio

α=.05, bidirezionale, gdl=25+37-2=60Si delinea la regione di rifiuto secondo α, gdl e

H bidirezionale e si trova t = ?H1 bidirezionale e si trova tcritico = ?

Esempio

M1=10.36; s1=4.95 e M2=15.84; s2=2 n1=25, n2=37

−= 21 )( MMt

⎟⎟⎠

⎞⎜⎜⎝

⎛ +⎟⎟⎠

⎞⎜⎜⎝

⎛−+

+

21

21

21

222

211

2 nnnn

nnsnsn

t

84.1536.10 −

( ) ( )37253725

2372523795.425 22

=

⎟⎠⎞

⎜⎝⎛

×+

⎥⎦

⎤⎢⎣

⎡+

×+×=t

95548.548.548.5

372523725

−=−

=−

=−

=

⎠⎝ ×⎥⎦

⎢⎣ −+

( ) ( )95.5

92.067.675.1292562

621485.612

==×

=

⎟⎠⎞

⎜⎝⎛

⎥⎦⎤

⎢⎣⎡ +

=

⎠⎝⎦⎣

⏐5 95⏐>⏐2 00⏐ p< 05Esempio

⏐5.95⏐>⏐2.00⏐ p< .05

H0

11-αRegionedi rifiutoRegione

Regionedi ifi t

5 95 2 00 0 2 00

di rifiutoRegionedi accettazione

α/2 α/2

di rifiuto

t-5.95 -2.00 0 2.00

6 C t

Esempio

6 CommentoSi rifiuta H0 Si accetta H1 l’ipotesi nulla è 0 1 p

poco plausibilePosta l’uguaglianza tra μ1 = μ2 la probabilità diPosta l uguaglianza tra μ1 μ2 la probabilità di ottenere le medie osservate è minore del 5% fissato con α; ne concludo che con un rischio di errore delcon α; ne concludo che, con un rischio di errore del 5%:

Tra i pazienti di A e di B vi è una differenza nonTra i pazienti di A e di B vi è una differenza non ascrivibile al caso

La media dei sintomi dei pazienti del terapeuta ALa media dei sintomi dei pazienti del terapeuta A è significativamente diversa dalla media dei pazienti del terapeuta Bdel terapeuta B

Esempio t due campioni

Con SPSS

Esempio t due campioni

Con SPSSStatistiche di gruppog pp

25 10 3600 4 94874 98975TerapeutaAsintomi

N MediaDeviazione

std.Errore std.

Media25 10,3600 4,94874 ,9897537 15,8378 2,00712 ,32997

AB

sintomi

T t i i i di d tiTest per campioni indipendenti

Test di Levene diuguaglianza delle

varianze Test t di uguaglianza delle medie

F Sig

varianze

t df Sig (2-code)Differenzafra medie

Differenzaerrore

standard Inferiore Superiore

tervallo di confidenzper la differenza al

95%

Test t di uguaglianza delle medie

33,442 ,000 -6,054 60 ,000 -5,47784 ,90477 -7,28765 -3,66803

-5,250 29,389 ,000 -5,47784 1,04330 -7,61040 -3,34527

Assumi varianze ugNon assumerevarianze uguali

sintomiF Sig. t df Sig. (2-code)fra medie standard Inferiore Superiore

Altro esempio t due campioni

Confrontiamo due gruppi randomizzati, sottoposti a due terapie. Ci aspettiamo che la terapia “2” sia significativamente più efficace

α = .05, monodirezionale

Statistiche di gruppo

Terpia N MediaDeviazione

stdErrore std.

Media11 9,5455 4,61224 1,3906414 13,6429 6,61708 1,76849

Terpia1,002,00

Sintomi1N Media std. Media

Test per campioni indipendenti

Test di Levene diuguaglianza delle

varianze

DifferenzaDifferenza

errore


95%

Test t di uguaglianza delle medie

1,456 ,240 -1,744 23 ,094 -4,09740 2,34927 -8,95724 ,76243

-1,821 22,743 ,082 -4,09740 2,24976 -8,75430 ,55950

Assumi varianze ugualiNon assumerevarianze uguali

Sintomi1F Sig. t df Sig. (2-code)

Differenzafra medie

errorestandard Inferiore Superiore

95%

Esercizio:

Quale è la probabilità oltre t 1.74 su una sola coda?

Su un’ipotesi H1 monodirezionale, accetto o rifiuto l’ipotesi nulla con t=1.74 e n=25?

pt1.74

p

dat

i si

dei

di dat

ian

alis

anal

isri

ci d

i er

ca e

co

met

rdi ri

ceti

psi

cnic

he

rum

enT

ecn

Campioni dipendentiCampioni dipendenti

Str

CAMPIONI DIPENDENTI

Campione estratto casualmente dalla popolazione con caratteristiche omogeneeMisure ripetute due volte sullo stesso campione (prima e dopo sugli stessi soggetti; in diverse(prima e dopo sugli stessi soggetti; in diverse occasioni, riguardo diversi concetti…)Un gruppo sottoposto a due livelli (prima/dopo)Un gruppo sottoposto a due livelli (prima/dopo)della VARIABILE INDIPENDENTE (manipolata o non manipolata)manipolata)Rilevazione della VARIABILE DIPENDENTE due volte sullo stesso gruppostesso gruppoAnalisi statistica per rilevare una differenza tra le d il i i i ibil ll ( idue rilevazioni ascrivibile alla INDIPENDENTE (unica differenza prima/dopo)

Esempio

Vengono estratti in modo casuale 80 pazienti tra i pazienti di un gruppo di terapeutitra i pazienti di un gruppo di terapeuti

Al tempo 1 viene rilevata la loro insonniaVARIABILE INDIPENDENTE (manipolata)

I i ti i tt d t iI pazienti si sottopongono ad una terapia centrata sulla riduzione dell’attivazione emotiva: Prima/Dopo la terapiaPrima/Dopo la terapiaVARIABILE DIPENDENTE

Al tempo 2 (dopo la terapia) rilevazione dell’ insonnia

CAMPIONI DIPENDENTI

Si parla di disegni sperimentali entro i soggetti (o within)I disegni descritti per due rilevazioni sono estendibili a k rilevazioni sugli stessi soggetti g gg(campione)I disegni sperimentali possono essere mistiI disegni sperimentali possono essere misti

Vale a dire, includono sia rilevazioni entro sia tra i soggettisoggetti

Esempio

Su 8 pazienti con attacchi di panico vieneSu 8 pazienti con attacchi di panico viene rilevata la frequenza degli attacchi mensili

i d i t i bprima e dopo una psicoterapia breve. I risultati sono i seguenti:

Prima (xi) 5 8 9 6 8 4 4 8Prima (xi) 5 8 9 6 8 4 4 8Dopo (yi) 4 5 6 4 9 5 2 7

A i ti i li t ll fAssistiamo a un miglioramento nella frequenza degli attacchi di panico?

VERIFICA DELL’IPOTESI CON CAMPIONI DIPENDENTI

Il test viene effettuato sulla media delle differenzeIl test viene effettuato sulla media delle differenzedato che la variabile dipendente è su scala di misura metricametrica.

Sempre controllare la scala di misura!

Dato un campione di ampiezza n dal quale sono l i i l l lstate tratte le misure xi e yi, possiamo calcolare la

media delle differenze tra le due misure

DM

n

ii∑

== 1

nM D =

iii yxD −=

VERIFICA DELL’IPOTESI CON CAMPIONI DIPENDENTI

Nel caso di due campioni dipendenti poiché abbiamo in realtà un solo campione, ci riferiremo alla distribuzione di un’unica media data dalla differenza fra due variabili.

La verifica delle ipotesi si basa su una mediaDISTRIBUZIONE CAMPIONARIA DELLE MEDIE Distribuzione t di Student con n-1 gradi di

libertà


Scelta del test statistico (di significatività):Si calcola t facendo riferimento alla dCM

Definizione dell’ipotesi:H0: μD = 00 μDH1: μD ≠ 0 (bidirezionale)

μD> 0 ovvero μD< 0 (monodirezionale)

Fissare il livello di significatività α e calcolare i gdl :

In base aαgdl=n-1

Si d li l i di ifi t t d

gdl n 1H1 (mono/bi-direzionale)

Si delinea la regione di rifiuto trovando tcritico sulla Tavola


Si i b bilità d HSi associa una probabilità ad H0

0=μDn

i∑−

=s

Mt

D

DD μ0=Dμ

n

DM i

i

D

∑== 1

1−nDσ̂

( )

n

MDs

n

iDi

D

2

1∑

=

−=

Decisione su H0 ( H1):0 ( 1)Il confronto avviene tra t e tcritico come nel caso di un solo campione.

2 Campioni dipendenti ovvero due misureEsempio

2 Campioni dipendenti ovvero due misure sugli stessi soggetti: n=8

Variabile indipendente dicotomica: Tempo (prima/dopo la terapia)

Variabile dipendente metrica: Numero attacchi



Esempio

H0: μD = 0 (la media della differenza tra prima e dopo è uguale a zero cioè non c’èprima e dopo è uguale a zero, cioè non c è differenza prima/dopo, e la terapia non ha funzionato)funzionato)H1: μD > 0 (la media della differenza tra

i d è i di i è ’èprima e dopo è maggiore di zero, cioè c’è un decremento dopo la terapia)

α=.05 e gdl=8-1=7 Si delinea la regione di rifiuto secondo α, gdl e H1di rifiuto secondo α, gdl e H1monodirezionale trovando un tcritico sulla Tavola = 1.89a o a 89

Esempio

Si procede con il calcolo di MD e sD (utilizzando le formule con i dati grezzi)le formule con i dati grezzi)

Sogg x y D D 2Sogg. xi yi Di Di1 5 4 1 12 8 5 3 9 25110

==M3 9 6 3 94 6 4 2 45 8 9 1 1

25.18

==DM

5 8 9 -1 16 4 5 -1 17 4 2 2 4

( ) 48.125.1830 2 =−=Ds

8 8 7 1 110 30

Esempio

MD=1.25; sD=1.48 251 23.2

1848.125.1

==t

Domanda: Quale è la probabilità di osservare un valore

18−

Domanda: Quale è la probabilità di osservare un valore uguale o maggiore a 2.23 se è vera H0?

Regionedi rifiuto


t1.89 2.23

di rifiutodi accettazione1-α α

1.89 2.23

Esempio

⏐2.33⏐>⏐1.89⏐ p< .05Si rifiuta H Si accetta H è veraSi rifiuta H0 Si accetta H1 è vera

l’ipotesi alternativa

Posto μD = 0, la probabilità di ottenere le medie osservate è minore del 5% fissato conmedie osservate è minore del 5% fissato con α; ne concludo che:

T i i d ’è di i iTra i prima e dopo c’è una diminuzione significativa degli attacchi

I risultati suggeriscono che la terapia ha avuto l’effetto desiderato.

Con SPSS…

Statistiche per campioni appaiati

Media NDeviaz ione

std.Errore std.

Media6,5000 8 2,00000 ,707115,2500 8 2,12132 ,75000

panico_pre tes tpanico_post tes t

Coppia1

Media N std. Media

Correlazioni per campioni appaiati

panico pre test eCoppiaN Correlazione Sig.

ATTENZIONE: QUESTONON E’ IL TEST CHE CI INTERESSA

8 ,707 ,050panico_pre test epanico_post test

Coppia1

Test per cam pioni appaiatiTes t per cam pioni appaiati

D i i E td

Intervallo di conf idenzaper la dif ferenza al

95%

Dif ferenze a coppie

1,25000 1,58114 ,55902 -,07187 2,57187 2,236 7 ,060panico_pre tes t -panico_post tes t

Coppia1

MediaDeviaz ione

std.Errore std.

Media Inferiore Superiore95%

t df Sig. (2-code)

DOBBIAMO GUARDARE QUESTO!

ripasso psicometria.ppt [modalità compatibilità] · d ati la ittit è s i dei i dati statistica...

Documents