l’analisi della varianza introduzione e concetti generali giovanni battista flebus aa 2013-14

Download L’analisi della varianza Introduzione e concetti generali Giovanni Battista Flebus AA 2013-14

Post on 03-May-2015

213 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

  • Slide 1
  • Lanalisi della varianza Introduzione e concetti generali Giovanni Battista Flebus AA 2013-14
  • Slide 2
  • Lanalisi della varianza (ANOVA, ANalysi Of VAriance) una tecnica statistica che permette di valutare se le medie di due o pi gruppi sono uguali fra loro. La variabile Dipendente misurata su una scala a intervalli e ha una distribuzione normale La variabile indipendente (classificazione in pi gruppi) una misurazione a livello di scala nominale La classificazione fatta in modo indipendente
  • Slide 3
  • Lanalisi della varianza Si basa su due principi: (1) si pu stimare la varianza della popolazione in due modi diversi, che tengano conto della suddivisione in gruppi (2) Si possono confrontare due varianze e verificare se sono estratte dalla stessa popolazione
  • Slide 4
  • Le ipotesi di ricerca Le due ipotesi di ricerca sono le seguenti H0 : le medie dei k gruppi sono uguali H1 : almeno una delle medie dei k gruppi diversa dalle altre
  • Slide 5
  • Ulteriori esplorazioni Se il test statistico permette di concludere che c almeno un gruppo diverso dagli altri, si possono applicare altre tecniche per individuare i gruppi diversi
  • Slide 6
  • Esempio preliminare In un campione di studenti, si rileva il senso di benessere (un test, scala a intervalli) per vedere se le bocciature a scuola hanno influenza su tale tratto. Il benessere si rileva con un test (BeSco, Test di Benessere Scolastico) Le bocciature a scuola (nessuna, una o due), anche se sono una scala a rapporti, sono considerate qui come una classificazione e quindi come scala nominale. La frequenza dei tre gruppi la seguente
  • Slide 7
  • Ecco i dati del campione
  • Slide 8
  • Il punteggio di benessere nei tre gruppi pare diverso. Ma le differenze sono attribuibili alla variabilit stocastica o sono veramente consistenti?
  • Slide 9
  • Ma queste differenze sono reali o non sono piuttosto dovuti a fluttuazioni casuali? Ricorriamo al grafico con basette
  • Slide 10
  • Esaminiano il grafico a basette Ci sono sovrapposizioni di intervalli di fiducia per le medie. Nemmeno il grafico a basette ci permette di trarre una conclusione sicura
  • Slide 11
  • Esaminiamo i risultati dellANOVA La significativit ci dice che le tre medie non possono essere considerate uguali Questa tabella prodotta dallapplicazione dellANOVA ai dati, che ci permette di passare alla conclusione
  • Slide 12
  • Principio dellANOVA Si pu stimare la varianza della popolazione in due modi diversi e confrontare le due stime Primo metodo: calcolare la varianza delle k medie come se fossero k osservazioni Secondo metodo: calcolare la varianza media, usando tutte le osservazioni, eliminando per da ciascuna osservazione linfluenza del proprio gruppo.
  • Slide 13
  • g1 g2 g3 Media totale Media dei singoli gruppi Singole osservazioni, in ciascun gruppo
  • Slide 14
  • Media totale g1 g2 g3 Punto zero per gruppo 2 (Media del gruppo ) Media del gruppo 2 Distanza del punto dalla media del gruppo Media del gruppo 2
  • Slide 15
  • Piccolo esempio numerico Un ricercatore pensa che il tempo passato a muoversi in citt sia di detrimento per il rendimento accademico degli studenti universitari. Ha osservato il numero di esami di 12 studenti, suddivisi in tre gruppi secondo luso di trasporto per andare in facolt: A) prendono i mezzi B) Hanno un loro mezzo (moto auto) C) vivono in zona e quindi vanno a piedi
  • Slide 16
  • Slide 17
  • Le medie e varianze dei tre gruppi
  • Slide 18
  • Consideriamo gli elementi utili 1 Le medie dei gruppi 2 Le varianze dei gruppi 3 La media totale
  • Slide 19
  • Calcoliamo la varianza fra i gruppi 1 Le medie dei gruppi 3 La media totale 2 La numerosit dei gruppi 3
  • Slide 20
  • Calcoliamo la varianza delle medie dei gruppi (varianza fra i k gruppi (X i -M) 2 /(n-1) Varianza fra i gruppi = [(4-5,67) 2 +(6-5,67) 2 +(7-5,67) 2 ] / 2 = (2,7889+0,1089+1,7689)/2= 2,3335
  • Slide 21
  • La varianza delle k medie (s 2 ) per la varianza della distribuzione campionaria delle medie: s 2 /n A noi serve la varianza della popolazione: s 2 Perci dobbiamo moltiplicare il valore per n (numerosit nei gruppi): Varianza della popolazione o varianza della distribuzione campionaria delle medie?
  • Slide 22
  • Calcoliamo la varianza della popolazione con la stima della varianza fra i gruppi Varianza fra i gruppi= [(4-5,67) 2 +(6-5,67) 2 +(7-5,67) 2 ] / 2 = (2,7889+0,1089+1,7689)/2= 2,3335 =Varianza delle distribuzione campionaria delle medie (s 2 /n) Varianza della popolazione = n S 2 2,3335 x 4 = 9,3334
  • Slide 23
  • Calcoliamo la media delle varianze nei gruppi: 2,667+3,333+2,000=8,00 Media della varianza nei gruppi 8,00/3= 2,667 Calcoliamo la varianza della popolazione con la stima della varianza dentro i gruppi
  • Slide 24
  • I gradi di libert I gradi di libert sono dati da (1) Numero di gruppi -1 per la varianza fra i gruppi (2) Numero di osservazioni meno i gruppi, per la varianza nei gruppi. Nel nostro caso, 3-1= 2 gl per la varianza fra i gruppi 12-3 = 9 gl per la varianza nei gruppi
  • Slide 25
  • Otteniamo il valore di F Il rapporto fra le due stime della varianza della popolazione (una nei gruppi e laltra fra i gruppi) ha una distribuzione descritta dalla variabile casuale F di Fisher Snedecor con gl1 e gl2 gradi di libert.
  • Slide 26
  • Nel nostro caso otteniamo F= 9,334/ 2,666 = 3,500 con 2 e 9 gradi di libert.
  • Slide 27
  • Grafico di F con 2 e 9 g.l. Questo grafico disponibile grazie al computer, nel passato si usavano le tavole per valori singoli di n1 e n2 e per valori selezionati di p (0,10; 0,05; 0,01 ecc.)
  • Slide 28
  • Le tavole di F ci dicono che il valore 3,500 ricade al di sotto della zona critica e perci accettiamo lipotesi nulla di uguaglianza delle medie dei tre gruppi
  • Slide 29
  • Grafico di F con 2 e 9 g.l. Area di rifiuto di H0= 0,0,5, maggiore di 0,075 Area di accettazione di H0= 0,925, Valore teorico che separa le aree fra 0,95 e 0,05 F=4,256 F=3,50
  • Slide 30
  • Per il calcolo con spss Le due varianze sono per calcolate in modo diverso da quello che stato presentato: si parte dalla somma dei quadrati (distanza dellosservazione dalla media) (devianza in italiano, Sum of squares in inglese) dentro e fra i gruppi, divisi per i rispettivi gradi di libert. Il rapporto F sempre stampato usando la devianza nei e fra i gruppi. La loro somma uguale alla devianza totale
  • Slide 31
  • Passiamo a SPSS Selezioniamo il menu Analizza->Confronta Medie-> ANOVA univariata. Compare questo finestra. Inseriamo la variabile Gruppo come fattore, e il numero di esami come variabile dipendente
  • Slide 32
  • Output di SPSS per lANOVA Valore F calcolato Gradi di liberta FRA e DENTRO i gruppi, quelli totali Le due varianze calcolate nei due modi diversi Significativit di F Guardiamo solo una parte della tabella
  • Slide 33
  • Il metodo di calcolo seguito diverso Le due varianze appena confrontate sono di solito concepite come un rapporto di scarti quadrati, divisi per i rispettivi gradi di libert, per produrre delle stime delle varianze Per rendere questo metodo di calcolo utilizzabile con gruppi di diversa numerosit, si procede ricordando il concetto di devianza totale, suddivisa in devianza fra i gruppi e devianza nei gruppi
  • Slide 34
  • La variabilit totale descritta da SQT, ovvero Devianza totale: Scomposizione della variabilit totale
  • Slide 35
  • La variabilit fra i gruppi descritta con la formula seguente Devianza fra i gruppi: Scomposizione della variabilit totale
  • Slide 36
  • La variabilit nei (o dentro i) gruppi descritta dalla SSE detta anche variabilit dellerrore: Devianza dentro i gruppi: Scomposizione della variabilit totale
  • Slide 37
  • Rappresentazione grafica della devianza
  • Slide 38
  • Dalle devianze alle due varianze Le due varianze (dentro e fra i gruppi) sono quindi calcolate come rapporti fra due somme di quadrati, divise dai rispettivi gradi di libert.
  • Slide 39
  • I risultati del test F per la ANOVA sono generalmente presentati in una tabella come questa: Test F per ANOVA
  • Slide 40
  • Output di SPSS per lANOVA Valore F calcolato Gradi di liberta FRA e DENTRO i gruppi, quelli totali Le due varianze calcolate nei due modi diversi Significativit di F Guardiamo solo una parte della tabella
  • Slide 41
  • Output di SPSS per lANOVA Valore F calcolato Gradi di liberta FRA e DENTRO i gruppi, quelli totali Le due varianze calcolate nei due modi diversi Significativit di F Guardiamo solo una parte della tabella
  • Slide 42
  • Nel grafico seguente, per ogni n osservazione, sono riportati solo gli scarti dalle medie: dalla media generale, dalla media del gruppo e scarto del gruppo dalla media generale.
  • Slide 43
  • Rappresentazione grafice di punteggi, scarti dalla media e devianza
  • Slide 44