statistiques multivariées : aspects descriptifs et ... 5_stat_  · statistiques multivariées

Download Statistiques multivariées : aspects descriptifs et ... 5_Stat_  · Statistiques multivariées

Post on 16-Sep-2018

213 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

  • Statistiques multivaries :aspects descriptifs etinfrentiels

    Prof Bi I. Arsne ZORO (Agronome gnticien)

    Biostatistiques Appliques en Protection des Vgtaux

    Formation thmatique ProVeg (3-6 juillet 2015)

  • 2Programme du module 4

    1. Analyse de la variance multivarie (MANOVA)

    2. Analyse en Composante Principale (ACP)

    3. Analyse Factorielle Discriminante (AFD)

  • Chapitre 1Analyse de la variance multivarie

    Modules 4 Analyse multivarieProf ZORO

  • Plan du chapitre

    1. Principes gnraux2. MANOVA 1 pour deux chantillons indpendants3. MANOVA 1 pour plus de deux chantillons

    indpendants

    4

  • 5

    La MANOVA un test statistique appropri quand lanalyse de lavariance (ANOVA) doit prendre en compte plus dune variabledpendante.

    Lobjectif de la MANOVA est de savoir si les diffrences entre desgroupes, bases sur une combinaison de plusieurs variablesdpendantes ont une forte probabilit ou non dtre dues uneerreur dchantillonnage.

    La MANOVA est un test multivari ( ne pas confondre avec un testmultifactoriel), cest dire quelle explore plus de deux variablesdpendantes (VD) en rapport avec deux ou plus de deux variablesindpendantes (VI).

    1 Principes gnraux

  • 6

    La prfrence la ralisation de la MANOVA au lieu deplusieurs ANOVA peut sexpliquer par plusieurs raisons :o lutilisation de plusieurs analyses univaries augmente le

    risque . Par exemple dans le cas de 10 variablesdpendantes, avoisine 0,60 ;

    o les tests univaris ne tiennent pas compte de lacorrlation entre variables dpendantes alors que laMANOVA le fait ;

    o des diffrences systmatiques mais petites entre groupesde variables indpendantes peuvent tre individuellementnon significatives mais une MANOVA fait ressortir leffetcumulatif.

    Avantages de la MANOVA (/ ANOVA)

    1 Principes gnraux

  • 7

    La ou les variables indpendantes doit/doivent trecatgorielle(s), avec au moins deux groupes.

    Les observations sont indpendantes.

    Les chantillonnages sont alatoires et simples.

    Les variables dpendantes ont chacune une distributionnormale.

    Il doit avoir une homognit de variance entre les groupes(vrifie par le test de Levene).

    Conditions dapplication de la MANOVA

    1 Principes gnraux

  • 8

    La corrlation entre les variables dpendantes doit tre lamme travers les groupes.

    Il doit avoir une corrlation entre les variables dpendantes ;si non il ne va pas avoir un effet multivari (1 R2

  • 9

    Ralisation de la MANOVA

    1 Principes gnraux

    La mthode de calcul de la statistique du test est analogue celle de l'ANOVA, mais au lieu de considrer les sommes decarrs total (SCEt) factorielle (SCEa) et rsiduelle (SCEr)pour la variable, on introduit les matrices totale T, factorielle Het rsiduelle E.

    Chacune de ces matrices est carre d'ordre p, et symtrique.Pour chacune d'elles :o sur la diagonale, on retrouve les sommes de carrs

    habituelles ;o en dehors de la diagonale, on trouve des sommes de

    produits d'carts.

  • 10

    Ralisation de la MANOVA

    1 Principes gnraux

    On observe p variables dpendantes X1, X2, ..., Xp pourchacun des individus de chaque chantillon.

    L'ANOVA un facteur permet de tester l'galit desmoyennes dans les populations parentes, pour chaquevariable dpendante prise isolment.

    Mais la MANOVA, quant elle, permet de tester l'galit desvecteurs de moyennes dans les diffrentes populationsparentes.

    La situation la plus simple est celle o on dispose de deuxniveaux de la variable indpendante (deux chantillonsindpendants).

  • 112 MANOVA 1 pour deux chantillons

    Les notifications suivantes peuvent tre adoptes :o Population 1 : X11, X12, , X1n1o Population 2 : X21, X22, , X2n2.

    Ici, le vecteur Xij reprsente toutes les donnes pour detoutes les variables de lchantillon j de la population i.

    Ce vecteur contient les lments Xijk o k varie de 1 p, pourp diffrentes variables considres dans lanalyse. Ainsi, Xijkest lobservation k effectue sur lindividu j de la population i.

  • 122 MANOVA 1 pour deux chantillons

    On cherche tester lgalit des vecteurs de moyennes des deuxpopulations parentes, cest dire :

    Cette hypothse nulle peut tre test en utilisant le test statistiqueT2 de Hotelling pour deux chantillons. Il sagit de la versionmultivarie du test t de Student pour chantillons indpendants. Ilest bas sur la formule :

  • 132 MANOVA 1 pour deux chantillons

    Pour des chantillons de grands effectifs, cette statistique suitapproximativement une distribution Khi-2 p degrs de libert (ptant le nombre de variables dpendantes).

    Cependant, on peut transformer le T2 en F de Fisher Snedecor parlexpression suivante :

    Cette statistique est p et n1 + n2 p degrs de libert.

  • 142 MANOVA 1 pour deux chantillons

    Lorsquun test prliminaire tel que le test Boxs M amne rejeterlhypothse de lgalit des vecteurs de variances, une alternativeau test T2 peut tre effectue.

    Dans ce contexte, le test propos par Nel et van der Merwe (1986)donne des rsultats satisfaisants.

  • 152 MANOVA 1 pour deux chantillons

    ApplicationA certain type of tropical disease is characterized by fever, low blood pressureand body aches. A pharmaceutical company is working on a new drug to treatthis type of disease and wanted to determine whether the drug is effective.They took a random sample of 20 people with this type of disease and 18 witha placebo. Based on the data they wanted to determine whether the drug iseffective at reducing these three symptoms.

  • 162 MANOVA 1 pour deux chantillons

    Fever(k=1)

    Pressure(k=2)

    Aches(k=3)

    Fever(k=1)

    Pressure(k=2)

    Aches(k=3)

    38,4 73 18 40,9 54 1436,8 85 14 39,5 75 18

    40 58 20 39,4 57 2439,8 80 20 38,2 71 2438,6 68 25 39,7 65 2239,1 52 27 38,9 49 3038,9 79 26 38,6 58 2536,8 100 8 39,9 52 1740,4 64 21 41,3 62 1839,4 53 22 38,1 57 20

    38 70 15 39,6 78 1938,6 75 14 37,1 92 1540,1 48 28 39,5 63 1338,1 57 22 40,3 52 2537,2 78 16 41,5 46 2739,5 65 18 39,3 56 1437,3 77 13 37,6 86 1639,1 67 16 40,6 48 2139,9 52 1037,8 68 13

    Drug (i = 1) Placebo (i = 2)

    Rsultats du testn1 = 20n2 = 18p = 3T2 = 4,12F = 1,30P = 0,29

  • 173 MANOVA 1 pour plus de 2 chantillons

    Aspects descriptifs

    La dcomposition de la variance se fait de la mme faon que cellede lANOVA1 :

    On a donc affaire des matrices de produits croiss au lieu dessommes de carrs total (SCEt) factorielle (SCEa) et rsiduelle(SCEr) habituelles dans le cas univari.

  • 183 MANOVA 1 pour plus de 2 chantillons

    Aspects descriptifs

    Lquation de lanalyse de la variance multivarie un facteur estdonc :o T (Total) : total des produits croiss des matrices des

    sommes des carrso B (Between) : produits croiss des matrices des sommes

    des carrs lis la variables indpendante (facteur)o W : (Within) produits croiss des matrices des sommes

    des carrs lis la variation rsiduelle

    T = B + W

  • 193 MANOVA 1 pour plus de 2 chantillons

    Aspects infrentiels

    Dans le cas du modle fixe (modle I), lhypothse nulle laquelle on sintresse est lhypothse dgalit des matrices demoyennes :

  • 203 MANOVA 1 pour plus de 2 chantillons

    Aspects infrentiels

    Sur cette base, on peut calculer une statistique similaire F deFischer-Snedecor en divisant B par W, comme dans le cas delANOVA.

    Lquivalent de cette quantit en termes de matrice est BW-1.On rejettera lhypothse nulle lorsque B trop grande par rapport W.

  • 213 MANOVA 1 pour plus de 2 chantillons

    Aspects infrentiels

    En MANOVA, quatre diffrents tests pour savoir si B est tropleve, compare W :

    o Hotelling-Lawley Trace : T2 = trace(HE-1). Appropriquand la VI deux nieaux ou modalits (deuxchantillons).

    o Pillai-Bartlett Trace : V = trace(H(H+E)-1). Appropriquand les chantillons sont de mme effectifs.

    o Roys Largest Root : = eigenvalues de (HE-1). Test leplus puissant mais trs sensible aux violations.

    o Wilks Lambda : = . Appropri quand la VI plus dedeux niveaux (modalits). Cest le test le plus untilis.

  • 223 MANOVA 1 pour plus de 2 chantillons

    Aspects infrentiels

    Sources de variation DL SSCP Statistique P

    Diffrences entre chantillons p 1 SSCPBDiffrences entre observations n - p SSCPWTotaux n -1 SSCPT

    Tableau de lanalyse de la variance un critre de classification

  • 233 MANOVA 1 pour plus de 2 chantillons

    ApplicationDans le cadre dune valuation comparative de la productivit du manioc,on analyse chez trois varits (Six mois, Boko et Yac), trois variablesdpendantes : temps de maturation (Mat en mois), le rendement (Rdt entonnes par hectare) et le nombre de thalles (Tha). Les donnes sontprsentes dans le tableau ci-aprs.Peut-on dire que les deux premires varits (Six mois et Bokou) ont desproductivits diffrentes ?

    Six moisi = 1

    Bokoui = 2

    Yaci = 3

    Matk = 1

    Rdtk = 2

    Thak = 3

    Matk = 1

    Rdtk = 2

    Thak = 3

    Matk = 1

    Rdtk = 2

    Thak = 3

    6 15 3 09 31 5 13 20 46 09 3 10 30 6 11 17 25 13 4 08 25 4 14 16 36 13 2 11 29 6 12 16 37 10 3 12 35 4 10 19 3

  • Chapitre 2Analyse en Composante Principale (ACP)

    Modules 4 Analyse multivarieProf ZORO

  • Plan du chapitre

    1. Principes gnraux2. Ralisation de lACP3. Interprtation des rsultats

    25

  • 261 Principes gnraux

    Objectif de lACP : dcrire laide de q < p composantes unmaximum de cette variabilit.

    Ce qui permet :

    o une rduction des donnes q nouveaux descripteurs

    o une visualisation des donnes