sébas&en coue-e stas&ques cm1 m1 se, bgs, vvt, … · test unilatéral et test bilatéral...
TRANSCRIPT
Séance1Séance2
Séance3 Séance4
Révision:Qu’estcequ’untest Testsunivariés testsbivariés
Mul&variéeexploratoire:ACP
2wANOVAANCOVAMANOVA
Clustering:DFA AFC
n Pourquoiat-onbesoindessta&s&ques?Unchercheurveuttestersilaquan&téderadioac&vitédanslesoldépasseleseuilautorisédansunerégiondonné(1,2becquerel/kg/sec).
Dansl’idéal:mesuredetoutelasurface=>radioac&vitéenmoyennede0,8danslesol.
distribution normale
valeur de radioactivitÈ
Den
sity
-1 0 1 2 3
0.0
0.2
0.4
0.6
0.8
Vraidistribu&on0.8
Mais,sontempsestlimitéetilnepeutdoncéchan&llonnerque20sols=>es&melamoyenneàpar&rdecetéchan&llon=>estcequece-emoyennees&méeestendessousduseuil?
1,2 distribution normale
valeur de radioactivitÈ
Den
sity
-1 0 1 2 3
0.0
0.2
0.4
0.6
0.8
Vraidistribu&on
distribution normale
valeur de radioactivitÈ
Den
sity
-1 0 1 2 3
0.0
0.2
0.4
0.6
0.8
Vraidistribu&on
distribution normale
valeur de radioactivitÈ
Den
sity
-1 0 1 2 3
0.0
0.2
0.4
0.6
0.8
Vraidistribu&on
Lesparamètresdesdistribu&ons(moyenne,variance,médiane,etc.)sontes&mésàpar&rdedonnéesrécoltéespourdeséchan&llonsaléatoiresreprésentantlespopula&onssta&s&ques.Autrementdit,unéchan&llonaléatoirepermetd’obtenirunees&ma&onx,Var,…desparamètresvrais,μ,σ²…delapopula&onsta&s&que.
Population statistique, N, µ, σ²
1
Echantillon 1, n1, x1, Var1
k Echantillon k, nk, xk, Vark
Echantillon 2, n2, x2, Var2 2
n Pourquoiat-onbesoindessta&s&ques?
n Pourquoiat-onbesoindessta&s&ques?
Carontravaillegénéralementàpar&rd’unéchan&llonetonneconnaitpaslesparamètresdelapopula&on.Onessayedoncde&reruneconclusionsurlapopula&onàpar&rdecetéchan&llon…Echan&llon=>approxima&on!
=>Lestestssta&s&quesperme-entde&rerdesconclusionsàpar&rd’unéchan&llonsachantqu’ilyaunrisqued’erreur.
Exempleprécédent=>plusl’échan&llonestgrandetplusl’es&ma&ondesparamètresestprécise
n Choixd’hypothèses
Ils’agitdefaireunchoixentreplusieurshypothèses,toutenassociantcechoixavecdesrisquesd’erreur.•Lechercheurestappeléàprendredesdécisionssurlabasederésultatsexpérimentaux,enétantconscientqu’ilyaunrisqued’erreurliéàl’incer&tudedesobserva&onsoudesrésultatsexpérimentaux.Avantdeprendreunetelledécision,iltesteraunehypothèsesta&s&quecorrespondantàsonproblèmebiologique•L’issuedeceteststa&s&queindiqueraquelledécisionilconvientdeprendre.
Lestestssta&s&quessontu&liséslorsqu’onchercheàsavoirsiunecertainehypothèserela&veàlapopula&onestcompa&bleavecl’informa&ondisponibleàpar&rdel’échan&llon.
n 1.Savoirposerl’hypothèsenulleetalterna&ve
Uneétudeaméricaineeffectuéeauprèsde106pa&entsadonnélieuautableausuivant:
Peut-onconsidéreraurisquede5%qu’ilexisteunlienentrelefaitdefumeretavoiruncancerdupoumon?
Cancer poumon Pas de cancer poumon
Fumeur 60 32
Non fumeur 3 11
H0:Iln’yapasd’associa&onentrelefaitdefumeretd’avoiruncancerH1:Ilyauneassocia&onentrelefaitdefumeretd’avoiruncancer
n 1.Savoirposerl’hypothèsenulleetalterna&ve
Danstouslescas,l’hypothèsetestée,ouhypothèseprincipale,ouhypothèsenulleH0,formulel’absencededifférenceoul’absencederela&on(lavaria&onestdueauhasard):c’estellequel’onrejeBeraouacceptera.
n Plusieurshypothèsesalterna&vespossibles:testunilatéralettestbilatéral
H1:Ilyauneassocia&onposi&veentrelefaitdefumeretd’avoiruncancer(plusjefumeplusj’aidechanced’avoiruncancer)H1:Ilyauneassocia&onnéga&veentrelefaitdefumeretd’avoiruncancer(moinsjefumeetplusj’aidechanced’avoiruncancer)
H0:Iln’yapasd’associa&onentrelefaitdefumeretd’avoiruncancerH1:Ilyauneassocia&onentrelefaitdefumeretd’avoiruncancer
Testunilatéralettestbilatéral:c’estlaformula&ondel’hypothèsecontraire,H1,quidéterminesiuntestestunilatéraloubilatéral.•Danslecasdelacomparaisondedeuxgroupesparexemple,onréaliseuntestbilatéral(“two-tailedtest”)lorsqu’onchercheunedifférenceouliaisonsanssepréoccuperdusens.•Onréaliseplutôtuntestunilatéral(“one-tailedtest”)lorsquenotrehypothèsebiologiquenes’intéressequ’auxdifférencesouauxrela&onsayantunsignedonné.
LechoixdeH1doitsefaireAVANTl’expérience!!!
n 2.RèglededécisionCommentdéterminers’ilfautaccepterourejeterH0?
TESTSTATISTIQUE:T
CalculdelavaleurdeT
Onconnaîtlaloidedistribu&ondeTlorsqueH0estvrai
ComparelavaleurdeTobservéeàlavaleurthéoriqueselonH0avecunseuilαde5%decomme-reuneerreurenrejetantH0alorsqu’elleestvrai(Tαouvaleurseuil)SiT>Tα=>rejetdeH0;siT<Tα=>accepta&ondeH0OUCalculdudegrédesignifica&on(p):probabilitéd’observerunedifférenceaumoinsaussiimportantequecelleobservéesousH0Sip<0.05=>rejetdeH0;sip>0.05=>accepta&ondeH0
(e.g. loi normale centrée réduite z = 3.2)
3.2 > 1.96 => rejet de H0
n 2.Règlededécision
Un test bilatéral est plus conservatif (on accepte plus souvent l’hypothèse nulle)
n Risqued’erreurs
Hypothèse nulle
Hypothèse nulle Vrai
Fausse
Acceptée Rejetée Bonne décision (1- α)
Bonne décision (1- β)
Lorsquel’onaccepteH0,celaneveutpasdirequeH1estfausse…c’estjustequesta&s&quement,onarrivepasàrejeterH0=>no&ondepuissancedutest
Β : erreur de type II
Lorsquel’onreje-eH0auseuilde5%,celaveutdirequ’ily5%dechancequenotrevaleurdeT(duteststa&s&que)fassevraimentpar&edeladistribu&ondeH0etdoncquel’onsetrompeenrejetantH0…
α : erreur de type I
• Les questions à se poser pour identifier le bon test statistique
1. Iden&fierlesvariables
=>Est-cequelesvariablessontqualita&vesouquan&ta&ves?=>Est-cequejepeuxexpliquerunevariableparuneouplusieursautres?(unevariableàexpliquerouvariabledépendanteetuneouplusieursvariablesexplica&vesouvariableindépendante)
2.Essayezdereprésentergraphiquementlejeudedonnées
=>Deuxvariablesqualita&ves:camemberts,tableauxdecon&ngence…=>Chi-deux,testdeFisher=>Deuxvariablesquan&ta&ves:nuagedepoints….=>régressioncorréla&on=>Unevariablequan&ta&veàexpliquerplusaumoinsunevariablequalita&ve:boxplot,moyenne….=>analysedevariance,régressionmul&ple…
3.Unefoisletestchoisi,vérifiezlescondi&onsd’applica&ondutest
-Indépendancedesdonnées(no&ondedonnéesappariés,ouderépé&&on) -Loidedistribu&ondesdonnées(loinormaleouautre?oupasdedistribu&onévidente)=>testsparamétriquesounonparamétriques
+autreshypothèsesplusspécifiquesàchaquetestserontvusplustard….
n Lesques&onsàseposerpouriden&fierlebonteststa&s&que
Comparaison de 2 groupes (apparié ou non)
ANOVA Corrélation Régression
Paramétrique Test de Student (apparié ou non)
ANOVA paramétrique
Corrélation de Pearson
Régression
Non paramétrique
Test de Wilcoxon (apparié ou non)
ANOVA de Kruskall-Wallis
Corrélation de Spearman ou de Kendall
________
X
Y
+ TEST DE CHI-DEUX ou TEST DE FISHER pour Tables de contingences
• Différences entre un test paramétrique et non paramétrique
Ø Untestparamétriquerequiertunmodèleàfortescontraintes(normalitédesdistribu&ons,égalitédesvariances)pourlequellesmesuresdoiventavoirétéréaliséesdansuneéchelleaumoinsd'intervalle.Ceshypothèsessontd'autantplusdifficilesàvérifierqueleseffec&fsétudiéssontplusréduits=>sieffec&fréduit,ilestplusprudentd’u&liseruntestnon-paramétrique
Ø Untestnonparamétriqueestuntestdontlemodèleneprécisepaslescondi&onsquedoiventremplirlesparamètresdelapopula&ondontaétéextraitl'échan&llon.Celan’enlèvepaslebesoind’unebonnestratégied’échan&llonnage(individusindépendantsetprisaléatoirement)
n Différencesentreuntestnonappariéetapparié
Ø Touslestestspartentduprincipequelesobserva&onssontindépendantes(individusprisaléatoirementdanslapopula&on)
Ø Danscertainscas,lesobserva&onssontfaitessurlemêmeindividuousurdesindividusquinesontpasprisaléatoirement(mêmefamille,mêmeorigineetc…)=>ceBeindépendancedoitêtrepriseencomptepardestestsappariés
n Exemples:Exo3:unchercheursouhaitepouvoiriden&fierlesexedechacalàpar&rdemachoireretrouvéedanslanature.Afindesavoirsicelaestpossible,ilmesurelalongueurdelamâchoireinférieure(enmm)de10chacalsmâleset10chacalsfemellesconservéesauBri&shMuseum.•mâles120107110116114111113117114112•femelles110111107108110105107106111111
Exo4
Exo5:deséchan?llonsdecrèmeprélevésdans10laiteriessontdivisésendeuxpar?es.L’uneestenvoyéeaulaboratoire1etl’autreaulaboratoire2pourencompterlesbactéries.Résultats(103bact/ml):lab1:11.7,12.1,13.3,15.1,15.9,15.3,11.9,16.2,15.1,13.8lab2:10.9,11.9,13.4,15.4,14.8,14.8,12.3,15.0,14.2,13.2
Exo7:Unchercheursouhaitetesterl’effetdedifférentesconcentra&onettypedesucresurlacroissance,(mesuréeparlalongueurenmm)depe&tspois.Pourchaquetraitement,lechercheuraprisauhasard10grainesdepe&tspois.
control 2% glucose 2% fructose 1%glucose+1%fructose2% sucrose75 57 58 58 6267 58 61 59 6670 60 56 58 6575 59 58 61 6365 62 57 57 6471 60 56 56 6267 60 61 58 6567 57 60 57 6576 59 57 57 6268 61 58 59 67
Exo8:onamesurélahauteur(enmètres)de12arbresselondeuxméthodesdifférentes,avantetaprèslacoupedel’arbre.debout=20.4,25.4,25.6,25.6,26.6,28.6,28.7,29.0,29.8,30.5,30.9,31.1aba-u=21.7,26.3,26.8,28.1,26.2,27.3,29.5,32.0,30.9,32.3,32.3,31.7
Unseuléchan&llon=>testdeconformitéàunemoyennethéorique
Exemple:contrôledesteneursennitratesde30eauxdesourced’unerégiondonnée(mgNO3/l),norme=25mg/l37;21;0;19;1;5;0;13;1;20;34;19;17;74;28;34;61;15;35;55;28;10;69;48;63;8;18;34;18;90Est-cequeletauxdenitratesestconformeàlanorme?
ns
mx
ns
mxt
xx
obs 21
−=
−= Degrédeliberté=n-1
n Testdestudent
Histogram of distribution
distribution
Den
sity
-4 -2 0 2 4
0.0
0.2
0.4
-4 -2 0 2 4
0.0
0.4
0.8
distribution
pt(d
istri
butio
n, d
dl)
n CalculdutdeStudent
>mean(nitrate)[1]29.16667>sd(nitrate)[1]23.88923
30/1889.23251667.29
×
−=t
t=0.955;ddl=30-1=29
t suit une distribution de student à 29 ddl
=>P=0.17=>Probabilitéd’avoirunevaleurd’aumoins0.955sousH0estde17%(>seuilde5%)=>onaccepteH0
Valeurseuilà5%estt(29;0.05)=2.0452
=>Tobs<tseuil=>onaccepteH0
>pt(0.955,ddl,lower.tail=TRUE)[1]0.8360167
• Test de student Comparaisondedeuxéchan&llonsindépendants
Exo3:unchercheursouhaitepouvoiriden&fierlesexedechacalàpar&rdemâchoireretrouvéedanslanature.Afindesavoirsicelaestpossible,ilmesurelalongueurdelamâchoireinférieure(enmm)de10chacalsmâleset10chacalsfemellesconservéesauBri&shMuseum.•mâles120107110116114111113117114112•femelles110111107108110105107106111111
Variabledépendante:lalongueurdelamâchoire=>quan&ta&veVariableindépendante:lesexe(deuxniveaux,MetF)=>qualita&ve,nominaleH0:lesdeuxsexesontlamêmemoyennedelongueurdemâchoireH1:lamoyennedelalongueurdemâchoireestdifférenteentrelesdeuxsexes
( )
⎟⎟⎠
⎞⎜⎜⎝
⎛+×
−
yx
obs
nns
yxt11ˆ2
( ) ( )211
ˆ22
2
−+
−+−=
yx
yyxx
nnsnsn
s
Degrédeliberté=nx+ny-2
avec
• Test de student Principe:oncomparel’écartentrelesdeuxmoyennesà0aprèsl’avoirstandardiséparlavarianceintragroupe
MoyenneX=108.6(femme)MoyenneY=113.4(homme)
VarianceX=5.16(femme)VarianceY=13.82(homme)
( )( )221
yx
obs
ssn
yxt+
−Sinx=ny
Tobs=(108.6-113.4)/racine(1/10*(5.16+13.82))=4.8/1.377=-3.48
Tobsce-evaleursta&s&quesuituneloidestudentdeddl=18tseuil0.05=2.1009
Tobs>tseuil=>onreje-el’hypothèsenulle=>ilexistedesdifférencesdemoyennes
SORTIER>t.test(longueur~sexe,alterna&ve='two.sided',conf.level=.95,+var.equal=TRUE,data=exo3cour)
TwoSamplet-testdata:longueurbysexet=-3.4843,df=18,p-value=0.002647alterna&vehypothesis:truedifferenceinmeansisnotequalto095percentconfidenceinterval:-7.694227-1.905773samplees&mates:meaningroupFmeaningroupM108.6113.4
• Test de student
Hypothèsessous-jacentesautestdestudent:- Indépendancedesobserva&ons- Normalitédesdonnées=>testdeShapiro-Wilk- Mêmevariancedanslesdeuxgroupes=>testF
Dans notre exemple, les variances semblent différentes….
n Commenttesterl’hétérogénéitédesvariances?=>testFFISHER-SNEDECOR
H0:VAR1=VAR2H1:VAR1>VAR2(sachantquevar1estplusgrandequevar2)LerapportdedeuxvariancessuituneloidetypeF(loiasymétrique,Fdoitêtreplusgrandque0)aveccommedegrésdeliberté(ddldelavariancemax;ddlvarmin)Fobs=VARmaximale/VARminimale
Dansnotreexemple:VarianceX=5.16(femme);VarianceY=13.82(homme)Fobs[9;9]=13.82/5.16=2.68 Fseuil0.05[9;9]=3.18=>Lesvariancesnesontpassignifica&vementdifférentesauseuilde5%
Comparaisondedeuxéchan&llonsindépendantsavecvariancehétérogène
( )
⎟⎟⎠
⎞⎜⎜⎝
⎛+
−
y
y
x
x
obs
ns
ns
yxt22
Enfaitc’estleddlquiestvraimentmodifiéetquiprendencomptenonseulementleseffec&fsmaiségalementlavaleurdesvariancesdechaqueéchan&llon
n TestdeWelchsivariancehétérogène
NOTE:Pardéfaut,Reffectuecetestetiln’estdoncpasindispensabledetesterl’hétérogénéitédesvariances
SORTIER>t.test(longueur~sexe,alterna&ve='two.sided',conf.level=.95,+var.equal=FALSE,data=exo3cour)
WelchTwoSamplet-testdata:longueurbysexet=-3.4843,df=14.894,p-value=0.00336alterna&vehypothesis:truedifferenceinmeansisnotequalto095percentconfidenceinterval:-7.738105-1.861895samplees&mates:meaningroupFmeaningroupM108.6113.4
n Testdestudentappariésidonnéesnonindépendantes
exemple:onamesurélahauteur(enmètres)de12arbresselondeuxméthodesdifférentes,avantetaprèslacoupedel’arbre.debout=20.4,25.4,25.6,25.6,26.6,28.6,28.7,29.0,29.8,30.5,30.9,31.1aba-u=21.7,26.3,26.8,28.1,26.2,27.3,29.5,32.0,30.9,32.3,32.3,31.7debout-aba-u=-1.3-0.9-1.2-2.50.41.3-0.8-3.0-1.1-1.8-1.4-0.6
n Testdestudentappariésidonnéesnonindépendantes
Principe:unindividudel’échan&llonestuncouple.Testerl’hypothèse«laméthodedecoupen’apasd’effet»contrel’hypothèse«laméthodedecoupeauneffetposi&f»,c’esttesterl’hypothèse«lamoyennedesdi=xi-yiestnulle»contrel’hypothèse«lamoyennedesdi=xi-yiestposi&veounéga&ve».
•di=xi-yiestlaréalisa&ond’unevariablealéatoiredemoyenne0etdevarianceσ2.Onveutcomparerlamoyennededà0.Onu&liseletesttdeStudentavecddl(n-1),nétantlenombredecoupleici12
nsmtd
d2
=Moyenne différence = -1.075 Variance différence = 1.326
t = (1.075-0)/racine(1.326/12) = -3.23
t suit une loi de Student à 11 ddl tseuil 0.05 = 2.201 tobs > tseuil => on rejette l’hypothèse nulle
SORTIER:>t.test(exo4cour$avant,exo4cour$apres,alterna&ve='two.sided',+conf.level=.95,paired=TRUE)
Pairedt-testdata:exo4cour$avantandexo4cour$aprest=-3.2343,df=11,p-value=0.007954alterna&vehypothesis:truedifferenceinmeansisnotequalto095percentconfidenceinterval:-1.8065536-0.3434464samplees&mates:meanofthedifferences-1.075
n Sidistribu&onnonnormales=>testsnonparamétrique:testdeWilcoxonouMann-Whitney
GroupeA ****** GroupeB******
123456789101112
Variabledépendante=duretédusilex=>variablequan&ta&ve(rang)Variableindépendante=région(2niveaux)=>variablequalita&venominale
=>Testnonparamétriquecarlesrangsnereprésententpasunevariablecon&nue
Pourungroupe,pourchaqueobserva&on,oncomptelenombred’observa&onsdansl’autregroupequiontunrangplusgrand.PourgroupeA:rang1:0;rang2:0;rang3:0,rang5:1,rang6:1,rang8:2,lasommeC=4PourgroupeB:C=3+5+6+6+6+6=32
n CalculdutestdeWilcoxonouMann-Whitney
GroupeA****** GroupeB******
123456789101112
Lasta&s&queU(lavaleurdeClapluspe&te)suitunedistribu&ondeChi-Deuxsieffec&f>30,sinonu&lisa&ond’unetable(ousimplementdelavaleurdepdonnéeparlelogiciel!)
SORTIER:>regionA=c(1,2,3,5,6,8)>regionB=c(4,7,9,10,11,12)>wilcox.test(regionA,regionB)Wilcoxonranksumtestdata:regionAandregionBW=4,p-value=0.02597alterna&vehypothesis:trueloca&onshi�isnotequalto0
n Donnéesappariéesexemple:deséchan?llonsdecrèmeprélevésdans10laiteriessontdivisésendeuxpar?es.L’uneestenvoyéeaulaboratoire1etl’autreaulaboratoire2pourencompterlesbactéries.Résultats(103bact/ml):lab1:11.7,12.1,13.3,15.1,15.9,15.3,11.9,16.2,15.1,13.8lab2:10.9,11.9,13.4,15.4,14.8,14.8,12.3,15.0,14.2,13.2lab1-lab2:0.80.2-0.1-0.31.10.5-0.41.20.90.6
Hypothèsenulle:lesigneseraaléatoirement+ou-(doncavec½quecesoit+ou-)3signesnéga&fs/10=>u&lisa&ondelaloibinomiale
=>Testsimple=testdesigne(sihasard=>autantde+quede-)
1719,021
21
!7!3!10
21
21 7373
310 =⎟
⎠
⎞⎜⎝
⎛⎟⎠
⎞⎜⎝
⎛⎟⎠
⎞⎜⎝
⎛=⎟⎠
⎞⎜⎝
⎛⎟⎠
⎞⎜⎝
⎛=Cp
n TestdeWilcoxonappariéMAISilsepourraitquelesigne+soitenvironunefoissurdeuxmaisquelesdifférencesdansunsenssoientplusfaiblesenvaleurabsoluequelesdifférencesdansl’autresens.
⇒ TestdeWilcoxonapparié
S-=sommedesrangsdesignenéga&f:1+3+4=8S+=sommedesrangsdesigneposi&f=47OnprendlavaleurdeSlapluspe&tepourconstruireunesta&s&queTquel’ontestesurunetableT(oudirectementvaleurdepdonnéeparlelogiciel!).
lab1-lab2:0.80.2-0.1-0.31.10.5-0.41.20.90.6rangs:72139541086
Onrangelesvaleursabsoluesdesdifférencesenordrecroissant:
SORTIER:>lab1=c(11.7,12.1,13.3,15.1,15.9,15.3,11.9,16.2,15.1,13.8)>lab2=c(10.9,11.9,13.4,15.4,14.8,14.8,12.3,15.0,14.2,13.2)>wilcox.test(lab1,lab2,paired=TRUE)Wilcoxonsignedranktestdata:lab1andlab2V=47,p-value=0.04883alterna&vehypothesis:trueloca&onshi�isnotequalto0
Comparaison de 2 groupes (apparié ou non)
ANOVA Corrélation Régression
Paramétrique Test de Student (apparié ou non)
ANOVA paramétrique
Corrélation de Pearson
Régression
Non paramétrique
Test de Wilcoxon (apparié ou non)
ANOVA de Kruskall-Wallis
Corrélation de Spearman ou de Kendall
________
X
Y
+ TEST DE CHI-DEUX ou TEST DE FISHER pour Tables de contingences
n ANOVAExemple:Unchercheursouhaitetesterl’effetdedifférentesconcentra&onettypedesucresurlacroissance,(mesuréeparlalongueurenmm)depe&tspois.Pourchaquetraitement,lechercheuraprisauhasard10grainesdepe&tspois.Variabledépendante:tailledupe&tspois=>variablequan&ta&veVariableindépendante:laconcentra&onettypedesucre=>variablequalita&veavec5niveauxdetraitements.
control 2% glucose 2% fructose 1%glucose+1%fructose2% sucrose75 57 58 58 6267 58 61 59 6670 60 56 58 6575 59 58 61 6365 62 57 57 6471 60 56 56 6267 60 61 58 6567 57 60 57 6576 59 57 57 6268 61 58 59 67
5groupes
n ANOVAHypothèsenulle:iln’yapasd’effetdutraitementsurlacroissancedupoisHypothèsealterna&ve:ilyauneffetdutraitementsurlacroissancedupois
Principe:s’iln’yapasd’effetsdutraitement,alorslavarianceentrelesgroupesestdemêmeordredegrandeurquelavarianceàl’intérieurdesgroupes…
n ANOVA Sous H0 : pas d’effet des traitements + Tirage aléatoire des 10 graines mises dans chaque traitement au hasard à l’intérieur de la même population de graines => variance entre échantillon = variance intra échantillon
Y Y Y Y Y Y
variancedesmoyennesdeséchan&llons=écartdesmoyennesdechaqueéchan&llonàlamoyennegénérale
varianceintraéchan&llon=écartdesobserva&onsàlamoyennedechaqueéchan&llon
Yi Yi Yi …
Y Yi Yi Yi …
Y Yi Yi Yi …
Y
n ANOVAOnsaitparailleursquethéoriquementlavariancedesmoyennes=
nY
22 σ
σ =Si l’hypothèse nulle est vraie alors : Variance intra-groupe = Variance inter-groupe * n => Tester si le rapport de ces deux variances = 1 par un test-F
( )211
1 ∑=
=−
−ai
i i YYa
Approcheplusmathéma&que…..
Varianceintra-groupe(variancerésiduelle)=(a=nombredegroupe)(c’estunemoyennedelavarianceintra-groupe)
Varianceinter-groupe=(a=nombredegroupe)
( ) ( )∑∑=
=
=
=−
−
ai
i
nj
j iij YYna 1
2
111
n Tableaud’ANOVA
Source de la variation
Ddl (df) (degré de liberté)
SS (sum of squares)
MS (mean squares)
F
Inter-groupe : Y -Y
a-1
2
1∑=
=⎟⎠⎞⎜
⎝⎛ −
ai
ii YiYn
SSinter/a-1
MSinter/MS intra
Intra-groupe : Y-Y ∑
=
=
−ai
iani
1 ( )
2
1 1∑∑=
=
=
=
−ai
i
nj
jiYY
SSintra/
∑=
=
−ai
iani
1
Total : Y-Y
∑=
=
−ai
ini
11
SSinter + SSintra
SStotal/
∑=
=
−ai
ini
11
• Tableau de sortie de l’ANOVA
Source de variation
Ddl (df) Ecart au carré (SS = sum of squarre)
Variance (MS = mean squarre)
Test
Inter groupe (a-1) = 4 1077.32 269.33 F [4;45] = 49.33
Intra groupe a(n-1) = 45 245.5 5.46
Total (N-1) = 49 1322.82
Nous avons donc notre valeur de test F = 49.33 que l’on peut comparer au valeur seuil de la distribution de F 0.05[4;45] = 2.58 Fob > Fseuil => on rejette l’hypothèse nulle OU le logiciel nous donne une valeur de probabilité associée p < 6.7*10-6
p < 0.05 => on rejette l’hypothèse nulle
SORTIER:summary(AnovaModel.2) DfSumSqMeanSqFvaluePr(>F)Traitement41077.3269.33049.368 6.737e-16***Residuals45245.55.456---Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
• Comparaisons de moyenne post-hoc (après ANOVA)
Dansnotreexemple,l’ANOVAnouspermetdeconclurequ’ilexistedesdifférencessignifica&vesentrelesmoyennesdemestraitementsEtapesuivante:quellessontlesmoyennesquidifférententreelles?Unesolu&on:fairepleindetestdestudentdecomparaisonsdemoyennes….MAISonaugmentenotreerreurdetype1(direquedesdifférencessontsignifica&vesalorsqu’ellesn’ensontpas).Testdecomparaisonmul&pleàpostériori=>demoyennespost-hoc(onverracestestsavecdesapplica&ons)
TestdeTukeyHSD(leplusconserva&f)(celuiu&liséparRpardéfaut)LSD(leastsignificantdifference)(trèspeuconserva&f!)testdeStudentNewmanskeuls(moyennementconserva&f)
SORTIEDER:LinearHypotheses:Es&mate lwr uprfrucetgluc-control==0-12.1000-15.0680-9.1320fructose2-control==0-11.9000-14.8680-8.9320glucose2-control==0-10.8000-13.7680-7.8320sucrose2-control==0-6.0000-8.9680-3.0320fructose2-frucetgluc==00.2000-2.76803.1680glucose2-frucetgluc==01.3000-1.66804.2680sucrose2-frucetgluc==06.10003.13209.0680glucose2-fructose2==01.1000-1.86804.0680sucrose2-fructose2==05.90002.93208.8680sucrose2-glucose2==04.80001.83207.7680>cld(.Pairs)#compactle-erdisplayfrucetglucfructose2glucose2sucrose2control"a""a" "a""b""c"
• Hypothèses sous-jacentes à l’ANOVA
1. Indépendance des observations 2. Normalité des données 3. Homogénéité des variances (des différents
groupes) (homoscédasticité) Vérification visuelle des hypothèses par de graphiques appropriés que nous verrons avec la régression
n Sinonrespectdeshypothèses=>onessayedetransformerlesdonnéespourqueleshypothèsessoientrespectées
n OU=>testsnonparamétriques:ANOVAdeKRUSKALL-WALLIS
• ANOVA DE KRUSKALL-WALLIS
PRINCIPE : tester la différence de mode pour des données transformées en rangs 1. On transforme les données en rang 2. On calcule la variance attendue de la somme des rangs sous l’hypothèse nulle
(pas de différences entre groupes) 3. On obtient la statistique H qui peut être comparée à une distribution de chi-deux
de (a-1) ddl (même si effectif des groupes petit (5))
Sor&edeR:kruskal.test(taille~Traitement,data=ANOVACOUR)
Kruskal-Wallisranksumtestdata:taillebyTraitementKruskal-Wallischi-squared=38.4368,df=4,p-value=9.105e-08***
Comparaison de 2 groupes (apparié ou non)
ANOVA Corrélation Régression
Paramétrique Test de Student (apparié ou non)
ANOVA paramétrique
Corrélation de Pearson
Régression
Non paramétrique
Test de Wilcoxon (apparié ou non)
ANOVA de Kruskall-Wallis
Corrélation de Spearman ou de Kendall
________
X
Y
+ TEST DE CHI-DEUX ou TEST DE FISHER pour Tables de contingences
Etude de la liaison entre deux variables
Une des variable n’est pas distribuée normalement (ou la distribution est inconnue), Le nombre d’observations est très faible, Une des variables est mesurée sur une échelle semi-quantitative (rang)
Les deux variables sont parfaitement quantitatives et distribuées normalement
Corrélation paramétrique
Corrélation non-paramétrique
Etude de la liaison entre deux variables
Pour que les statistiques soient applicables il faut qu’au moins une des variables soit aléatoire
Cas 1: une variable est aléatoire, l’autre contrôlée Exemple: l’intensité de l’assimilation chlorophyllienne (V.A.) en fonction de l’éclairement (V.C.)
Cas 2: les deux variables sont aléatoires Exemple: abondance de la récolte viticole (V.A.) en fonction du nombre de jours d’ensoleillement (V.A.)
Etude de la liaison entre deux variables La corrélation paramétrique de Pearson
Description de la position et de la forme de la distribution conjointe de 2 variables
Paramètre de position: Le point moyen (x, y)
Paramètre de dispersion: Les variance estimées (s²x et s²y), La covariance sxy
Etude de la liaison entre deux variables
La variance estimée de x
s²x = Σ (xi – x)² , v = (n – 1) 1 v
n
i = 1
La variance estimée de y
s²y = Σ (yi – y)² , v = (n – 1) 1 v
n
i = 1
La covariance estimée de x et y
sxy = Σ (xi – x)(yi – y) , v = (n – 1) 1 v
n
i = 1
Etude de la liaison entre deux variables
Tableau récapitulatif: la matrice de variance/covariance
x y
x
y
sxx=s²x
sxy syy
sxy
=s²y
Contrairement à la variance qui ne peut-être que positive, la covariance peut-être positive, négative ou nulle
La covariance nous renseigne sur l’inclinaison du nuage de points, mais elle ne nous donne pas d’idée de l’intensité de la liaison existant entre x et y.
Etude de la liaison entre deux variables
y
x
A
B Les nuages de points A et B montrent la même intensité de liaison mais les covariances sont différentes
Il faut trouver une autre mesure qui nous renseignera sur l’intensité de la relation
Etude de la liaison entre deux variables La corrélation linéaire de Pearson
La covariance mesure la dispersion conjointe des deux variables quantitatives (x et y) autour de leur moyenne
La corrélation linéaire de Pearson mesure la liaison linéaire entre deux variables quantitatives x et y
Le calcul de la corrélation linéaire se fait suivant plusieurs étapes:
1 – transformation de x et y en variables centrées réduites
x’i = xi - x
sx y’i =
yi - y sy
2 – calcul de la covariance entre ces nouvelles variables
sx’y’ = Σ (x’i – x’)(y’i – y’) , v = (n – 1) 1 v
n
i = 1
sx’y’ = Σ (x’i – x’)(y’i – y’) 1 v
n
i = 1
Etude de la liaison entre deux variables La corrélation linéaire de Pearson
rxy = Σ - 0 - 0 1 v
n
i = 1
yi - y sy
xi - x sx
Moyenne des variables centrées réduites = 0
sysx rxy =
1 v (yi – y) Σ (xi – x)
sxsy
sxy =
(yi – y) Σ (xi – x) =
(yi – y)² √Σ (xi – x)²
Etude de la liaison entre deux variables La corrélation linéaire de Pearson
• Exemple
On cherche à voir si la tension artérielle Y est corrélée à l’âge X.
y = 13,5 x = 35 ans
Quel est le coefficient de corrélation?
rxy = sxy/sxsy
= 10/256 = 0,03
sx=4,sy=64,sxy=10
Etude de la liaison entre deux variables La corrélation linéaire de Pearson
Tableau récapitulatif: la matrice de corrélation
x y
x
y
rxx=1
rxy ryy
rxy
=1
Les valeurs de la diagonale sont des « 1 » puisque les variables sont centrées réduites
r = +1 ou r = -1 si les points forment une droite sur le diagramme bivarié
Le signe de r est le même que celui de la covariance et indique le sens de la relation (positive ou négative)
Etude de la liaison entre deux variables
Le test de signification du r de Pearson
On peut montrer que: si les deux variables sont quantitatives si la distribution est bi-normale si les observations sont indépendantes
alors
t = rxy √n - 2
√1 – r²xy
On test l’hypothèse nulle d’absence de corrélation dans la population statistique d’où est tiré l’échantillon
H0: ρxy = 0
n – 2 ddl
Etude de la liaison entre deux variables
La corrélation non-paramétrique On rappelle que le coefficient de corrélation linéaire de Pearson et son test, ne sont pas appropriés dans les circonstances suivantes: • au moins une des variables est semi-quantitative (rangs) • les variables ne sont pas distribuées normalement • le nombre d’observations est faible
Dans ces cas, on utilise un coefficient de corrélation de rangs, souvent testés par permutations
rs ou ρ de Spearman
Consiste en : • remplacer les valeurs numériques par les rangs • calculer la formule de la corrélation de Pearson entre les variables ainsi formées • tester la signification du coefficient en ayant recourt à une table appropriée
Le τ de Kendall Une fois encore, il mesure le degré de liaison entre les deux variables
Etude de la liaison entre deux variables
La corrélation non-paramétrique
Exemple: deux séries de notes dans une classe
Élève A B C D E F G H I J K L Maths 6 4 12 1 10 5 8 2 11 7 3 9 Français391121241058167
Ordonner la première série
Élève D H K B F A J G L E I C Maths 1 2 3 4 5 6 7 8 9 10 11 12 Français256943110712811
Y a-t-il une corrélation entre les résultats des deux matières?
Calculer la statistique S qui mesure le degré d’ordonnance des objets sur la seconde variable
Élève D H K B F A J G L E I C Maths 1 2 3 4 5 6 7 8 9 10 11 12 Français256943110712811
+1 -1 +1 +1 +1 +1 +1 +1 S est la somme de
ces valeurs
Etude de la liaison entre deux variables
La corrélation non-paramétrique
τ = 2S
n(n – 1)
Élève D H K B F A J G L E I C Maths 1 2 3 4 5 6 7 8 9 10 11 12 Français256943110712811
S = 28
τ = 0,424
Application sous
Comparaison de 2 groupes (apparié ou non)
ANOVA Corrélation Régression
Paramétrique Test de Student (apparié ou non)
ANOVA paramétrique
Corrélation de Pearson
Régression
Non paramétrique
Test de Wilcoxon (apparié ou non)
ANOVA de Kruskall-Wallis
Corrélation de Spearman ou de Kendall
________
X
Y
+ TEST DE CHI-DEUX ou TEST DE FISHER pour Tables de contingences
Modélisation de la liaison entre deux variables Si la corrélation décrit la relation entre deux variables, la régression linéaire correspond à la fonction du premier degré qui modélise la liaison entre les deux variables
En clair: la dispersion et l’inclinaison du nuage de points relèvent de la corrélation
La droite qui traverse le nuage de point et permet d’estimer les valeurs de y pour chaque valeur de x relève de la régression
Modélisation de la liaison entre deux variables
Calcul du modèle: principe des Moindres Carrés
Y
X
y1
ŷ1
x1
On désire faire passer la droite d’estimation à travers le nuage de points de façon à ce que l’écart (y – ŷ) soit le plus faible possible
Minimiser la somme des carrés des écarts Σ (yi – ŷi)² conduit à une solution minimale unique (ce qui n’est pas le cas pour Σ (yi – ŷi) ou Σ |yi – ŷi |
ε1
Modélisation de la liaison entre deux variables
ε1 =(yi–ŷi)portelenomderésidupourl’observa&on1
Y
X
y1
ŷ1
x1
ε1 M(x,y)
La droite satisfaisant le critère des moindres carrés ordinaires passe par le centre de masse du nuage de points M(x,y)
Modélisation de la liaison entre deux variables
Calcul de deux paramètres de la droite de régression: la pente et l’ordonnée à l’origine
Fonction du premier degré y = ax + b, ici, ŷ = ax + b
Ainsipourchaquerésidu(yi–ŷi)=[yi–(axi+b)]DonclasommedescarrésàminimiserestΣ(yi–ŷi)²=Σ[yi–(axi+b)]²n
i = 1
n
i = 1
On trouve le minimum d’une fonction en égalant sa dérivée première à zéro
sy
a = nΣxiyi - ΣxiΣyi
nΣ(xi²) – Σ(xi)² or sxy =
nΣxiyi - ΣxiΣyi
n(n – 1) et s²x =
nΣ(xi²) – Σ(xi)² n(n – 1)
donc a = sxy
s²x
de plus rxy =
sxy
sxsy ainsi a =
rxysxsy
s²x = rxy
sy
sx
et rxy = a sx
Modélisation de la liaison entre deux variables
Calcul de deux paramètres de la droite de régression: la pente et l’ordonnée à l’origine
Fonction du premier degré y = ax + b, ici, ŷ = ax + b
Ainsipourchaquerésidu(yi–ŷi)=[yi–(axi+b)]DonclasommedescarrésàminimiserestΣ(yi–ŷi)²=Σ[yi–(axi+b)]²n
i = 1
n
i = 1
On trouve le minimum d’une fonction en égalant sa dérivée première à zéro
Pour l’ordonnée à l’origine: b = y – ax On peut calculer l’ordonnée à l’origine à partir de la pente a et du centre de masse (x, y) du nuage de points
Modélisation de la liaison entre deux variables
Ceci n’est valable que dans le cas d’une relation linéaire entre les deux variables En cas de non linéarité, plusieurs solutions s’offrent à nous: Linéariser la relation
Utiliser la régression polynomiale qui consiste à ajuster à y un polynôme en x d’un degré approprié
ŷ = b0 + b1x + b2x2 + …+ bkxk
Modélisation de la liaison entre deux variables
Quelques propriétés
La droite d’estimation de y en x n’est pas la même (et n’a pas les mêmes paramètres) que celle de x en y.
L’angle entre les deux droites s’amenuise à mesure qu’augmente la corrélation entre les variables
r = cosα
Modélisation de la liaison entre deux variables
Quelques propriétés
On peut diviser la variance totale de la variable dépendante y en deux parts: • Une part expliquée par la droite d’estimation • Une part résiduelle
0
y
y- ŷ x
y
x
y SCT Somme des Carrés des écarts Totale
Dispersion totale
SCE Somme des Carrés des écarts Expliquée
Dispersion expliquée par la régression
SCR Somme des Carrés des écarts Résiduelle
Dispersion résiduelle
Modélisation de la liaison entre deux variables
Le coefficient de détermination
Coeff. de détermination = SCE SCT = r²xy
Le coefficient de détermination mesure la proportion de la variance y expliquée par x
Par l’étude du rapport de la variance expliquée par la régression et de la variance due aux erreurs, on peut également estimer l’intervalle de confiance et tester la signification de la pente de la droite de régression. On peut aussi estimer l’intervalle de confiance de l’ordonnée à l’origine.
Modélisation de la liaison entre deux variables
En résumé:
Pour bien présenter le résultat de la liaison entre deux variables, il est important de préciser
• La taille de l’échantillon
• La valeur du coefficient de corrélation r
• La significativité du coefficient de corrélation r
• En cas de régression, l’équation de la droite du modèle linéaire
• La valeur du coefficient de détermination r²
• Eventuellement, la significativité de la pente de la droite de régression