copie de regr_mult

Upload: lamia

Post on 09-Mar-2016

213 views

Category:

Documents


0 download

DESCRIPTION

regression

TRANSCRIPT

  • Rgression multipleScherrer (2009): 19.1.1 19.1.3; 19.1.5; 19.3; Sokal & Rohlf: p. 617; Legendre &Legendre (1998) p. 517

    1. IntroductionIl arrive souvent qu'on veuille expliquer la variation d'une variabledpendante par l'action de plusieurs variables explicatives.Exemple: l'abondance de Bidonia exemplaris (y) est influence par letaux d'humidit (x1) et par le pourcentage de matire organique dans lesol (x2).Lorsqu'on a des raisons de penser que la relation entre ces variablesest linaire (faire des diagrammes de dispersion!), on peut tendre lamthode de rgression linaire simple plusieurs variablesexplicatives; s'il y a deux variables explicatives, le rsultat peut trevisualis sous la forme d'un plan de rgression dont l'quation est:

    y = b1x1 +b2x2 +b0

    x1

    x

    y

    2

  • Bio-2042 Rgression multiple - corrlation multiple et partielle 2

    Le plan est ajust selon le principe des moindres carrs o lessommes des carrs des erreurs d'estimation de la variable dpendante(on a donc affaire une rgression de modle I) sont minimises.S'il y a plus que deux variables explicatives (p. ex. m), on peut tendrela mthode en ajoutant les variables et leurs paramtres:

    y = b1x1 + b2x2 + ... + bjxj + ...+ bmxm + b0

    Cette quation est celle d'un hyperplan m dimensions (qu'on nepeut pas se reprsenter concrtement!). Les paramtres b1, b2bmsont les "pentes" de l'hyperplan dans les dimensions considres, etsont appels "coefficients de rgression".

    La rgression multiple peut tre utilise plusieurs fins: Trouver la meilleure quation linaire de prvision (modle) et envaluer la prcision et la signification. Estimer la contribution relative de deux ou plusieurs variablesexplicatives sur la variation d'une variable expliquer; dceler l'effetcomplmentaire ou, au contraire, antagoniste entre diverses variablesexplicatives. Juger de l'importance relative de plusieurs variables explicatives surune variable dpendante en lien avec une thorie causale sous-jacente la recherche (attention aux abus: une corrlation n'implique pastoujours une causalit; cette dernire doit tre postule a priori).

    2. Calcul des coefficients de rgressionLe calcul des coefficients de rgression peut tre fait de plusieursmanires. L'une, qui repose sur le calcul matriciel, est utilise dans lesprogrammes d'ordinateur. On trouvera cette technique chez Legendreet Legendre (1998) pp. 79 et 517, et dans Scherrer (2009) p. 4 q.19.8. Les formules sont aussi donnes dans le cours thorique 11(rgression linaire) du cours Bio2041. L'autre, dtaille par Scherrer

  • Bio-2042 Rgression multiple - corrlation multiple et partielle 3

    (2009, p. 4 6), est prsente ci-dessous. Elle se base sur un systmede m quations m inconnues (p1 dans Scherrer 20091) qui permetdans un premier temps d'obtenir les "coefficients de rgression centrset rduits" (voir plus bas: c'est comme si on calculait la rgression surles variables centres-rduites). Les valeurs des coefficients dergression pour les variables brutes (non centres-rduites) sontensuite obtenues par multiplication par le rapport des carts-types de lavariable dpendante et de la variable explicative considre.Finalement, on calcule la valeur de l'ordonne l'origine.

    2.1 Calculs prliminairesOn peut calculer les coefficients de rgression et l'ordonne l'origined'une rgression multiple en connaissant: les coefficients de corrlation linaire simple de toutes les paires devariables entre elles (y compris la variable dpendante): rx1x2, rx1x3...rx1y , ...etc.; les carts-types de toutes les variables: sx1, sx2, sx3...sy; les moyennes de toutes les variables.

    2.2 tapes de calcul1. On calcule d'abord les coefficients de rgression centrs-rduitsb1', b2', ... b'm en rsolvant un systme de m quations normales minconnues (m = nombre de variables explicatives).2. On trouve les coefficients de rgression pour les variables originalesb1, b2, ... bm en multipliant chaque coefficient centr-rduit par l'cart-type de la variable dpendante (sy), et en divisant le rsultat par l'cart-type de la variable explicative considre (sxj).3. On trouve l'ordonne l'origine en posant la moyenne de la variabledpendante y , et en lui soustrayant chaque coefficient obtenu au point2, multipli par la moyenne de la variable explicative correspondante:b0 = y - (b1x 1 + b2x 2 + ...+ bjx j... + bmx m)

    1 Attention: dans la notation de Scherrer (2009), il y a p1 variables explicatives et la p-ime est la variable dpendante y.

  • Bio-2042 Rgression multiple - corrlation multiple et partielle 4

    2.3 FormulesCette technique est expose par Scherrer (2009), p. 4 6, avec unexemple numrique. Les formules ci-dessous sont donnes pour 3variables explicatives, avec la notation b0, b1... Les calculs sont bien srplus simples avec deux variables explicatives.

    2.3.1. quations normales:

    rx1y = b1' + rx1x2b2

    ' + rx1x3b3'

    rx2y = rx2x1b1' + b2

    ' + rx2x3b3'

    rx3y = rx3x1b1' + rx3x2b2

    ' + b3'

    Ce systme se rsoud par substitutions successives.Premire tape:

    b1' = rx1y - rx1x2b2

    ' - rx1x3b3'

    est plac dans les quations 2 et 3. On isole ensuite b2' ou b3' dansl'une des quations. Ds lors, on peut trouver une des valeurs b' et, enremontant la filire, on trouve les deux autres.

    2.3.2. Coefficients de rgression pour les variables d'origine:

    b1 = b1' sysx1

    b2 = b2' sysx2

    b3 = b3' sysx3

    2.3.3. Ordonne l'origine:

    b0 = y - b1x 1 - b2x 2 - b3x 3

  • Bio-2042 Rgression multiple - corrlation multiple et partielle 5

    2.4 ExempleVoici une quation de rgression multiple deux variables explicativesx1 et x2:

    y = 0.5543x1 + 0.7211x2 - 41.6133

    Si on remplace les symboles des variables par leur nom dans le"monde rel", on a:

    Abond. Bidonia = 0.5543 Humid. + 0.7211 M.O. 41.6133

    Les signes des paramtres b1 et b2 sont tous deux positifs, ce quimontre que Bidonia ragit positivement une augmentation du tauxd'humidit et de la teneur en matire organique.Cette quation peut servir estimer l'abondance de B. exemplaris enfonction des deux descripteurs "Humidit" et " Matire organique"(exprims en % dans cet exemple).Pour une humidit de 80% et un taux de matire organique de 30%,on estime l'abondance de B. exemplaris

    Abond. B.ex. = 0.5543 80 + 0.7211 30 41.6133 = 24.3637 ind.

    2.5 Le coefficient de dtermination multiple R2

    Comme en rgression linaire simple, on mesure la variationexplique par la rgression l'aide du coefficient de dterminationmultiple R2, qui mesure le rapport entre la dispersion explique par largression (SCR) et la dispersion totale (SCT):

    R2 = y i - y ( )

    2

    yi - y ( )2=

    SCRSCT

    Scherrer (2009) q. 19.13

    Le R2 peut aussi se calculer partir des coefficients de rgressioncentrs-rduits b'j et des coefficients de corrlation entre la variabledpendante y et chacune des variables explicatives xj:

  • Bio-2042 Rgression multiple - corrlation multiple et partielle 6

    R2 = bj'rxjy

    j = 1

    m

    o m = nombre de variables explicatives et

    rxjy reprsente la corrlation r entre la variabledpendante y et la jime variable explicative xj.

    Attention: le R2 fournit une estimation biaise de la variance explique.Un ajustement est possible (voir plus loin). On l'utilise cependant pourla construction du test de signification ci-dessous.

    3. Test de signification du modle de rgressionmultipleLes hypothses du test sont:H0: la variable y est linairement indpendante des variables xjH1: la variable y est explique linairement par au moins une des

    variables xjLa signification du modle de rgression multiple peut tre teste parune variable auxiliaire FRMc :

    FRMC =R2 n - m- 1( )

    m1- R2( ) = CMR / CME Scherrer (2009) q. 19.16

    On rejette H0 au seuil a lorsque FRMc F( ,m,nm1)De la mme faon qu'en ANOVA, ce test compare la varianceexplique avec celle des rsidus. Si H0 est vraie, ces deux valeursdevraient tre peu prs semblables, et la statistique-test FRMc suivraune distribution F de Fisher-Snedecor m et (nm1) degrs delibert, o n = nombre d'observations et m = nombre de variablesexplicatives.Conditions d'application du test: la rgression multiple est soumiseaux mmes contraintes que la rgression linaire simple: distributionnormale des rsidus, quivariance, indpendance des observations et

  • Bio-2042 Rgression multiple - corrlation multiple et partielle 7

    linarit des relations entre la variable dpendante y et chacune desvariables explicatives x.

    4. Coefficient de "corrlation multiple"La liaison entre la variable expliquer y et l'ensemble des variablesexplicatives peut se mesurer par un coefficient de "corrlation multiple"dfini comme la racine carre du coefficient de dtermination R2.Par dfinition (puisqu'on prend la racine carre d'un nombre relpositif), la corrlation multiple obtenue ne peut pas tre ngative. De cefait, la notion de corrlation multiple a une interprtation douteuse etdoit tre manipule avec beaucoup de prudence: par exemple, mmedans un cas o une variable dpendante y serait influencengativement par toutes les variables explicatives x1 xm, le coefficientde corrlation multiple serait positif.

    5. Coefficients de rgression partiellePoint important, les coefficients de rgression obtenus par rgressionmultiple sont en fait des coefficients de rgression partielle, en cesens que chacun mesure l'effet de la variable explicative concerne surla variable dpendante lorsque la ou les autres variablesexplicatives sont tenues constantes. En d'autres termes, dansl'quation suivante comprenant trois variables explicatives: y = b1x1 + b2x2 + b3x3 + b0le coefficient b1 tient compte de l'effet des variables x2 et x3 sur lavariable dpendante y. Il mesure l'effet de x1 lorsqu'on a enlev l'effetde x2 et x3.Cette proprit est trs intressante. En effet, si on dsire connatrel'influence d'un groupe de facteurs sur une variable rponse(=dpendante) y donne, en contrlant l'effet d'un autre groupe (p. ex.on veut valuer l'effet de la teneur en matire organique du sol surl'abondance de Bidonia exemplaris, en tant l'effet de l'humidit), onpeut calculer une rgression intgrant toutes les variables explicatives,et examiner les coefficients de rgression (centrs-rduits, voir plusbas) du groupe de variables voulu, en sachant que ces coefficients

  • Bio-2042 Rgression multiple - corrlation multiple et partielle 8

    traduisent l'importance de ces variables en contrlant pour l'effet del'autre groupe.Cette dmarche n'est pas triviale. En effet, les influences combinesdes diverses variables en jeu aboutissent quelquefois des effetsapparents contraires ceux qui sont en jeu. Exemple:

    En haut gauche: rgression linaire simple de B. exemplaris sur l'humidit. Enbas gauche: rgression linaire simple de B. exemplaris sur le taux de matireorganique (raction apparemment ngative). En haut droite: relation entrehumidit et matire organique. En bas droite: rgression partielle de B.exemplaris sur la matire organique, en maintenant l'humidit constante (lavariable explicative est le rsidu d'une rgression de la matire organique surl'humidit).

    Dans cet exemple, en rgression linaire simple, Bidonia a l'air deragir ngativement l'augmentation de la teneur en matire

  • Bio-2042 Rgression multiple - corrlation multiple et partielle 9

    organique (coefficient -0.3406, voir figure ci-dessus). Par contre, si l'ontient constant l'effet de l'humidit, le coefficient de rgression partiellede la matire organique est positif (0.7211). Cela tient ce que dansl'chantillonnage, les prlvements les plus humides sont aussi ceux ole taux de matire organique est le plus faible. Or, Bidonia ragitfortement (et positivement) l'humidit. Il ragit aussi positivement une augmentation de la matire organique, mais pas de faon aussiforte que vis--vis de l'humidit. Le coefficient partiel (0.7211) est lemme que celui qu'on obtient en intgrant l'humidit et la M.O dansl'quation de rgression (voir exemple section 2.4, plus haut).On voit donc qu'il est indispensable, lorsqu'on dispose de plusieursvariables explicatives, de les intgrer ensemble dans une analyse pluttque d'avoir recours une srie de rgressions simples. En plus de cequi prcde, non seulement on peut alors mesurer leur effet combinsur la variable dpendante, mais on peut aussi tester globalement ceteffet ( l'aide de la statistique F prsente plus haut), ainsi que l'effetpartiel de chaque variable explicative ( l'aide d'une statistique t, voirci-dessous).

    6. Test des coefficients de rgression bjUne fois qu'on a rejet H0 pour l'ensemble de la rgression multiple(voir section 3), on peut vouloir tester la signification individuelle dechaque coefficient de rgression bj. Pour ce faire, on se sert d'unestatistique t dont le calcul (qui ne fait pas partie de la matire du coursBio2042) est expliqu (p.ex.) par Scherrer (2009) 19.1.6.L'interprtation (qui, elle, est matire du cours) est en gnralbilatrale: lorsque la probabilit de la statistique atteint ou dpasse leseuil a choisi, on rejette H0 et on conclut que la variable explicativeconsidre a un effet partiel significatif sur la variable dpendante.

    7. Rgression sur variables centres-rduitesUne pratique courante en rgression consiste interprter lescoefficients de rgression centrs-rduits, c'est--dire ceux qu'onobtient en centrant-rduisant toutes les variables (y compris la variable

  • Bio-2042 Rgression multiple - corrlation multiple et partielle 10

    dpendante). En exprimant toutes les variables en units d'cart-type,on rend les coefficients de rgression insensibles l'tendue devariation des variables explicatives, leur permettant ainsi d'treinterprts directement en termes de "poids" relatif des variablesexplicatives. Notez aussi que la plupart des logiciels courants (mais pasle langage R, hlas) fournissent les "coefficients de rgression centrs-rduits" (standardized regression coefficients) en plus des coefficientscalculs pour les variables brutes. On peut aussi les calculersimplement ainsi: b1' = b1sx1/sy (idem pour les autres b).On peut remarquer aussi que si on fait le calcul l'aide de la mthodemontre par Scherrer (2009) p. 4 6; section 2 de ce document), onobtient de toute manire d'abord les coefficients centrs-rduits (sansavoir centrer-rduire les variables pour faire le calcul!).Le centrage-rduction n'affecte pas la corrlation entre les variables, niles coefficients de dtermination (R2) des rgressions simples etmultiples.

    L'exemple de Bidonia expos plus haut (section 2.4) devient ainsi:

    Abondance Bidoniacr = 1.6397 Hum.cr + 0.9524 M.O.cr

    L'ordonne l'origine vaut 0 puisque toutes les variables sontcentres.

    Dans ce contexte, rappelons que le coefficient de dtermination peutaussi s'exprimer:

    R2 = bj'rxjy

    j = 1

    m

    Scherrer (2009) q. 19.13

    Les b'j sont les coefficients de rgression des variables centres-rduites. Donc, chaque lment b'jrxjy reprsente la contribution de lavariable xj l'explication de la variance de y. Dans notre exemple, lescontributions de l'humidit et de la matire organique s'lvent

  • Bio-2042 Rgression multiple - corrlation multiple et partielle 11

    1.6397 0.8251 = 1.3529 et 0.9524 0.4498 = 0.4284

    R2 = 1.3529 0.4284 = 0.9245

    Voir aussi l'exemple 18.17 de Scherrer (1984, p. 700).2

    Remarque: en rgression linaire simple (uniquement!), lorsque lesdeux variables sont centres-rduites, le coefficient de rgression b1(=la pente) est gal la corrlation r entre les deux variables x et y.

    8. R2 ajustUne des proprits de la rgression multiple est que l'ajout de chaquevariable explicative au modle permet d'"expliquer" plus de variation,et cela mme si la nouvelle variable explicative est compltementalatoire. Cela vient du fait que si l'on compare deux variablesalatoires, les fluctuations alatoires de chacune d'entre ellesproduisent de trs lgres corrlations: y et chacune des xj ne sont passtrictement indpendantes (orthogonales) mme s'il n'y a aucunerelation relle entre elles. Par consquent, le R2 calcul comme ci-dessus (sections 2.5 et 7) comprend une composante dterministe, etune composante alatoire d'autant plus leve que le nombre devariables explicatives est lev. Le R2 est donc biais.Pour contrer cet effet, et donc viter de surestimer le R2, plusieursauteurs ont propos un R2 ajust, qui tient compte du nombre devariables explicatives du modle de rgression. La formule la pluscouramment utilise est celle d'Ezekiel (1930):

    Raj2 = 1-

    (n - 1)(n - m- 1)

    (1- R2)Scherrer (2009) q. 19.14

    o n = nombre d'observations et m = nombre de variables explicativesLe R2 ajust est habituellement fourni par les programmes d'ordinateur(incluant R). 2 Attention: cette contribution n'est pas gale au R2 partiel. Elle n'est pas non plus gale la fraction [a] d'un partitionnementde variation si les variables explicatives sont (mme trs peu!) corrles entre elles! Voir ces notions plus loin.

  • Bio-2042 Rgression multiple - corrlation multiple et partielle 12

    9. Partitionnement de la variation (Legendre & Legendre (1998)p. 531)

    9.1. Principe et dmarcheDans la grande majorit des cas, les variables explicatives xi intgres une rgression multiple ne sont pas linairement indpendantes entreelles (orthogonales). Le R2 total de la rgression multiple n'est doncpas la somme des r2 d'une srie de rgressions simples impliquant tour tour toutes les variables explicatives, mais une valeur infrieure cette somme:

    Var.expl. par X1

    Var.expl. par X2

    [a] [b] [c] [d]

    Var.non expl.

    Dans cet exemple, la barre grasse reprsente toute la variation de lavariable dpendante. Comme les variables x1 et x2 ne sont paslinairement indpendantes, une partie de leur pouvoir explicatif vaexpliquer la mme part de variation de y. Cette fraction commune estappele fraction [b]. L'explication unique de la variable x1 est lafraction [a], et l'explication unique de la variable x2 est la fraction [c].La fraction [d] constitue la partie non explique, soit le rsidu de largression multiple.

    On peut obtenir les valeurs de chacune de ces fractions. Il faut raliserplusieurs rgressions simples ou multiples, en calculer les r2 ou R2, lesajuster, et les combiner. Pour le cas de deux variables explicatives, onprocde de la manire suivante:

    (1) Rgression linaire simple de y sur x1: le r2 vaut [a]+[b].

    (2) Rgression linaire simple de y sur x2: le r2 vaut [b]+[c].

    (3) Rgression linaire multiple de y sur x1 et x2: le R2 vaut

    [a]+[b]+[c].

  • Bio-2042 Rgression multiple - corrlation multiple et partielle 13

    tape intermdiaire: il faut maintenant ajuster les r2 et R2 ci-dessus l'aide de la formule du R2 ajust. Ensuite:(4) La valeur de [a]aj est obtenue en soustrayant le rsultat de

    l'opration (2)aj de celui de (3)aj.(5) La valeur de [c]aj est obtenue en soustrayant le rsultat de (1)aj de

    celui de (3)aj.(6) La valeur de [b]aj s'obtient de diverses manires, p. ex. ([a]+[b])aj

    [a]aj, ou ([b]+[c])aj [c]aj.(7) La fraction [d]aj (variation non explique) s'obtient en faisant 1

    ([a]+[b]+[c])aj.

    Remarque: on ne peut pas ajuster de modle de rgression sur lafraction [b], dont la valeur ne peut tre obtenue que par soustraction.Elle peut mme tre ngative s'il y a antagonisme entre les effets decertaines variables explicatives (c'est le cas dans notre exemple deBidonia montr plus haut). C'est pourquoi on parle ici de variation etnon de variance au sens strict.Voir aussi la bote 4.1 de la future nouvelle dition du manuel deLegendre et Legendre, fournie en pdf sur la page web du cours.

    9.2 ExempleReprenons notre exemple de Bidonia, dont la densit est explique parle taux d'humidit et la quantit de matire organique (MO). Voici lestapes du partitionnement de la variation entre les deux variablesexplicatives.(1) r2 de Bidonia expliqu par l'humidit ([a]+[b]):0.6808(2) r2 de Bidonia expliqu par la MO ([b]+[c]):0.2023(3) R2 de Bidonia expliqu par l'humid. et la MO ([a]+[b]+[c]):0.9245Ajustement de ces trois valeurs (dans cet exemple n = 20):

    (1)aj: raj2 = 1-

    (n - 1)(n - m- 1)

    (1- r2) = 1-20- 1

    20- 1- 1(1- 0.6808)= 0.6631

  • Bio-2042 Rgression multiple - corrlation multiple et partielle 14

    (2)aj: raj2 = 1-

    (n - 1)(n - m- 1)

    (1- r2) = 1-20- 1

    20- 1- 1(1- 0.2023)= 0.1580

    (3)aj: Raj2 = 1-

    (n - 1)(n - m- 1)

    (1- r2) = 1-20- 1

    20- 2 - 1(1- 0.9245)= 0.9156

    Calcul des fractions de variation:[a]aj = 0.9156 0.1580 = 0.7576[c]aj = 0.9156 0.6631 = 0.2525Donc: [b]aj = 0.6631 0.7576 = 0.1580 0.2525 = 0.0945[d]aj = 1 0.9156 = 0.0844Cet exemple a la particularit de prsenter une fraction [b] ngative.Un tel rsultat peut se prsenter dans certains cas, par exemple(comme ici) lorsque deux variables explicatives ont une influencepositive sur la variable dpendante, mais sont corrles ngativemententre elles.

    Remarque 1: le dveloppement et l'exemple ci-dessus montrent lepartionnement entre deux variables explicatives x1 et x.2. On peut aussiprocder au partionnement de la variation entre plusieurs groupes devariables explicatives. Par exemple, on pourrait partitionner la variationde l'abondance d'une espce d'arbre (y) explique d'une part par unensemble de variables daphiques (physico-chimie du sol), et d'autrepart par un ensemble de variables climatiques. On se servirait alors (1)du R2 de la rgression multiple de y explique par les variablesdaphiques, (2) du R2 de la rgression multiple de y explique par lesvariables climatiques, et (3) du R2 de la rgression multiple de yexplique par les variables daphiques et climatiques mises ensemble.Remarque 2: il est aussi possible de partionner la variation d'unevariable rponse par plus que deux groupes de variables explicatives. Ilfaut raliser plus d'oprations, mais le principe reste le mme.

  • Bio-2042 Rgression multiple - corrlation multiple et partielle 15

    10. Rgression multiple sur variables explicativescentres-rduitesPour permettre la comparaison de variables explicatives qui ne sontpas toutes mesures dans les mmes units, ou qui ont des intervallesde variation trs diffrents, on a souvent recours au centrage-rductiondes variables explicatives. Dans ce cas-l, il n'est pas ncessaire decentrer-rduire la variable dpendante. L'ide est de donner toutesles variables explicatives une moyenne commune de 0 et une variancede 1. Cette opration n'affecte pas le R2 de la rgression.

    11. Le problme de la multicolinaritLorsque plusieurs, voire toutes les variables explicatives sont fortementcorrles entre elles (r = 0.8 et plus), les estimations des coefficients dergression deviennent instables (fluctuent beaucoup d'un chantillon l'autre). Leur interprtation devient donc dangereuse. Il y a plusieurssolutions possibles:- crer une nouvelle variable synthtique (combinant les variablesinterrelies) et l'utiliser la place des autres;- choisir une seule des variables trs interrelies et s'en servir commeindicatrice des autres;- utiliser d'autres mthodes (rgression partir des composantesprincipales, rgression pseudo-orthogonale);Remarque: si le seul but de la rgression multiple est la prdiction(maximisation du R2), la multicolinarit ne drange pas.

    12. Corrlation partielle (Scherrer 2009 19.1.5)Au contraire du coefficient de "corrlation multiple" voqu plus haut,on peut dfinir un coefficient de corrlation partielle qui a le mmesens que le coefficient de corrlation r de Pearson ordinaire.Un coefficient de corrlation partielle mesure la liaison entre deuxvariables lorsque l'influence d'une troisime (ou de plusieurs autres)est garde constante sur les deux variables compares. On rappellera

  • Bio-2042 Rgression multiple - corrlation multiple et partielle 16

    cependant qu'une corrlation ne mesure que la liaison entre deuxvariables, sans se proccuper de modles fonctionnels ou de capacitde prdiction ou de prvision.Le calcul d'une corrlation partielle fait intervenir les corrlationslinaires simples de Pearson entre les paires de variables considres.L'exemple ci-dessous vaut dans le cas o on a deux variablesexplicatives x1 et x2 (qu. 18-50 de Scherrer 1984, p. 704). La formuledcrit le calcul de la corrlation partielle de y et x1 en tenant x2constant:

    ry,x1|x2 =ryx1- r

    yx2rx1x2

    (1- ryx22 )(1- rx1x2

    2 ) Scherrer (2009) q. 19.38

    Ce coefficient se teste l'aide d'un F obissant sous H0 une loi deFisher-Snedecor 1 et nm1 degrs de libert. La construction dutest et les rgles de dcision figurent aux pages 705 et 706 de Scherrer(1984) et sont abords dans le laus.Le carr du coefficient de corrlation partielle ry,x1|x2 ,x3...

    2 , appel r2

    partiel, mesure la proportion de la variation de y explique par x1 parrapport la variation non explique par x2, x3, etc. Cela corresponddonc au rapport des fractions de variation [a]/([a]+[d]) (non ajusts!)dans le cadre du partitionnement expliqu plus haut. Les composantesde variation [b] et [c], lies l'autre ou aux autres variablesexplicatives, sont donc absentes du calcul.L'exemple de Bidonia et de sa relation avec l'humidit et la teneur enmatire organique du sol est assez parlant:

    1.000 .825 -.4501.000 -.855

    1.000

    B. exemplarisHumidit M.O.B. exemplarisHumiditM.O.

    Correlation Matrix

    1.000 .951 .8741.000 -.959

    1.000

    B. exemplarisHumidit M.O.B. exemplarisHumiditM.O.

    Partial Correlation Matrix

  • Bio-2042 Rgression multiple - corrlation multiple et partielle 17

    Un chercheur qui se contenterait d'une matrice de corrlations simples( gauche) penserait que la relation entre Bidonia et la teneur en M.O.est ngative. Par contre, s'il prenait la prcaution de calculer unematrice de corrlations partielles, il verrait que cette illusion est due l'effet masquant de l'humidit dans l'chantillon. La corrlationpartielle forte et positive entre Bidonia et la M.O. mesure la relationentre Bidonia et la partie de la variation de la matire organique quin'est pas explique par l'humidit.

    13. Rgression pas pasOn rencontre parfois des situations dans lesquelles on dispose de tropde variables explicatives, soit parce que le plan de recherche tait tropvague au dpart (on a mesur beaucoup de variables "au cas o ellesauraient un effet"), soit parce que le nombre d'observations (et donc dedegrs de libert) est trop faible par rapport au nombre de variablesexplicatives intressantes. D'autres situations, notamment en analysedes structures spatiales, mnent ce problme.Une technique est parfois employe pour "faire le mnage" etslectionner un nombre rduit de variables qui explique pourtant unequantit raisonnable de variation. Il existe plusieurs variantes de cettergression dite "pas pas" (stepwise regression en anglais).

    13.1 Mthode rtrograde (backward selection)Cette mthode consiste construire un modle de rgression complet(intgrant toutes les variables explicatives), et en retirer une par uneles variables dont le t partiel est non significatif (en commenant parcelle qui explique le moins de variation). Inconvnient: une fois qu'unevariable a t retire, elle ne peut plus tre rintroduite dans le modle,mme si, la suite du retrait d'autres variables, elle redevenaitsignificative. Cette approche est nanmoins assez librale (elle atendance garder un nombre plus lev de variables dans le modlefinal que les autres approches ci-dessous).

  • Bio-2042 Rgression multiple - corrlation multiple et partielle 18

    13.2 Mthode progressive (forward selection)Approche inverse de la prcdente: elle slectionne d'abord la variableexplicative la plus corrle la variable dpendante. Ensuite, elleslectionne, parmi celles qui restent, la variable explicative dont lacorrlation partielle est la plus leve (en gardant constantes la ou lesvariables dj retenues). Et ainsi de suite tant qu'il reste des variablescandidates dont le coefficient de corrlation partiel est significatif.Inconvnient: lorsqu'une variable est entre dans le modle, aucuneprocdure ne contrle si sa corrlation partielle reste significative aprsl'ajout d'une ou de plusieurs autres variables. Cette technique est engnral plus conservatrice que la prcdente, ayant tendance slectionner un modle plus restreint (moins de variables explicatives)que la slection rtrograde.Des simulations rcentes (Blanchet et al. 2008 3) montrent que mmela slection progressive, la plus conservatrice des trois variantes, esttrop librale, c'est--dire qu'elle laisse souvent entrer au moins unevariable non significative dans le modle. C'est la raison pour laquellenous proposons dsormais d'appliquer un double critre d'arrt laslection pas pas (plus spcifiquement la slection progressive):

    1. Le niveau a habituel, et2. Le R2aj du modle comprenant toutes les variables candidates.

    Pour ce deuxime critre, on calcule tout d'abord le R2aj global d'unergression multiple comprenant toutes les variables explicativescandidates. Ensuite, durant la procdure de slection, on arrte laslection lorsque le niveau a prslectionn ou le R2aj global est atteint.Cette procdure garantit une erreur de type I correcte et rduitfortement le nombre de variables explicatives introduites tort dans lemodle. C'est la mthode de slection que nous prconisons.

    13.3 Slection pas pas proprement dite (stepwise regression)Cette procdure, la plus complte, consiste faire entrer les variablesl'une aprs l'autre dans le modle (selon leur corrlation partielle) par 3 Blanchet, F. G., P. Legendre & D. Borcard. 2008. Forward selection of explanatory variables. Ecology 89(9): 2623-2632.

  • Bio-2042 Rgression multiple - corrlation multiple et partielle 19

    slection progressive et, chaque tape, vrifier si les corrlationspartielles de l'ensemble des variables dj introduites sont encoresignificatives (une variable qui ne le serait plus serait rejete). Cetteapproche tente donc de neutraliser les inconvnients des deuxprcdentes en les appliquant alternativement au modle enconstruction. Cette mthode n'offrant pas les garanties de laprcdente (assortie du double critre d'arrt), nous ne larecommandons pas.

    13.4 Dangers de la slection pas pasQuelle que soit sa variante, la rgression pas pas prsente desdangers:

    1. Lorsqu'on a fait entrer une variable donne dans le modle, elleconditionne la nature de la variation qui reste expliquer. De cefait, rien ne garantit qu'on a choisi au bout du compte lacombinaison de variables qui explique le plus de variation.

    2. Le modle devient hautement instable en prsence de (multi)colinarit entre les variables explicatives, ce qui veut dire que lesparamtres estims par la mthode (les coefficients b, donc lespoids attribus aux variables retenues), et mme la liste desvariables retenues elle-mme, peuvent varier fortement si onchange (mme trs peu) les donnes (autre chantillon tir de lamme population statistique).

    AnnexeVoir aussi le document "r2partiel.pdf", qui met en lumire, avec desexemples, la diffrence entre r2 partiel, fraction [a] d'unpartitionnement de variation et contribution d'une variable l'explication de la variance en rgression multiple.