biostatistiques avancees - edu.upmc.fr · 3.comparaison de plus de 2 groupes : test...

BIOSTATISTIQUESAVANCEES

Yves DesdevisesObservatoire Océanologique de Banyuls-sur-Mer

(www.obs-banyuls.fr)04 68 88 73 13

[email protected]://desdevises.free.fr

http://www.edu.upmc.fr/sdv/desdevises

Master Biologie Intégrative et Physiologie1ère année

2017-2018

1

PLAN1. Rappels : données, tests, plans d’expérience, distributions

2. Comparaison de 2 groupes : variances et moyennes

3. Comparaison de plus de 2 groupes : test d’homogénéité des variances, analyses de variance à 1 et 2 facteurs

4. Relations entre variables : corrélation

5. Relations entre variables : régression simple

6. Régression multiple et analyse de covariance

7. Analyse multivariable

8. Analyse de survie

2

Quelques références• Générales• Sokal RR & Rohlf FJ. 2012. Biometry. 4th Revised Edition,

Freeman and co., New York.

• Zar JH. 2009. Biostatistical Analysis. 5th Edition, Pearson.

• Frontier S, Davoult D, Gentilhomme V & Lagadeuc Y. 2007. Statistique pour les sciences de la vie et de l’environnement. Cours et exercices corrigés. Dunod.

• Triola MM & Triola MF. 2006. Biostatistics for the Biological and Health Science. Pearson. Traduction française en 2009 (2ème édition 2012) : Biostatistiques pour les sciences de la vie et de la santé.

• Scherrer B. 2008-2009. Biostatistiques volumes 1 et 2. Gaëtan Morin.

• Millot G. 2014. Comprendre et réaliser les tests statistiques à l'aide de R. 3ème édition. De Boeck.

3

• Simplifiées

• Dytham C. 2011. Choosing and Using Statistics. A Biologist’s Guide. 3rd Edition. Blackwell Publishing.

• McKillup S. 2011. Statistics Explained. 2nd Edition. Cambridge University Press.

• van Emden H. 2008. Statistics for Terrified Biologists. Blackwell Publishing.

• Plus spécialisées

• Legendre P & Legendre L. 2012. Numerical Ecology. 3rd English Edition. Development in Environmental Modelling, 20. Elsevier.

• Underwood AJ. 1997. Experiments in Ecology. Cambridge University Press.

4

• R (www.r-project.org)

• Statdisk (http://statdisk.com/)

• XLStat (www.xlstat.com) €

• Minitab (www.minitab.com) €

• JMP (www.jmp.com) €

• Statistica (www.statsoft.com) €

• SAS (www.sas.com/technologies/analytics/stat) €

Quelques logiciels 5

1. INTRODUCTION

RAPPELS

6

• Statistique : Etude scientifique des données numériques décrivant les variations naturelles

• Biostatistique

• Application à la biologie

• Important : savoir décider de la méthode à utiliser

• Bien connaître les méthodes : conditions d’utilisation, limitations, ...

• Penser aux statistiques avant de collecter les données

7

Utilité et utilisation des statistiques en biologie

• Description

• Vue synthétique et rationnelle des données

• Inférence

• Economie de travail par l’étude d’échantillons représentatifs

• Décision

• Test d’hypothèse

8

• Biologie : incertitude des résultats expérimentaux ou des observations

• Variabilité génétique

• Variabilité de réaction individuelle

• Variabilité du développement

Pourquoi utiliser les statistiques en biologie?

9

Définitions• Objet = observation = élément = unité

d’échantillonnage : élément sur lequel on mesure des caractéristiques (variables)

• Echantillon : ensemble des objets

• Population cible : ensemble des objets visés par une étude scientifique

• Population statistique : ensemble des objets représentés par l’échantillon. C’est sur elle que se fait l’inférence

10

• Variable = descripteur = facteur = trait : caractéristique mesurée ou observée sur les objets. Ex : longueur, température, ...

• Variable dépendante (Y) = réponse

• Variable indépendante (X) = explicative

• Variable aléatoire : résultat d’un processus aléatoire, valeur précise inconnue avant la mesure

• Variable contrôlée : décidée par l’expérimentateur, erreur = mesure seulement

11

• Paramètre : caractéristique quantitative permettant une représentation condensée d’information contenue dans un ensemble de données. Ex : moyenne, pente, ...

• Variance = inertie = carré moyen : somme des carrés des écarts à la moyenne (SCE)/nombre d’objets (paramètre de dispersion)

12

• Ecart-type (standard deviation) : racine carrée de la variance. Même unité que la variable

Sx = √Sx2

• Erreur-type (standard error) : écart-type de la distribution d’échantillonnage de la moyenne (dispersion des estimations de la moyenne de plusieurs échantillons d’une même population). Sert à calculer un intervalle de confiance

13

• Interprétation de l'écart-type14

• Barres d'erreurs : attention !

?

15

16

Variables

• Terme déterministe : loi du phénomène

• Terme aléatoire : variabilité du phénomène

• Hasard, fluctuations

• Autres facteurs, souvent à expliquer

Modèle aléatoire

Dose d'engrais

Cro

issa

nce

●●

●●●

●●●

●

●●

●

Modèle déterministe

Force de frappeInte

nsité

de

la d

éfor

mat

ion

●●●

●

1 cause : 1 effet1 cause : n effets

variabilité

17

• Analyse statistique : étude des phénomènes stochastiques

• Discrimination de la loi du phénomène et de sa variabilité

18

Différents types de variables

• Binaire : 2 états. Ex : présence-absence

• Multiple : plus de 2 états

• Non-ordonnée = qualitative = nominale. Ex : couleur

• Ordonnée

• Semi-quantitative = ordinale = de rang. Ex : classes

• Quantitative

• Discontinue = discrète. Ex : nombre d’individus

• Continue. Ex : longueur

19

• Transformations

• Standardisation : y' = (y - y)/s (s = écart-type ; on obtient une variable centrée et réduite). y’ = 0 et s = 1, variables non-dimensionnelles

• Normalisation et stabilisation des variances : y' = log (b0 + b1y) ; y' = √y ; ...

• Linéarisation

20

Statistiques descriptives

• Exploration des données

• A calculer avant chaque test

• Mesures standards : n, moyenne, variance (écart-type), distribution (histogramme ou graphe de quantile-normale), ...

• Identifier les valeurs extrêmes ou aberrantes

• A ne pas oublier...

21

Statdisk - ScatterplotPrinted on Mer 10 sep 2008 at 9:08

X Value

Statdisk - Explore DataPrinted on Mer 10 sep 2008 at 9:08

22

Plans d’échantillonnage• Principalement pour organismes fixes (ou localités, ...)

• Echantillonnage aléatoire : représentatif

• Aléatoire : chaque membre de la population a la même probabilité d’être choisi

• Aléatoire simple : chaque échantillon de taille n a la même probabilité d’être choisi. Condition pour de nombreux tests

23

• Echantillonnage systématique : mieux avec des informations supplémentaires (nombre total, organisation spatiale)

• Risque (faible) de coïncider avec une périodicité naturelle

24

• Echantillonnage aléatoire stratifié : échantillonnage aléatoire au sein de zones définies (strates), souvent selon des caractéristiques définies (âge, sexe, végétation, ...)

25

• Echantillonnage en grappe

• Division de la population en sections (grappes)

• Sélection aléatoire des grappes

• Choix de tous les membres des grappes sélectionnées

26

• Echantillonnage opportun

• En fonction des circonstances

• Sur les objets faciles à obtenir

• Exemple : réponses seulement de ceux qui participent de façon active à un sondage

• Pas un bon plan d'échantillonnage !

27

Plans d’expérience• Méthode expérimentale

• Travail sur un système simplifié dont on étudie la réponse à la variation de peu de facteurs à la fois

• Important : rigueur

• Construction : hypothèse nulle et hypothèse contraire

• Répondre spécifiquement à une question (critère de validité générale)

• Minimiser l’erreur de Type I

• Application : analyse de variance (ANOVA)

28

Concepts

• Elément d’observation

• Sur lequel on fait les mesures de la (des) variable(s)

• Ex : individus, quadrats, ...

• Unité d’expérimentation

• Contient les éléments

• Reçoit le traitement

• Ex : parcelle, bassin, ...

29

• Facteur : plusieurs valeurs possibles

• Niveaux ou traitements

• Contrôle

• Groupe non traité

• Traitement (placebo, manipulation seule, ...)

• Bloc

• Groupe d’unités d’échantillonnage, défini a priori

30

• Expérience de mesure d’un phénomène naturel

• En milieu naturel : pas (peu) de contrôle des variables

• Mesure du profil de variabilité du phénomène

• Expérience contrôlée

• Utilisation de traitements contrôlés

• Réduction de l’influence des autres facteurs

• Elimination

• Constance

• Inclusion dans l’analyse

31

• Répétition (= replication)

• Mesure de la variabilité du système (répétitions biologiques, pas techniques)

• Pseudoréplication

• Due à la non-indépendance des observations, qui ne sont pas alors de “vrais réplicats”

➡Validité générale

• Variations dues exclusivement au facteur étudié

➡Validité externe

• Généralisation à d’autres systèmes

• Simplification pas trop importante

32

Aléatoire

Blocs randomisés

Systématique

Ségrégation simple

Ségrégation agrégée

Ségrégation isolative

Répétitions physiquement interdépendantes

Pas de répétitions

33

Tests statistiques• Important de bien définir l’hypothèse nulle (H0)

• La seule que l’on étudie = hypothèse principale

• Contient généralement "="

• La statistique testée possède une distribution connue

• Hypothèse contraire (H1 ; "hypothèse alternative")

• Contient généralement "≠", ">"ou "<"

• On ne peut la prouver, elle est plausible si H0 est rejetée

• Grande importance de l’hypothèse biologique

34

Conditions• En général 3 conditions pour un test :

• Loi (Normale, Student, F, ...)

• Indépendance des observations

• Homogénéité des variances (homoscédasticité)

• Loi de distribution théorique générée à partir des processus naturels, sous certaines conditions : probabilité d’apparition de toutes les valeurs d’une variable

Besoin de tester la distribution observée sur l’échantillon (impossible sur la population)

35

• Erreur de Type I (α) : probabilité de se tromper en rejetant H0 (donc H0 est vraie). Seuil fixé

• Robustesse d’un test : sensibilité aux conditions d’applications

• Un test est robuste s’il fonctionne bien même quand les conditions nécessaires à son fonctionnement ne sont pas optimales

• Puissance d’un test : capacité à mettre en évidence de petites différences

• Aptitude à rejeter H0 lorsqu’elle est fausse (= 1 - ß

(erreur de Type II))

• Fonction de : test, nombre d’observations, variance, α

36

H0 H1

37

• Test : calcul d’une statistique-test (ou variable auxiliaire, p. ex. t ou F - voir plus loin) à l’aide des données

• On peut calculer (logiciel) la probabilité d’obtenir cette valeur (ou une valeur plus extrême) dans le cas où H0 est vraie : c’est la p-value, P

• Interprétation en terme de rejet ou non de H0, en fonction du seuil α choisi, généralement 0,05 (5 %) :

• P > 0,05 : non rejet de H0

• P ≤ 0,05 : rejet de H0

p-value ("valeur-p")38

Puissance d’un test : n optimal

• Question récurrente : de combien d’objets (observations, prélèvements, ...) a-t-on besoin pour établir une différence significative, s’il y en a une ?

• Exemple : utilisation de la statistique-test t

• Il faut d’abord estimer la variance et avoir une idée de l’écart entre populations (étude préalable)

• Utilisation de la formule de t pour trouver le n nécessaire à mettre en évidence un écart significatif défini à l’aide de la valeur critique de t

39

• Importance de l’amplitude de la différence entre la vraie valeur du paramètre testé et sa valeur supposée par hypothèse

• On affine la puissance (en modifiant α, n, ...) en fonction de l’écart choisi (qui dépend du degré de précision souhaité)

• Exemple : si la vraie valeur est 0,5, un test plus puissant est nécessaire pour identifier comme significativement différente de celle-ci une valeur mesurée de 0,501 qu’une valeur de 0,6

• On cherche souvent à obtenir une puissance de 0,8 : 80 % de chance de prendre la bonne décision de rejeter une hypothèse nulle fausse

40

• Dépend de la formulation de H1 : hypothèse biologique

• Unilatéral : la différence est attendue dans un certain sens (> ou <).

• Bilatéral : on cherche seulement à savoir s’il y a une différence, quel qu’en soit le sens.

• Valeurs critiques différentes (dans les tables statistiques) : seuils à partir duquel on rejette H0

➡Différence au niveau de la puissance

Test unilatéral ou bilatéral41

42

• But du test : savoir si on doit rejeter ou non H0

• Risque d’erreur due à la variabilité des observations

• Référence à une distribution, dans laquelle se place la statistique (= paramètre) testée

• Loi de distribution théorique

• Exemple de la loi Normale : tests paramétriques

• Génération empirique de la distribution

• Tests par permutations

• Pas de distribution

• Tests non paramétriques

43

• Les tests non paramétriques sont basés sur la notion de rang

• Permettent de mettre en évidence des relations monotones

• Pour 2 variables : augmentation ou diminution constante d’une variable quand l’autre augmente

monotones non monotone

44

• 20 individus en 2 groupes de 10 ; variable = taille

• Question : la taille moyenne est-elle différente dans chaque groupe ?

• H0 : la taille moyenne est la même

• Statistique testée (= variable auxiliaire) : différence entre les moyennes

• Sous H0, elle devrait se situer “autour de 0”

Test par permutations : exemple

45

• N’importe quelle combinaison aléatoire de 2 groupes de 10 parmi les 20 individus correspond à une réalisation de H0

• Chacune de ces réalisations va donner une différence de moyenne entre les deux groupes plus ou moins grande

• Un grand nombre de ces réalisations permet de générer une distribution de la statistique sous H0

• Ces réalisations sont obtenues en permutant au hasard les données originales : test par permutations

• On compare ensuite la valeur observée de la statistique à cette distribution

46

t* < –!t! t* = –!t! –!t!< t* <!t! t* = !t! t* > !t!Statistic t 8 0 974 1† 17

47

Distribution théoriques

• Variables discontinues

• Loi binomiale

• Loi de Poisson

• Variables continues

• Loi Normale

• Loi du Khi-2 (X2)

• Loi de Fisher

• Loi de Student

48

• Distribution la plus importante : distribution Normale (= Gaussienne)

• Théorème de la limite centrale (central limit theorem)

• “Quand une variable aléatoire résulte de nombreux effets indépendants et additifs, dont aucun n’est dominant, cette variable tend à suivre une distribution normale, même si les effets ne suivent pas une telle distribution”

• Souvent le cas dans la nature

49

• Normalité : évaluation visuelle de la distribution des données

• Histogramme : “en cloche”

• Graphe quantile-normale (= quantile-quantile) : points en ligne droite

• Mieux pour petits échantillonsStatdisk - Normal Quantile PlotPrinted on Mar 9 sep 2008 at 14:40

X Value

50

Tests de normalité

• A faire avant d’utiliser les tests paramétriques

• Exemple : test de Shapiro-Wilk, Kolmogorov-Smirnov, …

• H0 : Distribution normale

• Données multinormales : test de multinormalité

• Test de Dagnelie

51

Transformations

• Beaucoup de méthodes d’analyse statistiques requièrent que les données suivent une certaine distribution, notamment la distribution Normale

• Si la distribution n’est pas normale

• Méthodes non-paramétriques

• Transformation des données : normalité

• Autre intérêt : stabilisation des variances (doivent être indépendantes des moyennes)

52

Exemples

• Données d’abondance

• Distribution asymétrique

• Distribution de Poisson

• Distribution contagieuse

• Données en proportions ou pourcentages

53

• Transformation Logarithme

• y’ = ln(y + c)

• Distributions contagieuses

54

• Transformation racine

• y = √(y + c)

• Distributions de Poisson : variance = moyenne

55

• Transformation arcsinus

• y = arcsin√p

• Distributions en proportions

56

• Transformation Box-Cox

• Formule générale

• Quand tout le reste a échoué

• Pas calculable à la main : technique itérative

57

Choix d’une méthode• 1 variable

• 2 groupes : test t, test U, ...

• > 2 groupes : ANOVA, ANCOVA, test de Kruskal-Wallis, ...

• 2 variables

• Liaison : corrélation, test du Χ2

• Modèle : régression simple

• > 2 variables

• Description : ordination sans contrainte, groupement

• Test : test de Mantel, régression multiple, analyse canonique, MANOVA

58

2. COMPARAISON DE

DEUX GROUPES

59

• Il existe des tests spécifiques pour

• comparer des proportions

• comparer des moyennes

• Données par paires ou non

• Nécessite éventuellement de comparer préalablement les variances

• Des conditions d’applications doivent être respectées pour réaliser les tests

60

• 2 échantillons aléatoires simples indépendants (pas de correspondances entre les valeurs des 2 groupes)

• Pour chaque groupe d’effectif ni on a xi succès, et donc une proportion pi = xi/ni

• Test de l’hypothèse nulle p1 = p2

• Condition : xi et (ni - xi) ≥ 5

• On peut avoir à calculer les xi à partir de pi et ni

Comparaison de 2 proportions 61

• Estimation combinée de p1 et p2, notée p

• p = (x1 + x2)/(n1 + n2)

• et q = 1 - p

• Calcul de la statistique test z

• z = (p1 - p2)/√(p.q/n1 + p.q/n2)

• Sous H0, z suit une loi Normale (table de Student avec un nombre infini ("grand") de ddl)

• On peut calculer l’intervalle de confiance de p1 - p2

62

• Quand il ne s’agit pas de proportions :

• 2 groupes d’observations indépendantes : 2 échantillons pouvant être

• Indépendants

• Appariés

• H0 : Les 2 groupes sont issus de la même population,

avec donc la même moyenne

• 2 étapes :

• Comparaison des variances

• Comparaison des moyennes

63

• Important de tester préalablement l’homogénéité des variances car c’est une condition d’application de certains tests (tests paramétriques)

• Sinon, en cas d’hétéroscédasticité : test simultané de 2 hypothèses nulles

• Problème de Behrens-Fisher

➡Le rejet de H0 peut être due à la différence des

moyennes (la seule hypothèse qu’on veut tester) ou à celle des variances

64

• Test de Fisher-Snedecor (test F), pour données quantitatives normalement distribuées

• Statistique F : rapport des variances, tenant compte du nombre d’objets par groupes par l’intermédiaire des degrés de liberté

• Si égalité des variances, F doit se situer autour de 1

• La variable F obéit à une loi de distribution de F

Comparaison de 2 variances65

• Pour 2 groupes à n1 et n2 objets

F = s21/s2

2

• Sous H0, F suit une loi à (n1 - 1) et (n2 - 1) ddl

• Conditions


• Normalité des données

66

67

• Souvent, les tables ne donnent que les valeurs critiques de F dans la droite de la distribution

• F = plus grande variance/plus petite variance

• Test unilatéral (souvent) ou bilatéral

• On peut également tester les écarts-types par un test F

• Il existe un test non paramétrique permettant de comparer 2 variances en cas de non normalité : test de Fligner-Killeen

68

Comparaison de 2 moyennes• Test t

• Pour échantillons appariés ou non appariés

• Test statistique

• Paramétrique : référence à la loi Normale

• Comparaison de |t| au seuil dans une table de Student

• Par permutations

• Tests non paramétriques

• Test U de Wilcoxon-Mann-Whitney (échantillons non appariés)

• Test des rangs signés de Wilcoxon (échantillons appariés)

69

• Parfois appelé test Z

• H0 : µ1 = µ2

• Statistique t : différence des moyennes des deux échantillons tenant compte des variances et des n différents

• t suit une loi de distribution de Student à n1+n2-2

degrés de liberté sous H0

Test t pour échantillons indépendants70

• Conditions d’utilisation

• Variable quantitative

• Grands échantillons (ni >30)

• Normalité des données (sauf si test par permutations)

• Egalité des variances (homoscédasticité)


71

• Quand ni < 30 (et en fait le plus souvent), on

utilise une statistique t corrigée

• Les variances estimées des 2 échantillons sont combinées : meilleure approximation de la variance de la population

• Test t de certains livres/logiciels

72

• Si les variances sont inégales, il existe également une correction

• Test t modifié selon Welch

• Même calcul de la statistique-test

• Distribution différente : formule pour modifier le nombre de ddl

73

Test t pour données appariées

• Correspondance 2 à 2 des observations

• Mesures avant-après des mêmes sujets

• Mesures de deux caractères sur les mêmes individus

• Informations supplémentaires

• Pas nécessaire de tester l’homogénéité des variances

• Analyse des différences observées pour chaque paire d’observations

di = xi1 - xi2

74

• Moyenne des différences = différences des moyennes

µd = µ1 - µ2

• Erreur-type (écart-type de la moyenne)

sd = sd/√n

• Statistique-test

t = d/sd

• Sous H0 (µd = 0), t obéit à une loi de Student à (n - 1)

ddl, où n est le nombre de paires

75

• Pour deux groupes indépendants

• Données quantitatives

• Distribution non normale

• Variances inégales

• Echantillons trop petits pour test t (ex : n = 3)

• Données semi-quantitatives

• Moins puissants que les tests paramétriques

• Efficacité (/test t) = 0,95 : pour obtenir la même puissance, il faut 100 observations au test U contre 95 au test t

• Basé sur les rangs

Test non paramétrique U de Wilcoxon-Mann-Whitney

76

• On place l’ensemble des valeurs en ordre (les ex-aequos reçoivent un rang médian)

• Plus les groupes sont séparés, moins les valeurs seront entremêlées

• Le test consiste à estimer l’écart à un “entremêlement moyen” des valeurs placées en rang

• La statistique testée, U, mesure le degré de mélange des deux échantillons (H0 : pas de différence)

• Comparaison de la valeur observée par rapport à la valeur critique (Table)

• Convergence vers une loi Normale quand n augmente

77

• Exemple

Groupe 1 : 0,5 2 2,1 (n1 = 3)

Groupe 2 : 0,7 2,2 3 3,1 (n2 = 4)

Valeurs en ordre 1 2 3 4 5 6 7

Provenance 1 2 1 1 2 2 2

• U1 : nombre de fois qu’un élément du groupe 2 en

précède un du groupe 1 ; U1 = 0 + 1 + 1 = 2

• U2 : l’inverse ; = 1 + 3 + 3 + 3 = 10

78

• Il y a en tout n1n2 comparaisons : 4 x 3 = 12

U2 = n1n2 - U1

• Si les groupes sont parfaitement séparés

U2 = 0 et U1 = n1n2 , ou l’inverse

• Si les groupes sont parfaitement entremêlés

U1 = U2 = n1n2/2

• Tester H0 revient à mesurer l’écart du plus petit des U

à la valeur n1n2/2 (valeur sous H0)

• Statistique-test = min (U1, U2)

79

Test non paramétrique de Wilcoxon

• Pour données appariées

• Mêmes conditions que pour le test U

• Efficacité (/test t) = 0,95

• Plus puissant que le test des signes (non développé) : Efficacité (/test t) = 0,63

• Etude des différences entre paires de données

• H0 : pas de différence entre les moyennes des groupes

80

• On place en rang les valeurs absolues des différences (en excluant les valeurs nulles et en donnant un rang médian en cas d’ex-aequo)

• On attribue à chaque rang le signe de la différence originale

• On somme les rangs positifs (T+) et les rangs négatifs (T-)

• Sous H0, T+ = T- = n(n + 1)/4 (n excluant les

différences nulles)

• Statistique-test = min (T+, T-)

81

Comparaison de 2 groupesDonnées normales ?

Homoscédasticité

Test tparamétriquepermutation

Hétéroscédasticité

Homogénéiserles variances

Test F

Oui

Normaliser

Non

Succès

Succès

ni > 50 ?

OuiNon

Test tWelch

Echec

ni > 50 ?

Oui

Test tpermutation

Non

Homoscédasticité

Oui Non

Test U(ou si variables semi-

quantitatives)

Echec

ni petit

(pour des échantillons non appariés)

82

Risque relatif (RR) et Rapport de cotes (RC)

• Mesures de risque

• Mesure de l'efficacité d'un traitement dans un groupe traité (ou exposé) par rapport à un groupe non traité

• Exemple : rapport entre le nombre de sujets développant une pathologie dans un groupe recevant un médicament et ce nombre dans un groupe contrôle

• Très important en santé humaine et en épidémiologie, dans le cadre d'études prospectives et rétrospectives

83

• Tableau d'une étude prospective ou rétrospective

• RR = (a/(a+b)/(c/(c+d)), que pour études prospectives

• RC = (a/b)/(c/d) = ad/bc

• Si RR ou RC = 1, le traitement n'a pas d'effet, sinon il en a un (dans un sens ou l'autre)

• Possibilité de calcul d'un intervalle de confiance

Maladie Pas de maladie

Traité (exposé) a b

Non traité (ou placebo ou non exposé) c d

84

Risque relatif• RR = relative risk

• Incidence d'un événement dans un groupe/incidence du même événement dans un autre groupe

• Exemple : survenue d'une maladie dans un groupe vacciné et un groupe témoin non vacciné

• RR = chance de tomber malade dans le groupe traité par rapport à cette chance dans le groupe témoin

• Souvent incidence dans groupe témoin pas connue : calcul du RC, qui estime bien le RR

85

Rapport de cotes

• RC = odds ratio

• Cote = nombre de fois qu'un événement s'est produit dans un groupe/nombre de fois où il ne s'est pas produit. Exemple : 3 contre 1

• En sciences de la santé : comparaison du risque (par exemple de développer une maladie) entre les individus traités et les individus contrôles

• RC = Probabilité pour le groupe traité (ou exposé) / Probabilité pour le groupe contrôle

86

3. COMPARAISON DE

PLUS DE DEUX GROUPES

87

• La comparaison de moyennes de plus de deux échantillons se fait généralement par une analyse de variance (ANOVA)

• L’analyse de variance suppose l’homogénéité des variances et la normalité des données

• Sinon : problème de Behrens-Fisher (test simultané de 2 hypothèses nulles)

• Si ces conditions ne peuvent être atteintes par des transformations, il faut utiliser d’autres méthodes

• Les tests d’homogénéité des variances (THV) requièrent la normalité des données

88

THV : Test de Bartlett

• Données normalement distribuées (sinon le test de Fligner-Killeen est utilisable)

• H0 : toutes les variances sont égales

• H1 : au moins une des variances est différente

• Test d’une variable auxiliaire (statistique-test) B qui suit une loi du χ2 sous H0 (test unilatéral)

89

• En divisant B par CB, on obtient une statistique

suivant une loi du χ2 à (k - 1) ddl : test

avec

90

• k groupes indépendants d’observations

• Comparaison des moyennes (par l’intermédiaire des variances totale, intergroupe et intragroupe)

• H0 : Les moyennes des k groupes sont égales

• H1 : Au moins une des moyennes est différente

(l’ANOVA ne dit pas la- ou lesquelles)

Analyse de variance (ANOVA)

91

• On ne peut pas remplacer une ANOVA par une série de tests t : inflation de l’erreur de Type I (problème des tests multiples)

• Les groupes sont définis par un ou plusieurs critère(s) de classification ou facteur, contrôlé ou aléatoire

• Conditions d’application

• Variable quantitative

• Normalité (”équivalents NP” : Test de Kruskal-Wallis, Friedman, ...)

• Homoscédasticité


• n ≥ 5 observations/groupe

92

• Le cas échéant, pour savoir à quelle(s) moyenne(s) est due le rejet de H0 : tests a posteriori

• Test LSD (Least Significant Difference, Fisher)

• Test HSD (Honestly Significant Difference, Tukey)

• Test SNK (Student, Newmann, Keuls)

• Test de Scheffé

• Test de Dunnet (pour comparer groupe témoin aux autres)

• Diffèrent entre eux et du test t par leur définition de l’erreur de Type I

• Souvent réalisés dans la foulée par les logiciels

93

Différentes formes d’ANOVA1 2 3 4 5

X X X X XX X X X XX X X X XX X X X XX X X X XX X X

ANOVAà 1 facteur

1 2 3 4

A

X X X XX X X XX X X XX X X XX X X X

B

X X X XX X X XX X X XX X X XX X X X

ANOVA à 2 facteurs croisésavec répétitions

1 2 3

A B C D E F

X X X X X X

X X X X X X

X X X X X X

X X X X X X

X X X X X X

ANOVAhiérarchique

1 2 3 4

A X X X X

B X X X X

C X X X X

ANOVAà 2 facteurs

croisés

94

• Avec > 2 facteurs : ANOVA multifactorielle

• Implique de nombreuses possibilités d’interactions entre les facteurs. A définir a priori

• Mêmes principes que ANOVA factorielle

• Avec plusieurs variables : analyse de variance multivariable ou MANOVA

• Généralisation de l’ANOVA “univariable”

• Les variables doivent être pas ou peu corrélées

ANOVA à > 2 facteurs et/ou avec plusieurs variables

95

ANOVA à 1 facteur

• 1 variable

• k groupes (k > 2), définis par 1 critère

• Exemple

• variable = croissance d’une plante

• critère = différentes intensités lumineuses

• Facteur contrôlé (“expérimental”) ou aléatoire (“naturel”)

96

• Sources de variation : décomposition de la variance totale

• Dispersion totale SCET : SCE par rapport à la moyenne générale

• Dispersion intragroupe SCEE, due aux “erreurs” : somme des SCE pour chaque groupe par rapport à sa propre moyenne

• Dispersion intergroupe SCEI : SCE des moyennes des groupes par rapport à la moyenne générale (pondération : SCE multipliés par le nombre d’éléments par groupe)

97

X

XXX

SCEE2SCEE1

SCEE3

SCEE = SCEE1 + SCEE2 + SCEE3

SCET

Cas où H1 est vraie : il y a une différence entre les groupes

On peut montrer que SCET = SCEE + SCEI

SCEI

Représentation graphique

X

SCEE2SCEE1 SCEE3

SCET

Cas où H0 est vraie : pas de différence entre les groupes

XXX

SCEI

98

• Pour calculer les variances (= carrés moyens), il faut diviser les SCEE par les nombres de ddl correspondants

• SCET : n - 1 ddl, donc S2T = SCET/(n - 1)

➡Variance totale

• SCEE : (n1 - 1) + (n2 - 1) + ... + (nk - 1) = n - k ddl,

donc S2E = SCEE/(n - k)

➡Variance due aux “erreurs” = variance résiduelle : variabilité naturelle, “toujours là”

• SCEI : k - 1 ddl, donc S2I = SCEI/(k - 1)

➡Variance intergroupe = variance factorielle : effet éventuel du facteur

99

• Si H0 est vraie (pas d’effet du facteur) : S2E et S2

I sont

deux estimations indépendantes de la fluctuation aléatoire σ2 (S2

T en est également une)

• Sous H0, chaque groupe est un échantillon d’une

population, sa variance est donc une estimation de σ2. La moyenne pondérée des variances de tous les groupes en est une estimation encore meilleure : S2

E

• Sous H0, les moyennes de chaque groupe estiment la

moyenne de la population, µ, et la variance calculée à partir de la dispersion des moyennes est une estimation de σ2 : S2

I

100

• Si H0 n’est pas vraie (il y a un effet du facteur)

• S2E reste une estimation de σ2 (d’où l’importance

de l’homogénéité des variances !)

• S2I n’est plus une estimation de σ2, mais elle est

nécessairement plus grande car la distribution d’échantillonnage des moyennes (différentes si H0

n’est pas vraie) est plus large que celle de µ

101

• Donc sous H0 , S2I/S

2E ≈ 1

• On teste ce rapport avec une statistique F à (k - 1) et (n - k) ddl

• Test unilatéral

• L’ANOVA ne dit pas quelle moyenne est différente

Test102

Test de Kruskal-Wallis

• Equivalent non paramétrique de l’ANOVA à 1 facteur

• Efficacité (/ANOVA) = 0,95

• Distribution non Normale

• Variances inégales

• Petits groupes

• Variable semi-quantitative

• Généralisation du test U

103

• Les valeurs sont toutes mélangées et placées en rang

• Pour chaque groupe, on somme les rangs : Rj

• Pour les k groupes, on obtient k valeurs de Rj

• Statistique-test

Hc = 12/(n(n+1))Σ(Rj2/nj) - 3(n + 1)

• Sous H0 la statistique-test suit une loi du χ2 à (k - 1)

ddl

Principe104

• Il existe une correction pour les ex-aequo (plusieurs données égales donc de même rang)

• Utilisation d’une statistique corrigée

Hcorr = Hc/C

• avec C = 1 - (Σ(exl3 - exl)/(n

3 - n))

• où exl est le nombre d’individus ex-aequo

pour la valeur l

• la somme se fait sur le nombre de groupes d’ex-aequo

105

• Tests post-hoc (a posteriori) pour comparer les groupes 2 à 2 :

• Test de Dunn (1963)

• Test de Conover-Iman (1999) (plus puissant que celui de Dunn)

• Test de Nemenyi (1963) si les n sont égaux

106

ANOVA à 2 facteurs croisés

• Groupes identifiés par 2 critères de classification indépendants, à r et s niveaux

• Dans ce cas, on considère une seule observation par combinaison de niveaux

• On peut tester l’effet de chaque facteur, car chacun comprend des répétitions

1 ... ... r

1 X X X X

... X X X X

s X X X X

A

B

107

Exemple

• On veut connaître l’effet de la température (4 températures différentes) et de la profondeur (5 profondeurs) sur la productivité du phytoplancton. On prélève pour cela un échantillon d’eau par profondeur dans 4 masses d’eau de températures différentes

• Variable : productivité (µg chl a/mg)

• Facteur A : température

• Facteur B : profondeur

108

• Test de 2 hypothèses nulles

• Les moyennes sont identiques selon le facteur A

• H0 : µ1. = µ2. = µ3. = µr.

• Les moyennes sont identiques selon le facteur B

• H0 : µ.1 = µ.2 = µ.3 = µ.s

• Hypothèses contraires correspondantes : au moins une des moyennes est différente des autres

109

• Sources de variation

• Dispersion totale SCT : SCE par rapport à la moyenne générale

• Dispersion selon le facteur A : SCEA = SCE des moyennes des groupes de A par rapport à la moyenne générale

• Dispersion selon le facteur B : SCEB = SCE des moyennes des groupes de B par rapport à la moyenne générale

• Dispersion résiduelle SCEE : dispersion totale SCET moins celle due aux facteurs A et B

110

• Pour calculer les variances, il faut diviser les SCE par les nombres de ddl correspondants

• SCEA : (r - 1) donc S2A = SCEA/(r - 1)

• SCEB : (s - 1) donc S2B = SCEB/(s - 1)

• SCEE : (r - 1)(s - 1) donc S2E = SCEE/(r - 1)(s - 1)

• Tests

• H0A : F = S2A/S2

E avec (r - 1) et (r - 1)(s - 1) ddl

• H0B : F = S2B/S2

E avec (s - 1) et (r - 1)(s - 1) ddl

111

Test de Friedman• Appelé aussi Méthode de Friedman pour blocs

randomisés

• Equivalent non-paramétrique de l’ANOVA à 2 facteurs sans répétitions

• Pas de présupposé sur la distribution

• Pour variables quantitatives ou semi-quantitatives

• Moins puissant que l’ANOVA

• Deux hypothèses nulles : moyennes égales selon chaque facteur

112

• Principe

• Le test doit être conduit deux fois : une fois pour chaque facteur A et B, à a et b niveaux (ex. pour A)

• Placer les valeurs selon le facteur A en rangs dans les niveaux (qui jouent le rôle de blocs) du facteur B

• Sommer les rangs selon les niveaux : (ΣbRij)

• Calculer X2 = ((12/(ab(a + 1))Σa(ΣbRij)2) - 3b(a + 1)

• Cette valeur suit une loi du χ2 à (a - 1) ddl sous H0

• Idem pour B

113

ANOVA à 2 facteurs avec répétitions

• Permet de tester en plus l’interaction entre les 2 facteurs

• Interaction : influence du niveau d’un facteur sur l’effet de l’autre facteur sur la variable dépendante

1 ... ... r

1

1 1 1 1

... ... ... ...t t t t

...

1 1 1 1

... ... ... ...t t t t

s

1 1 1 1

... ... ... ...t t t t

A

B

114

Exemple

• On cherche à évaluer les effets de la dose d’un médicament et de l’âge sur le rythme cardiaque de patients. On veut en outre savoir si l’effet éventuel du médicament diffère selon l’âge.

• Variable : rythme cardiaque au repos

• Facteur A : dose de médicament

• Facteur B : catégorie d’âge

• Effet différentiel selon l’âge (ou l’inverse) : interaction A X B

115

• Effets des facteurs et de l’interaction

50

85

120

Jeune Adulte Âgé

Dose forteDose faible

Var

: Ryt

hme

card

iaqu

e

A : médicament

B : âge

Pas d’effet

50

85

120

Jeune Adulte Âgé

Effet de A

50

85

120

Jeune Adulte ÂgéEffet de B

50

85

120

Jeune Adulte ÂgéEffet de A et B

116

50

85

120

Jeune Adulte Âgé

Dose forteDose faible

• La présence d’une interaction rend complexe l’étude de l’effet des facteurs individuels

• Dans ce cas, ceux-ci doivent être étudiés plus précisément, ou non considérés

Var

: Rhy

tme

card

iaqu

eA : médicament B : âge

Interaction + effet de A

50

85

120

Jeune Adulte Âgé

Interaction et pas d’effet de A et B

117


• Les moyennes sont identiques selon le facteur A

• H0 : µ1. = µ2. = µ3. = µr.

• Les moyennes sont identiques selon le facteur B

• H0 : µ.1 = µ.2 = µ.3 = µ.s

• Les facteurs A et B n’interagissent pas sur la variable

118

• Sources de variation

• Dispersion selon le facteur A : SCEA = SCE des moyennes des groupes de A par rapport à la moyenne générale

• Dispersion selon le facteur B : SCEB = SCE des moyennes des groupes de B par rapport à la moyenne générale

• Dispersion cellulaire SCEC : au sein des cases du tableau

• Dispersion due à l’interaction SCEAB

• Dispersion résiduelle SCEE : dispersion totale SCET moins SCEC

119

• Variances : division par les ddl

• SCEA : (r - 1) donc S2A = SCEA/(r - 1)

• SCEB : (s - 1) donc S2B = SCEB/(s - 1)

• SCEAB : (r - 1)(s - 1) donc S2AB = SCEAB/

(r - 1)(s - 1)

• SCEE : rs(t - 1) donc S2E = SCEE/rs(t - 1)

120

• Tests

• H0A : F = S2A/S2

E avec (r - 1) et rs(t - 1) ddl

• H0B : F = S2B/S2

E avec (s - 1) et rs(t - 1) ddl

• H0AB : F = S2AB/S2

E avec (r - 1)(s - 1) et rs(t - 1)

ddl

121

Tableau d’ANOVA

Source ddl Somme des carrés

Carré moyen

F Probabilité

A 2 181,32 90,66 9,483 0,0004

B 1 16,64 16,64 1,74 0,194

A X B 2 23,93 11,96 1,251 0,297

Erreur 42 401,52 9,56

• Exemple pour deux facteurs à 3 et 2 niveaux, et 8 répétitions par niveau

122

Test de Scheirer-Ray-Hare• Equivalent non-paramétrique de l’ANOVA à

deux facteurs avec répétitions

• Extension du test de Kruskal-Wallis (mêmes conditions)

• Parfois appelé test H

• Test de l’effet de chaque facteur et de l’interaction

• Facteur A, à a niveaux, facteur B à b niveaux, n répétitions par combinaison de niveaux

123

• Placer l’ensemble des valeurs en rang

• Remplacer les valeurs originales par leurs rangs

• Effectuer une ANOVA factorielle sur ces rangs, on obtient pour chaque facteur les SCE

• Calculer le carré moyen CM = abn(abn + 1)/12

• Pour chaque facteur et l’interaction, calculer les statistiques H, telles que H = SCE/CM

• Sous H0 les statistiques-test suivent une loi du χ2 à un

nombre de ddl correspondant au SCE testé

Principe 124

ANOVA hiérarchique

1 ... a

1 ... b 1 ... b 1 ... b

1 1 1 1 1 1 1 1 1

... ... ... ... ... ... ... ... ...

n n n n n n n n n

• Extension de l’ANOVA à 1 facteur

• Niveaux emboîtés (nested) = hiérarchisés

• Pas de correspondances entre les modalités des facteurs

125

Exemple• Prélèvement et mesure de la taille de plantes dans

12 localités réparties également dans 3 chaînes de montagnes

• Variable : taille (pouvant faire l’objet de n répétitions par localité)

• Facteur A : chaîne (3 niveaux)

• Facteur SG = sous-groupe : localités (4 niveaux)

• Les facteurs sont emboîtés : la localité 1 de la chaîne 2 n’a pas de rapport avec la localité 1 des deux autres chaînes

126


1. Les moyennes sont identiques selon le sous-facteur SG dans les niveaux du facteur A

2. Les moyennes sont identiques selon le facteur A

• Les hypothèses sont testées dans cet ordre

127

• Tests

• Effet des sous-groupes

H0SG : F = S2

SG/S2E avec a(b-1) et ab(n-1) ddl

• Effet du facteur proprement dit, tenant compte de l’effet des sous-groupes

H0A : F = S2

A/S2SG avec (a-1) et a(b-1) ddl

128

ANOVA : modèles I, II et III (= modèle mixte)

• Fonction du caractère contrôlé (niveaux fixés par l'expérimentateur) ou aléatoire (niveaux choisis au hasard parmi une gamme de possibilité) des facteurs (= critères de classification)

• Ce qu'on a vu jusque là est l'ANOVA de modèle I : 2 facteurs contrôlés

• ANOVA de modèle II : 2 facteurs aléatoires

• ANOVA de modèle III (ou mixte) : 1 facteur contrôlé et 1 facteur aléatoire

129

• Pas toujours aisé de différencier un facteur fixe d'un facteur aléatoire : il faut savoir si on considère les niveaux comme un échantillon aléatoire d'un groupe plus vaste (exemple : quelques années sur une longue période)

• Modèle II rarement rencontré en biologie

• Tous les calculs des SCE. restent les mêmes, ce sont les calculs des F qui changent

• L'estimation de l'effet d'un facteur doit tenir compte du caractère aléatoire de l'autre facteur le cas échéant, par l'intermédiaire de l'effet de l'interaction

130

• Modèle mixte (III) avec facteur A contrôlé et B aléatoire :

• H0A : F = S2A/S2

AB avec (r - 1) et (r - 1)(s - 1) ddl

• H0B : F = S2B/S2

E avec (s - 1) et rs(t - 1) ddl


E avec (r - 1)(s - 1) et rs(t - 1) ddl

131

• Modèle II avec facteur A et B aléatoires :

• H0A : F = S2A/S2

AB avec (r - 1) et (r - 1)(s - 1) ddl

• H0B : F = S2B/S2

AB avec (s - 1) et (r - 1)(s - 1) ddl


E avec (r - 1)(s - 1) et rs(t - 1) ddl

132

Comparaison de > 2 groupesDonnées normales ?

Test non paramétrique(K-W, Friedman, ...)

ni > 145 ?

Homoscédasticité

ANOVA

Hétéroscédasticité

Homogénéiserles variances

Test d’homogénéitédes variances

Oui

Normaliser

Non

Oui

Non

Echec

Succès

Echec

Succès Echec

ni petit

133

4. LIEN ENTRE VARIABLES :

CORRÉLATION

134

• 2 variables mesurées sur les mêmes objets

• Analyse simultanée des variables

• Au moins une des 2 variables doit être aléatoire

Etude de 2 variables135

• Covariance : dispersion de 2 variables quantitatives

• “Variance” de 2 variables simultanées

• Non bornée

• Peut être négative

• Pas d’indication sur la liaison

Etude de la liaison entre 2 variables :

covariance et corrélation

136

y

x

A

B

Covariances différentes

Avec ν = nombre de ddl (généralement (n-1))

137

• Mesure de la liaison linéaire entre 2 variables : corrélation linéaire de Pearson

• Covariance sur données centrées-réduites

• Même signe que la covariance

• Varie entre -1 et 1

rxy = Sxy/(SxSy)

y

x

A

B

Corrélations identiques

138

• Test de signification de la corrélation

• Variables quantitatives

• Distribution binormale


• H0 : corrélation nulle dans la population de

référence

• Variables auxiliaires F ou t (test de Student n-2 ddl)

• On peut tester r par permutations

• Test unilatéral ou bilatéral

• Corrélation ≠ causalité

139

Test de H0 : r = x (x ≠ 0)

• Test habituel H0 : r = 0 ; recherche d’un lien

• Parfois, l’hypothèse biologique est différente

• Relations allométriques

• “Lois” métaboliques : BMR vs densité, ...

• Relations prédateurs-proies

• r varie entre -1 et 1 : distribution symétrique autour de 0

• Besoin d’une transformation pour H0 : r = x (≠ 0)

140

Transformation• Transformation de Fisher

z = 0,5ln((1 + r)/(1 - r)) = tgh-1r

(arc-tangente hyperbolique)

• Distribution de -∞ à +∞

• Opérations sur données transformées puis, si besoin, retour aux vraies valeurs par tgh

• On obtient un intervalle de confiance du r

• Valable pour n > 50 (25 à la rigueur)

• Correction pour les petits échantillons

141

Test

• Transformation de la valeur observée de r en z

• Transformation du r de l’hypothèse nulle (ρ0) en ζ0

• On construit une statistique-test appelée t∞

t∞ = |(z-ζ0)√(n-3)|

• La statistique-test suit à peu près une distribution normale centrée-réduite

142

Corrélation non paramétrique

• Quand les données ne suivent pas une distribution binormale

• Pour variables semi-quantitatives

• Basée sur les rangs

• Il existe des corrections pour les ex-aequo

143

• ρ de Spearman

• Equivalent au r de Pearson calculé sur les rangs des variables originales

• Efficacité (/r) = 0,91


Avecd = différence entre les rangs d’un même objet pour les deux variablesp = nombre total d’objets

corrélation ρ = 1 -6

p

∑j =1

dj2

p3- p

144

• Exemple

Objets 1 2 3 4 5

Var 1 5 1 4 2 3

Var 2 5 1 4 2 3

Var 3 5 1 4 2 3

Var 4 2 1 4 5 3

p = 5

ρ (1,2) = 1 - (6(0))/(53 - 5) = 1

ρ (3,4) = 1 - (6(32 + 32))/(53 - 5) = 0,1

↑d = 3

↑d = 3

← rangs← rangs← rangs← rangs

145

• Il existe une correction pour les ex-aequo (utile seulement si leur nombre est important)

• La corrélation de Spearman peut se tester : on calcule une statistique-test qui obéit à une loi normale (si n est suffisamment grand : 30) sous H0

(pas de corrélation)

146

• τ de Kendall

• Permet le calcul de corrélations partielles


corrélation τa= 2 Sp (p - 1)

147

• Exemple

Objets 1 2 3 4 5

Var 1 5 1 4 2 3

Var 2 2 1 4 5 3

Objets 2 4 5 3 1

Var 1 1 2 3 4 5

Var 2 1 5 3 4 2

Classement des objets en ordre croissant selon la première variable

τ (1,2)= 2(1+1+1+1-1-1-1+1-1-1)/5(5-1)= 0

+1+1

+1

-1-1

etc.-1

+1

148

• Le τ de Kendall peut se tester

• La statistique-test sous H0 suit une loi

normale pour n > 8

149

Lien entre 2 variables qualitatives :

test du χ2

• Etude d’un tableau de fréquences : tableau de contingence

• Plusieurs utilisations du test

• Liaison entre 2 variables qualitatives

• Comparer plusieurs groupes décrits par une variable qualitative

• Conformité distribution observée vs théorique (ex : distribution mendélienne en génétique)

150

• Les variables qualitatives comportent différents états : modalités

• Exemple : variable = couleur ; modalités : rouge, bleu, vert

• Les fréquences (absolues ou relatives) sont les nombres d’objets caractérisés par une modalité de chaque variable

• Exemple (couleur et forme) : 35 carrés et rouges, 20 triangles et rouges, ...

• Les chiffres sur lesquels se fait l’analyse ne sont pas les mesures d’une variable mais des fréquences

151

• Tableau de contingence

Rouge Bleu Vert ... Jaune

Rond Fréquence 1,1

Carré Fréquence 2,1

Triangle

... Fréquence i,j

OvaleFréquence

n,p

Variable qualitative (ex : couleur)

Vari

able

qua

litat

ive

(ex

: for

me)

152

• Principe

• Mesurer les écarts entre la distribution observée (O) et la distribution théorique (E : espérée sous hypothèse d’indépendance)

• Comparaison à une statistique-test : χ2

• χ2 = corrélation pour variables qualitatives

• Cette statistique suit une distribution particulière sous H0

• Les écarts observés sont-ils assez petits pour être dus au hasard ?

153

• E11 = x1.x.1/n

• χ2 = Σ(E - O)2/E

Modalité 1 Modalité 2 Modalité k

Modalité 1 x11

Modalité 2 x22

Modalité r xr1 xrk

Variable 1

Vari

able

2

Variable 1Modalité 1 Modalité 2 Modalité k

Modalité 1 E11 x1.

Modalité 2 E22 x2.

Modalité r Er1 Erk xr.

x.1 x.2 x.k x.. (=n)

Vari

able

2

154

• Plus l’écart entre les valeurs observées et théoriques augmente, plus la valeur de χ2 augmente

• Plus cet écart augmente, plus le numérateur de la statistique-test augmente, quel que soit le signe de cette différence : test unilatéral

• Le nombre de degrés de liberté est associé au nombre de (E - O)2/E calculés : il y en a autant que de cases dans le tableau, soit (r x k)

• En retirant le nombre de paramètres estimés, il reste (r - 1)(k - 1) ddl

155

Recherche des correspondances

• Quelles sont les associations entre modalités (cases du tableau) responsables de la relation éventuelle ?

• Ce sont les cases ou E est la plus différente de O : correspondances entre les modalités

• Il est possible de visualiser les correspondances par une analyse factorielle des correspondances (AFC)

156

Conditions d’application

• 2 variables qualitatives, ou 1 variable qualitative et des variables quantitatives ou semi-quantitatives divisées en classes


• Fréquences absolues

• E pas trop petites, n assez grand (n > (5 x r x k))

• Pour petits effectifs : Test Exact de Fisher (tableaux 2 X 2)

157

5. LIEN ENTRE VARIABLES :

RÉGRESSION SIMPLE

158

• Modèle ≠ corrélation

• Fonction de la forme Y = aX + b, premier ordre

• Pertinent que si r significatif et plutôt élevé

• Variable dépendante Y (= réponse) : dont on cherche à comprendre la variation

• Variable indépendante (= explicative) X : par rapport à laquelle on cherche à expliquer les variations de Y

• Plusieurs variables X : régression multiple

Régression linéaire simple159

• X contrôlé, Y aléatoire : modèle I

• X et Y aléatoires : modèle II

• Droites passent par X et Y moyens

Types de régression160

• Démarche expérimentale/démarche corrélative

Exemple : dans quelle mesure la température influence-t-elle la croissance d’une espèce ?

• Démarche expérimentale : individus placés à des températures différentes, mesure de la croissance et des processus biologiques liés : test de liens de causalité, élaboration de modèles prédictifs...

161

• Démarche corrélative : on recherche dans la nature des situations où l’espèce est présente dans des conditions variables de température. On mesure la corrélation entre la taille observée et la température ➡ régression = modèle

• Mise en évidence de corrélations

• Corrélation ≠ causalité !!

• Absence de corrélation ≠ absence de lien

162

163

• Description : modèle fonctionnel

• Trouver le meilleur modèle

• Génération d’hypothèses

• Inférence : test d’une hypothèse

• Tests des paramètres

• Lien entre variables

• Prévision et prédiction

• Valeurs de Y pour de nouvelles valeurs de X

• Interpolation (prévision) ≠ extrapolation (prédiction)

Utilisations de la régression 164

Régression de modèle I• Variation sur Y >> X

• Typiquement utilisée dans un contexte expérimental : X contrôlé

• Méthode des moindres carrés ordinaires MCO (ordinary least-squares : OLS)

• Parfois utilisable quand X et Y sont aléatoires si on ne cherche pas une estimation parfaite des paramètres, ni leur significativité

• Parfois (souvent) le seul type de régression des logiciels

165

Y

X

• Principe des moindres carrés

Yi

Yi

On veut minimiser la somme des (Yi-Yi)2^

résidus

pente

intercept

Y = aX+b

^

166

• Après développement mathématique (minimisation de la somme des carrés des résidus), on trouve

a = Sxy/Sx2 = rxy(Sy/Sx)

b = Y - aX

car la droite passe par le centre de gravité du nuage de point (coordonnées = moyennes)

167

Y

• Coefficient de détermination : r2

• C’est le carré du coefficient de corrélation r

• r2 = variance expliquée par le modèle de régression :

^Yi

Yi

Y

X

Y = aX+b

^

168

• Test de signification : on peut tester r ou a (idem)

• La pente a

• H0 : a = 0

• H1 : a ≠ 0

• Test F (analyse de variance), avec

F = SyR2/Se

2 avec 1 et (n - 2) ddl

=variance expliquée par la régression = SCERvariance due aux erreurs = SCEE/(n - 2)

169

Tableau d’ANOVA

Source ddl Somme des carrés

Carré moyen F Probabilité

Taille 1 31135,9 31135,9 55,581 0

Résidus 52 29129,6 560,2

• Exemple pour une régression Age-Taille sur 54 individus

Variable réponse = Age

170

• Conditions d’application du test

• Indépendance des résidus

• Distribution normale des résidus

• Homogénéité des variances

171

Pas de tendance : OK Tendance : non valide

172

• Tester le r2 est équivalent à tester le coefficient de corrélation r

• On emploie la statistique t vue précédemment (ci-dessous, suit une loi de Student), ou la Table donnant le rcritique

t = √F = (r√(n - 2))/(√(1 - r2))

• Test unilatéral ou bilatéral à (n - 2) ddl

• Test réalisable par permutations

173

Intervalles de confiance

• Pente : relation (0 ?), hypothèse (≠ 0)

• Ordonnée à l’origine (0 ?)

• Estimation : intervalle d’un Yi pour un Xi

• Prédiction d’une estimation : pour une nouvelle observation d’un Yi , intervalle plus large

• Estimation de la moyenne : pour une nouvelle série de valeurs de Y pour une seule valeur de X, intervalle plus étroit

174

175

Calculs• Intervalle de confiance de la pente

• La vraie pente (α) se situe entre

a ± tbil.√(Sa2); où √(Sa

2) est l’erreur type de a

Sa2 = Se

2/(n - 1)Sx2 = SCEE/((n - 2)(n - 1)Sx

2)

(rappel : Se2 = SCEE/(n -2) ;

SCEE = Σ(Σ(yi - yi)2) = (n - 1)Sy

2(1 - r2)

• t suit une loi de Student à (n - 2) ddl

176

• Intervalle de confiance de l’ordonnée à l’origine

• Le vrai intercept (β) se situe entre

b ± tbil.√(Sb2); où √(Sb

2) est l’erreur type de b

Sb2 = (Se

2ΣXi2)/(nΣ(Xi - X)2)

= (Sy2(1-r2)ΣXi

2)/(Sx2n(n - 2))


177

• Intervalle de confiance d’une estimation

• Une estimation de y, y, se situe entre

y ± tbil.√(Sy 2); où √(Sy

2) est l’écart type de y

Sy 2 = Se

2(1/n + (Xi - X)2/Σ(Xi - X)2)

= ((n - 1)Sy2(1 - r2)/(n - 2))(1/n + (Xi - X)2/Σ(Xi - X)2)


178

• On utilise également la régression de modèle I

• Quand on a une raison claire de postuler quelle variable influence l’autre

• Quand on veut simplement faire de la prévision

• Quand seulement le r2 est important

179

Régression de modèle II

• X et Y aléatoires, erreurs de même ordre

• En modèle I : la régression de Y sur X ≠ X sur Y

• Cas typique des relations dans la nature

• Relation poids-longueur, entre abondances, ...

• Plusieurs méthodes

• Axe majeur AM

• Axe majeur réduit AMR

• Axe majeur sur données cadrées AMDC

180

• Axe majeur

Y

X

résidus

Y = aX+b

pente

intercept

Yi

Yi

Xi Xi

181

• Axe majeur : plus grande variabilité du nuage de points = première composante principale

• Plus complexe à calculer

• Sensible aux échelles des variables (contrairement au modèle I basé sur la corrélation)

• On transforme souvent les variables en ln

• Axe majeur réduit : sur données centrées-réduites

• Nécessite une forte corrélation (r significatif) entre les variables et un grand nombre d’observations

• Pente non testable

182

• Si les données ne sont pas exprimées dans les mêmes unités

• Axe majeur sur données cadrées

• Cadrage

Xi’ = (Xi - Xmin)/(Xmax - Xmin)

Yi’ = (Yi - Ymin)/(Ymax - Ymin)

• Avec un minimum à 0, la transformation devient

Xi’ = Xi/Xmax

Yi’ = Yi/Ymax

183

• Les données varient ainsi entre 0 et 1

• A éviter en cas de valeurs aberrantes

184

• Pente de l’axe majeur : am

am = (d ± √(d2 + 4))/2 ; (± suivant le signe de r)

avec d = (a2 - r2)/(ar2)

où a = pente de la droite MCO

et r = coefficient de corrélation

• Ordonnée à l’origine

bm = Y - amX

• Intervalle de confiance laborieux à calculer

185

186

Choisir le bon type de régressionVariation sur Y > 3 fois celle sur X ?

X et Y de mêmes unitéset variances semblables ?

AM

r significatif ?

MCO

OuiDonnées normales ?

(transformation)

Non

Non

Oui

Oui Non

Oui

AMR

AMDC (si pas de valeurs aberrantes)

Non

test par permutations

But ?

PrédictionLien

Estimation

Comparervaleurs prédites

etvaleurs

observées

187

6. RÉGRESSION AVEC

PLUS DE 2 VARIABLES

188

Plusieurs variables indépendantes :

régression multiple

• But : expliquer une variable dépendante par plusieurs variables indépendantes

• Permet la prise en compte de l’effet de variables confondantes

Y = f(X1, X2, ..., Xn)

189

• Y = b + a1X1 + a2X2 + ... + akXk

• 2 variables indépendantes : plan ; au-delà : hyperplan

• ai (coefficient de régression partielle) : contribution de

la variable Xi à l'explication de la variable Y, quand les

variables explicatives sont tenues constantes

Régression linéaire multiple190

• 2 variables indépendantes (explicatives) : plan

191

• R2 global = coefficient de détermination multiple : donne la proportion de variance expliquée par toutes les variables

• r2 partiels = coefficients de détermination partiels : donnent la proportion de variance expliquée par chacune des variables en contrôlant l’effet des autres

• Les deux peuvent être testés (mêmes conditions que pour la régression simple)

192

Test du coefficient de détermination multiple R2

FRM = R2(n - p)/((1 - R2)(p - 1))

• où p est le nombre total de variables (incluant Y), et n celui des observations

• FRM suit une loi de F à (p - 1) et (n - p) ddl

193

R2 ajusté

• Problèmes du R2 : augmente avec le nombre de variables, même aléatoires

• Comparaison difficile des équations de régressions multiples avec des nombres différents de variables indépendantes

• Le R2 ajusté tient compte du nombre de variables et diminue d’autant la valeur du R2

R2 ajusté = 1 - ((n - 1)/(n - p))(1 - R2)

194

• On peut également calculer et tester les r2, des variables individuelles (avec donc chacune une p-value)

• Significativité de chaque variable sur les variations de Y, en tenant compte des autres variables X

i

• Les p-value et ri

2 tiennent compte des liens entre

les variables Xi et changent en fonction de la

présence ou l’absence des Xi (sauf si elles sont

totalement indépendantes)

195

• Colinéarité entre les variables X : besoin de procédures de sélection des variables significatives

• Elimination descendante (backward elimination)

• Toutes les variables sont incluses dans le modèle et les paramètres de régression partiels calculés

• Si une ou plusieurs variables ne sont pas significatives, la moins significative est retirée du modèle et les paramètres de régression sont recalculés

• Et ainsi de suite jusqu'à ce que toutes les variables restantes soient significatives

Sélection des variables X 196

• Sélection ascendante (forward selection)

• Même chose mais en ajoutant les variables une à une d’après leur corrélations partielles avec Y, en commençant par la plus significative individuellement

• Procédure pas à pas (stepwise procedure)

• Mélange des deux procédures précédentes : chaque étape de sélection ascendante est suivie d’une élimination descendante pour voir si une des variables incluse jusque là n’est plus significative

• On peut y ajouter un critère qui évalue l’ajustement des données au modèle, éventuellement en prenant en compte le nombre de paramètres : AIC (Akaike Information Criterion), BIC (Bayesien), etc.

197

• Effet de deux variables X1 et X2 sur une variable Y

• Exemple : effet de la température (X1) et de l’humidité

(X2) sur la croissance (Y) d’un organisme

• La température et l’humidité ont chacune une influence sur la croissance

• La température et l’humidité sont ici corrélées : redondance dans l’explication de la variation

Partitionnement de la variation198

100 % de la variation de Y

Variation expliquée par X1 = R21

Variation expliquée par X2 = R22

Variation inexpliquée

da b c

Avec a+b+c+d = 100 %

a, b, c, et d sont déduits par soustraction

= a+b

= b+c

= a+b+c

= d

Variation expliquée à la fois par X1 et X2 = R21,2

199

• Etude de l’effet d’une variable X1 sur une autre, X2,

tout en contrôlant l’effet d’une troisième, X3 (la

covariable)

• Consiste à régresser X2 sur X3 puis à étudier ensuite

le lien entre les résidus de cette régression (la variation de X2 qui n’est pas expliqué par X3) et X1

• Cela revient à tenir X3 constante

• Exemples : contrôle de l’effet de l’échantillonnage, de la taille des hôtes, du temps, ...

Régression partielle 200

Exemple• Relation entre l’abondance d’une espèce de

nématode et la longévité de l’hôte, tout en contrôlant la taille de l’hôte

02,5

57,510

12,515

17,520

22,5

Abon

danc

e

0 20 40 60 80 100 120 140Longévité

Y = 6,191 + ,106 * X; R^2 = ,392

Graphe de régression

1 177,695 177,695 7,094 ,022111 275,536 25,04912 453,231

DDL Somme des carrés Carré moyen Valeur de F Valeur de pRégression Résidu Total

Tableau d’ANOVAAbondance vs Longévité

201

0

20

40

60

80

100

120

140

Long

évité

25 50 75 100 125 150 175 200 225 250Taille

Y = -16,966 + ,563 * X; R^2 = ,892


02,5

57,510

12,515

17,520

22,5

Abon

danc

e

-30 -25 -20 -15 -10 - 5 0 5 10 15 20Résidus Longévité

Y = 12,538 - ,05 * X; R^2 = ,009


1 4,246 4,246 ,104 ,753111 448,984 40,81712 453,231

DDL Somme des carrés Carré moyen Valeur de F Valeur de pRégression Résidu Total

Tableau d’ANOVAAbondance vs Résidus Longévité

202

Régression polynomiale

• Permet d’ajuster des courbes de formes variées, non linéaires, entre une variable dépendante Y et une ou plusieurs variables explicatives X

• 1 variable X : courbe

• 2 variables X : surface (plan) plus ou moins “bosselée”

• > 2 variables X : hyperplan “bosselé”

203

• Variante de la régression multiple : ajout de variables supplémentaires par l’intermédiaire des variables originales élevées à différents ordres (carré, cube, ...)

• Exemple avec une variable X : ajout de X2, X3, ...

Y = b + a1X + a

2X2 + a

3X3 +...

• Les variables à différents ordres sont sélectionnées par les procédures habituelles

204

• Chaque ordre ajoute un “pli” à la courbe

Ordre 2 (X2)

Ordre 3 (X3) Ordre 4 (X4)

Ordre 1 (X)

205

• Plus l’ordre est élevé, plus on perd de degrés de liberté, plus l’explication biologique est difficile

• Il faut trouver un bon compromis

• Pour les biologistes, la régression du deuxième ordre (parabole) est souvent utile

• Les organismes ont souvent des préférences situées autour d’un optimum : distribution unimodale

206

• On peut ajuster une courbe

• r2 = 0,875

• Calcul de l’optimum u et de la tolérance t (= 1 unité d'écart-type)

a1 a2

u

t

207

Relation régression et analyse de variance : utilisation de

variables muettes

• En ANOVA, les variables indépendantes sont qualitatives (facteurs)

• Il est possible de les recoder afin de les utiliser dans une régression : variables muettes (dummy variables)

• Le tableau d'ANOVA de la régression donne ainsi le même résultat qu'une ANOVA

208

• Le recodage se fait avec des 0 et 1

• Exemple : Mâle = 0 ; Femelle = 1

• On pourrait estimer : Taille = f(Poids, Âge, Sexe)

• Taille = 152,03 + 0,43Poids - 0,07Âge - 10,90Sexe

• Une personne de 30 ans pesant 70 Kg mesurera 180 cm si c'est un homme, et 169 cm si c'est une femme

Taille Poids Âge Sexe162 54 25 1185 83 32 0178 65 22 0157 62 43 1175 63 39 1189 91 31 0168 72 27 1

209

• On procède de même avec des facteurs à plus de 2 niveaux

• Exemple : couleur des cheveux

• On peut éliminer la dernière colonne, qui est définie en fonction des autres (Roux = 000)

• On pourrait aussi recoder des variables quantitatives pour une utilisation en ANOVA

Brun 1 0 0 0

Blond 0 1 0 0

Châtain 0 0 1 0

Roux 0 0 0 1

210

Variables indépendantes quantitative et qualitative :

Analyse de covariance

211

• ANCOVA : mélange d’ANOVA à un facteur et de régression linéaire simple

• 1 variable dépendante quantitative Y

• 2 variables indépendantes

• 1 quantitative X

• 1 qualitative Z

• Comparaison de la relation entre deux variables quantitatives (covariance) sous différentes conditions (k classes de la variable qualitative)

• Exemple : relation entre dose d’engrais et croissance dans plusieurs types de sols

212

Hypothèses testées

• 3 questions se posent

1. Influence de X sur Y

2. Influence de Z sur la relation entre Y et X ; influence de X sur la relation entre Z et Y : interaction

3. Influence de Z sur Y

213

Tests• Tests des 3 hypothèses

1. k régressions linéaires simples

2. Tests des différences entre les pentes des k régressions

3. Si les droites sont parallèles, test des différences entre les ordonnées à l’origine (a-t-on affaire à plusieurs droites ?)

214

• Régressions linéaires de Y sur X

• On répond à la question 1 : Y a-t-il une relation (linéaire) significative entre ces deux variables ?

Procédure détaillée 215

• Les erreurs résiduelles de chaque droite de régression sont additionnées : variation totale non expliquée par les relations linéaires entre X et Y = SCEET

216

• On construit k droites de régressions parallèles de pente égale à la pente moyenne des pentes d’origine, et on additionne les erreurs résiduelles de toutes ces droites = SCEEDP

217

• On soustrait ces 2 quantités : erreur résiduelle due à la variation des pentes : SCEEVP = SCEEDP - SCEET

• On teste si l’erreur résiduelle due à la variation des pentes (SCEEVP) est significativement plus importante que des variations aléatoires. On répond à la question 2 : les droites sont-elles parallèles ?

• Rapport de variances : on utilise une statistique F

Fvp = (SCEEVP/(k-1))/(SCEET/(n-2k))

avec k-1 et n-2k ddl

• Si rejet de H0 (= pas de différence) : relations

différentes d’un groupe à l’autre (présence d’une interaction) et fin du test

218

• Si les droites sont parallèles, on teste si les ordonnées à l’origine sont différentes. C’est la question 3.

• On combine toutes les données et on mesure l’erreur résiduelle globale de la droite de régression commune = SCEEC

• On soustrait à cette quantité l’erreur résiduelle des droites parallèles séparées : erreur due aux écarts d’ordonnées à l’origine : SCEEVOO = SCEEC - SCEEDP

219

• On teste si cette erreur est plus grande que ce qui est dû au hasard. Là encore on utilise une statistique F

Fvoo = (SCEEVOO/(k-1))/(SCEEDP/(n-k-1))

avec k-1 et n-k-1 ddl

• Si l’hypothèse nulle est rejetée, on peut dire que Z a une influence sur Y

• On pourrait traiter le problème comme une ANOVA à deux facteurs croisés avec répétitions en transformant la variable quantitative X en classes, représentant les niveaux du second facteur (Z étant le premier). Il faut nécessairement des répétitions pour tester l’interaction.

220

7. ANALYSE

MULTIDIMENSIONNELLE

221

Généralités

• Statistiques classiques

• Uni- ou bi-dimensionnelles

• Statistiques multidimensionnelles = analyse multivariable

• Traitent simultanément d’ensembles d’objets caractérisés par plusieurs variables

222

• En biologie, on a souvent affaire à des objets caractérisés par un grand nombre de variables

Longueur Largeur Masse Longévité Fécondité ... Variable p

Individu 1 Mesure 1,1

Individu 2 Mesure 2,1

Individu 3

... Mesure i,j

Individu n Mesure n,p

Variables = descripteurs = dimensions

Obj

ets

= é

lém

ents

223

• Problème : visualisation des données en plus de 3 dimensions

O

O

OO

O

O

Longueur

Mas

se ?Mas

se

Longueur

Largeur

FéconditéLongévité

Analyse multivariable 224

Types de méthodes• Analyse descriptive

• Groupement (n variables) : recherche de discontinuités (partitions) dans les ensembles de données

Ce ne sont pas des statistiques : pas de tests

Ordination (n variables) : recherche de gradients●

1

n

225

• Interprétation des structures

Tests : hypothèses

• Régression multiple : 1 variable dépendante, p variables indépendantes

Y = f(X1, X2, ..., Xn)

Analyse canonique : n variables dépendantes, p variables indépendantes

●

226

• Tests statistiques : comparaison entre matrices d’associations

• Test de Mantel : corrélation entre 2 matrices

Test de Mantel partiel : comparaison entre 2 matrices en contrôlant l’effet d’une troisième

●

✗

227

Buts

• Simplifier la vision des données

• Réduire leur dimensionalité

• Dégager les tendances de la variabilité des données

• Recherche des structures

• Interprétation des données

• Prise en compte des variables confondantes

228

• Important de bien connaître les méthodes et leurs propriétés

• planification d’une étude : avant sa réalisation...

• réponse adéquate à la question posée

• limites de l’interprétation

• un ordinateur (nécessaire ici !) donne toujours une réponse, mais pas forcément la bonne

229

Matrices d’associationVariables

Obj

ets

Mode R : Variables X VariablesDépendance

Mode Q : Objets X ObjetsRessemblance

Obj

ets

Objets

Vari

able

s

Variables

230

Mesure de similarité (Mode Q)

• Problème du double zéro

• La présence de la valeur 0 dans deux objets implique-t-elle leur ressemblance ?

• Oui : indices symétriques

• Non : indices asymétriques

231

• Indice de similarité binaires symétriques

• Coefficient de simple concordance (S1)Bois Peint > 1 kg

Objet 1 1 1 0

Objet 2 1 0 0

Objet 3 0 1 1

Objet 4 1 1 0

S1 entre objets 1 et 2 :

nombre de descripteurs à valeur identique = 2nombre total de descripteurs = 3

S1 = 2/3 = 0,67

232

• Matrice de similarité

Objet 1 Objet 2 Objet 3 Objet 4

Objet 1 1 0,67 0,33 1

Objet 2 1 0 0,67

Objet 3 1 0,33

Objet 4 1

233

• S1 = (a + d)/(a + b + c + d)

• S2 = (a + d)/(a + 2b + 2c + d)

• S3 = (2a + 2d)/(2a + b + c + 2d)

1 0

1 a c

0 b d

Objet 1

Obj

et 2

a : nombre de “1” dans les 2 objetsb : nombre de “1” dans l’objet 1c : nombre de “1” dans l’objet 2d : nombre de “0” dans les 2 objets

a + b + c + d = nombre total de descripteursa et d : ressemblancesb et c : différences

234

• Indices de similarité binaires asymétriques

• Coefficient de communauté de Jaccard (S7)

• S7 = a/(a + b + c)

Espèce 1 Espèce 2 Espèce 3

Milieu 1 1 1 0

Milieu 2 1 0 0

Milieu 3 0 1 1Milieu 4 1 1 0

Milieu 1 Milieu 2 Milieu 3 Milieu 4Milieu 1 1 0,5 0,33 1

Milieu 2 1 0 0,5Milieu 3 1 0,33

Milieu 4 1

235

• Coefficient de Sorensen (S8)

• S8 = 2a/(2a + b + c)

• Equivalent asymétrique de S3

236

• Indices de similarités quantitatifs asymétriques

• Coefficient de Steinhaus (S17)

sp 1 sp 2 sp 3 sp 4 sp 5 sp 6 A B W

Milieu 1 70 3 4 5 1 0 83

Milieu 2 64 4 7 4 3 0 82

Minima 64 3 4 4 1 0 76

S17 = W/((A + B)/2) = 2W/(A + B)

Ex : S17 = (2 X 76)/(83 + 82) = 0,921

Coefficient de Kulcynski (S18)

S18 = (W/A + W/B)/2

●

237

Mesure de distance (Mode Q)

• Coefficient de distance métrique

• Si a = b, D(a,b) = 0

• Si a ≠ b, D(a,b) > 0

• D(a,b) = D(b,a)

• D(a,b) + D(b,c) ≥ D(a,c)

• Coefficient semi-métriques

• N’obéissent pas à la quatrième propriété

238

• Coefficient de distance métriques

• Distance Euclidienne (D1)

Taille (mm) Fécondité

Parasite 1 25 70

Parasite 2 12 30

D1D1(P1,P2) = √((T1 - T2)2 + (F1 - F2)2)

= √((25 - 12)2 + (70 - 30)2) = 42,1

Taille

Féco

ndité

70

30

2512

●

●P1

P2

239

• D1 = √(Σ(yi1 - yi2)2)

• Problèmes :

• D1 est sensible au double-zéro

• D1 est sensible à l’échelle des variables

• On standardise souvent les variables avant le calcul de D1

Y1 Y2 ... Yi

X1 Y11 Y21 Yi1

X2 Y12 Y22 Yi2

240

• D2 = (1/√n)D1

• Distance de corde (D3) et métrique

géodésique (D4)

• Non affectées par le double-zéro

• D3 bornée à √2

• Permet ACP avec données présence/absence

• D4 = arc cos (1 - (D32 / 2))

Espèce 2

Espèce 11

1 Echantillon 1

Echantillon 2

D3

D4

241

• Coefficient de distance semi-métriques

• Distance de Watson et al. (D13) = 1 - S8

• Distance de Bray-Curtis (D14) = 1 - S17

• Appelée différence de pourcentage

• Très utilisée pour les abondances d’espèces

242

Coefficients de dépendance (Mode R)

• Ils existent pour différents types de variables

• Quantitatives

• Semi-quantitatives

• Qualitatives

243

• Coefficients de dépendance pour variables quantitatives

• Covariance : dispersion des 2 variables

• Corrélation : intensité de la liaison

244

Variables

Obj

ets

Variables

Matrice de dispersionou de variance-covariance

Vari

able

s

S2 S2,1

S2 S5,2

S2

S2

S2

Matrice de corrélation

Vari

able

s

Variables

1 r2,1

1

1 r4,3

1

1

245

• Coefficients de dépendance pour variables semi-quantitatives

• ρ de Spearman

• τ de Kendall

246

• Coefficient de dépendance pour variables qualitatives

• Le χ2

• Tableau de contingence

• Exemple

Espèce 1 Espèce 2 Espèce 3

Espèce 1 x11 x1.

Espèce 2 x22 x2.

Espèce 3 xi1 xik xi.x.1 x.2 x.k x..

Parasites

Hôt

es

Certains parasites sont-ils associés à certains hôtes ?

247

• Mesure d’association : χ2

Modalité 1 Modalité 2 Modalité k

Modalité 1 x11 x1.

Modalité 2 x22 x2.

Modalité i xi1 xik xi.x.1 x.2 x.k x..

Variable 1

Vari

able

2

Valeur “espérée” si indépendance des variablesE = (xi. . x.k)/x..

χ2 = Σ((O-E)2/E)avec O = valeur observéetest statistique possible (ν = (i-1)(k-1))

248

Groupements

• Recherche des discontinuités dans les ensembles de données

• Une partition est une division de l'ensemble en sous-ensembles, telle que chaque objet (ou descripteur) appartienne à une et une seule sous-collection

1

n

249

1. Algorithmes séquentiels ou simultanés

2. Agglomération ou division

3. Méthodes monothétiques ou polythétiques

4. Méthodes hiérarchiques ou non

5. Méthodes probabilistes ou non

Grandes familles de méthodes de groupement

250

• Classification écologique de prélèvements (1-5) sur la base des abondances des espèces présentes

• Mesure de distance : D14

• On obtiendrait exactement la même chose avec S17

• Idée sous-jacente : les milieux partageant les mêmes espèces sont “écologiquement proches”

Exemple251

• Groupement agglomératif à liens simples

• Lien avec un seul élément du groupe

Groupement agglomératif à liens

________________________________________2 3 4 5

1 0.20 0.25 0.45 0.802 0.40 0.35 0.503 0.30 0.604 0.70________________________________________

1

2

3

4

5

0.0 0.1 0.2 0.3 0.4 0.5

D14 Paires formées0,2 1-20,25 1-30,3 3-40,35 2-40,4 2-30,45 1-40,5 2-50,6 3-50,7 4-50,8 1-5

252

• Groupement agglomératif à liens complets

• Lien avec tous les éléments du groupe________________________________________

2 3 4 5

1 0.20 0.25 0.45 0.802 0.40 0.35 0.503 0.30 0.604 0.70________________________________________

1

2

3

4

5

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

D14 Paires formées0,2 1-20,25 1-30,3 3-40,35 2-40,4 2-30,45 1-40,5 2-50,6 3-50,7 4-50,8 1-5

253

• Liens simples : contracte l’espace entre objets (enchaînements)

• Liens complets : dilate l’espace entre les objets (groupes bien séparés)

1

2

3

4

5

0.0 0.1 0.2 0.3 0.4 0.5

1

2

3

4

5

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

254

• Groupement agglomératif à liens intermédiaires

• Lien avec une proportion donnée des éléments du groupe

• Proportion = connexité. Varie entre 0 (liens simples) et 1 (liens complets)

1

2

3

4

5

0.0 0.1 0.2 0.3 0.4 0.5

Connexité = 0,5

255

• Groupement selon l’association moyenne

• UPGMA (unweighted pair-group method using arithmetic average)

• Chaque élément du groupe garde le même poids pendant l’analyse

• La matrice d’association est reformée à chaque étape (≠ groupement à liens)

• Chaque nouveau groupe formé est remplacé par sa valeur moyenne

Groupement agglomératif moyen 256

1

2

3

4

5

0.0 0.1 0.2 0.3 0.4 0.5 0.6

1

Objets 1 2 3 4 5

1 - 0,2 0,25 0,45 0,8

2 - 0,4 0,35 0,5

3 - 0,3 0,6

4 - 0,7

5 -

2

1-2 - 0,325 0,4 0,65

3 0,3 0,6

4 0,7

5 -

3

1-2 - 0,3625 0,65

3-4 0,65

5 -

41-2-3-4 - 0,65

5 -

257

• WPGMA

• Idem UPGMA mais avec pondération selon le nombre d’éléments dans le groupe

• Augmente le contraste entre les groupes

258

• Groupement centroïde

• UPGMC et WPGMC

• Comme UPGMA et WPGMA mais en utilisant une moyenne géométrique plutôt qu’arithmétique : centroïde (= barycentre, point de coordonnées moyennes)

• Peut conduire à des inversions dans le dendrogramme

• Violation de la propriété ultramétrique : D(A,B) ≤ Max |D(A,C) , D(B,C)|

• Interprétation : polytomie

259

1

2

3

4

5

0.0 0.1 0.2 0.3 0.4 0.5

260

4

6,32

9,40

• UPGMC10

6

4

0

2

8A

C

D

B

A B C D

261

• Hiérarchique

• Sur données brutes ou matrices de distance

• Minimise la somme des carrés des distances au centroïde de chaque groupe (variance à l'intérieur de chaque groupe) si appliquée aux données brutes, ou la somme des carrés des distances entre paires si appliquée à une matrice de distance

• Distances Euclidiennes (double zéro) sur données brutes (méthode originale), ou tout type de distance si matrice de distance

Méthode de Ward262

K-means

• Non hiérarchique

• Méthode divisive

• Nombre de groupes défini par l'utilisateur

• Minimise la variance intragroupe des données brutes

• Distances Euclidiennes (double zéro)

263

• Appelée aussi matrice ultramétrique car elle répond aux 4 propriétés d'une matrice métrique, et en plus à la propriété ultramétrique citée plus haut (si pas d'inversion)

• Matrice d’association dont les distances (ou similarités) sont calculées à partir de l’arbre

• A partir d’un arbre phylogénétique, c’est la matrice de distances patristiques

La matrice cophénétique

1 n

1

n

1

n

264

• La corrélation cophénétique r et le coefficient de détermination r2

• Corrélation cophénétique r : corrélation linéaire de Pearson entre la matrice d'association de départ et la matrice cophénétique

• Coefficient de détermination r2 : variance exprimée par la matrice cophénétique par rapport à la matrice d'association de départ

• La corrélation cophénétique ne peut être testée : deux distributions pas indépendantes

265

• Exemple

• Corrélation cophénétique r : 0,89

• Coefficient de détermination r2 : (0,89)2 = 0,79 donc le dendrogramme du groupement selon l'association moyenne de l'exemple reproduit 79 % de la variance de la matrice de distances Euclidiennes

• On peut utiliser le τ de Kendall ou le ρ de Spearman si on est plus intéressé par la topologie du dendrogramme que par la longueur des branches

266

• Classification de métagénomes de communautés microbiennes marines (Distance Euclidienne + UPGMA ; Quaiser et al. 2010)

Exemples 267

• Expression de nombreux gènes dans différentes conditions (Choi et al. 2012)

268

Ordination en espace réduit

• Représentation de n objets sur lesquels on a mesuré p variables (avec généralement p < n)

• But : passer d’un espace multidimensionnel complexe à un espace comprenant moins de dimensions (2 voire 3)

• L’ensemble des données (objets et/ou variables) sera représenté (ordonné) dans cet espace réduit

• Problème : comment choisir ces dimensions ?

269

Le nuage de points

• Les points-objets forment dans le repère d’origine (les p dimensions) une hyperellipsoïde

• Si la distribution des objets est multinormale, on connaît certaines propriétés mathématiques du nuage de points (les méthodes d’ordination sont assez robustes)

• Ces propriétés vont être utilisées pour choisir les meilleures dimensions représentant la variabilité des données

270

• La forme du nuage de points dépend des relations entre les variables

r = 1

r = -0,3

r = 0

r = 0,7

271

Axes principaux

• On peut établir les axes passant par le maximum de variance du nuage de points

• Ils s’ajustent au nuage de points selon le critère des moindres carrés

• Chaque axe est perpendiculaire aux autres (donc ils sont linéairement indépendants)

• Ces axes sont des combinaisons linéaires des variables d’origine

• On les appelle les axes principaux (parfois facteurs)

272

Longueur

Hauteur

Mas

seAxe Principal 1

Axe Principal 2

273

274

Valeur propre et vecteur propre

• A chaque axe sont associés une valeur propre et un vecteur propre

• Valeur propre (λ) : variance exprimée par l’axe

• Vecteur propre (u) : direction de l’axe

• La variance exprimée par un plan formé par deux axes principaux est la somme des variances (valeur propres) exprimées par ces axes

• Il y a autant de λ et de u que de variables d’origines : “redécoupage” et hiérarchisation de la variance

275

Axe Principal 1λ1 = 50 %

Axe Principal 2λ2 = 30 %

Plan 1 X 2 : 80 % de la variance totale du nuage de points

Coordonnées dans le nouveau système d’axes : composantes principales

u2

u1

276

Nombre de composantes interprétables

• Problème : la variance de n’importe quel nuage de point peut-être exprimée sur des axes principaux, mais il ne contient pas forcément de structure informative

• Critères pour savoir si la variance exprimée est “intéressante”, et le nombre d’axes à interpréter

• λ > λmoyen

• Bâton brisé

• Diagramme de Shepard

277

Modèle du bâton brisé

0

5

10

15

20

25

30

35

40

45

50

1 2 3 4 5 6 7 8 9 10Valeurs propres

% v

aria

nce

AléatoireObservé

278

• Diagramme de Shepard279

• Passage en espace réduit : projection des points sur le plan exprimant le maximum de variance (1 X 2)

• Le plan 1 X 2 peut ne pas suffire, on peut alors utiliser d’autres projections (1 X 3, 2 X 3)

Axe 1

Axe 3

Axe 1

Axe 2

+++++

+++++

280

• Mise en évidence des :

• Ressemblances entre les objets (observations)

• Ressemblances entre les variables

• Relations entre les variables et les observations

• Ordination sans contrainte : toute la variation de l’hyperellipsoïde est exprimée puis interprétée a posteriori (analyse indirecte)

281

Analyse en composantes principales (ACP)

• Pour des données quantitatives ou semi-quantitatives

• Suppose une relation linéaire ou monotone entre les variables

• Utilisable avec des abondances d’espèces avec certaines transformations (ex. Legendre & Gallagher 2001)

• Transpose un nuage de points-objets, situé dans un espace multidimensionnel complexe, dans un sous-espace plus simple, pour observer graphiquement les relations entre les objets

282

Principales étapes du calcul

• Matrice de données de départ : centrage ou centrage et réduction des données

• Calcul de la matrice de covariance (= matrice de corrélation si données standardisées, c’est le cas général)

• Calcul des valeurs propres et vecteurs propres à partir de cette matrice

283

• Calcul des nouvelles coordonnées des objets dans le repère formé par les axes principaux : ce sont les composantes principales

• Projection des points dans un espace réduit, en général les deux premiers axes

• Calcul des coordonnées des descripteurs originaux dans le nouveau repère

284

• Diagramme d’ordination : projection sur le plan choisi

• Diagramme de double projection dans l’espace réduit (= biplot) : objets et descripteurs

Objets

Descripteurs

I

II

Représentation graphique 285

Interprétation dans l’espace réduit

• Position des objets

• Proximité des points : préserve la distance Euclidienne

• Position des descripteurs

• Flèches se terminant sur les points-descripteurs

• Angle entre les flèches : covariance ou corrélation

• Interpréter les descripteurs ayant suffisamment d’influence sur le plan de projection : dépassant le cercle des contributions équilibrées (longueur des axes si contribution égale à chaque dimension) et proches du cercle de rayon 1 (pour une matrice de corrélation)

286

Cercle de rayon 1

Cercle des contributions équilibrées

I

II

287

• Projection des objets sur les descripteurs : contribution de l’objet à l’axe. Plus la projection est loin du centre, plus la valeur est loin de la moyenne

I

II

288

• Pour un angle α entre deux variables i et j : cosα = rij

• Entre une variable i et un axe descripteur k, l’abscisse de i sur k (projection) est égal à rik, pour des variables

centrées-réduites (matrice de corrélation)

I

II

αV1

rV1,I

289

Les deux principaux types d’ACP

• Vecteurs propres normés à 1

• Les distances entre les objets sont interprétables

• Angles entre descripteurs non interprétables

• Vecteurs propres normés à √λ

• Angles entre descripteurs = corrélations

• Distances entre objets non préservées

290

RésuméVariables

Indi

vidu

s

I

II

u normés à 1 :proximités

=distances

Individus= objets

I

II

u normés à √λ :angles

=corrélations

Variables= descripteurs

Biplot

Cercle des contributions équilibrées

Cercle de rayon 1

291

• Classification d’espèces de Gyrodactylus (parasites) sur la base de variables morphologiques mesurées sur les pièces sclérifiées du hapteur (Shinn et al. 2001)

Exemples 292

• Classification de populations humaines sur la base de données génomiques (174000 SNPs ; Schuster et al. 2010)

293

294

Analyse factorielle de correspondances (AFC)

• Même principe que l’ACP

• Pour variables qualitatives, binaires, semi-quantitatives et quantitatives

• Typiquement : étude des relations entre deux variables nominales

• Données sous forme de tableau de contingence : l’analyse cherche à mettre en évidence les correspondances (relations) entre les lignes et les colonnes

295

• En écologie : traitement des données d’abondance d’espèces (descripteurs ici)

Espèces

Stat

ions

Trucus Machinus Bidulus ... Exempla

S 1 Fréquence 1,1

S 2 Fréquence 2,1

S 3

... Fréquence i,j

S 4 Fréquence n,p

Idée sous-jacente : expliquer la répartition des stationset/ou des espèces selon des critères écologiques

296

• Préserve la distance du χ2 entre les points

• Non affectée par le problème du double-zéro

• Suppose une relation unimodale avec les variables environnementales

297

• Transformation des fréquences absolues en probabilités : fréquences relatives centrées

Principales étapes du calcul

fij Σ = fi.

Σ = f.j Σ = f..

Fréquences absolues

pij= fij/f..

pi.= fi./f..

p.j= f.j/f..

Σ = 1

➡

Fréquences relatives

qij

Fréquences relatives centrées

➡

Avec qij = pij - pi.p.j / √pi.p.j soit

- centrage (- fréquence théorique)- pondération

Q

298

• Calcul de la matrice de covariance à partir de la matrice Q

• Calcul des valeurs propres et vecteurs propres à partir de cette matrice de covariance

• Calcul des nouvelles coordonnées des objets dans le repère formé par les axes principaux

• Projection des points dans un espace réduit, en général les deux premiers axes

• On peut placer les lignes et les colonnes du tableau de contingence dans le même espace factoriel

299

• Inertie totale = I = Σλ

• On peut effectuer un test d’indépendance des deux variables

• Test du χ2, avec (n-1)(p-1) degrés de liberté

• χ2 = npI avec np = effectif total

• H0 : quelle que soit la station, la distribution des

espèces est la même

• H0 : quelle que soit l’espèce, la répartition selon

les stations est la même

300

• Variance du plan liée à celles des valeurs propres

• Comme en ACP, on peut ne placer que les sites (objets) ou les espèces (descripteurs) sur le diagramme ; ou les deux (biplot)

• Proximité entre objets (stations) et descripteurs (espèces) : ressemblance. Attention, cela est fonction de la variance exprimée par le plan considéré

• Plus les points sont proches du centre, plus ils sont proches des caractéristiques moyennes de l’échantillon

Interprétation dans l’espace réduit301

• Interprétation des axes principaux en terme de facteurs biologiques, en relation avec la projection des objets et des descripteurs (comme ACP)

• Relations de type barycentrique. On a deux options pour la projection :

• Type I. Placer les lignes (sites) au barycentre (= centroïde) des colonnes (espèces) : meilleure ordination des sites

302

• Type II. L’inverse donne une meilleure ordination des espèces :

• Espèces placées au centre de gravité (= barycentre = centroïde) des sites où elles sont présentes

• Chaque site est pondéré par la fréquence relative de l’espèce considérée

• Les points-espèces sont donc plus proches des points-sites où leur occurrence est la plus forte

303

Fréquence relative de l’espèce 3 au site 5 :occurrence forte

Type II

Site 5

Site 12

Site 2

Site 9

Espèce 3

Espèce 4

Espèce 19

Espèce 2

Espèce 9

Espèce 11

Site 8

Fréquence relative du site 8 pour l’espèce 11 :rareté à ce site

Type I

304

Exemple

Espèces

Site

s

Objets = stations

Descripteurs= espèces

I

II

305

Ordination sur matrices de distances

• Analyse en coordonnées principales (PCoA) : permet l’utilisation de beaucoup de coefficients. Méthode basée sur les vecteurs propres pour représenter objets ou variables

• Nonmetric multidimensional scaling (NMDS) : méthode non basée sur les vecteurs propres, place les objets dans un repère comportant un nombre prédéfini d’axes, en minimisant une fonction de stress (0 à 1, bien si ≤ 0,2). Fonctionne avec des valeurs manquantes. Procédé itératif assez intense en calcul

306

Analyse discriminante

• Analyse discriminante linéaire, généralement

• But : trouver la meilleure combinaison de variables permettant d’expliquer des groupes prédéfinis (hypothèse biologique, groupement sur un autre jeu de données, …)

• Test préalable que les groupes sont différents

• Pas délimitation des groupes ici, mais interprétation

• Recherche de la meilleure combinaison de variables expliquant les groupes : fonction discriminante

307

• Test de la corrélation linéaire entre deux matrices de distances ou de similarités obtenues indépendamment

• Hypothèse nulle H0 : les distances (ou similarités) entre les objets dans la matrice A ne sont pas en relation linéaire avec les distances (ou similarités) correspondantes dans la matrice B

• L’hypothèse nulle est testée par permutations des objets, car les distances ne sont pas indépendantes les unes des autres

Test de Mantel 308

A B C D

A

B xijC

D

X

+X

.....+

xij yij

A B C D

A

B yijC

D

Statistique Z de Mantel 309

• Test

1. Permutation aléatoire des objets (A-D)

2. Calcul d’un nouveau Z : Zp

3. Répétition n fois (ex : 999) des étapes 1 et 2

4. Ajout de la valeur observée Z aux 999 valeurs de Zp

5. Tracé de la distribution : histogramme de fréquences

6. H0 est rejetée si Z fait partie des valeurs extrêmes (ex : 5 %)

310

• Statistique r de Mantel centrée-réduite (corrélation linéaire de Pearson)

On peut aussi transformer les valeurs en rangs et calculer le ρ de Spearman

●

r = [ ]1/(n-1)∑i∑j

[ ](xij - x)/sx [ ](yi j - y)/sy

311

• Exemple

• Deux matrices de distances entre 4 sites (S1-S4)

• Distances en terme d’abondances d’espèces (D14)

• Distances environnementales (D1), sur la base de

plusieurs descripteurs du milieu

S2 S3 S4

S1 0,25 0,43 0,55

S2 0,17 0,39

S3 0,66

Matrice de distance D14

S2 S3 S4

S1 0,43 0,41 0,47

S2 0,22 0,6

S3 0,71

Matrice de distances D1

312

• Calcul du Z de Mantel

• Z = (0,25 x 0,43) + (0,43 x 0,41) + (0,55 x 0,47) + (0,17 x 0,22) + (0,39 x 0,60) + (0,66 x 0,71) = 1,2823 (valeur observée)

• Test : confrontation de la valeur observée à l’ensemble des valeurs obtenues par permutations aléatoires (100 ici)

Observé Permutations (Zp) Proba (z)

Zobs < Zobs = Zobs > Zobs

1,2823 95 2 3 0,05

Z

Observé Permutations Proba (r)

robs < robs = robs > robs

0,7982 95 2 3 0,05

r

(P = (2 + 3)/(95 + 2 + 3) = 5/100 = 0,05)

313

• Le pourcentage de variance expliquée (R2), ainsi que la puissance du test sont moins élevés pour un test de Mantel que pour une corrélation de Pearson sur les données brutes correspondantes

• Mieux d’utiliser les données brutes quand c’est possible

• Réserver le test de Mantel et ses dérivés dans les cas ou l’utilisation des matrices de distance est nécessaire

• Pour contrôler l’effet d’une troisième matrice (ex : données temporelles ou spatiales), il existe un test de Mantel partiel

314

Régression multiple sur matrices de distance

• Généralisation du test de Mantel à plusieurs matrices de distance : régression multiple

• Une matrice dépendante (Y)

• N matrices indépendantes (X1, X2, X3,...)

• Test par permutations des objets de la matrice Y

• Test des coefficients de régression

315

8. ANALYSE DE SURVIE

316

• Etude de la durée à laquelle survient un événement binaire

• Typiquement : étude de la variation de la probabilité de survie de patients au cours du temps à partir d'un instant t0, par leur suivi jusqu'à leur décès (vie/mort)

• Peut s'appliquer à toute autre variable binaire qu'on peut dater : apparition d'une pathologie, hospitalisation, panne d'un appareil, perte d'emploi, divorce, etc.

• 2 méthodes principales

• Méthode actuarielle

• Méthode de Kaplan-Meier

317


• Prend en compte les décès individuellement et les indique sur la courbe par un palier

• Mieux avec des effectifs peu importants


• Moins utilisée

• Divise la durée totale de l'étude en intervalles réguliers

• Mieux quand les effectifs sont importants (> 200 individus)

318

Principe• En théorie, il faudrait suivre tous les individus jusqu'à la

survenue de l'événement, à partir d'une date fixée t0

• En pratique, on fixe une date de fin de suivi (= date de point : dp)

• Certains individus n'ont pas présenté l'événement à la date de point : ils sont dits "censurés"

• Les individus n'entrent pas tous dans l'étude au même moment (date d'origine différente)

• Certains individus sont "perdus de vue", on ne sait pas si l'événement est survenu ou pas, mais ils sont pris en compte dans l'étude

319

• Données

t0 dpIndividus

1

4

2

3

5

6

Evénement

Censuré

Censuré

Temps de participation

Perdu de vue

320

• Calcul de la probabilité de ne pas avoir présenté l'événement à un instant t (l'événement survient après t) = probabilité (ou fonction) de survie S(t)

• Basé sur les probabilités conditionnelles, tenant compte des événements et censures survenus et des effectifs (qui ne peuvent que baisser)

• Probabilité = 1 à l'origine, puis diminue

• Représentation graphique = courbe de survie : variation de S(t) en fonction du temps

• Possibilité de calcul d'intervalles de confiance

• Comparaison de courbes : test du logrank (= test de Mantel-Cox = test de Peto-Mantel-Haenszel)

321



322

biostatistiques avancees - edu.upmc.fr · 3.comparaison de plus de 2 groupes : test...

Documents