biostatistiques avancees - edu.upmc.fr · 3.comparaison de plus de 2 groupes : test...
TRANSCRIPT
BIOSTATISTIQUESAVANCEES
Yves DesdevisesObservatoire Océanologique de Banyuls-sur-Mer
(www.obs-banyuls.fr)04 68 88 73 13
[email protected]://desdevises.free.fr
http://www.edu.upmc.fr/sdv/desdevises
Master Biologie Intégrative et Physiologie1ère année
2017-2018
1
PLAN1. Rappels : données, tests, plans d’expérience, distributions
2. Comparaison de 2 groupes : variances et moyennes
3. Comparaison de plus de 2 groupes : test d’homogénéité des variances, analyses de variance à 1 et 2 facteurs
4. Relations entre variables : corrélation
5. Relations entre variables : régression simple
6. Régression multiple et analyse de covariance
7. Analyse multivariable
8. Analyse de survie
2
Quelques références• Générales• Sokal RR & Rohlf FJ. 2012. Biometry. 4th Revised Edition,
Freeman and co., New York.
• Zar JH. 2009. Biostatistical Analysis. 5th Edition, Pearson.
• Frontier S, Davoult D, Gentilhomme V & Lagadeuc Y. 2007. Statistique pour les sciences de la vie et de l’environnement. Cours et exercices corrigés. Dunod.
• Triola MM & Triola MF. 2006. Biostatistics for the Biological and Health Science. Pearson. Traduction française en 2009 (2ème édition 2012) : Biostatistiques pour les sciences de la vie et de la santé.
• Scherrer B. 2008-2009. Biostatistiques volumes 1 et 2. Gaëtan Morin.
• Millot G. 2014. Comprendre et réaliser les tests statistiques à l'aide de R. 3ème édition. De Boeck.
3
• Simplifiées
• Dytham C. 2011. Choosing and Using Statistics. A Biologist’s Guide. 3rd Edition. Blackwell Publishing.
• McKillup S. 2011. Statistics Explained. 2nd Edition. Cambridge University Press.
• van Emden H. 2008. Statistics for Terrified Biologists. Blackwell Publishing.
• Plus spécialisées
• Legendre P & Legendre L. 2012. Numerical Ecology. 3rd English Edition. Development in Environmental Modelling, 20. Elsevier.
• Underwood AJ. 1997. Experiments in Ecology. Cambridge University Press.
4
• R (www.r-project.org)
• Statdisk (http://statdisk.com/)
• XLStat (www.xlstat.com) €
• Minitab (www.minitab.com) €
• JMP (www.jmp.com) €
• Statistica (www.statsoft.com) €
• SAS (www.sas.com/technologies/analytics/stat) €
Quelques logiciels 5
1. INTRODUCTION
RAPPELS
6
• Statistique : Etude scientifique des données numériques décrivant les variations naturelles
• Biostatistique
• Application à la biologie
• Important : savoir décider de la méthode à utiliser
• Bien connaître les méthodes : conditions d’utilisation, limitations, ...
• Penser aux statistiques avant de collecter les données
7
Utilité et utilisation des statistiques en biologie
• Description
• Vue synthétique et rationnelle des données
• Inférence
• Economie de travail par l’étude d’échantillons représentatifs
• Décision
• Test d’hypothèse
8
• Biologie : incertitude des résultats expérimentaux ou des observations
• Variabilité génétique
• Variabilité de réaction individuelle
• Variabilité du développement
Pourquoi utiliser les statistiques en biologie?
9
Définitions• Objet = observation = élément = unité
d’échantillonnage : élément sur lequel on mesure des caractéristiques (variables)
• Echantillon : ensemble des objets
• Population cible : ensemble des objets visés par une étude scientifique
• Population statistique : ensemble des objets représentés par l’échantillon. C’est sur elle que se fait l’inférence
10
• Variable = descripteur = facteur = trait : caractéristique mesurée ou observée sur les objets. Ex : longueur, température, ...
• Variable dépendante (Y) = réponse
• Variable indépendante (X) = explicative
• Variable aléatoire : résultat d’un processus aléatoire, valeur précise inconnue avant la mesure
• Variable contrôlée : décidée par l’expérimentateur, erreur = mesure seulement
11
• Paramètre : caractéristique quantitative permettant une représentation condensée d’information contenue dans un ensemble de données. Ex : moyenne, pente, ...
• Variance = inertie = carré moyen : somme des carrés des écarts à la moyenne (SCE)/nombre d’objets (paramètre de dispersion)
12
• Ecart-type (standard deviation) : racine carrée de la variance. Même unité que la variable
Sx = √Sx2
• Erreur-type (standard error) : écart-type de la distribution d’échantillonnage de la moyenne (dispersion des estimations de la moyenne de plusieurs échantillons d’une même population). Sert à calculer un intervalle de confiance
13
• Interprétation de l'écart-type14
• Barres d'erreurs : attention !
?
15
16
Variables
• Terme déterministe : loi du phénomène
• Terme aléatoire : variabilité du phénomène
• Hasard, fluctuations
• Autres facteurs, souvent à expliquer
Modèle aléatoire
Dose d'engrais
Cro
issa
nce
●●
●●●
●●●
●
●●
●
Modèle déterministe
Force de frappeInte
nsité
de
la d
éfor
mat
ion
●●●
●
1 cause : 1 effet1 cause : n effets
variabilité
17
• Analyse statistique : étude des phénomènes stochastiques
• Discrimination de la loi du phénomène et de sa variabilité
18
Différents types de variables
• Binaire : 2 états. Ex : présence-absence
• Multiple : plus de 2 états
• Non-ordonnée = qualitative = nominale. Ex : couleur
• Ordonnée
• Semi-quantitative = ordinale = de rang. Ex : classes
• Quantitative
• Discontinue = discrète. Ex : nombre d’individus
• Continue. Ex : longueur
19
• Transformations
• Standardisation : y' = (y - y)/s (s = écart-type ; on obtient une variable centrée et réduite). y’ = 0 et s = 1, variables non-dimensionnelles
• Normalisation et stabilisation des variances : y' = log (b0 + b1y) ; y' = √y ; ...
• Linéarisation
20
Statistiques descriptives
• Exploration des données
• A calculer avant chaque test
• Mesures standards : n, moyenne, variance (écart-type), distribution (histogramme ou graphe de quantile-normale), ...
• Identifier les valeurs extrêmes ou aberrantes
• A ne pas oublier...
21
Statdisk - ScatterplotPrinted on Mer 10 sep 2008 at 9:08
X Value
Statdisk - Explore DataPrinted on Mer 10 sep 2008 at 9:08
22
Plans d’échantillonnage• Principalement pour organismes fixes (ou localités, ...)
• Echantillonnage aléatoire : représentatif
• Aléatoire : chaque membre de la population a la même probabilité d’être choisi
• Aléatoire simple : chaque échantillon de taille n a la même probabilité d’être choisi. Condition pour de nombreux tests
23
• Echantillonnage systématique : mieux avec des informations supplémentaires (nombre total, organisation spatiale)
• Risque (faible) de coïncider avec une périodicité naturelle
24
• Echantillonnage aléatoire stratifié : échantillonnage aléatoire au sein de zones définies (strates), souvent selon des caractéristiques définies (âge, sexe, végétation, ...)
25
• Echantillonnage en grappe
• Division de la population en sections (grappes)
• Sélection aléatoire des grappes
• Choix de tous les membres des grappes sélectionnées
26
• Echantillonnage opportun
• En fonction des circonstances
• Sur les objets faciles à obtenir
• Exemple : réponses seulement de ceux qui participent de façon active à un sondage
• Pas un bon plan d'échantillonnage !
27
Plans d’expérience• Méthode expérimentale
• Travail sur un système simplifié dont on étudie la réponse à la variation de peu de facteurs à la fois
• Important : rigueur
• Construction : hypothèse nulle et hypothèse contraire
• Répondre spécifiquement à une question (critère de validité générale)
• Minimiser l’erreur de Type I
• Application : analyse de variance (ANOVA)
28
Concepts
• Elément d’observation
• Sur lequel on fait les mesures de la (des) variable(s)
• Ex : individus, quadrats, ...
• Unité d’expérimentation
• Contient les éléments
• Reçoit le traitement
• Ex : parcelle, bassin, ...
29
• Facteur : plusieurs valeurs possibles
• Niveaux ou traitements
• Contrôle
• Groupe non traité
• Traitement (placebo, manipulation seule, ...)
• Bloc
• Groupe d’unités d’échantillonnage, défini a priori
30
• Expérience de mesure d’un phénomène naturel
• En milieu naturel : pas (peu) de contrôle des variables
• Mesure du profil de variabilité du phénomène
• Expérience contrôlée
• Utilisation de traitements contrôlés
• Réduction de l’influence des autres facteurs
• Elimination
• Constance
• Inclusion dans l’analyse
31
• Répétition (= replication)
• Mesure de la variabilité du système (répétitions biologiques, pas techniques)
• Pseudoréplication
• Due à la non-indépendance des observations, qui ne sont pas alors de “vrais réplicats”
➡Validité générale
• Variations dues exclusivement au facteur étudié
➡Validité externe
• Généralisation à d’autres systèmes
• Simplification pas trop importante
32
Aléatoire
Blocs randomisés
Systématique
Ségrégation simple
Ségrégation agrégée
Ségrégation isolative
Répétitions physiquement interdépendantes
Pas de répétitions
33
Tests statistiques• Important de bien définir l’hypothèse nulle (H0)
• La seule que l’on étudie = hypothèse principale
• Contient généralement "="
• La statistique testée possède une distribution connue
• Hypothèse contraire (H1 ; "hypothèse alternative")
• Contient généralement "≠", ">"ou "<"
• On ne peut la prouver, elle est plausible si H0 est rejetée
• Grande importance de l’hypothèse biologique
34
Conditions• En général 3 conditions pour un test :
• Loi (Normale, Student, F, ...)
• Indépendance des observations
• Homogénéité des variances (homoscédasticité)
• Loi de distribution théorique générée à partir des processus naturels, sous certaines conditions : probabilité d’apparition de toutes les valeurs d’une variable
Besoin de tester la distribution observée sur l’échantillon (impossible sur la population)
35
• Erreur de Type I (α) : probabilité de se tromper en rejetant H0 (donc H0 est vraie). Seuil fixé
• Robustesse d’un test : sensibilité aux conditions d’applications
• Un test est robuste s’il fonctionne bien même quand les conditions nécessaires à son fonctionnement ne sont pas optimales
• Puissance d’un test : capacité à mettre en évidence de petites différences
• Aptitude à rejeter H0 lorsqu’elle est fausse (= 1 - ß
(erreur de Type II))
• Fonction de : test, nombre d’observations, variance, α
36
H0 H1
37
• Test : calcul d’une statistique-test (ou variable auxiliaire, p. ex. t ou F - voir plus loin) à l’aide des données
• On peut calculer (logiciel) la probabilité d’obtenir cette valeur (ou une valeur plus extrême) dans le cas où H0 est vraie : c’est la p-value, P
• Interprétation en terme de rejet ou non de H0, en fonction du seuil α choisi, généralement 0,05 (5 %) :
• P > 0,05 : non rejet de H0
• P ≤ 0,05 : rejet de H0
p-value ("valeur-p")38
Puissance d’un test : n optimal
• Question récurrente : de combien d’objets (observations, prélèvements, ...) a-t-on besoin pour établir une différence significative, s’il y en a une ?
• Exemple : utilisation de la statistique-test t
• Il faut d’abord estimer la variance et avoir une idée de l’écart entre populations (étude préalable)
• Utilisation de la formule de t pour trouver le n nécessaire à mettre en évidence un écart significatif défini à l’aide de la valeur critique de t
39
• Importance de l’amplitude de la différence entre la vraie valeur du paramètre testé et sa valeur supposée par hypothèse
• On affine la puissance (en modifiant α, n, ...) en fonction de l’écart choisi (qui dépend du degré de précision souhaité)
• Exemple : si la vraie valeur est 0,5, un test plus puissant est nécessaire pour identifier comme significativement différente de celle-ci une valeur mesurée de 0,501 qu’une valeur de 0,6
• On cherche souvent à obtenir une puissance de 0,8 : 80 % de chance de prendre la bonne décision de rejeter une hypothèse nulle fausse
40
• Dépend de la formulation de H1 : hypothèse biologique
• Unilatéral : la différence est attendue dans un certain sens (> ou <).
• Bilatéral : on cherche seulement à savoir s’il y a une différence, quel qu’en soit le sens.
• Valeurs critiques différentes (dans les tables statistiques) : seuils à partir duquel on rejette H0
➡Différence au niveau de la puissance
Test unilatéral ou bilatéral41
42
• But du test : savoir si on doit rejeter ou non H0
• Risque d’erreur due à la variabilité des observations
• Référence à une distribution, dans laquelle se place la statistique (= paramètre) testée
• Loi de distribution théorique
• Exemple de la loi Normale : tests paramétriques
• Génération empirique de la distribution
• Tests par permutations
• Pas de distribution
• Tests non paramétriques
43
• Les tests non paramétriques sont basés sur la notion de rang
• Permettent de mettre en évidence des relations monotones
• Pour 2 variables : augmentation ou diminution constante d’une variable quand l’autre augmente
monotones non monotone
44
• 20 individus en 2 groupes de 10 ; variable = taille
• Question : la taille moyenne est-elle différente dans chaque groupe ?
• H0 : la taille moyenne est la même
• Statistique testée (= variable auxiliaire) : différence entre les moyennes
• Sous H0, elle devrait se situer “autour de 0”
Test par permutations : exemple
45
• N’importe quelle combinaison aléatoire de 2 groupes de 10 parmi les 20 individus correspond à une réalisation de H0
• Chacune de ces réalisations va donner une différence de moyenne entre les deux groupes plus ou moins grande
• Un grand nombre de ces réalisations permet de générer une distribution de la statistique sous H0
• Ces réalisations sont obtenues en permutant au hasard les données originales : test par permutations
• On compare ensuite la valeur observée de la statistique à cette distribution
46
t* < –!t! t* = –!t! –!t!< t* <!t! t* = !t! t* > !t!Statistic t 8 0 974 1† 17
47
Distribution théoriques
• Variables discontinues
• Loi binomiale
• Loi de Poisson
• Variables continues
• Loi Normale
• Loi du Khi-2 (X2)
• Loi de Fisher
• Loi de Student
48
• Distribution la plus importante : distribution Normale (= Gaussienne)
• Théorème de la limite centrale (central limit theorem)
• “Quand une variable aléatoire résulte de nombreux effets indépendants et additifs, dont aucun n’est dominant, cette variable tend à suivre une distribution normale, même si les effets ne suivent pas une telle distribution”
• Souvent le cas dans la nature
49
• Normalité : évaluation visuelle de la distribution des données
• Histogramme : “en cloche”
• Graphe quantile-normale (= quantile-quantile) : points en ligne droite
• Mieux pour petits échantillonsStatdisk - Normal Quantile PlotPrinted on Mar 9 sep 2008 at 14:40
X Value
50
Tests de normalité
• A faire avant d’utiliser les tests paramétriques
• Exemple : test de Shapiro-Wilk, Kolmogorov-Smirnov, …
• H0 : Distribution normale
• Données multinormales : test de multinormalité
• Test de Dagnelie
51
Transformations
• Beaucoup de méthodes d’analyse statistiques requièrent que les données suivent une certaine distribution, notamment la distribution Normale
• Si la distribution n’est pas normale
• Méthodes non-paramétriques
• Transformation des données : normalité
• Autre intérêt : stabilisation des variances (doivent être indépendantes des moyennes)
52
Exemples
• Données d’abondance
• Distribution asymétrique
• Distribution de Poisson
• Distribution contagieuse
• Données en proportions ou pourcentages
53
• Transformation Logarithme
• y’ = ln(y + c)
• Distributions contagieuses
54
• Transformation racine
• y = √(y + c)
• Distributions de Poisson : variance = moyenne
55
• Transformation arcsinus
• y = arcsin√p
• Distributions en proportions
56
• Transformation Box-Cox
• Formule générale
• Quand tout le reste a échoué
• Pas calculable à la main : technique itérative
57
Choix d’une méthode• 1 variable
• 2 groupes : test t, test U, ...
• > 2 groupes : ANOVA, ANCOVA, test de Kruskal-Wallis, ...
• 2 variables
• Liaison : corrélation, test du Χ2
• Modèle : régression simple
• > 2 variables
• Description : ordination sans contrainte, groupement
• Test : test de Mantel, régression multiple, analyse canonique, MANOVA
58
2. COMPARAISON DE
DEUX GROUPES
59
• Il existe des tests spécifiques pour
• comparer des proportions
• comparer des moyennes
• Données par paires ou non
• Nécessite éventuellement de comparer préalablement les variances
• Des conditions d’applications doivent être respectées pour réaliser les tests
60
• 2 échantillons aléatoires simples indépendants (pas de correspondances entre les valeurs des 2 groupes)
• Pour chaque groupe d’effectif ni on a xi succès, et donc une proportion pi = xi/ni
• Test de l’hypothèse nulle p1 = p2
• Condition : xi et (ni - xi) ≥ 5
• On peut avoir à calculer les xi à partir de pi et ni
Comparaison de 2 proportions 61
• Estimation combinée de p1 et p2, notée p
• p = (x1 + x2)/(n1 + n2)
• et q = 1 - p
• Calcul de la statistique test z
• z = (p1 - p2)/√(p.q/n1 + p.q/n2)
• Sous H0, z suit une loi Normale (table de Student avec un nombre infini ("grand") de ddl)
• On peut calculer l’intervalle de confiance de p1 - p2
62
• Quand il ne s’agit pas de proportions :
• 2 groupes d’observations indépendantes : 2 échantillons pouvant être
• Indépendants
• Appariés
• H0 : Les 2 groupes sont issus de la même population,
avec donc la même moyenne
• 2 étapes :
• Comparaison des variances
• Comparaison des moyennes
63
• Important de tester préalablement l’homogénéité des variances car c’est une condition d’application de certains tests (tests paramétriques)
• Sinon, en cas d’hétéroscédasticité : test simultané de 2 hypothèses nulles
• Problème de Behrens-Fisher
➡Le rejet de H0 peut être due à la différence des
moyennes (la seule hypothèse qu’on veut tester) ou à celle des variances
64
• Test de Fisher-Snedecor (test F), pour données quantitatives normalement distribuées
• Statistique F : rapport des variances, tenant compte du nombre d’objets par groupes par l’intermédiaire des degrés de liberté
• Si égalité des variances, F doit se situer autour de 1
• La variable F obéit à une loi de distribution de F
Comparaison de 2 variances65
• Pour 2 groupes à n1 et n2 objets
F = s21/s2
2
• Sous H0, F suit une loi à (n1 - 1) et (n2 - 1) ddl
• Conditions
• Indépendance des observations
• Normalité des données
66
67
• Souvent, les tables ne donnent que les valeurs critiques de F dans la droite de la distribution
• F = plus grande variance/plus petite variance
• Test unilatéral (souvent) ou bilatéral
• On peut également tester les écarts-types par un test F
• Il existe un test non paramétrique permettant de comparer 2 variances en cas de non normalité : test de Fligner-Killeen
68
Comparaison de 2 moyennes• Test t
• Pour échantillons appariés ou non appariés
• Test statistique
• Paramétrique : référence à la loi Normale
• Comparaison de |t| au seuil dans une table de Student
• Par permutations
• Tests non paramétriques
• Test U de Wilcoxon-Mann-Whitney (échantillons non appariés)
• Test des rangs signés de Wilcoxon (échantillons appariés)
69
• Parfois appelé test Z
• H0 : µ1 = µ2
• Statistique t : différence des moyennes des deux échantillons tenant compte des variances et des n différents
• t suit une loi de distribution de Student à n1+n2-2
degrés de liberté sous H0
Test t pour échantillons indépendants70
• Conditions d’utilisation
• Variable quantitative
• Grands échantillons (ni >30)
• Normalité des données (sauf si test par permutations)
• Egalité des variances (homoscédasticité)
• Indépendance des observations
71
• Quand ni < 30 (et en fait le plus souvent), on
utilise une statistique t corrigée
• Les variances estimées des 2 échantillons sont combinées : meilleure approximation de la variance de la population
• Test t de certains livres/logiciels
72
• Si les variances sont inégales, il existe également une correction
• Test t modifié selon Welch
• Même calcul de la statistique-test
• Distribution différente : formule pour modifier le nombre de ddl
73
Test t pour données appariées
• Correspondance 2 à 2 des observations
• Mesures avant-après des mêmes sujets
• Mesures de deux caractères sur les mêmes individus
• Informations supplémentaires
• Pas nécessaire de tester l’homogénéité des variances
• Analyse des différences observées pour chaque paire d’observations
di = xi1 - xi2
74
• Moyenne des différences = différences des moyennes
µd = µ1 - µ2
• Erreur-type (écart-type de la moyenne)
sd = sd/√n
• Statistique-test
t = d/sd
• Sous H0 (µd = 0), t obéit à une loi de Student à (n - 1)
ddl, où n est le nombre de paires
75
• Pour deux groupes indépendants
• Données quantitatives
• Distribution non normale
• Variances inégales
• Echantillons trop petits pour test t (ex : n = 3)
• Données semi-quantitatives
• Moins puissants que les tests paramétriques
• Efficacité (/test t) = 0,95 : pour obtenir la même puissance, il faut 100 observations au test U contre 95 au test t
• Basé sur les rangs
Test non paramétrique U de Wilcoxon-Mann-Whitney
76
• On place l’ensemble des valeurs en ordre (les ex-aequos reçoivent un rang médian)
• Plus les groupes sont séparés, moins les valeurs seront entremêlées
• Le test consiste à estimer l’écart à un “entremêlement moyen” des valeurs placées en rang
• La statistique testée, U, mesure le degré de mélange des deux échantillons (H0 : pas de différence)
• Comparaison de la valeur observée par rapport à la valeur critique (Table)
• Convergence vers une loi Normale quand n augmente
77
• Exemple
Groupe 1 : 0,5 2 2,1 (n1 = 3)
Groupe 2 : 0,7 2,2 3 3,1 (n2 = 4)
Valeurs en ordre 1 2 3 4 5 6 7
Provenance 1 2 1 1 2 2 2
• U1 : nombre de fois qu’un élément du groupe 2 en
précède un du groupe 1 ; U1 = 0 + 1 + 1 = 2
• U2 : l’inverse ; = 1 + 3 + 3 + 3 = 10
78
• Il y a en tout n1n2 comparaisons : 4 x 3 = 12
U2 = n1n2 - U1
• Si les groupes sont parfaitement séparés
U2 = 0 et U1 = n1n2 , ou l’inverse
• Si les groupes sont parfaitement entremêlés
U1 = U2 = n1n2/2
• Tester H0 revient à mesurer l’écart du plus petit des U
à la valeur n1n2/2 (valeur sous H0)
• Statistique-test = min (U1, U2)
79
Test non paramétrique de Wilcoxon
• Pour données appariées
• Mêmes conditions que pour le test U
• Efficacité (/test t) = 0,95
• Plus puissant que le test des signes (non développé) : Efficacité (/test t) = 0,63
• Etude des différences entre paires de données
• H0 : pas de différence entre les moyennes des groupes
80
• On place en rang les valeurs absolues des différences (en excluant les valeurs nulles et en donnant un rang médian en cas d’ex-aequo)
• On attribue à chaque rang le signe de la différence originale
• On somme les rangs positifs (T+) et les rangs négatifs (T-)
• Sous H0, T+ = T- = n(n + 1)/4 (n excluant les
différences nulles)
• Statistique-test = min (T+, T-)
81
Comparaison de 2 groupesDonnées normales ?
Homoscédasticité
Test tparamétriquepermutation
Hétéroscédasticité
Homogénéiserles variances
Test F
Oui
Normaliser
Non
Succès
Succès
ni > 50 ?
OuiNon
Test tWelch
Echec
ni > 50 ?
Oui
Test tpermutation
Non
Homoscédasticité
Oui Non
Test U(ou si variables semi-
quantitatives)
Echec
ni petit
(pour des échantillons non appariés)
82
Risque relatif (RR) et Rapport de cotes (RC)
• Mesures de risque
• Mesure de l'efficacité d'un traitement dans un groupe traité (ou exposé) par rapport à un groupe non traité
• Exemple : rapport entre le nombre de sujets développant une pathologie dans un groupe recevant un médicament et ce nombre dans un groupe contrôle
• Très important en santé humaine et en épidémiologie, dans le cadre d'études prospectives et rétrospectives
83
• Tableau d'une étude prospective ou rétrospective
• RR = (a/(a+b)/(c/(c+d)), que pour études prospectives
• RC = (a/b)/(c/d) = ad/bc
• Si RR ou RC = 1, le traitement n'a pas d'effet, sinon il en a un (dans un sens ou l'autre)
• Possibilité de calcul d'un intervalle de confiance
Maladie Pas de maladie
Traité (exposé) a b
Non traité (ou placebo ou non exposé) c d
84
Risque relatif• RR = relative risk
• Incidence d'un événement dans un groupe/incidence du même événement dans un autre groupe
• Exemple : survenue d'une maladie dans un groupe vacciné et un groupe témoin non vacciné
• RR = chance de tomber malade dans le groupe traité par rapport à cette chance dans le groupe témoin
• Souvent incidence dans groupe témoin pas connue : calcul du RC, qui estime bien le RR
85
Rapport de cotes
• RC = odds ratio
• Cote = nombre de fois qu'un événement s'est produit dans un groupe/nombre de fois où il ne s'est pas produit. Exemple : 3 contre 1
• En sciences de la santé : comparaison du risque (par exemple de développer une maladie) entre les individus traités et les individus contrôles
• RC = Probabilité pour le groupe traité (ou exposé) / Probabilité pour le groupe contrôle
86
3. COMPARAISON DE
PLUS DE DEUX GROUPES
87
• La comparaison de moyennes de plus de deux échantillons se fait généralement par une analyse de variance (ANOVA)
• L’analyse de variance suppose l’homogénéité des variances et la normalité des données
• Sinon : problème de Behrens-Fisher (test simultané de 2 hypothèses nulles)
• Si ces conditions ne peuvent être atteintes par des transformations, il faut utiliser d’autres méthodes
• Les tests d’homogénéité des variances (THV) requièrent la normalité des données
88
THV : Test de Bartlett
• Données normalement distribuées (sinon le test de Fligner-Killeen est utilisable)
• H0 : toutes les variances sont égales
• H1 : au moins une des variances est différente
• Test d’une variable auxiliaire (statistique-test) B qui suit une loi du χ2 sous H0 (test unilatéral)
89
• En divisant B par CB, on obtient une statistique
suivant une loi du χ2 à (k - 1) ddl : test
avec
90
• k groupes indépendants d’observations
• Comparaison des moyennes (par l’intermédiaire des variances totale, intergroupe et intragroupe)
• H0 : Les moyennes des k groupes sont égales
• H1 : Au moins une des moyennes est différente
(l’ANOVA ne dit pas la- ou lesquelles)
Analyse de variance (ANOVA)
91
• On ne peut pas remplacer une ANOVA par une série de tests t : inflation de l’erreur de Type I (problème des tests multiples)
• Les groupes sont définis par un ou plusieurs critère(s) de classification ou facteur, contrôlé ou aléatoire
• Conditions d’application
• Variable quantitative
• Normalité (”équivalents NP” : Test de Kruskal-Wallis, Friedman, ...)
• Homoscédasticité
• Indépendance des observations
• n ≥ 5 observations/groupe
92
• Le cas échéant, pour savoir à quelle(s) moyenne(s) est due le rejet de H0 : tests a posteriori
• Test LSD (Least Significant Difference, Fisher)
• Test HSD (Honestly Significant Difference, Tukey)
• Test SNK (Student, Newmann, Keuls)
• Test de Scheffé
• Test de Dunnet (pour comparer groupe témoin aux autres)
• Diffèrent entre eux et du test t par leur définition de l’erreur de Type I
• Souvent réalisés dans la foulée par les logiciels
93
Différentes formes d’ANOVA1 2 3 4 5
X X X X XX X X X XX X X X XX X X X XX X X X XX X X
ANOVAà 1 facteur
1 2 3 4
A
X X X XX X X XX X X XX X X XX X X X
B
X X X XX X X XX X X XX X X XX X X X
ANOVA à 2 facteurs croisésavec répétitions
1 2 3
A B C D E F
X X X X X X
X X X X X X
X X X X X X
X X X X X X
X X X X X X
ANOVAhiérarchique
1 2 3 4
A X X X X
B X X X X
C X X X X
ANOVAà 2 facteurs
croisés
94
• Avec > 2 facteurs : ANOVA multifactorielle
• Implique de nombreuses possibilités d’interactions entre les facteurs. A définir a priori
• Mêmes principes que ANOVA factorielle
• Avec plusieurs variables : analyse de variance multivariable ou MANOVA
• Généralisation de l’ANOVA “univariable”
• Les variables doivent être pas ou peu corrélées
ANOVA à > 2 facteurs et/ou avec plusieurs variables
95
ANOVA à 1 facteur
• 1 variable
• k groupes (k > 2), définis par 1 critère
• Exemple
• variable = croissance d’une plante
• critère = différentes intensités lumineuses
• Facteur contrôlé (“expérimental”) ou aléatoire (“naturel”)
96
• Sources de variation : décomposition de la variance totale
• Dispersion totale SCET : SCE par rapport à la moyenne générale
• Dispersion intragroupe SCEE, due aux “erreurs” : somme des SCE pour chaque groupe par rapport à sa propre moyenne
• Dispersion intergroupe SCEI : SCE des moyennes des groupes par rapport à la moyenne générale (pondération : SCE multipliés par le nombre d’éléments par groupe)
97
X
XXX
SCEE2SCEE1
SCEE3
SCEE = SCEE1 + SCEE2 + SCEE3
SCET
Cas où H1 est vraie : il y a une différence entre les groupes
On peut montrer que SCET = SCEE + SCEI
SCEI
Représentation graphique
X
SCEE2SCEE1 SCEE3
SCET
Cas où H0 est vraie : pas de différence entre les groupes
XXX
SCEI
98
• Pour calculer les variances (= carrés moyens), il faut diviser les SCEE par les nombres de ddl correspondants
• SCET : n - 1 ddl, donc S2T = SCET/(n - 1)
➡Variance totale
• SCEE : (n1 - 1) + (n2 - 1) + ... + (nk - 1) = n - k ddl,
donc S2E = SCEE/(n - k)
➡Variance due aux “erreurs” = variance résiduelle : variabilité naturelle, “toujours là”
• SCEI : k - 1 ddl, donc S2I = SCEI/(k - 1)
➡Variance intergroupe = variance factorielle : effet éventuel du facteur
99
• Si H0 est vraie (pas d’effet du facteur) : S2E et S2
I sont
deux estimations indépendantes de la fluctuation aléatoire σ2 (S2
T en est également une)
• Sous H0, chaque groupe est un échantillon d’une
population, sa variance est donc une estimation de σ2. La moyenne pondérée des variances de tous les groupes en est une estimation encore meilleure : S2
E
• Sous H0, les moyennes de chaque groupe estiment la
moyenne de la population, µ, et la variance calculée à partir de la dispersion des moyennes est une estimation de σ2 : S2
I
100
• Si H0 n’est pas vraie (il y a un effet du facteur)
• S2E reste une estimation de σ2 (d’où l’importance
de l’homogénéité des variances !)
• S2I n’est plus une estimation de σ2, mais elle est
nécessairement plus grande car la distribution d’échantillonnage des moyennes (différentes si H0
n’est pas vraie) est plus large que celle de µ
101
• Donc sous H0 , S2I/S
2E ≈ 1
• On teste ce rapport avec une statistique F à (k - 1) et (n - k) ddl
• Test unilatéral
• L’ANOVA ne dit pas quelle moyenne est différente
Test102
Test de Kruskal-Wallis
• Equivalent non paramétrique de l’ANOVA à 1 facteur
• Efficacité (/ANOVA) = 0,95
• Distribution non Normale
• Variances inégales
• Petits groupes
• Variable semi-quantitative
• Généralisation du test U
103
• Les valeurs sont toutes mélangées et placées en rang
• Pour chaque groupe, on somme les rangs : Rj
• Pour les k groupes, on obtient k valeurs de Rj
• Statistique-test
Hc = 12/(n(n+1))Σ(Rj2/nj) - 3(n + 1)
• Sous H0 la statistique-test suit une loi du χ2 à (k - 1)
ddl
Principe104
• Il existe une correction pour les ex-aequo (plusieurs données égales donc de même rang)
• Utilisation d’une statistique corrigée
Hcorr = Hc/C
• avec C = 1 - (Σ(exl3 - exl)/(n
3 - n))
• où exl est le nombre d’individus ex-aequo
pour la valeur l
• la somme se fait sur le nombre de groupes d’ex-aequo
105
• Tests post-hoc (a posteriori) pour comparer les groupes 2 à 2 :
• Test de Dunn (1963)
• Test de Conover-Iman (1999) (plus puissant que celui de Dunn)
• Test de Nemenyi (1963) si les n sont égaux
106
ANOVA à 2 facteurs croisés
• Groupes identifiés par 2 critères de classification indépendants, à r et s niveaux
• Dans ce cas, on considère une seule observation par combinaison de niveaux
• On peut tester l’effet de chaque facteur, car chacun comprend des répétitions
1 ... ... r
1 X X X X
... X X X X
s X X X X
A
B
107
Exemple
• On veut connaître l’effet de la température (4 températures différentes) et de la profondeur (5 profondeurs) sur la productivité du phytoplancton. On prélève pour cela un échantillon d’eau par profondeur dans 4 masses d’eau de températures différentes
• Variable : productivité (µg chl a/mg)
• Facteur A : température
• Facteur B : profondeur
108
• Test de 2 hypothèses nulles
• Les moyennes sont identiques selon le facteur A
• H0 : µ1. = µ2. = µ3. = µr.
• Les moyennes sont identiques selon le facteur B
• H0 : µ.1 = µ.2 = µ.3 = µ.s
• Hypothèses contraires correspondantes : au moins une des moyennes est différente des autres
109
• Sources de variation
• Dispersion totale SCT : SCE par rapport à la moyenne générale
• Dispersion selon le facteur A : SCEA = SCE des moyennes des groupes de A par rapport à la moyenne générale
• Dispersion selon le facteur B : SCEB = SCE des moyennes des groupes de B par rapport à la moyenne générale
• Dispersion résiduelle SCEE : dispersion totale SCET moins celle due aux facteurs A et B
110
• Pour calculer les variances, il faut diviser les SCE par les nombres de ddl correspondants
• SCEA : (r - 1) donc S2A = SCEA/(r - 1)
• SCEB : (s - 1) donc S2B = SCEB/(s - 1)
• SCEE : (r - 1)(s - 1) donc S2E = SCEE/(r - 1)(s - 1)
• Tests
• H0A : F = S2A/S2
E avec (r - 1) et (r - 1)(s - 1) ddl
• H0B : F = S2B/S2
E avec (s - 1) et (r - 1)(s - 1) ddl
111
Test de Friedman• Appelé aussi Méthode de Friedman pour blocs
randomisés
• Equivalent non-paramétrique de l’ANOVA à 2 facteurs sans répétitions
• Pas de présupposé sur la distribution
• Pour variables quantitatives ou semi-quantitatives
• Moins puissant que l’ANOVA
• Deux hypothèses nulles : moyennes égales selon chaque facteur
112
• Principe
• Le test doit être conduit deux fois : une fois pour chaque facteur A et B, à a et b niveaux (ex. pour A)
• Placer les valeurs selon le facteur A en rangs dans les niveaux (qui jouent le rôle de blocs) du facteur B
• Sommer les rangs selon les niveaux : (ΣbRij)
• Calculer X2 = ((12/(ab(a + 1))Σa(ΣbRij)2) - 3b(a + 1)
• Cette valeur suit une loi du χ2 à (a - 1) ddl sous H0
• Idem pour B
113
ANOVA à 2 facteurs avec répétitions
• Permet de tester en plus l’interaction entre les 2 facteurs
• Interaction : influence du niveau d’un facteur sur l’effet de l’autre facteur sur la variable dépendante
1 ... ... r
1
1 1 1 1
... ... ... ...t t t t
...
1 1 1 1
... ... ... ...t t t t
s
1 1 1 1
... ... ... ...t t t t
A
B
114
Exemple
• On cherche à évaluer les effets de la dose d’un médicament et de l’âge sur le rythme cardiaque de patients. On veut en outre savoir si l’effet éventuel du médicament diffère selon l’âge.
• Variable : rythme cardiaque au repos
• Facteur A : dose de médicament
• Facteur B : catégorie d’âge
• Effet différentiel selon l’âge (ou l’inverse) : interaction A X B
115
• Effets des facteurs et de l’interaction
50
85
120
Jeune Adulte Âgé
Dose forteDose faible
Var
: Ryt
hme
card
iaqu
e
A : médicament
B : âge
Pas d’effet
50
85
120
Jeune Adulte Âgé
Effet de A
50
85
120
Jeune Adulte ÂgéEffet de B
50
85
120
Jeune Adulte ÂgéEffet de A et B
116
50
85
120
Jeune Adulte Âgé
Dose forteDose faible
• La présence d’une interaction rend complexe l’étude de l’effet des facteurs individuels
• Dans ce cas, ceux-ci doivent être étudiés plus précisément, ou non considérés
Var
: Rhy
tme
card
iaqu
eA : médicament B : âge
Interaction + effet de A
50
85
120
Jeune Adulte Âgé
Interaction et pas d’effet de A et B
117
• Test de 3 hypothèses nulles
• Les moyennes sont identiques selon le facteur A
• H0 : µ1. = µ2. = µ3. = µr.
• Les moyennes sont identiques selon le facteur B
• H0 : µ.1 = µ.2 = µ.3 = µ.s
• Les facteurs A et B n’interagissent pas sur la variable
118
• Sources de variation
• Dispersion selon le facteur A : SCEA = SCE des moyennes des groupes de A par rapport à la moyenne générale
• Dispersion selon le facteur B : SCEB = SCE des moyennes des groupes de B par rapport à la moyenne générale
• Dispersion cellulaire SCEC : au sein des cases du tableau
• Dispersion due à l’interaction SCEAB
• Dispersion résiduelle SCEE : dispersion totale SCET moins SCEC
119
• Variances : division par les ddl
• SCEA : (r - 1) donc S2A = SCEA/(r - 1)
• SCEB : (s - 1) donc S2B = SCEB/(s - 1)
• SCEAB : (r - 1)(s - 1) donc S2AB = SCEAB/
(r - 1)(s - 1)
• SCEE : rs(t - 1) donc S2E = SCEE/rs(t - 1)
120
• Tests
• H0A : F = S2A/S2
E avec (r - 1) et rs(t - 1) ddl
• H0B : F = S2B/S2
E avec (s - 1) et rs(t - 1) ddl
• H0AB : F = S2AB/S2
E avec (r - 1)(s - 1) et rs(t - 1)
ddl
121
Tableau d’ANOVA
Source ddl Somme des carrés
Carré moyen
F Probabilité
A 2 181,32 90,66 9,483 0,0004
B 1 16,64 16,64 1,74 0,194
A X B 2 23,93 11,96 1,251 0,297
Erreur 42 401,52 9,56
• Exemple pour deux facteurs à 3 et 2 niveaux, et 8 répétitions par niveau
122
Test de Scheirer-Ray-Hare• Equivalent non-paramétrique de l’ANOVA à
deux facteurs avec répétitions
• Extension du test de Kruskal-Wallis (mêmes conditions)
• Parfois appelé test H
• Test de l’effet de chaque facteur et de l’interaction
• Facteur A, à a niveaux, facteur B à b niveaux, n répétitions par combinaison de niveaux
123
• Placer l’ensemble des valeurs en rang
• Remplacer les valeurs originales par leurs rangs
• Effectuer une ANOVA factorielle sur ces rangs, on obtient pour chaque facteur les SCE
• Calculer le carré moyen CM = abn(abn + 1)/12
• Pour chaque facteur et l’interaction, calculer les statistiques H, telles que H = SCE/CM
• Sous H0 les statistiques-test suivent une loi du χ2 à un
nombre de ddl correspondant au SCE testé
Principe 124
ANOVA hiérarchique
1 ... a
1 ... b 1 ... b 1 ... b
1 1 1 1 1 1 1 1 1
... ... ... ... ... ... ... ... ...
n n n n n n n n n
• Extension de l’ANOVA à 1 facteur
• Niveaux emboîtés (nested) = hiérarchisés
• Pas de correspondances entre les modalités des facteurs
125
Exemple• Prélèvement et mesure de la taille de plantes dans
12 localités réparties également dans 3 chaînes de montagnes
• Variable : taille (pouvant faire l’objet de n répétitions par localité)
• Facteur A : chaîne (3 niveaux)
• Facteur SG = sous-groupe : localités (4 niveaux)
• Les facteurs sont emboîtés : la localité 1 de la chaîne 2 n’a pas de rapport avec la localité 1 des deux autres chaînes
126
• Test de 2 hypothèses nulles
1. Les moyennes sont identiques selon le sous-facteur SG dans les niveaux du facteur A
2. Les moyennes sont identiques selon le facteur A
• Les hypothèses sont testées dans cet ordre
127
• Tests
• Effet des sous-groupes
H0SG : F = S2
SG/S2E avec a(b-1) et ab(n-1) ddl
• Effet du facteur proprement dit, tenant compte de l’effet des sous-groupes
H0A : F = S2
A/S2SG avec (a-1) et a(b-1) ddl
128
ANOVA : modèles I, II et III (= modèle mixte)
• Fonction du caractère contrôlé (niveaux fixés par l'expérimentateur) ou aléatoire (niveaux choisis au hasard parmi une gamme de possibilité) des facteurs (= critères de classification)
• Ce qu'on a vu jusque là est l'ANOVA de modèle I : 2 facteurs contrôlés
• ANOVA de modèle II : 2 facteurs aléatoires
• ANOVA de modèle III (ou mixte) : 1 facteur contrôlé et 1 facteur aléatoire
129
• Pas toujours aisé de différencier un facteur fixe d'un facteur aléatoire : il faut savoir si on considère les niveaux comme un échantillon aléatoire d'un groupe plus vaste (exemple : quelques années sur une longue période)
• Modèle II rarement rencontré en biologie
• Tous les calculs des SCE. restent les mêmes, ce sont les calculs des F qui changent
• L'estimation de l'effet d'un facteur doit tenir compte du caractère aléatoire de l'autre facteur le cas échéant, par l'intermédiaire de l'effet de l'interaction
130
• Modèle mixte (III) avec facteur A contrôlé et B aléatoire :
• H0A : F = S2A/S2
AB avec (r - 1) et (r - 1)(s - 1) ddl
• H0B : F = S2B/S2
E avec (s - 1) et rs(t - 1) ddl
• H0AB : F = S2AB/S2
E avec (r - 1)(s - 1) et rs(t - 1) ddl
131
• Modèle II avec facteur A et B aléatoires :
• H0A : F = S2A/S2
AB avec (r - 1) et (r - 1)(s - 1) ddl
• H0B : F = S2B/S2
AB avec (s - 1) et (r - 1)(s - 1) ddl
• H0AB : F = S2AB/S2
E avec (r - 1)(s - 1) et rs(t - 1) ddl
132
Comparaison de > 2 groupesDonnées normales ?
Test non paramétrique(K-W, Friedman, ...)
ni > 145 ?
Homoscédasticité
ANOVA
Hétéroscédasticité
Homogénéiserles variances
Test d’homogénéitédes variances
Oui
Normaliser
Non
Oui
Non
Echec
Succès
Echec
Succès Echec
ni petit
133
4. LIEN ENTRE VARIABLES :
CORRÉLATION
134
• 2 variables mesurées sur les mêmes objets
• Analyse simultanée des variables
• Au moins une des 2 variables doit être aléatoire
Etude de 2 variables135
• Covariance : dispersion de 2 variables quantitatives
• “Variance” de 2 variables simultanées
• Non bornée
• Peut être négative
• Pas d’indication sur la liaison
Etude de la liaison entre 2 variables :
covariance et corrélation
136
y
x
A
B
Covariances différentes
Avec ν = nombre de ddl (généralement (n-1))
137
• Mesure de la liaison linéaire entre 2 variables : corrélation linéaire de Pearson
• Covariance sur données centrées-réduites
• Même signe que la covariance
• Varie entre -1 et 1
rxy = Sxy/(SxSy)
y
x
A
B
Corrélations identiques
138
• Test de signification de la corrélation
• Variables quantitatives
• Distribution binormale
• Indépendance des observations
• H0 : corrélation nulle dans la population de
référence
• Variables auxiliaires F ou t (test de Student n-2 ddl)
• On peut tester r par permutations
• Test unilatéral ou bilatéral
• Corrélation ≠ causalité
139
Test de H0 : r = x (x ≠ 0)
• Test habituel H0 : r = 0 ; recherche d’un lien
• Parfois, l’hypothèse biologique est différente
• Relations allométriques
• “Lois” métaboliques : BMR vs densité, ...
• Relations prédateurs-proies
• r varie entre -1 et 1 : distribution symétrique autour de 0
• Besoin d’une transformation pour H0 : r = x (≠ 0)
140
Transformation• Transformation de Fisher
z = 0,5ln((1 + r)/(1 - r)) = tgh-1r
(arc-tangente hyperbolique)
• Distribution de -∞ à +∞
• Opérations sur données transformées puis, si besoin, retour aux vraies valeurs par tgh
• On obtient un intervalle de confiance du r
• Valable pour n > 50 (25 à la rigueur)
• Correction pour les petits échantillons
141
Test
• Transformation de la valeur observée de r en z
• Transformation du r de l’hypothèse nulle (ρ0) en ζ0
• On construit une statistique-test appelée t∞
t∞ = |(z-ζ0)√(n-3)|
• La statistique-test suit à peu près une distribution normale centrée-réduite
142
Corrélation non paramétrique
• Quand les données ne suivent pas une distribution binormale
• Pour variables semi-quantitatives
• Basée sur les rangs
• Il existe des corrections pour les ex-aequo
143
• ρ de Spearman
• Equivalent au r de Pearson calculé sur les rangs des variables originales
• Efficacité (/r) = 0,91
• Varie entre -1 et 1
Avecd = différence entre les rangs d’un même objet pour les deux variablesp = nombre total d’objets
corrélation ρ = 1 -6
p
∑j =1
dj2
p3- p
144
• Exemple
Objets 1 2 3 4 5
Var 1 5 1 4 2 3
Var 2 5 1 4 2 3
Var 3 5 1 4 2 3
Var 4 2 1 4 5 3
p = 5
ρ (1,2) = 1 - (6(0))/(53 - 5) = 1
ρ (3,4) = 1 - (6(32 + 32))/(53 - 5) = 0,1
↑d = 3
↑d = 3
← rangs← rangs← rangs← rangs
145
• Il existe une correction pour les ex-aequo (utile seulement si leur nombre est important)
• La corrélation de Spearman peut se tester : on calcule une statistique-test qui obéit à une loi normale (si n est suffisamment grand : 30) sous H0
(pas de corrélation)
146
• τ de Kendall
• Permet le calcul de corrélations partielles
• Varie entre -1 et 1
corrélation τa= 2 Sp (p - 1)
147
• Exemple
Objets 1 2 3 4 5
Var 1 5 1 4 2 3
Var 2 2 1 4 5 3
Objets 2 4 5 3 1
Var 1 1 2 3 4 5
Var 2 1 5 3 4 2
Classement des objets en ordre croissant selon la première variable
τ (1,2)= 2(1+1+1+1-1-1-1+1-1-1)/5(5-1)= 0
+1+1
+1
-1-1
etc.-1
+1
148
• Le τ de Kendall peut se tester
• La statistique-test sous H0 suit une loi
normale pour n > 8
149
Lien entre 2 variables qualitatives :
test du χ2
• Etude d’un tableau de fréquences : tableau de contingence
• Plusieurs utilisations du test
• Liaison entre 2 variables qualitatives
• Comparer plusieurs groupes décrits par une variable qualitative
• Conformité distribution observée vs théorique (ex : distribution mendélienne en génétique)
150
• Les variables qualitatives comportent différents états : modalités
• Exemple : variable = couleur ; modalités : rouge, bleu, vert
• Les fréquences (absolues ou relatives) sont les nombres d’objets caractérisés par une modalité de chaque variable
• Exemple (couleur et forme) : 35 carrés et rouges, 20 triangles et rouges, ...
• Les chiffres sur lesquels se fait l’analyse ne sont pas les mesures d’une variable mais des fréquences
151
• Tableau de contingence
Rouge Bleu Vert ... Jaune
Rond Fréquence 1,1
Carré Fréquence 2,1
Triangle
... Fréquence i,j
OvaleFréquence
n,p
Variable qualitative (ex : couleur)
Vari
able
qua
litat
ive
(ex
: for
me)
152
• Principe
• Mesurer les écarts entre la distribution observée (O) et la distribution théorique (E : espérée sous hypothèse d’indépendance)
• Comparaison à une statistique-test : χ2
• χ2 = corrélation pour variables qualitatives
• Cette statistique suit une distribution particulière sous H0
• Les écarts observés sont-ils assez petits pour être dus au hasard ?
153
• E11 = x1.x.1/n
• χ2 = Σ(E - O)2/E
Modalité 1 Modalité 2 Modalité k
Modalité 1 x11
Modalité 2 x22
Modalité r xr1 xrk
Variable 1
Vari
able
2
Variable 1Modalité 1 Modalité 2 Modalité k
Modalité 1 E11 x1.
Modalité 2 E22 x2.
Modalité r Er1 Erk xr.
x.1 x.2 x.k x.. (=n)
Vari
able
2
154
• Plus l’écart entre les valeurs observées et théoriques augmente, plus la valeur de χ2 augmente
• Plus cet écart augmente, plus le numérateur de la statistique-test augmente, quel que soit le signe de cette différence : test unilatéral
• Le nombre de degrés de liberté est associé au nombre de (E - O)2/E calculés : il y en a autant que de cases dans le tableau, soit (r x k)
• En retirant le nombre de paramètres estimés, il reste (r - 1)(k - 1) ddl
155
Recherche des correspondances
• Quelles sont les associations entre modalités (cases du tableau) responsables de la relation éventuelle ?
• Ce sont les cases ou E est la plus différente de O : correspondances entre les modalités
• Il est possible de visualiser les correspondances par une analyse factorielle des correspondances (AFC)
156
Conditions d’application
• 2 variables qualitatives, ou 1 variable qualitative et des variables quantitatives ou semi-quantitatives divisées en classes
• Indépendance des observations
• Fréquences absolues
• E pas trop petites, n assez grand (n > (5 x r x k))
• Pour petits effectifs : Test Exact de Fisher (tableaux 2 X 2)
157
5. LIEN ENTRE VARIABLES :
RÉGRESSION SIMPLE
158
• Modèle ≠ corrélation
• Fonction de la forme Y = aX + b, premier ordre
• Pertinent que si r significatif et plutôt élevé
• Variable dépendante Y (= réponse) : dont on cherche à comprendre la variation
• Variable indépendante (= explicative) X : par rapport à laquelle on cherche à expliquer les variations de Y
• Plusieurs variables X : régression multiple
Régression linéaire simple159
• X contrôlé, Y aléatoire : modèle I
• X et Y aléatoires : modèle II
• Droites passent par X et Y moyens
Types de régression160
• Démarche expérimentale/démarche corrélative
Exemple : dans quelle mesure la température influence-t-elle la croissance d’une espèce ?
• Démarche expérimentale : individus placés à des températures différentes, mesure de la croissance et des processus biologiques liés : test de liens de causalité, élaboration de modèles prédictifs...
161
• Démarche corrélative : on recherche dans la nature des situations où l’espèce est présente dans des conditions variables de température. On mesure la corrélation entre la taille observée et la température ➡ régression = modèle
• Mise en évidence de corrélations
• Corrélation ≠ causalité !!
• Absence de corrélation ≠ absence de lien
162
163
• Description : modèle fonctionnel
• Trouver le meilleur modèle
• Génération d’hypothèses
• Inférence : test d’une hypothèse
• Tests des paramètres
• Lien entre variables
• Prévision et prédiction
• Valeurs de Y pour de nouvelles valeurs de X
• Interpolation (prévision) ≠ extrapolation (prédiction)
Utilisations de la régression 164
Régression de modèle I• Variation sur Y >> X
• Typiquement utilisée dans un contexte expérimental : X contrôlé
• Méthode des moindres carrés ordinaires MCO (ordinary least-squares : OLS)
• Parfois utilisable quand X et Y sont aléatoires si on ne cherche pas une estimation parfaite des paramètres, ni leur significativité
• Parfois (souvent) le seul type de régression des logiciels
165
Y
X
• Principe des moindres carrés
Yi
Yi
On veut minimiser la somme des (Yi-Yi)2^
résidus
pente
intercept
Y = aX+b
^
166
• Après développement mathématique (minimisation de la somme des carrés des résidus), on trouve
a = Sxy/Sx2 = rxy(Sy/Sx)
b = Y - aX
car la droite passe par le centre de gravité du nuage de point (coordonnées = moyennes)
167
Y
• Coefficient de détermination : r2
• C’est le carré du coefficient de corrélation r
• r2 = variance expliquée par le modèle de régression :
^Yi
Yi
Y
X
Y = aX+b
^
168
• Test de signification : on peut tester r ou a (idem)
• La pente a
• H0 : a = 0
• H1 : a ≠ 0
• Test F (analyse de variance), avec
F = SyR2/Se
2 avec 1 et (n - 2) ddl
=variance expliquée par la régression = SCERvariance due aux erreurs = SCEE/(n - 2)
169
Tableau d’ANOVA
Source ddl Somme des carrés
Carré moyen F Probabilité
Taille 1 31135,9 31135,9 55,581 0
Résidus 52 29129,6 560,2
• Exemple pour une régression Age-Taille sur 54 individus
Variable réponse = Age
170
• Conditions d’application du test
• Indépendance des résidus
• Distribution normale des résidus
• Homogénéité des variances
171
Pas de tendance : OK Tendance : non valide
172
• Tester le r2 est équivalent à tester le coefficient de corrélation r
• On emploie la statistique t vue précédemment (ci-dessous, suit une loi de Student), ou la Table donnant le rcritique
t = √F = (r√(n - 2))/(√(1 - r2))
• Test unilatéral ou bilatéral à (n - 2) ddl
• Test réalisable par permutations
173
Intervalles de confiance
• Pente : relation (0 ?), hypothèse (≠ 0)
• Ordonnée à l’origine (0 ?)
• Estimation : intervalle d’un Yi pour un Xi
• Prédiction d’une estimation : pour une nouvelle observation d’un Yi , intervalle plus large
• Estimation de la moyenne : pour une nouvelle série de valeurs de Y pour une seule valeur de X, intervalle plus étroit
174
175
Calculs• Intervalle de confiance de la pente
• La vraie pente (α) se situe entre
a ± tbil.√(Sa2); où √(Sa
2) est l’erreur type de a
Sa2 = Se
2/(n - 1)Sx2 = SCEE/((n - 2)(n - 1)Sx
2)
(rappel : Se2 = SCEE/(n -2) ;
SCEE = Σ(Σ(yi - yi)2) = (n - 1)Sy
2(1 - r2)
• t suit une loi de Student à (n - 2) ddl
176
• Intervalle de confiance de l’ordonnée à l’origine
• Le vrai intercept (β) se situe entre
b ± tbil.√(Sb2); où √(Sb
2) est l’erreur type de b
Sb2 = (Se
2ΣXi2)/(nΣ(Xi - X)2)
= (Sy2(1-r2)ΣXi
2)/(Sx2n(n - 2))
• t suit une loi de Student à (n - 2) ddl
177
• Intervalle de confiance d’une estimation
• Une estimation de y, y, se situe entre
y ± tbil.√(Sy 2); où √(Sy
2) est l’écart type de y
Sy 2 = Se
2(1/n + (Xi - X)2/Σ(Xi - X)2)
= ((n - 1)Sy2(1 - r2)/(n - 2))(1/n + (Xi - X)2/Σ(Xi - X)2)
• t suit une loi de Student à (n - 2) ddl
178
• On utilise également la régression de modèle I
• Quand on a une raison claire de postuler quelle variable influence l’autre
• Quand on veut simplement faire de la prévision
• Quand seulement le r2 est important
179
Régression de modèle II
• X et Y aléatoires, erreurs de même ordre
• En modèle I : la régression de Y sur X ≠ X sur Y
• Cas typique des relations dans la nature
• Relation poids-longueur, entre abondances, ...
• Plusieurs méthodes
• Axe majeur AM
• Axe majeur réduit AMR
• Axe majeur sur données cadrées AMDC
180
• Axe majeur
Y
X
résidus
Y = aX+b
pente
intercept
Yi
Yi
Xi Xi
181
• Axe majeur : plus grande variabilité du nuage de points = première composante principale
• Plus complexe à calculer
• Sensible aux échelles des variables (contrairement au modèle I basé sur la corrélation)
• On transforme souvent les variables en ln
• Axe majeur réduit : sur données centrées-réduites
• Nécessite une forte corrélation (r significatif) entre les variables et un grand nombre d’observations
• Pente non testable
182
• Si les données ne sont pas exprimées dans les mêmes unités
• Axe majeur sur données cadrées
• Cadrage
Xi’ = (Xi - Xmin)/(Xmax - Xmin)
Yi’ = (Yi - Ymin)/(Ymax - Ymin)
• Avec un minimum à 0, la transformation devient
Xi’ = Xi/Xmax
Yi’ = Yi/Ymax
183
• Les données varient ainsi entre 0 et 1
• A éviter en cas de valeurs aberrantes
184
• Pente de l’axe majeur : am
am = (d ± √(d2 + 4))/2 ; (± suivant le signe de r)
avec d = (a2 - r2)/(ar2)
où a = pente de la droite MCO
et r = coefficient de corrélation
• Ordonnée à l’origine
bm = Y - amX
• Intervalle de confiance laborieux à calculer
185
186
Choisir le bon type de régressionVariation sur Y > 3 fois celle sur X ?
X et Y de mêmes unitéset variances semblables ?
AM
r significatif ?
MCO
OuiDonnées normales ?
(transformation)
Non
Non
Oui
Oui Non
Oui
AMR
AMDC (si pas de valeurs aberrantes)
Non
test par permutations
But ?
PrédictionLien
Estimation
Comparervaleurs prédites
etvaleurs
observées
187
6. RÉGRESSION AVEC
PLUS DE 2 VARIABLES
188
Plusieurs variables indépendantes :
régression multiple
• But : expliquer une variable dépendante par plusieurs variables indépendantes
• Permet la prise en compte de l’effet de variables confondantes
Y = f(X1, X2, ..., Xn)
189
• Y = b + a1X1 + a2X2 + ... + akXk
• 2 variables indépendantes : plan ; au-delà : hyperplan
• ai (coefficient de régression partielle) : contribution de
la variable Xi à l'explication de la variable Y, quand les
variables explicatives sont tenues constantes
Régression linéaire multiple190
• 2 variables indépendantes (explicatives) : plan
191
• R2 global = coefficient de détermination multiple : donne la proportion de variance expliquée par toutes les variables
• r2 partiels = coefficients de détermination partiels : donnent la proportion de variance expliquée par chacune des variables en contrôlant l’effet des autres
• Les deux peuvent être testés (mêmes conditions que pour la régression simple)
192
Test du coefficient de détermination multiple R2
FRM = R2(n - p)/((1 - R2)(p - 1))
• où p est le nombre total de variables (incluant Y), et n celui des observations
• FRM suit une loi de F à (p - 1) et (n - p) ddl
193
R2 ajusté
• Problèmes du R2 : augmente avec le nombre de variables, même aléatoires
• Comparaison difficile des équations de régressions multiples avec des nombres différents de variables indépendantes
• Le R2 ajusté tient compte du nombre de variables et diminue d’autant la valeur du R2
R2 ajusté = 1 - ((n - 1)/(n - p))(1 - R2)
194
• On peut également calculer et tester les r2, des variables individuelles (avec donc chacune une p-value)
• Significativité de chaque variable sur les variations de Y, en tenant compte des autres variables X
i
• Les p-value et ri
2 tiennent compte des liens entre
les variables Xi et changent en fonction de la
présence ou l’absence des Xi (sauf si elles sont
totalement indépendantes)
195
• Colinéarité entre les variables X : besoin de procédures de sélection des variables significatives
• Elimination descendante (backward elimination)
• Toutes les variables sont incluses dans le modèle et les paramètres de régression partiels calculés
• Si une ou plusieurs variables ne sont pas significatives, la moins significative est retirée du modèle et les paramètres de régression sont recalculés
• Et ainsi de suite jusqu'à ce que toutes les variables restantes soient significatives
Sélection des variables X 196
• Sélection ascendante (forward selection)
• Même chose mais en ajoutant les variables une à une d’après leur corrélations partielles avec Y, en commençant par la plus significative individuellement
• Procédure pas à pas (stepwise procedure)
• Mélange des deux procédures précédentes : chaque étape de sélection ascendante est suivie d’une élimination descendante pour voir si une des variables incluse jusque là n’est plus significative
• On peut y ajouter un critère qui évalue l’ajustement des données au modèle, éventuellement en prenant en compte le nombre de paramètres : AIC (Akaike Information Criterion), BIC (Bayesien), etc.
197
• Effet de deux variables X1 et X2 sur une variable Y
• Exemple : effet de la température (X1) et de l’humidité
(X2) sur la croissance (Y) d’un organisme
• La température et l’humidité ont chacune une influence sur la croissance
• La température et l’humidité sont ici corrélées : redondance dans l’explication de la variation
Partitionnement de la variation198
100 % de la variation de Y
Variation expliquée par X1 = R21
Variation expliquée par X2 = R22
Variation inexpliquée
da b c
Avec a+b+c+d = 100 %
a, b, c, et d sont déduits par soustraction
= a+b
= b+c
= a+b+c
= d
Variation expliquée à la fois par X1 et X2 = R21,2
199
• Etude de l’effet d’une variable X1 sur une autre, X2,
tout en contrôlant l’effet d’une troisième, X3 (la
covariable)
• Consiste à régresser X2 sur X3 puis à étudier ensuite
le lien entre les résidus de cette régression (la variation de X2 qui n’est pas expliqué par X3) et X1
• Cela revient à tenir X3 constante
• Exemples : contrôle de l’effet de l’échantillonnage, de la taille des hôtes, du temps, ...
Régression partielle 200
Exemple• Relation entre l’abondance d’une espèce de
nématode et la longévité de l’hôte, tout en contrôlant la taille de l’hôte
02,5
57,510
12,515
17,520
22,5
Abon
danc
e
0 20 40 60 80 100 120 140Longévité
Y = 6,191 + ,106 * X; R^2 = ,392
Graphe de régression
1 177,695 177,695 7,094 ,022111 275,536 25,04912 453,231
DDL Somme des carrés Carré moyen Valeur de F Valeur de pRégression Résidu Total
Tableau d’ANOVAAbondance vs Longévité
201
0
20
40
60
80
100
120
140
Long
évité
25 50 75 100 125 150 175 200 225 250Taille
Y = -16,966 + ,563 * X; R^2 = ,892
Graphe de régression
02,5
57,510
12,515
17,520
22,5
Abon
danc
e
-30 -25 -20 -15 -10 - 5 0 5 10 15 20Résidus Longévité
Y = 12,538 - ,05 * X; R^2 = ,009
Graphe de régression
1 4,246 4,246 ,104 ,753111 448,984 40,81712 453,231
DDL Somme des carrés Carré moyen Valeur de F Valeur de pRégression Résidu Total
Tableau d’ANOVAAbondance vs Résidus Longévité
202
Régression polynomiale
• Permet d’ajuster des courbes de formes variées, non linéaires, entre une variable dépendante Y et une ou plusieurs variables explicatives X
• 1 variable X : courbe
• 2 variables X : surface (plan) plus ou moins “bosselée”
• > 2 variables X : hyperplan “bosselé”
203
• Variante de la régression multiple : ajout de variables supplémentaires par l’intermédiaire des variables originales élevées à différents ordres (carré, cube, ...)
• Exemple avec une variable X : ajout de X2, X3, ...
Y = b + a1X + a
2X2 + a
3X3 +...
• Les variables à différents ordres sont sélectionnées par les procédures habituelles
204
• Chaque ordre ajoute un “pli” à la courbe
Ordre 2 (X2)
Ordre 3 (X3) Ordre 4 (X4)
Ordre 1 (X)
205
• Plus l’ordre est élevé, plus on perd de degrés de liberté, plus l’explication biologique est difficile
• Il faut trouver un bon compromis
• Pour les biologistes, la régression du deuxième ordre (parabole) est souvent utile
• Les organismes ont souvent des préférences situées autour d’un optimum : distribution unimodale
206
• On peut ajuster une courbe
• r2 = 0,875
• Calcul de l’optimum u et de la tolérance t (= 1 unité d'écart-type)
a1 a2
u
t
207
Relation régression et analyse de variance : utilisation de
variables muettes
• En ANOVA, les variables indépendantes sont qualitatives (facteurs)
• Il est possible de les recoder afin de les utiliser dans une régression : variables muettes (dummy variables)
• Le tableau d'ANOVA de la régression donne ainsi le même résultat qu'une ANOVA
208
• Le recodage se fait avec des 0 et 1
• Exemple : Mâle = 0 ; Femelle = 1
• On pourrait estimer : Taille = f(Poids, Âge, Sexe)
• Taille = 152,03 + 0,43Poids - 0,07Âge - 10,90Sexe
• Une personne de 30 ans pesant 70 Kg mesurera 180 cm si c'est un homme, et 169 cm si c'est une femme
Taille Poids Âge Sexe162 54 25 1185 83 32 0178 65 22 0157 62 43 1175 63 39 1189 91 31 0168 72 27 1
209
• On procède de même avec des facteurs à plus de 2 niveaux
• Exemple : couleur des cheveux
• On peut éliminer la dernière colonne, qui est définie en fonction des autres (Roux = 000)
• On pourrait aussi recoder des variables quantitatives pour une utilisation en ANOVA
Brun 1 0 0 0
Blond 0 1 0 0
Châtain 0 0 1 0
Roux 0 0 0 1
210
Variables indépendantes quantitative et qualitative :
Analyse de covariance
211
• ANCOVA : mélange d’ANOVA à un facteur et de régression linéaire simple
• 1 variable dépendante quantitative Y
• 2 variables indépendantes
• 1 quantitative X
• 1 qualitative Z
• Comparaison de la relation entre deux variables quantitatives (covariance) sous différentes conditions (k classes de la variable qualitative)
• Exemple : relation entre dose d’engrais et croissance dans plusieurs types de sols
212
Hypothèses testées
• 3 questions se posent
1. Influence de X sur Y
2. Influence de Z sur la relation entre Y et X ; influence de X sur la relation entre Z et Y : interaction
3. Influence de Z sur Y
213
Tests• Tests des 3 hypothèses
1. k régressions linéaires simples
2. Tests des différences entre les pentes des k régressions
3. Si les droites sont parallèles, test des différences entre les ordonnées à l’origine (a-t-on affaire à plusieurs droites ?)
214
• Régressions linéaires de Y sur X
• On répond à la question 1 : Y a-t-il une relation (linéaire) significative entre ces deux variables ?
Procédure détaillée 215
• Les erreurs résiduelles de chaque droite de régression sont additionnées : variation totale non expliquée par les relations linéaires entre X et Y = SCEET
216
• On construit k droites de régressions parallèles de pente égale à la pente moyenne des pentes d’origine, et on additionne les erreurs résiduelles de toutes ces droites = SCEEDP
217
• On soustrait ces 2 quantités : erreur résiduelle due à la variation des pentes : SCEEVP = SCEEDP - SCEET
• On teste si l’erreur résiduelle due à la variation des pentes (SCEEVP) est significativement plus importante que des variations aléatoires. On répond à la question 2 : les droites sont-elles parallèles ?
• Rapport de variances : on utilise une statistique F
Fvp = (SCEEVP/(k-1))/(SCEET/(n-2k))
avec k-1 et n-2k ddl
• Si rejet de H0 (= pas de différence) : relations
différentes d’un groupe à l’autre (présence d’une interaction) et fin du test
218
• Si les droites sont parallèles, on teste si les ordonnées à l’origine sont différentes. C’est la question 3.
• On combine toutes les données et on mesure l’erreur résiduelle globale de la droite de régression commune = SCEEC
• On soustrait à cette quantité l’erreur résiduelle des droites parallèles séparées : erreur due aux écarts d’ordonnées à l’origine : SCEEVOO = SCEEC - SCEEDP
219
• On teste si cette erreur est plus grande que ce qui est dû au hasard. Là encore on utilise une statistique F
Fvoo = (SCEEVOO/(k-1))/(SCEEDP/(n-k-1))
avec k-1 et n-k-1 ddl
• Si l’hypothèse nulle est rejetée, on peut dire que Z a une influence sur Y
• On pourrait traiter le problème comme une ANOVA à deux facteurs croisés avec répétitions en transformant la variable quantitative X en classes, représentant les niveaux du second facteur (Z étant le premier). Il faut nécessairement des répétitions pour tester l’interaction.
220
7. ANALYSE
MULTIDIMENSIONNELLE
221
Généralités
• Statistiques classiques
• Uni- ou bi-dimensionnelles
• Statistiques multidimensionnelles = analyse multivariable
• Traitent simultanément d’ensembles d’objets caractérisés par plusieurs variables
222
• En biologie, on a souvent affaire à des objets caractérisés par un grand nombre de variables
Longueur Largeur Masse Longévité Fécondité ... Variable p
Individu 1 Mesure 1,1
Individu 2 Mesure 2,1
Individu 3
... Mesure i,j
Individu n Mesure n,p
Variables = descripteurs = dimensions
Obj
ets
= é
lém
ents
223
• Problème : visualisation des données en plus de 3 dimensions
O
O
OO
O
O
Longueur
Mas
se ?Mas
se
Longueur
Largeur
FéconditéLongévité
Analyse multivariable 224
Types de méthodes• Analyse descriptive
• Groupement (n variables) : recherche de discontinuités (partitions) dans les ensembles de données
Ce ne sont pas des statistiques : pas de tests
Ordination (n variables) : recherche de gradients●
1
n
225
• Interprétation des structures
Tests : hypothèses
• Régression multiple : 1 variable dépendante, p variables indépendantes
Y = f(X1, X2, ..., Xn)
Analyse canonique : n variables dépendantes, p variables indépendantes
●
226
• Tests statistiques : comparaison entre matrices d’associations
• Test de Mantel : corrélation entre 2 matrices
Test de Mantel partiel : comparaison entre 2 matrices en contrôlant l’effet d’une troisième
●
✗
227
Buts
• Simplifier la vision des données
• Réduire leur dimensionalité
• Dégager les tendances de la variabilité des données
• Recherche des structures
• Interprétation des données
• Prise en compte des variables confondantes
228
• Important de bien connaître les méthodes et leurs propriétés
• planification d’une étude : avant sa réalisation...
• réponse adéquate à la question posée
• limites de l’interprétation
• un ordinateur (nécessaire ici !) donne toujours une réponse, mais pas forcément la bonne
229
Matrices d’associationVariables
Obj
ets
Mode R : Variables X VariablesDépendance
Mode Q : Objets X ObjetsRessemblance
Obj
ets
Objets
Vari
able
s
Variables
230
Mesure de similarité (Mode Q)
• Problème du double zéro
• La présence de la valeur 0 dans deux objets implique-t-elle leur ressemblance ?
• Oui : indices symétriques
• Non : indices asymétriques
231
• Indice de similarité binaires symétriques
• Coefficient de simple concordance (S1)Bois Peint > 1 kg
Objet 1 1 1 0
Objet 2 1 0 0
Objet 3 0 1 1
Objet 4 1 1 0
S1 entre objets 1 et 2 :
nombre de descripteurs à valeur identique = 2nombre total de descripteurs = 3
S1 = 2/3 = 0,67
232
• Matrice de similarité
Objet 1 Objet 2 Objet 3 Objet 4
Objet 1 1 0,67 0,33 1
Objet 2 1 0 0,67
Objet 3 1 0,33
Objet 4 1
233
• S1 = (a + d)/(a + b + c + d)
• S2 = (a + d)/(a + 2b + 2c + d)
• S3 = (2a + 2d)/(2a + b + c + 2d)
1 0
1 a c
0 b d
Objet 1
Obj
et 2
a : nombre de “1” dans les 2 objetsb : nombre de “1” dans l’objet 1c : nombre de “1” dans l’objet 2d : nombre de “0” dans les 2 objets
a + b + c + d = nombre total de descripteursa et d : ressemblancesb et c : différences
234
• Indices de similarité binaires asymétriques
• Coefficient de communauté de Jaccard (S7)
• S7 = a/(a + b + c)
Espèce 1 Espèce 2 Espèce 3
Milieu 1 1 1 0
Milieu 2 1 0 0
Milieu 3 0 1 1Milieu 4 1 1 0
Milieu 1 Milieu 2 Milieu 3 Milieu 4Milieu 1 1 0,5 0,33 1
Milieu 2 1 0 0,5Milieu 3 1 0,33
Milieu 4 1
235
• Coefficient de Sorensen (S8)
• S8 = 2a/(2a + b + c)
• Equivalent asymétrique de S3
236
• Indices de similarités quantitatifs asymétriques
• Coefficient de Steinhaus (S17)
sp 1 sp 2 sp 3 sp 4 sp 5 sp 6 A B W
Milieu 1 70 3 4 5 1 0 83
Milieu 2 64 4 7 4 3 0 82
Minima 64 3 4 4 1 0 76
S17 = W/((A + B)/2) = 2W/(A + B)
Ex : S17 = (2 X 76)/(83 + 82) = 0,921
Coefficient de Kulcynski (S18)
S18 = (W/A + W/B)/2
●
237
Mesure de distance (Mode Q)
• Coefficient de distance métrique
• Si a = b, D(a,b) = 0
• Si a ≠ b, D(a,b) > 0
• D(a,b) = D(b,a)
• D(a,b) + D(b,c) ≥ D(a,c)
• Coefficient semi-métriques
• N’obéissent pas à la quatrième propriété
238
• Coefficient de distance métriques
• Distance Euclidienne (D1)
Taille (mm) Fécondité
Parasite 1 25 70
Parasite 2 12 30
D1D1(P1,P2) = √((T1 - T2)2 + (F1 - F2)2)
= √((25 - 12)2 + (70 - 30)2) = 42,1
Taille
Féco
ndité
70
30
2512
●
●P1
P2
239
• D1 = √(Σ(yi1 - yi2)2)
• Problèmes :
• D1 est sensible au double-zéro
• D1 est sensible à l’échelle des variables
• On standardise souvent les variables avant le calcul de D1
Y1 Y2 ... Yi
X1 Y11 Y21 Yi1
X2 Y12 Y22 Yi2
240
• D2 = (1/√n)D1
• Distance de corde (D3) et métrique
géodésique (D4)
• Non affectées par le double-zéro
• D3 bornée à √2
• Permet ACP avec données présence/absence
• D4 = arc cos (1 - (D32 / 2))
Espèce 2
Espèce 11
1 Echantillon 1
Echantillon 2
D3
D4
241
• Coefficient de distance semi-métriques
• Distance de Watson et al. (D13) = 1 - S8
• Distance de Bray-Curtis (D14) = 1 - S17
• Appelée différence de pourcentage
• Très utilisée pour les abondances d’espèces
242
Coefficients de dépendance (Mode R)
• Ils existent pour différents types de variables
• Quantitatives
• Semi-quantitatives
• Qualitatives
243
• Coefficients de dépendance pour variables quantitatives
• Covariance : dispersion des 2 variables
• Corrélation : intensité de la liaison
244
Variables
Obj
ets
Variables
Matrice de dispersionou de variance-covariance
Vari
able
s
S2 S2,1
S2 S5,2
S2
S2
S2
Matrice de corrélation
Vari
able
s
Variables
1 r2,1
1
1 r4,3
1
1
245
• Coefficients de dépendance pour variables semi-quantitatives
• ρ de Spearman
• τ de Kendall
246
• Coefficient de dépendance pour variables qualitatives
• Le χ2
• Tableau de contingence
• Exemple
Espèce 1 Espèce 2 Espèce 3
Espèce 1 x11 x1.
Espèce 2 x22 x2.
Espèce 3 xi1 xik xi.x.1 x.2 x.k x..
Parasites
Hôt
es
Certains parasites sont-ils associés à certains hôtes ?
247
• Mesure d’association : χ2
Modalité 1 Modalité 2 Modalité k
Modalité 1 x11 x1.
Modalité 2 x22 x2.
Modalité i xi1 xik xi.x.1 x.2 x.k x..
Variable 1
Vari
able
2
Valeur “espérée” si indépendance des variablesE = (xi. . x.k)/x..
χ2 = Σ((O-E)2/E)avec O = valeur observéetest statistique possible (ν = (i-1)(k-1))
248
Groupements
• Recherche des discontinuités dans les ensembles de données
• Une partition est une division de l'ensemble en sous-ensembles, telle que chaque objet (ou descripteur) appartienne à une et une seule sous-collection
1
n
249
1. Algorithmes séquentiels ou simultanés
2. Agglomération ou division
3. Méthodes monothétiques ou polythétiques
4. Méthodes hiérarchiques ou non
5. Méthodes probabilistes ou non
Grandes familles de méthodes de groupement
250
• Classification écologique de prélèvements (1-5) sur la base des abondances des espèces présentes
• Mesure de distance : D14
• On obtiendrait exactement la même chose avec S17
• Idée sous-jacente : les milieux partageant les mêmes espèces sont “écologiquement proches”
Exemple251
• Groupement agglomératif à liens simples
• Lien avec un seul élément du groupe
Groupement agglomératif à liens
________________________________________2 3 4 5
1 0.20 0.25 0.45 0.802 0.40 0.35 0.503 0.30 0.604 0.70________________________________________
1
2
3
4
5
0.0 0.1 0.2 0.3 0.4 0.5
D14 Paires formées0,2 1-20,25 1-30,3 3-40,35 2-40,4 2-30,45 1-40,5 2-50,6 3-50,7 4-50,8 1-5
252
• Groupement agglomératif à liens complets
• Lien avec tous les éléments du groupe________________________________________
2 3 4 5
1 0.20 0.25 0.45 0.802 0.40 0.35 0.503 0.30 0.604 0.70________________________________________
1
2
3
4
5
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
D14 Paires formées0,2 1-20,25 1-30,3 3-40,35 2-40,4 2-30,45 1-40,5 2-50,6 3-50,7 4-50,8 1-5
253
• Liens simples : contracte l’espace entre objets (enchaînements)
• Liens complets : dilate l’espace entre les objets (groupes bien séparés)
1
2
3
4
5
0.0 0.1 0.2 0.3 0.4 0.5
1
2
3
4
5
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
254
• Groupement agglomératif à liens intermédiaires
• Lien avec une proportion donnée des éléments du groupe
• Proportion = connexité. Varie entre 0 (liens simples) et 1 (liens complets)
1
2
3
4
5
0.0 0.1 0.2 0.3 0.4 0.5
Connexité = 0,5
255
• Groupement selon l’association moyenne
• UPGMA (unweighted pair-group method using arithmetic average)
• Chaque élément du groupe garde le même poids pendant l’analyse
• La matrice d’association est reformée à chaque étape (≠ groupement à liens)
• Chaque nouveau groupe formé est remplacé par sa valeur moyenne
Groupement agglomératif moyen 256
1
2
3
4
5
0.0 0.1 0.2 0.3 0.4 0.5 0.6
1
Objets 1 2 3 4 5
1 - 0,2 0,25 0,45 0,8
2 - 0,4 0,35 0,5
3 - 0,3 0,6
4 - 0,7
5 -
2
1-2 - 0,325 0,4 0,65
3 0,3 0,6
4 0,7
5 -
3
1-2 - 0,3625 0,65
3-4 0,65
5 -
41-2-3-4 - 0,65
5 -
257
• WPGMA
• Idem UPGMA mais avec pondération selon le nombre d’éléments dans le groupe
• Augmente le contraste entre les groupes
258
• Groupement centroïde
• UPGMC et WPGMC
• Comme UPGMA et WPGMA mais en utilisant une moyenne géométrique plutôt qu’arithmétique : centroïde (= barycentre, point de coordonnées moyennes)
• Peut conduire à des inversions dans le dendrogramme
• Violation de la propriété ultramétrique : D(A,B) ≤ Max |D(A,C) , D(B,C)|
• Interprétation : polytomie
259
1
2
3
4
5
0.0 0.1 0.2 0.3 0.4 0.5
260
4
6,32
9,40
• UPGMC10
6
4
0
2
8A
C
D
B
A B C D
261
• Hiérarchique
• Sur données brutes ou matrices de distance
• Minimise la somme des carrés des distances au centroïde de chaque groupe (variance à l'intérieur de chaque groupe) si appliquée aux données brutes, ou la somme des carrés des distances entre paires si appliquée à une matrice de distance
• Distances Euclidiennes (double zéro) sur données brutes (méthode originale), ou tout type de distance si matrice de distance
Méthode de Ward262
K-means
• Non hiérarchique
• Méthode divisive
• Nombre de groupes défini par l'utilisateur
• Minimise la variance intragroupe des données brutes
• Distances Euclidiennes (double zéro)
263
• Appelée aussi matrice ultramétrique car elle répond aux 4 propriétés d'une matrice métrique, et en plus à la propriété ultramétrique citée plus haut (si pas d'inversion)
• Matrice d’association dont les distances (ou similarités) sont calculées à partir de l’arbre
• A partir d’un arbre phylogénétique, c’est la matrice de distances patristiques
La matrice cophénétique
1 n
1
n
1
n
264
• La corrélation cophénétique r et le coefficient de détermination r2
• Corrélation cophénétique r : corrélation linéaire de Pearson entre la matrice d'association de départ et la matrice cophénétique
• Coefficient de détermination r2 : variance exprimée par la matrice cophénétique par rapport à la matrice d'association de départ
• La corrélation cophénétique ne peut être testée : deux distributions pas indépendantes
265
• Exemple
• Corrélation cophénétique r : 0,89
• Coefficient de détermination r2 : (0,89)2 = 0,79 donc le dendrogramme du groupement selon l'association moyenne de l'exemple reproduit 79 % de la variance de la matrice de distances Euclidiennes
• On peut utiliser le τ de Kendall ou le ρ de Spearman si on est plus intéressé par la topologie du dendrogramme que par la longueur des branches
266
• Classification de métagénomes de communautés microbiennes marines (Distance Euclidienne + UPGMA ; Quaiser et al. 2010)
Exemples 267
• Expression de nombreux gènes dans différentes conditions (Choi et al. 2012)
268
Ordination en espace réduit
• Représentation de n objets sur lesquels on a mesuré p variables (avec généralement p < n)
• But : passer d’un espace multidimensionnel complexe à un espace comprenant moins de dimensions (2 voire 3)
• L’ensemble des données (objets et/ou variables) sera représenté (ordonné) dans cet espace réduit
• Problème : comment choisir ces dimensions ?
269
Le nuage de points
• Les points-objets forment dans le repère d’origine (les p dimensions) une hyperellipsoïde
• Si la distribution des objets est multinormale, on connaît certaines propriétés mathématiques du nuage de points (les méthodes d’ordination sont assez robustes)
• Ces propriétés vont être utilisées pour choisir les meilleures dimensions représentant la variabilité des données
270
• La forme du nuage de points dépend des relations entre les variables
r = 1
r = -0,3
r = 0
r = 0,7
271
Axes principaux
• On peut établir les axes passant par le maximum de variance du nuage de points
• Ils s’ajustent au nuage de points selon le critère des moindres carrés
• Chaque axe est perpendiculaire aux autres (donc ils sont linéairement indépendants)
• Ces axes sont des combinaisons linéaires des variables d’origine
• On les appelle les axes principaux (parfois facteurs)
272
Longueur
Hauteur
Mas
seAxe Principal 1
Axe Principal 2
273
274
Valeur propre et vecteur propre
• A chaque axe sont associés une valeur propre et un vecteur propre
• Valeur propre (λ) : variance exprimée par l’axe
• Vecteur propre (u) : direction de l’axe
• La variance exprimée par un plan formé par deux axes principaux est la somme des variances (valeur propres) exprimées par ces axes
• Il y a autant de λ et de u que de variables d’origines : “redécoupage” et hiérarchisation de la variance
275
Axe Principal 1λ1 = 50 %
Axe Principal 2λ2 = 30 %
Plan 1 X 2 : 80 % de la variance totale du nuage de points
Coordonnées dans le nouveau système d’axes : composantes principales
u2
u1
276
Nombre de composantes interprétables
• Problème : la variance de n’importe quel nuage de point peut-être exprimée sur des axes principaux, mais il ne contient pas forcément de structure informative
• Critères pour savoir si la variance exprimée est “intéressante”, et le nombre d’axes à interpréter
• λ > λmoyen
• Bâton brisé
• Diagramme de Shepard
277
Modèle du bâton brisé
0
5
10
15
20
25
30
35
40
45
50
1 2 3 4 5 6 7 8 9 10Valeurs propres
% v
aria
nce
AléatoireObservé
278
• Diagramme de Shepard279
• Passage en espace réduit : projection des points sur le plan exprimant le maximum de variance (1 X 2)
• Le plan 1 X 2 peut ne pas suffire, on peut alors utiliser d’autres projections (1 X 3, 2 X 3)
Axe 1
Axe 3
Axe 1
Axe 2
+++++
+++++
280
• Mise en évidence des :
• Ressemblances entre les objets (observations)
• Ressemblances entre les variables
• Relations entre les variables et les observations
• Ordination sans contrainte : toute la variation de l’hyperellipsoïde est exprimée puis interprétée a posteriori (analyse indirecte)
281
Analyse en composantes principales (ACP)
• Pour des données quantitatives ou semi-quantitatives
• Suppose une relation linéaire ou monotone entre les variables
• Utilisable avec des abondances d’espèces avec certaines transformations (ex. Legendre & Gallagher 2001)
• Transpose un nuage de points-objets, situé dans un espace multidimensionnel complexe, dans un sous-espace plus simple, pour observer graphiquement les relations entre les objets
282
Principales étapes du calcul
• Matrice de données de départ : centrage ou centrage et réduction des données
• Calcul de la matrice de covariance (= matrice de corrélation si données standardisées, c’est le cas général)
• Calcul des valeurs propres et vecteurs propres à partir de cette matrice
283
• Calcul des nouvelles coordonnées des objets dans le repère formé par les axes principaux : ce sont les composantes principales
• Projection des points dans un espace réduit, en général les deux premiers axes
• Calcul des coordonnées des descripteurs originaux dans le nouveau repère
284
• Diagramme d’ordination : projection sur le plan choisi
• Diagramme de double projection dans l’espace réduit (= biplot) : objets et descripteurs
Objets
Descripteurs
I
II
Représentation graphique 285
Interprétation dans l’espace réduit
• Position des objets
• Proximité des points : préserve la distance Euclidienne
• Position des descripteurs
• Flèches se terminant sur les points-descripteurs
• Angle entre les flèches : covariance ou corrélation
• Interpréter les descripteurs ayant suffisamment d’influence sur le plan de projection : dépassant le cercle des contributions équilibrées (longueur des axes si contribution égale à chaque dimension) et proches du cercle de rayon 1 (pour une matrice de corrélation)
286
Cercle de rayon 1
Cercle des contributions équilibrées
I
II
287
• Projection des objets sur les descripteurs : contribution de l’objet à l’axe. Plus la projection est loin du centre, plus la valeur est loin de la moyenne
I
II
288
• Pour un angle α entre deux variables i et j : cosα = rij
• Entre une variable i et un axe descripteur k, l’abscisse de i sur k (projection) est égal à rik, pour des variables
centrées-réduites (matrice de corrélation)
I
II
αV1
rV1,I
289
Les deux principaux types d’ACP
• Vecteurs propres normés à 1
• Les distances entre les objets sont interprétables
• Angles entre descripteurs non interprétables
• Vecteurs propres normés à √λ
• Angles entre descripteurs = corrélations
• Distances entre objets non préservées
290
RésuméVariables
Indi
vidu
s
I
II
u normés à 1 :proximités
=distances
Individus= objets
I
II
u normés à √λ :angles
=corrélations
Variables= descripteurs
Biplot
Cercle des contributions équilibrées
Cercle de rayon 1
291
• Classification d’espèces de Gyrodactylus (parasites) sur la base de variables morphologiques mesurées sur les pièces sclérifiées du hapteur (Shinn et al. 2001)
Exemples 292
• Classification de populations humaines sur la base de données génomiques (174000 SNPs ; Schuster et al. 2010)
293
294
Analyse factorielle de correspondances (AFC)
• Même principe que l’ACP
• Pour variables qualitatives, binaires, semi-quantitatives et quantitatives
• Typiquement : étude des relations entre deux variables nominales
• Données sous forme de tableau de contingence : l’analyse cherche à mettre en évidence les correspondances (relations) entre les lignes et les colonnes
295
• En écologie : traitement des données d’abondance d’espèces (descripteurs ici)
Espèces
Stat
ions
Trucus Machinus Bidulus ... Exempla
S 1 Fréquence 1,1
S 2 Fréquence 2,1
S 3
... Fréquence i,j
S 4 Fréquence n,p
Idée sous-jacente : expliquer la répartition des stationset/ou des espèces selon des critères écologiques
296
• Préserve la distance du χ2 entre les points
• Non affectée par le problème du double-zéro
• Suppose une relation unimodale avec les variables environnementales
297
• Transformation des fréquences absolues en probabilités : fréquences relatives centrées
Principales étapes du calcul
fij Σ = fi.
Σ = f.j Σ = f..
Fréquences absolues
pij= fij/f..
pi.= fi./f..
p.j= f.j/f..
Σ = 1
➡
Fréquences relatives
qij
Fréquences relatives centrées
➡
Avec qij = pij - pi.p.j / √pi.p.j soit
- centrage (- fréquence théorique)- pondération
Q
298
• Calcul de la matrice de covariance à partir de la matrice Q
• Calcul des valeurs propres et vecteurs propres à partir de cette matrice de covariance
• Calcul des nouvelles coordonnées des objets dans le repère formé par les axes principaux
• Projection des points dans un espace réduit, en général les deux premiers axes
• On peut placer les lignes et les colonnes du tableau de contingence dans le même espace factoriel
299
• Inertie totale = I = Σλ
• On peut effectuer un test d’indépendance des deux variables
• Test du χ2, avec (n-1)(p-1) degrés de liberté
• χ2 = npI avec np = effectif total
• H0 : quelle que soit la station, la distribution des
espèces est la même
• H0 : quelle que soit l’espèce, la répartition selon
les stations est la même
300
• Variance du plan liée à celles des valeurs propres
• Comme en ACP, on peut ne placer que les sites (objets) ou les espèces (descripteurs) sur le diagramme ; ou les deux (biplot)
• Proximité entre objets (stations) et descripteurs (espèces) : ressemblance. Attention, cela est fonction de la variance exprimée par le plan considéré
• Plus les points sont proches du centre, plus ils sont proches des caractéristiques moyennes de l’échantillon
Interprétation dans l’espace réduit301
• Interprétation des axes principaux en terme de facteurs biologiques, en relation avec la projection des objets et des descripteurs (comme ACP)
• Relations de type barycentrique. On a deux options pour la projection :
• Type I. Placer les lignes (sites) au barycentre (= centroïde) des colonnes (espèces) : meilleure ordination des sites
302
• Type II. L’inverse donne une meilleure ordination des espèces :
• Espèces placées au centre de gravité (= barycentre = centroïde) des sites où elles sont présentes
• Chaque site est pondéré par la fréquence relative de l’espèce considérée
• Les points-espèces sont donc plus proches des points-sites où leur occurrence est la plus forte
303
Fréquence relative de l’espèce 3 au site 5 :occurrence forte
Type II
Site 5
Site 12
Site 2
Site 9
Espèce 3
Espèce 4
Espèce 19
Espèce 2
Espèce 9
Espèce 11
Site 8
Fréquence relative du site 8 pour l’espèce 11 :rareté à ce site
Type I
304
Exemple
Espèces
Site
s
Objets = stations
Descripteurs= espèces
I
II
305
Ordination sur matrices de distances
• Analyse en coordonnées principales (PCoA) : permet l’utilisation de beaucoup de coefficients. Méthode basée sur les vecteurs propres pour représenter objets ou variables
• Nonmetric multidimensional scaling (NMDS) : méthode non basée sur les vecteurs propres, place les objets dans un repère comportant un nombre prédéfini d’axes, en minimisant une fonction de stress (0 à 1, bien si ≤ 0,2). Fonctionne avec des valeurs manquantes. Procédé itératif assez intense en calcul
306
Analyse discriminante
• Analyse discriminante linéaire, généralement
• But : trouver la meilleure combinaison de variables permettant d’expliquer des groupes prédéfinis (hypothèse biologique, groupement sur un autre jeu de données, …)
• Test préalable que les groupes sont différents
• Pas délimitation des groupes ici, mais interprétation
• Recherche de la meilleure combinaison de variables expliquant les groupes : fonction discriminante
307
• Test de la corrélation linéaire entre deux matrices de distances ou de similarités obtenues indépendamment
• Hypothèse nulle H0 : les distances (ou similarités) entre les objets dans la matrice A ne sont pas en relation linéaire avec les distances (ou similarités) correspondantes dans la matrice B
• L’hypothèse nulle est testée par permutations des objets, car les distances ne sont pas indépendantes les unes des autres
Test de Mantel 308
A B C D
A
B xijC
D
X
+X
.....+
xij yij
A B C D
A
B yijC
D
Statistique Z de Mantel 309
• Test
1. Permutation aléatoire des objets (A-D)
2. Calcul d’un nouveau Z : Zp
3. Répétition n fois (ex : 999) des étapes 1 et 2
4. Ajout de la valeur observée Z aux 999 valeurs de Zp
5. Tracé de la distribution : histogramme de fréquences
6. H0 est rejetée si Z fait partie des valeurs extrêmes (ex : 5 %)
310
• Statistique r de Mantel centrée-réduite (corrélation linéaire de Pearson)
On peut aussi transformer les valeurs en rangs et calculer le ρ de Spearman
●
r = [ ]1/(n-1)∑i∑j
[ ](xij - x)/sx [ ](yi j - y)/sy
311
• Exemple
• Deux matrices de distances entre 4 sites (S1-S4)
• Distances en terme d’abondances d’espèces (D14)
• Distances environnementales (D1), sur la base de
plusieurs descripteurs du milieu
S2 S3 S4
S1 0,25 0,43 0,55
S2 0,17 0,39
S3 0,66
Matrice de distance D14
S2 S3 S4
S1 0,43 0,41 0,47
S2 0,22 0,6
S3 0,71
Matrice de distances D1
312
• Calcul du Z de Mantel
• Z = (0,25 x 0,43) + (0,43 x 0,41) + (0,55 x 0,47) + (0,17 x 0,22) + (0,39 x 0,60) + (0,66 x 0,71) = 1,2823 (valeur observée)
• Test : confrontation de la valeur observée à l’ensemble des valeurs obtenues par permutations aléatoires (100 ici)
Observé Permutations (Zp) Proba (z)
Zobs < Zobs = Zobs > Zobs
1,2823 95 2 3 0,05
Z
Observé Permutations Proba (r)
robs < robs = robs > robs
0,7982 95 2 3 0,05
r
(P = (2 + 3)/(95 + 2 + 3) = 5/100 = 0,05)
313
• Le pourcentage de variance expliquée (R2), ainsi que la puissance du test sont moins élevés pour un test de Mantel que pour une corrélation de Pearson sur les données brutes correspondantes
• Mieux d’utiliser les données brutes quand c’est possible
• Réserver le test de Mantel et ses dérivés dans les cas ou l’utilisation des matrices de distance est nécessaire
• Pour contrôler l’effet d’une troisième matrice (ex : données temporelles ou spatiales), il existe un test de Mantel partiel
314
Régression multiple sur matrices de distance
• Généralisation du test de Mantel à plusieurs matrices de distance : régression multiple
• Une matrice dépendante (Y)
• N matrices indépendantes (X1, X2, X3,...)
• Test par permutations des objets de la matrice Y
• Test des coefficients de régression
315
8. ANALYSE DE SURVIE
316
• Etude de la durée à laquelle survient un événement binaire
• Typiquement : étude de la variation de la probabilité de survie de patients au cours du temps à partir d'un instant t0, par leur suivi jusqu'à leur décès (vie/mort)
• Peut s'appliquer à toute autre variable binaire qu'on peut dater : apparition d'une pathologie, hospitalisation, panne d'un appareil, perte d'emploi, divorce, etc.
• 2 méthodes principales
• Méthode actuarielle
• Méthode de Kaplan-Meier
317
• Méthode de Kaplan-Meier
• Prend en compte les décès individuellement et les indique sur la courbe par un palier
• Mieux avec des effectifs peu importants
• Méthode actuarielle
• Moins utilisée
• Divise la durée totale de l'étude en intervalles réguliers
• Mieux quand les effectifs sont importants (> 200 individus)
318
Principe• En théorie, il faudrait suivre tous les individus jusqu'à la
survenue de l'événement, à partir d'une date fixée t0
• En pratique, on fixe une date de fin de suivi (= date de point : dp)
• Certains individus n'ont pas présenté l'événement à la date de point : ils sont dits "censurés"
• Les individus n'entrent pas tous dans l'étude au même moment (date d'origine différente)
• Certains individus sont "perdus de vue", on ne sait pas si l'événement est survenu ou pas, mais ils sont pris en compte dans l'étude
319
• Données
t0 dpIndividus
1
4
2
3
5
6
Evénement
Censuré
Censuré
Temps de participation
Perdu de vue
320
• Calcul de la probabilité de ne pas avoir présenté l'événement à un instant t (l'événement survient après t) = probabilité (ou fonction) de survie S(t)
• Basé sur les probabilités conditionnelles, tenant compte des événements et censures survenus et des effectifs (qui ne peuvent que baisser)
• Probabilité = 1 à l'origine, puis diminue
• Représentation graphique = courbe de survie : variation de S(t) en fonction du temps
• Possibilité de calcul d'intervalles de confiance
• Comparaison de courbes : test du logrank (= test de Mantel-Cox = test de Peto-Mantel-Haenszel)
321
• Méthode de Kaplan-Meier
• Méthode actuarielle
322