introduction à l’analyse de variance (anova) · 2020. 11. 18. · • anova: outil de...

50
1 Introduction à l’Analyse de Variance (ANOVA) Jean Paul Maalouf [email protected] 6 décembre 2017 Illustrée avec XLSTAT www.xlstat.com

Upload: others

Post on 18-Jan-2021

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

1

Introduction à l’Analyse de Variance (ANOVA)

Jean Paul [email protected]

6 décembre 2017

Illustrée avec XLSTAT

www.xlstat.com

Page 2: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

2

PLAN

• XLSTAT : qui sommes-nous ?

• Statistiques : catégories

• Rappel : tests statistiques

• ANOVA : un outil de modélisation

• Test statistique impliqué

• Conditions de validité

• Comparaisons multiples par paires

• Test de Kruskal-Wallis : un équivalent non-paramétrique de l’ANOVA à 1 facteur

• ANOVA à 2 facteurs + interaction

• Annexes : statistique de Welch et modèles mixtes

Toutes les données de ce webinar ont été inventées

sauf mention contraire

Page 3: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

3

Logiciel XLSTAT

XLSTAT est un logiciel d’analyse de données

convivial qui s’intègre à Excel®,

PC & Mac

Page 4: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

4

XLSTAT, HistoriqueUn logiciel en pleine croissance, une équipe grandissante

Thierry Fahmydéveloppe une

alternative user-friendly

pour l’analyse de données :

Naissance d’XLSTAT

Première vente sur

internet

Nouvelle version, Interface : VBA,

Calculs : C++7 langues

Nouveaux produitsNouveau site

Equipe grandissante

Création de la société

Addinsoft

Nouvelles offres

modulaires

XLSTAT 365Version Cloud

pour Excel 365XLSTAT-Free

1993 2000 2009 2016

201520061996

Intégration R

R

2017

Page 5: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

5

XLSTAT en quelques chiffres

200+ fonctionnalités statistiques

Réparties dans des solutions généralistes ou

orientées-métier

100k utilisateurs

A travers le monde. Secteurs privé, éducation,

recherche

22 salariés

A l’écoute des utilisateurs

220k visites/mois sur le site web

Tutoriels didactiques en 5 langues

7 langues 10k téléchargements/mois

Page 6: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

6

Statistiques : 4

catégories

Page 7: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

7

Statistiques : 4 catégories

Description Exploration Tests Modélisation

Je veux résumer des

données grâce à des

calculs ou des

graphiques simples

(moyenne, écart

type, box plot…)

Je veux plonger

facilement dans un gros

jeu de données sans

forcément avoir une

question précise

derrière la tête (ACP,

CAH...)

Je veux accepter /

rejeter une hypothèse

bien précise en

assumant des risques

d’erreur (test t,

ANOVA, khi²,

corrélation...)

Je cherche à comprendre

comment évolue une

variable en fonction d’un

ensemble de variables

(régression, ANCOVA,

ANOVA)

Page 9: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

9

Tests statistiques :

rappel

Page 10: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

10

Tests statistiques : rappel

?QuestionLa moyenne A est-elle significativement différente

de la moyenne B ?

H0

Hypothèse nulleEn général absence de différence ou de relation.

H0 : moyenne A = moyenne B

Ha

Hypothèse alternativeEn général existence de différence ou de relation

Ha : moyenne A ≠moyenne B

Le test renvoie une p-value. 0 < p-value < 1

Décision : Si p-value < alpha, on

rejette H0 et on accepte Ha

en prenant un risque p-value de se

tromper

Page 11: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

11

ANOVA

Outil de modélisation d’une

variable à expliquer quantitative

par des variables explicatives

qualitatives

Page 12: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

12

L’ANOVA : un modèle statistique

Erreurs (Résidus)

modèle

Sa

lair

e

Terre Pluton Mars

Salaire =

moyenne(modalité de référence) +

écart(modalité du point considéré)

un paramètre

deux paramètres

Modèle

Origine

+ résidus

Modalitéde référence

Page 13: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

13

Evaluation du degré de piquant de 3 sauces

Question : Le degré de piquant moyen change-t-il en fonction de la sauce ?

Variable à expliquer(quantitative)

Ob

serv

ati

on

sVariable explicative (qualitative)

Page 14: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

14

ANOVA

Test statistique impliqué

Page 15: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

15

Graphique des moyennes et test mis en jeuV

ari

ab

le à

ex

pli

qu

er

Variable explicative= facteur

S1, S2, S3 : niveaux ou modalités

H0 : moyenne (S1) = moyenne (S2) = moyenne (S3)

Ha : au moins une moyenne est différented’une autre

Décision : Si p-value < alpha, on rejette

H0 et on accepte Ha en prenant un

risque p-value de se tromper

Page 16: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

16

Sur quoi la p-

value de l’ANOVA

se base-t-elle ?Ou pourquoi ANOVA (ANalysis Of

VAriance)

Page 17: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

17

Pourquoi ANalyse de VAriance ?

L’effet statistique de la variable explicative se mesure grâce à un rapport de variances

Rapport F =Variance inter

Variance intra

Lorsque F , p-value

Variance intergroupe(modèle)

Variance intragroupe(erreur résiduelle)

Page 18: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

18

ANOVA à 1 facteur : application XLSTAT

Page 19: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

19

ANOVA à 1 facteur : interprétation

Décision : p-value < alpha (0,05) on rejette H0 et on

accepte Ha en prenant un risque de 4,9% de nous tromper

Variance inter

Variance intra

p-value

Page 20: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

20

Le résultat est-il

valide ? Conditions

de validité

Hypothèses sur les résidus

Page 21: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

21

Modèle linéaire : hypothèses sur les résidus

Indépendance

Pas d’autocorrélation. Une mesure par

individu

Normalité

Résidus suivent une distribution normale

Pas trop de valeurs hors-normes

En général, pas plus de 5% de résidus

hors-normes

Homogénéité...

... des variances des résidus

Page 22: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

22

Indépendance

des résidusIndépendance assumée (pas de

liens entre les mesures)

Page 23: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

23

Diagnostic de la

normalité : test

de normalité des

résidus

Page 24: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

24

Test de normalité des résidus : application

XLSTAT

Résidus

Page 25: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

25

Test de normalité des résidus : interprétation

Décision : p-value > alpha (0,05) la distribution des résidus

ne s’écarte pas significativement d’une distribution normale

Page 26: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

26

Normalité : alternative

Si les points sont bien répartis le long de la bissectrice y = x, les données ne s’écartent pas

d’une distribution normale

Page 27: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

27

Diagnostic de

l’homogénéité

des variances :

test statistique

Page 28: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

28

Test d’homogénéité des variances : application

XLSTATVar. à expliquer

Var. explicative

Page 29: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

29

Test d’homogénéité des variances :

interprétation

Décision : p-value > alpha (0,05) on ne rejette pas

l’hypothèse d’égalité des variances

Page 30: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

30

Diagnostic des

résidus hors

normes

Page 31: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

31

Geraphique résidus normalisés

Proposition : pas plus de 95% des |résidus| > 2 on n’a pas

trop de résidus hors-normes

Page 32: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

32

Notre ANOVA est donc fiable...

H0 : moyenne (S1) = moyenne (S2) = moyenne (S3)

Ha : au moins une moyenne est différented’une autre

Nous avons adopté Ha... Peut-on savoir précisément les moyennes qui diffèrent les unes des autres ?Place aux Comparaisons multiples par paires

Page 33: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

33

Comparaisons

multiples par

paires

Page 34: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

34

Comparaisons multiples par paires :

application XLSTAT

Page 35: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

35

Comparaisons multiples par paires :

interprétation

Deux moyennes ayant au moins une lettreen commun ne sont pas significativementdifférentes (exemple : S3 et S1)

Deux moyennes n’ayant aucune lettre encommun sont significativementdifférentes (exemple : S3 et S2)

Page 36: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

36

Test de Kruskal-

Wallis

Un equivalent non-paramétrique

de l’ANOVA à un facteur

Page 37: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

37

Test de Kruskal-Wallis : application XLSTAT

Page 38: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

38

Test de Kruskal-Wallis : interprétation

Décision : p-value > alpha (0,05) on ne rejette pas l’hypothèse H0.

Rappel : les tests paramétriques sont en général plus puissants que

leurs équivalents non-paramétriques.

Page 39: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

39

Une deuxième

variable explicative

entre en jeu

ANOVA à deux facteurs + interaction

Page 40: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

40

Une troisième colonne s’invite dans le jeu de

données

Questions : Le degré de piquant moyen change-t-il en fonction de la sauce ? Du juge ? De l’interaction entre les deux ?

Variable à expliquer(quantitative)

Ob

serv

ati

on

sVariables explicatives(facteurs)

Nous avons 8 juges (goûteurs). Chaque sauce est testée 3 fois par chaque juge.

Interaction : l’effet d’un facteurdépend de la modalité du deuxième facteur (exemple : effetsauce dépend du juge)

Page 41: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

41

Cas simplifié avec 2 sauces & 2 juges :

Parmi les possibilités

Juge 1 Juge 2

Sauce 1

Sauce 2

Juge 1 Juge 2

Sauce 1

Sauce 2

Juge 1 Juge 2

Sauce 1

Sauce 2

Juge 1 Juge 2

Sauce 1

Sauce 2

De

gré

de

piq

ua

nt

Page 42: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

42

Parmi les possibilités

Juge 1 Juge 2

Sauce 1

Sauce 2

Juge 1 Juge 2

Sauce 1

Sauce 2

Juge 1 Juge 2

Sauce 1

Sauce 2

Juge 1 Juge 2

Sauce 1

Sauce 2

De

gré

de

piq

ua

nt

Effet Sauce Effet Juge

Effet d’interaction Juge x Sauce Effet Juge, effet sauce et effet d’interaction Juge x Sauce

Page 43: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

43

ANOVA à 2 facteurs : application XLSTAT

Page 44: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

44

ANOVA à 2 facteurs : interprétation

Décision : les 3 p-value < alpha (0,05) on rejette les 3 hypothèses

H0 en prenant des risques très faibles de nous tromper

H0 : moyenne(J1) = moy(J2) = moy(J3)...

H0 : moyenne(S1) = moy(S2) = moy(S3)

H0 : le pattern des moyennes des sauces ne change pas en fonction des juges

Préférer la table Type III surtout sidispositifdéséquilibré

Effetsprincipaux

Effet d’interaction

Page 45: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

45

Interpréter l’interaction

Page 46: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

46

En résumé...

• ANOVA: Outil de modélisation d’une variable à expliquer quantitative par des variables explicatives qualitatives

(facteurs)

• L’ANOVA implique un test basé sur le rapport variance intergroupe / variance intragroupe.

• Conditions de validité : Indépendance, normalité, pas trop de valeurs hors normes, égalité des variances.

• Les Comparaisons multiples par paires permettent d’identifier quelles modalités spécifiques ont des moyennes

différentes les unes des autres.

• Le test de Kruskal-Wallis est un équivalent non-paramétrique de l’ANOVA à un facteur.

• Les ANOVA à plusieurs facteurs permettent d’exploiter des effets principaux et des effets d’interaction.

Page 47: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

47

Webinars statistiques : conclusion

Description Exploration Tests Modélisation

Je veux résumer des

données grâce à des

calculs ou des

graphiques simples

(moyenne, écart

type, box plot…)

Je veux plonger

facilement dans un gros

jeu de données sans

forcément avoir une

question précise

derrière la tête (ACP,

CAH...)

Je veux accepter /

rejeter une hypothèse

bien précise en

assumant des risques

d’erreur (test t,

ANOVA, khi²,

corrélation...)

Je cherche à comprendre

comment évolue une

variable en fonction d’un

ensemble de variables

(régression, ANCOVA,

ANOVA)

Page 48: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

48

Merci pour votre attention !Tous les outils vus sont disponibles dans toutes les solutions XLSTAT (sauf la Free)

Survey time…

Téléchargez la version d’essai de 30 jours

Découvrez nos produits

Page 49: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

49

Annexe : la statistique de Welch

Statistique de Welch (ANOVA à 1 facteur uniquement) : propose une p-value fiable dans le cas du non-respect de l’hypothèse d’homogénéité des variances

Page 50: Introduction à l’Analyse de Variance (ANOVA) · 2020. 11. 18. · • ANOVA: Outil de modélisation d’unevariable à expliquer quantitative par des variables explicatives qualitatives

50

Annexe : les modèles mixtes

Effets fixes : qui souvent nous intéressent (type de transport, produit, sexe, traitement…)

Effets aléatoires : qui ne nous intéressent que rarement mais qu’il faut prendre en compte car ils existent (juge, parcelle, expérimentateur, individu suivi au cours du temps…)

Pour une question mélangeant les deux types d’effets, il est recommandé d’utiliser un modèle mixte (peut remplacer l’ANOVA à 2 facteurs vue dans ce webinar)