programme€¦ · analyse de la variance de base (1 et 2 facteurs) – ch. 15 à 21 analyse de...

1chapitre 1

MTH8302 – analyse de régression et analyse de la variance

PROGRAMME

1. INTRODUCTION

2. RÉGRESSIONsimple - multiple - PLS (Partial Least Square)logistique – multinomiale

3. DATA MININGCART : Classification And Regression TreesRéseau NeuronesMARS : Multivariate Adaptive Regression Spline

4. MODÈLE d’ANALYSE DE LA VARIANCE

designs simples - covariance

designs avancés - mesures répétées – splitplot - mixtes

Copyright © Génistat Conseils Inc.Montréal, Canada, 2018

2chapitre 1

MTH8302 - Analyse de régression et analyse de variance

Applied Linear Statistical Models 5th ed., McGraw-Hill, 2005 (1415 pages ! )Kutner, M. H., Nachtsheim, C.J., Neter J., Li, W.

Régression linéaire simple – ch. 1 à 5 Régression linéaire multiple – ch. 6 à12 Régression non linéaire – ch. 13 Régression logistique – ch. 14

Analyse de la variance de base (1 et 2 facteurs) – ch. 15 à 21 Analyse de covariance – ch. 22 Analyse de la variance multifactorielle – ch. 23 à 25 Analyse de la variance avancée – ch. 26 à 28 Plans d’expériences 2k-p - ch. 29 - hors programme Response Surface Methodology - ch. 30 - hors programme

AutresBelsley, D.A., E. Kuh, R.E. Welsch (1980). Regression Diagnostics. John Wiley.Cook, R. D., S. Weisberg (1982). Residuals and Influence in Regression. Chapman & Hall.Daniels, C., F. Wood (1980). Fitting Equations to Data, John Wiley. Draper, N. R., H. Smith (1981). Applied Regression Analysis. 2nd ed. John Wiley.Jobson, J. D. (1991). Applied Multivariate Data Analysis, vol. 1, Springer.Kuehl, R.O. (2000). Designed Experiments, Statistical Principles of Research and Analysis. Duxbury Press. Lunneborg, C. E. (1984). Modeling Experimental and Observationnal Data. Duxbury Press.Miliken, G.A., D. E. Johnson. Analysis of Messy Data, Volume 1: Designed Experiments, 2nd Edition.

Chapman & Hall/CRCPress, New York. 2009Analysis of Messy Data, Vol. 2: Nonreplicated Experiments. Chapman & Hall/CRC, 1989.Analysis of Messy Data, Vol. 3: Analysis of Covariance., Chapman & Hall/CRC, 2001.

Montgomery, D. C., E.A. Peck, G. G. Vining (2006). Introduction to Linear Regression Analysis, 4th ed. Wiley. Tenenhaus, M. (1998). La régression PLS, Éditions Technip.

3chapitre 1


Chapitre 1-Introduction Modélisation statistique Modèles statistiques Étapes d’une analyse statistique Classification des modèles

Chapitre 2-Simple Modèle LINÉAIRE SIMPLE Transformations et modèles linéarisables Modèles non linéaires Modèle Logistique

Chapitre 3-Multiple – partie 1 Modèle de régression MULTIPLE Régression avec STATISTICA Exemple d’utilisation et interprétation Inférence pour modèle réduit Variables standardisées Méthodes de sélection de variables

(model building) Critères de sélection de modèles

Chapitre 4-Multiple – partie 2 Résidus, influence, validation croisée Multicolinéarité Régression biaisée ridge Régression sur composantes principales Variables explicatives catégoriques

Chapitre 5-Multiple – partie 3 Régression : variables explicatives catégoriques Régression : modèles non linéaire Régression logistique: variable réponse Y binaire Régression : variable de réponse Y Poisson Modèles lin. généralisés: variable Y non normale

Data Mining CART : Classification And Regression Trees Réseau de neurones MARS : Multivariate Adaptive Regression Splines

Modèles d’analyse de la varianceChapitre 1 – chapitre 2 – chapitre 3 chapitre 4 – chapitre 5

4

Concepts de la modélisation et analyse statistique

Étude statistique Données Unités - sujets Type : énumérative - analytique

expérimentale - observationnelle Facteurs - variables Variables : catégoriques - continues Variables : facteurs (input) - réponses (output) Modalités : fixées - aléatoires Facteurs : croisés - emboités Facteurs : inter - intra Conception d’expériences (protocoles) Effets : fixes - aléatoires Distribution réponse Codage des variables catégoriques Observations : indépendantes – corrélées Modèles statistiques : linéaires – non linéaires Ajustement du modèle Interprétation des résultats …..

5

Data Science = Statistiques + génie informatique + génie logiciel

G A F A M= GoogleAppleFacebookAmazonMicrosoft

statisticien


6


DOMAINE élémentsSTATISTIQUE idées, hypothèses, évaluation(classique) analyse : primaire , haut vers le bas

confirmatoiredonnées : à recueillir

DATA SCIENCE génération d’hypothèses, création idées(data mining) analyse : secondaire, bas vers le haut

exloratoire (après coup)données : historiques

" Data Science is much older thanKepler … It is the second oldestprofession "

Gregory Piatetsky-Shapiro

" Statistics has been the mostsuccessful information science. Those who ignore statistics are condemned to re-invent it "

Brad Efron

idée

données

idée

données

7

8

Expériences planifiéestraitements appliqués aux

unités expérimentales selon un protocole (design)

Études observationnellesdonnées collectées au

fil du temps / temps réelunité statistiques

=instants d’observations

peu / pas deplanification statistique

Sondages, enquêtes, recensements

=études énumératives

plan d’échantillonnagedes unités statistiques

pas de traitementsappliqués aux unités

structure traitements

banques de données,mégadonnées

(big data)sciences humaines,sciences sociales,

.....

biostatistique,pharmaceutique,

sciences physiques,sciences exactes,expériences avec sujets humains /

animaux .....

actif passif

design expérimental :randomisation, blocage,

répétitions

rôlestatisticien

Type d’études statistiques

9

outils SPCcartes comportement processus

outils statistiquestests, ANOVA,

régression, etc.

énumérative analytiqueobservationnelle expérimentale

autre distinctionCLASSIQUE (traditionnelle) : base inférentielleMÉGADONNÉES (nouvelle) : base algorithmique

Type d’études statistiques

10

Type d’étude Statistique

* L’homogénéité des données est fondamentale lors de leur l’analyse.Cette question est clarifiée dans l’article suivant :Wheeler, Donald J. (2009) The four Questions of Data Analysis

http://www.qualitydigest.com/inside/quality-insider-column/four-questions-data-analysis.html

http://www.qualitydigest.com/inside/quality-insider-column/four-questions-data-analysis.html

PROCESSUS / SYSTÈME) : S I P O C

Suppliers Input : X Processus Output : Y Clients

FACTEURS

PersonnelMatériauxÉquipementPolitiquesProcéduresMéthodesEnvironnement

GÉNÉRAL

mélanged’inputs

quigénèrent

unoutput

RÉPONSES

indicateurs enrelation avec

qualité produit

qualité service

exécution tâche

PROCESSUS / SYSTÈME DESIGN (CONCEPTION) FABRICATION MESURAGE TRANSACTIONEL ADMINISTRATIF

exemples en intelligence artificielle (AI)

11

PROCESSUSétapes

méthodes

procédures

12

RESSOURCESAPPROVISIONNEMENT

MATÉRIAUX

ÉQUIPEMENTS

PERSONNEL

ENVIRONNEMENT

PRODUIT

ou

SERVICE

PARAMÈTRES

MESURABLES

ou

CONTRÔLABLES

VALEUR AJOUTÉE

CARACTÉRISTIQUES

CRITIQUES QUALITÉ

CCQ MESURES

COMPTAGES

ATTRIBUTS

variables input X1, X2, X3, …

fonction detransfert f

Y = f (X1, X2,..)variable output

Y

PROCESSUS / SYSTÈME) : Input Processus Output

X1 X2. . .Xk

ε = erreur =sources inconnues

de variabilitéε ∼ (0, σ2)

Y réponse - sortie mesuréeY = f (X) + g(Z) + ε

peut avoir plusieurs Y

ANALYSE STATISTIQUE : comprendre / prédire / optimiser

εZ1 Z2. . .Zh

13

Aucune restriction concernant la nature des X et YX: catégorique, entière, continue, contrôlées, aléatoiresY: binaire (0, 1), multinomiale, entière, continueAlgorithmes du Machine Learninglinéaire, linéaire généralisé, arbres, réseaux neurones,

PLS, etc. ..

p = nombre de variables n = nombre d’observations

on peut avoir plus de variables que d’observations !

" Le doute n’est pas une condition agréable,mais la certitude est absurde.”Lettre à Frédéric II, roi de Prusse 6 avril 1767

de François Marie Arouet dit Voltaire

SYSTÈME / PROCESSUS

14

approche processus

X : entrées Y : sorties / réponse

Quelles sont les variables CRITIQUES X IDENTIFICATIONaffectant les variables de réponse Y ?

Quelle est la FONCTION de TRANSFERT f MODÉLISATIONentre les variables critiques X et fla variable de réponse variable Y ? X Y = f (X)

Comment CONTRÔLER la réponse Y

à un niveau désiré CONTRÔLE

nominal - maximum - minimum et

en fixant les variables X à des OPTIMISATION

niveaux spécifiques ?

PROCESSUS


chapitre 1Copyright © Génistat Conseils Inc.Montréal, Canada, 2018

15


VARIABLESNature: continue - catégoriqueRôle: explicatives (X = input) - à expliquer (Y = output = réponse)Liste des X complète? k = nombre OK?Mesure de Y - processus de mesure / erreur? justesse?

STRUCTURE et le PLAN de collecte des donnéesexpérience planifiée - quel plan statistique?

- combien de données? n?données observées sans plan expérimental – qualité?

Terme d’erreur expérimentale - distribution normale? importance?importance obsessive sur la normalité

Forme de f - connue – linéaire / non linéaire (cas plutôt rare)- inconnue - quelle approximation? – polynomiale?- techniques de sélection des variables pour modéliser- qualité du modèle ajusté? critères?

Ajustement du modèle - analyse de sensibilité des X

Évaluation de qualité du modèle - analyse des résidus

- validation croisée

ÉTAPES ÉTUDE STATISTIQUE

1. Identification processus / problème / variables2. Observation plan collecte des données3. Spécification modèle pour analyse4. Estimation paramètres du modèle5. Décomposition variabilité (ANOVA), test F6. Validation tests, ratio-F, analyse résidus7. Exploitation optimisation / résolution problème

décision / action

ÉTAPES : ANALYSE

STATISTIQUE

1. Spécification d’un modèle statistique2. Estimation des paramètres du modèle3. Décomposition de la variabilité : ANOVA4. Tests d’hypothèses sur les paramètres 5. Analyse diagnostique des résidus

- vérification des hypothèses de base- identification d’observations influentes- transformation réponse Y ?

6. Si nécessaire : itération des étapes 1 à 57. Optimisation de la réponse (s’il y a lieu)8. Graphiques de la réponse 16


COMPARAISON Modèle de régression Modèle d’analyse de variance

But développement d’un modèleprédictif de la réponse

identification des effets significatifssur la réponse

Source des données historiques / observationnelles résultat d’un plan d’expérimentation

Nombre d’observations grand: centaines,, milliers…

petit : dizaines

Variables d’entrée continues / quantitatives catégoriques / qualitatives

Nombre de valeursdistinctes des variablesd’entrée

autant qu’il y a d’observationsnombre restreintgénéralement moins de 10

Utilisation des variablesindicatrices (0-1) occasionnelle employées systématiquement pour

représenter les modalitésEmphase et difficulté

forme et la qualité du modèle spécification du modèle reflétant lacomplexité du plan expérimental

Structure des données simple complexe 17

Étude des relations entrées-sorties

PROCESSUSX : entrées Y : sorties / réponse

VARiABLES

RÔLEY : réponse , output, à expliquer

peut être: binaire (0, 1), multinomiale, continue, multidimensionnelle

X, Z : explicatives, régresseurs, inputinter / intra relativement aux unités expérimentales

NATUREX (fixées) : continues ou catégoriques (facteurs)Z (aléatoires) : continues ou catégoriques, mesurées

INFLUENCEX : affecte la centralité (moyenne) de Y : effets fixesZ : affecte la dispersion (variance) de Y : effets aléatoires

MODÈLES effets fixés │ effets aléatoires│ mixtes (fixées , aléatoires)

Y = f (X1, X2 , … , Xk ; β0 , β1 , β2 ,… )+ g (Z1, Z2, .., Zh ; σ1

2 , σ22 , …) + ε (0, σ2)

18

Variables et modèles

Classification des modèles statistiques

chapitre 1

MTH8302

Modèle général Y = φ(X1, X2,…, Xk; β0, β1, β2 ,…, βp) + ε ε ~ N(0,σ2) (1)

Modèle LINÉAIRE dans les β si

Modèle sans variable explicative: Y = β0 + ε

Modèle de régression par l’origine: Y = β1X + ε

Modèle de régression linéaire simple: Y = β0 + β1X + ε

Modèle de régression linéaire multiple: k ≥ 2 ou plus variables explicativesModèles intrinsèquement linéaires: linéaires après transformations sur X et ou Y

exemple: Y= β0 exp(β1 X + ε) Y* = ln(Y) = β0‘+ β1X + ε

Modèles intrinsèquement non linéaires: équations (2) et (3) non satisfaites et aucune transformation sur X ou Y ne permet de se ramener à ce casexemple: Y = β0 + β1exp(β2X) + ε

Modèles linéaires généralisés (GLZ) g(Y) = φ(X1, X2,…, Xk; β0, β1, β2 ,…, βp) + ε

Modèles d’analyse de la variance présence de variables catégoriques

φ(X1, X2,…, Xk; β0, β1, β2 ,…, βp) = Σ βj fj(X1, X2,…,Xk) (2)

fj(X1, X2,…, Xk) = Uj ne dépend pas de paramètre inconnu (3)

alors Y = Σ βj Uj + ε (4)

19

20

ALGORITHMES (méthodes) (Machine Learning)

SÉRIES CHRONOLOGIQUES

Régression multiple ordinaire Régression non linéaire Régression linéaire généralisée Régression avec contraintes:

Ridge, Lasso Régression splines (MARS) Régression généralisée additive Régression réseaux neuronaux Flux Tenseur Arbres de classification (CRT) Forêts Aléatoires Méthodes gradient non-convexe Algorithmes génétiques Méthodes ensemblistes Régression boosted XGBoost …

Réduction dimension (PCA) Clustering K-Means K-Neighbour Classification hiérarchique Réseaux Baysiens Modèle de Markov ….

Deep Learning = Apprentissage profond= réseaux neurones multicouches= intelligence artificielle (AI)

SUPERVISÉES : X et Y NON SUPERVISÉES : X

SYSTÈME

PROCESSUSX1 X2 . . . Xk Y

Cours du MIT : MIT 6.S191 Introduction to Deep Learning

https://www.youtube.com/watch?list=PLtBw6njQRU-rwp5__7C0oIVt26ZgjG9NI&time_continue=89&v=JN6H4rQvwgY

https://www.youtube.com/watch?list=PLtBw6njQRU-rwp5__7C0oIVt26ZgjG9NI&time_continue=89&v=JN6H4rQvwgY

21

modèles statistiques classiques

GLM : General Linear Model GLZ : Generalized Linear/Nonlinear Model

modèles

linéairesmodèles

linéaires

généralisés

logiciel Statistica

22

Class Regression Trees (CRT)

Bosting (boostrap)

Ensembles

Random Forests

GAM

MARSplines

Clustering

Bayesian Networks

Support Vector Machine (SVM)

Text Mining

Web Crawling

Rapid Deployment (PMML)

Optimal Binning

Stepwise Model Builder

Process Optimization

Neural Networks

Algorithmes du Machine Learning (ML)Data Mining (fouille des données)

logiciel Statistica

base IA

23Copyright © Génistat Conseils Inc.Montréal, Canada, 2018

ÉTUDE EXPÉRIMENTALEmesures répétées

plan central-composite3 facteurs X - 4 réponses Y

Expérience en parcelles divisées(SplitPlot) 32 essais

24

ÉTUDE OBSERVATIONNELLE6496 vins du Portugal

……………………………………………………………………………………………

25

……………………………………………………………………………………………

ÉTUDE OBSERVATIONNELLE:données financières

40 entreprises bourse de Londres

26chapitre 1

. . . . . . . . . . . . . .. . . . . . . . .

15 var X 506 obs 5 var X 108 obs

Copyright © Génistat Conseils Inc. Montréal, Canada, 2018

exemple : données observationnellesprix résidences vs caractéristiques

exemple : données expérimentalessuivi de personnesdiètes

27

Exemples de modèles de régression non-linéaires

28

MODÈLES d’analyse de variance – A, B facteurs catégoriques

chapitre 1

MTH8302

remarque: termes d’erreur ε i k ε i j k .... sont emboités dansla structure la plus fine (cellules) des donnéeson devrait écrire ε k ( i ) ε k ( i j )

29

MODÈLES d’analyse de variance – facteurs catégoriques A, B

chapitre 1

MTH8302

30

MODÈLES d’analyse de variance – facteurs catégoriques A, B

chapitre 1

MTH8302

remarque design Split-Plot : - restriction à la randomisation- utile avec facteurs difficiles à changer


programme€¦ · analyse de la variance de base (1 et 2 facteurs) – ch. 15 à 21 analyse de...

Documents