programme€¦ · analyse de la variance de base (1 et 2 facteurs) – ch. 15 à 21 analyse de...
TRANSCRIPT
1chapitre 1
MTH8302 – analyse de régression et analyse de la variance
PROGRAMME
1. INTRODUCTION
2. RÉGRESSIONsimple - multiple - PLS (Partial Least Square)logistique – multinomiale
3. DATA MININGCART : Classification And Regression TreesRéseau NeuronesMARS : Multivariate Adaptive Regression Spline
4. MODÈLE d’ANALYSE DE LA VARIANCE
designs simples - covariance
designs avancés - mesures répétées – splitplot - mixtes
Copyright © Génistat Conseils Inc.Montréal, Canada, 2018
2chapitre 1
MTH8302 - Analyse de régression et analyse de variance
Applied Linear Statistical Models 5th ed., McGraw-Hill, 2005 (1415 pages ! )Kutner, M. H., Nachtsheim, C.J., Neter J., Li, W.
Régression linéaire simple – ch. 1 à 5 Régression linéaire multiple – ch. 6 à12 Régression non linéaire – ch. 13 Régression logistique – ch. 14
Analyse de la variance de base (1 et 2 facteurs) – ch. 15 à 21 Analyse de covariance – ch. 22 Analyse de la variance multifactorielle – ch. 23 à 25 Analyse de la variance avancée – ch. 26 à 28 Plans d’expériences 2k-p - ch. 29 - hors programme Response Surface Methodology - ch. 30 - hors programme
AutresBelsley, D.A., E. Kuh, R.E. Welsch (1980). Regression Diagnostics. John Wiley.Cook, R. D., S. Weisberg (1982). Residuals and Influence in Regression. Chapman & Hall.Daniels, C., F. Wood (1980). Fitting Equations to Data, John Wiley. Draper, N. R., H. Smith (1981). Applied Regression Analysis. 2nd ed. John Wiley.Jobson, J. D. (1991). Applied Multivariate Data Analysis, vol. 1, Springer.Kuehl, R.O. (2000). Designed Experiments, Statistical Principles of Research and Analysis. Duxbury Press. Lunneborg, C. E. (1984). Modeling Experimental and Observationnal Data. Duxbury Press.Miliken, G.A., D. E. Johnson. Analysis of Messy Data, Volume 1: Designed Experiments, 2nd Edition.
Chapman & Hall/CRCPress, New York. 2009Analysis of Messy Data, Vol. 2: Nonreplicated Experiments. Chapman & Hall/CRC, 1989.Analysis of Messy Data, Vol. 3: Analysis of Covariance., Chapman & Hall/CRC, 2001.
Montgomery, D. C., E.A. Peck, G. G. Vining (2006). Introduction to Linear Regression Analysis, 4th ed. Wiley. Tenenhaus, M. (1998). La régression PLS, Éditions Technip.
3chapitre 1
MTH8302 - Analyse de régression et analyse de variance
Chapitre 1-Introduction Modélisation statistique Modèles statistiques Étapes d’une analyse statistique Classification des modèles
Chapitre 2-Simple Modèle LINÉAIRE SIMPLE Transformations et modèles linéarisables Modèles non linéaires Modèle Logistique
Chapitre 3-Multiple – partie 1 Modèle de régression MULTIPLE Régression avec STATISTICA Exemple d’utilisation et interprétation Inférence pour modèle réduit Variables standardisées Méthodes de sélection de variables
(model building) Critères de sélection de modèles
Chapitre 4-Multiple – partie 2 Résidus, influence, validation croisée Multicolinéarité Régression biaisée ridge Régression sur composantes principales Variables explicatives catégoriques
Chapitre 5-Multiple – partie 3 Régression : variables explicatives catégoriques Régression : modèles non linéaire Régression logistique: variable réponse Y binaire Régression : variable de réponse Y Poisson Modèles lin. généralisés: variable Y non normale
Data Mining CART : Classification And Regression Trees Réseau de neurones MARS : Multivariate Adaptive Regression Splines
Modèles d’analyse de la varianceChapitre 1 – chapitre 2 – chapitre 3 chapitre 4 – chapitre 5
4
Concepts de la modélisation et analyse statistique
Étude statistique Données Unités - sujets Type : énumérative - analytique
expérimentale - observationnelle Facteurs - variables Variables : catégoriques - continues Variables : facteurs (input) - réponses (output) Modalités : fixées - aléatoires Facteurs : croisés - emboités Facteurs : inter - intra Conception d’expériences (protocoles) Effets : fixes - aléatoires Distribution réponse Codage des variables catégoriques Observations : indépendantes – corrélées Modèles statistiques : linéaires – non linéaires Ajustement du modèle Interprétation des résultats …..
G A F A M= GoogleAppleFacebookAmazonMicrosoft
statisticien
Data Science = Statistiques + génie informatique + génie logiciel
6
Data Science = Statistiques + génie informatique + génie logiciel
DOMAINE élémentsSTATISTIQUE idées, hypothèses, évaluation(classique) analyse : primaire , haut vers le bas
confirmatoiredonnées : à recueillir
DATA SCIENCE génération d’hypothèses, création idées(data mining) analyse : secondaire, bas vers le haut
exloratoire (après coup)données : historiques
" Data Science is much older thanKepler … It is the second oldestprofession "
Gregory Piatetsky-Shapiro
" Statistics has been the mostsuccessful information science. Those who ignore statistics are condemned to re-invent it "
Brad Efron
idée
données
idée
données
7
8
Expériences planifiéestraitements appliqués aux
unités expérimentales selon un protocole (design)
Études observationnellesdonnées collectées au
fil du temps / temps réelunité statistiques
=instants d’observations
peu / pas deplanification statistique
Sondages, enquêtes, recensements
=études énumératives
plan d’échantillonnagedes unités statistiques
pas de traitementsappliqués aux unités
structure traitements
banques de données,mégadonnées
(big data)sciences humaines,sciences sociales,
.....
biostatistique,pharmaceutique,
sciences physiques,sciences exactes,expériences avec sujets humains /
animaux .....
actif passif
design expérimental :randomisation, blocage,
répétitions
rôlestatisticien
Type d’études statistiques
9
outils SPCcartes comportement processus
outils statistiquestests, ANOVA,
régression, etc.
énumérative analytiqueobservationnelle expérimentale
autre distinctionCLASSIQUE (traditionnelle) : base inférentielleMÉGADONNÉES (nouvelle) : base algorithmique
Type d’études statistiques
10
Type d’étude Statistique
* L’homogénéité des données est fondamentale lors de leur l’analyse.Cette question est clarifiée dans l’article suivant :Wheeler, Donald J. (2009) The four Questions of Data Analysis
http://www.qualitydigest.com/inside/quality-insider-column/four-questions-data-analysis.html
PROCESSUS / SYSTÈME) : S I P O C
Suppliers Input : X Processus Output : Y Clients
FACTEURS
PersonnelMatériauxÉquipementPolitiquesProcéduresMéthodesEnvironnement
GÉNÉRAL
mélanged’inputs
quigénèrent
unoutput
RÉPONSES
indicateurs enrelation avec
qualité produit
qualité service
exécution tâche
PROCESSUS / SYSTÈME DESIGN (CONCEPTION) FABRICATION MESURAGE TRANSACTIONEL ADMINISTRATIF
exemples en intelligence artificielle (AI)
11
PROCESSUSétapes
méthodes
procédures
12
RESSOURCESAPPROVISIONNEMENT
MATÉRIAUX
ÉQUIPEMENTS
PERSONNEL
ENVIRONNEMENT
PRODUIT
ou
SERVICE
PARAMÈTRES
MESURABLES
ou
CONTRÔLABLES
VALEUR AJOUTÉE
CARACTÉRISTIQUES
CRITIQUES QUALITÉ
CCQ MESURES
COMPTAGES
ATTRIBUTS
variables input X1, X2, X3, …
fonction detransfert f
Y = f (X1, X2,..)variable output
Y
PROCESSUS / SYSTÈME) : Input Processus Output
X1 X2. . .Xk
ε = erreur =sources inconnues
de variabilitéε ∼ (0, σ2)
Y réponse - sortie mesuréeY = f (X) + g(Z) + ε
peut avoir plusieurs Y
ANALYSE STATISTIQUE : comprendre / prédire / optimiser
εZ1 Z2. . .Zh
13
Aucune restriction concernant la nature des X et YX: catégorique, entière, continue, contrôlées, aléatoiresY: binaire (0, 1), multinomiale, entière, continueAlgorithmes du Machine Learninglinéaire, linéaire généralisé, arbres, réseaux neurones,
PLS, etc. ..
p = nombre de variables n = nombre d’observations
on peut avoir plus de variables que d’observations !
" Le doute n’est pas une condition agréable,mais la certitude est absurde.”Lettre à Frédéric II, roi de Prusse 6 avril 1767
de François Marie Arouet dit Voltaire
SYSTÈME / PROCESSUS
14
approche processus
X : entrées Y : sorties / réponse
Quelles sont les variables CRITIQUES X IDENTIFICATIONaffectant les variables de réponse Y ?
Quelle est la FONCTION de TRANSFERT f MODÉLISATIONentre les variables critiques X et fla variable de réponse variable Y ? X Y = f (X)
Comment CONTRÔLER la réponse Y
à un niveau désiré CONTRÔLE
nominal - maximum - minimum et
en fixant les variables X à des OPTIMISATION
niveaux spécifiques ?
PROCESSUS
MTH8302 - Analyse de régression et analyse de variance
chapitre 1Copyright © Génistat Conseils Inc.Montréal, Canada, 2018
15
MTH8302 - Analyse de régression et analyse de variance
VARIABLESNature: continue - catégoriqueRôle: explicatives (X = input) - à expliquer (Y = output = réponse)Liste des X complète? k = nombre OK?Mesure de Y - processus de mesure / erreur? justesse?
STRUCTURE et le PLAN de collecte des donnéesexpérience planifiée - quel plan statistique?
- combien de données? n?données observées sans plan expérimental – qualité?
Terme d’erreur expérimentale - distribution normale? importance?importance obsessive sur la normalité
Forme de f - connue – linéaire / non linéaire (cas plutôt rare)- inconnue - quelle approximation? – polynomiale?- techniques de sélection des variables pour modéliser- qualité du modèle ajusté? critères?
Ajustement du modèle - analyse de sensibilité des X
Évaluation de qualité du modèle - analyse des résidus
- validation croisée
ÉTAPES ÉTUDE STATISTIQUE
1. Identification processus / problème / variables2. Observation plan collecte des données3. Spécification modèle pour analyse4. Estimation paramètres du modèle5. Décomposition variabilité (ANOVA), test F6. Validation tests, ratio-F, analyse résidus7. Exploitation optimisation / résolution problème
décision / action
ÉTAPES : ANALYSE
STATISTIQUE
1. Spécification d’un modèle statistique2. Estimation des paramètres du modèle3. Décomposition de la variabilité : ANOVA4. Tests d’hypothèses sur les paramètres 5. Analyse diagnostique des résidus
- vérification des hypothèses de base- identification d’observations influentes- transformation réponse Y ?
6. Si nécessaire : itération des étapes 1 à 57. Optimisation de la réponse (s’il y a lieu)8. Graphiques de la réponse 16
Copyright © Génistat Conseils Inc.Montréal, Canada, 2018
COMPARAISON Modèle de régression Modèle d’analyse de variance
But développement d’un modèleprédictif de la réponse
identification des effets significatifssur la réponse
Source des données historiques / observationnelles résultat d’un plan d’expérimentation
Nombre d’observations grand: centaines,, milliers…
petit : dizaines
Variables d’entrée continues / quantitatives catégoriques / qualitatives
Nombre de valeursdistinctes des variablesd’entrée
autant qu’il y a d’observationsnombre restreintgénéralement moins de 10
Utilisation des variablesindicatrices (0-1) occasionnelle employées systématiquement pour
représenter les modalitésEmphase et difficulté
forme et la qualité du modèle spécification du modèle reflétant lacomplexité du plan expérimental
Structure des données simple complexe 17
Étude des relations entrées-sorties
PROCESSUSX : entrées Y : sorties / réponse
VARiABLES
RÔLEY : réponse , output, à expliquer
peut être: binaire (0, 1), multinomiale, continue, multidimensionnelle
X, Z : explicatives, régresseurs, inputinter / intra relativement aux unités expérimentales
NATUREX (fixées) : continues ou catégoriques (facteurs)Z (aléatoires) : continues ou catégoriques, mesurées
INFLUENCEX : affecte la centralité (moyenne) de Y : effets fixesZ : affecte la dispersion (variance) de Y : effets aléatoires
MODÈLES effets fixés │ effets aléatoires│ mixtes (fixées , aléatoires)
Y = f (X1, X2 , … , Xk ; β0 , β1 , β2 ,… )+ g (Z1, Z2, .., Zh ; σ1
2 , σ22 , …) + ε (0, σ2)
18
Variables et modèles
Classification des modèles statistiques
chapitre 1
MTH8302
Modèle général Y = φ(X1, X2,…, Xk; β0, β1, β2 ,…, βp) + ε ε ~ N(0,σ2) (1)
Modèle LINÉAIRE dans les β si
Modèle sans variable explicative: Y = β0 + ε
Modèle de régression par l’origine: Y = β1X + ε
Modèle de régression linéaire simple: Y = β0 + β1X + ε
Modèle de régression linéaire multiple: k ≥ 2 ou plus variables explicativesModèles intrinsèquement linéaires: linéaires après transformations sur X et ou Y
exemple: Y= β0 exp(β1 X + ε) Y* = ln(Y) = β0‘+ β1X + ε
Modèles intrinsèquement non linéaires: équations (2) et (3) non satisfaites et aucune transformation sur X ou Y ne permet de se ramener à ce casexemple: Y = β0 + β1exp(β2X) + ε
Modèles linéaires généralisés (GLZ) g(Y) = φ(X1, X2,…, Xk; β0, β1, β2 ,…, βp) + ε
Modèles d’analyse de la variance présence de variables catégoriques
φ(X1, X2,…, Xk; β0, β1, β2 ,…, βp) = Σ βj fj(X1, X2,…,Xk) (2)
fj(X1, X2,…, Xk) = Uj ne dépend pas de paramètre inconnu (3)
alors Y = Σ βj Uj + ε (4)
19
20
ALGORITHMES (méthodes) (Machine Learning)
SÉRIES CHRONOLOGIQUES
Régression multiple ordinaire Régression non linéaire Régression linéaire généralisée Régression avec contraintes:
Ridge, Lasso Régression splines (MARS) Régression généralisée additive Régression réseaux neuronaux Flux Tenseur Arbres de classification (CRT) Forêts Aléatoires Méthodes gradient non-convexe Algorithmes génétiques Méthodes ensemblistes Régression boosted XGBoost …
Réduction dimension (PCA) Clustering K-Means K-Neighbour Classification hiérarchique Réseaux Baysiens Modèle de Markov ….
Deep Learning = Apprentissage profond= réseaux neurones multicouches= intelligence artificielle (AI)
SUPERVISÉES : X et Y NON SUPERVISÉES : X
SYSTÈME
PROCESSUSX1 X2 . . . Xk Y
Cours du MIT : MIT 6.S191 Introduction to Deep Learning
https://www.youtube.com/watch?list=PLtBw6njQRU-rwp5__7C0oIVt26ZgjG9NI&time_continue=89&v=JN6H4rQvwgY
21
modèles statistiques classiques
GLM : General Linear Model GLZ : Generalized Linear/Nonlinear Model
modèles
linéairesmodèles
linéaires
généralisés
logiciel Statistica
22
Class Regression Trees (CRT)
Bosting (boostrap)
Ensembles
Random Forests
GAM
MARSplines
Clustering
Bayesian Networks
Support Vector Machine (SVM)
Text Mining
Web Crawling
Rapid Deployment (PMML)
Optimal Binning
Stepwise Model Builder
Process Optimization
Neural Networks
Algorithmes du Machine Learning (ML)Data Mining (fouille des données)
logiciel Statistica
base IA
23Copyright © Génistat Conseils Inc.Montréal, Canada, 2018
ÉTUDE EXPÉRIMENTALEmesures répétées
plan central-composite3 facteurs X - 4 réponses Y
Expérience en parcelles divisées(SplitPlot) 32 essais
25
……………………………………………………………………………………………
ÉTUDE OBSERVATIONNELLE:données financières
40 entreprises bourse de Londres
26chapitre 1
. . . . . . . . . . . . . .. . . . . . . . .
15 var X 506 obs 5 var X 108 obs
Copyright © Génistat Conseils Inc. Montréal, Canada, 2018
exemple : données observationnellesprix résidences vs caractéristiques
exemple : données expérimentalessuivi de personnesdiètes
28
MODÈLES d’analyse de variance – A, B facteurs catégoriques
chapitre 1
MTH8302
remarque: termes d’erreur ε i k ε i j k .... sont emboités dansla structure la plus fine (cellules) des donnéeson devrait écrire ε k ( i ) ε k ( i j )