data mining régression linéaire
TRANSCRIPT
TECHNIQUES PRÉDICTIVES DU DATA MINING
MODÈLES PARAMÉTRIQUES :
RÉGRESSION LINÉAIRE
MOHAMED HENY SELMI
ECO LE SU PÉRIEURE PR IVÉE D 'INGÉNIERIE ET DE TECH N OLOGIES
RAPPEL SUR LE PRINCIPE DES
TECHNIQUES PRÉDICTIVES
La prédiction consiste à estimer la valeur d’une variable continue (dite ≪ à expliquer ≫,≪ cible ≫,
en fonction de la valeur d’un certain nombre d’autres variables (dites ≪ explicatives ≫, ≪ de contrôle ≫, ou ≪ indépendantes ≫)
Cette variable ≪ cible ≫ peut être par exemple :
le poids (en fonction de la taille)
le prix d’un appartement (en fonction de sa superficie, de l’étage et du quartier)
la consommation d’électricité (en fonction de la température
extérieure et de l’épaisseur de l’isolation)
Mohamed Heny SELMI © ESPRIT [email protected]
BESOIN DE LA RÉGRESSION
LINÉAIRE
Pour estimer la relation entre une variable dépendante (Y ) quantitative
et plusieurs variables indépendantes (X1, X2, …)
Un modèle de régression d'une variable expliquée sur une ou plusieurs
variables explicatives dans lequel on fait l'hypothèse que la fonction qui
relie les variables explicatives à la variable expliquée est linéaire dans ses
paramètres.
Mohamed Heny SELMI © ESPRIT [email protected]
CADRE DU MODÈLE
LINÉAIRE
Dans le modèle linéaire simple : X et Y deux variables continues
Les valeurs xi de X sont contrôlées et sans erreur de mesure
On observe les valeurs correspondantes y1, …, yn de Y
Exemples :
X peut être le temps et Y une grandeur mesurée à différentes dates
Y peut être la différence de potentiel mesurée aux bornes d’une résistance pour différentes valeurs de l’intensité X du courant
Mohamed Heny SELMI © ESPRIT [email protected]
L’ANALYSE DE LA
RÉGRESSION
L’analyse de la régression est une méthode statistique qui permet d’étudier le type de relation pouvant exister entre une certaine variable (dépendante) dont on veut expliquer les valeurs et une ou plusieurs autres variables qui servent à cette explication (variables indépendantes)
Régression linéaire simple: une variable indépendante
En d’autres termes, l’analyse de la régression permet d’étudier les variations de la variable dépendante en fonction des variations connues des variables indépendantes.
Mohamed Heny SELMI © ESPRIT [email protected]
L’ANALYSE DE LA RÉGRESSION
Le coût du loyer en fonction du nombre de pièces, du niveau d’étage dans l’immeuble, des services offerts ...
),...,,,( 321 nXXXXfY
Coût du loyer Nombre de pièces
Services offerts (piscine, stationnement intérieur, etc.)
L’étage dans l’immeuble …
Mohamed Heny SELMI © ESPRIT [email protected]
TYPES DES ANALYSES DE
RÉGRESSION
SIMPLE
si elle permet de prédire les valeurs d’une variable dite dépendante (expliquée (Y)) à partir des valeurs prises par une autre variable dite indépendante (explicative (X))
MULTIPLE
si elle permet de prédire les valeurs d’une variable dite dépendante (expliquée (Y)) à partir des valeurs prises par plusieurs autres variables dites indépendantes (explicatives (Xi))
Mohamed Heny SELMI © ESPRIT [email protected]
RÉGRESSION LINÉAIRE
MULTIPLE
MODÈLE GAUSSIEN
Equation de régression multiple :
Cette équation précise la façon dont la variable dépendante est reliée aux variables explicatives :
Où β0, β 1, β 2, . . . , βp sont les paramètres et ε est un bruit aléatoire représentant le terme d’erreur.
PS: on suppose l’indépendance linéaire des Xi
Mohamed Heny SELMI © ESPRIT [email protected]
pp XXXY ...22110
LES TERMES DE
L’ÉQUATION
Mohamed Heny SELMI © ESPRIT [email protected]
ipipiii xxxy ...22110
ième observation
de Y
Terme constant
Influence de la
variable X1
Influence de
la variable Xp
Résidu de la ième
observation
ECRITURE MATRICIELLE DU
MODÈLE
Mohamed Heny SELMI © ESPRIT [email protected]
Xy
xx
xx
y
y
n
p
pnn
p
n
1
1
0
,,1
,11,11
1
1
LE PROCESSUS
D’ESTIMATION
Estimation des coefficients de régression / méthode des moindres carrés ordinaires :
Le principe de l’estimation des coefficients de régression :
Mohamed Heny SELMI © ESPRIT [email protected]
p,...,,, 210
n
i
ii
n
i
i yy1
2
1
2 )ˆ(
ESTIMATION DES
COEFFICIENTS DU MODÈLE
La méthode des moindres carrés donne pour résultat :
Interprétation des coefficients de régression estimés La pente (k≠0) L’estimée de Y varie d’un facteur égal à lorsque Xk augmente d’une
unité, les autres variables étant maintenues constantes. L’ordonnée à l’origine : C’est la valeur moyenne de Y lorsque toutes les Xi sont nulles.
Mohamed Heny SELMI © ESPRIT [email protected]
YXXX TT 1ˆ
kˆ
kˆ
0ˆ
COEFFICIENT DE
DÉTERMINATION
• R² = SCR / SCT
• R² = proportion de variation de la variable cible expliquée par toutes les variables explicatives
• Bon ajustement si R² proche de 1
• R² est biaisé (optimiste car croissant avec le nombre de
variables) et on lui substitue le R² ajusté :
Mohamed Heny SELMI © ESPRIT [email protected]
L’APPORT MARGINAL DE XJ
EST-IL SIGNIFICATIF ?
Modèle : Y = 0 + 1X1 + … + jXj + … + kXk +
Test : H0 : j = 0 (On peut supprimer Xj)
H1 : j 0 (Il faut conserver Xj)
Exemple : indiquer les variables significatives du problème !
Mohamed Heny SELMI © ESPRIT [email protected]
Coefficientsa
3129.231641.3554.879.000
4.4231.5882.785.009
1.6763.291.509.614
-13.5268.305-1.629.114
-3.4106.569-.519.608
1.924.7782.474.019
8.5471.8264.679.000
1.4972.771.540.593
-.022.401-.054.958
(Constant)
MT
RG
PRIX
BR
INV
PUB
FV
TPUB
Model
1
BStd. Error
Unstandardized
Coefficients
tSig.
Dependent Variable: VENTESa.
SÉLECTION DES VARIABLES
RÉGRESSION PAS À PAS DESCENDANTE
(BACKWARD)
i. On part du modèle complet.
ii. A chaque étape, on enlève la variable Xj ayant l’apport marginal le
plus faible à condition que cet apport soit non significatif
Mohamed Heny SELMI © ESPRIT [email protected]
EXEMPLE : CAS DE VENTES
SEMESTRIELLES
Variable à expliquer :
Y = Ventes semestrielles
Variables explicatives :
X1 = Marché total
X2 = Remises aux grossistes
X3 = Prix
X4 = Budget de Recherche
X5 = Investissement
X6 = Publicité
X7 = Frais de ventes
X8 = Total budget publicité de la branche
Mohamed Heny SELMI © ESPRIT [email protected]
PREMIÈRE
ÉTAPE
Mohamed Heny SELMI © ESPRIT [email protected]
Coefficientsa
3129.231 641.355 4.879 .000
4.423 1.588 2.785 .009
1.676 3.291 .509 .614
-13.526 8.305 -1.629 .114
-3.410 6.569 -.519 .608
1.924 .778 2.474 .019
8.547 1.826 4.679 .000
1.497 2.771 .540 .593
-2.15E-02 .401 -.054 .958
(Constant)
MT
RG
PRIX
BR
INV
PUB
FV
TPUB
Model
1
B Std. Error
Unstandardized
Coefficients
t Sig.
Dependent Variable: VENTESa.
Mode l Summary
.898a .806 .752 256.29
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Estimate
Predictors: (Constant), Total publicité de la branche,
Marché total, Remises aux grossistes, Budget de
recherche, Investissements, Publicité, Prix, Frais de
ventes
a.
TPUB = Total budget publicité de la branche
DEUXIÈME
ETAPE
Mohamed Heny SELMI © ESPRIT
Coefficientsa
3115.648 579.517 5.376 .000
4.426 1.561 2.836 .008
1.706 3.191 .535 .597
-13.445 8.029 -1.675 .104
-3.392 6.451 -.526 .603
1.931 .756 2.554 .016
8.558 1.784 4.798 .000
1.482 2.710 .547 .588
(Constant)
MT
RG
PRIX
BR
INV
PUB
FV
Model
1
B Std. Error
Unstandardized
Coefficients
t Sig.
Dependent Variable: VENTESa.
Model Summaryb
.898a .806 .760 251.99
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Estimate
Predictors: (Constant), Frais de ventes, Remises aux
grossistes, Publicité, Investissements, Budget de
recherche, Prix , Marché total
a.
Dependent Variable: Ventesb.
BR = Budget de Recherche
TROISIÈME
ÉTAPE
Mohamed Heny SELMI © ESPRIT
Model Summaryb
.897a .804 .766 249.04
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Estimate
Predictors: (Constant), Frais de ventes, Remises aux
grossistes, Publicité, Investissements, Prix , Marché
total
a.
Dependent Variable: Ventesb.
Coefficientsa
3137.547 571.233 5.493 .000
4.756 1.412 3.368 .002
1.705 3.153 .541 .593
-14.790 7.521 -1.966 .058
1.885 .742 2.539 .016
8.519 1.761 4.837 .000
.950 2.484 .382 .705
(Constant)
MT
RG
PRIX
INV
PUB
FV
Model
1
B Std. Error
Unstandardized
Coefficients
t Sig.
Dependent Variable: VENTESa.
FV = Frais de ventes
QUATRIÈME
ÉTAPE
Mohamed Heny SELMI © ESPRIT
Model Summaryb
.896a .803 .772 245.69
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Estimate
Predictors: (Constant), Publicité, Remises aux
gross istes, Marché total, Investissements, Prix
a.
Dependent Variable: Ventesb.
Coefficientsa
3084.009 546.374 5.645 .000
5.222 .704 7.415 .000
1.700 3.111 .546 .589
-13.467 6.589 -2.044 .049
1.984 .686 2.893 .007
8.328 1.666 4.998 .000
(Constant)
MT
RG
PRIX
INV
PUB
Model
1
B Std. Error
Unstandardized
Coefficients
t Sig.
Dependent Variable: VENTESa.
RG = Remises aux grossistes
CONDITION D’ARRÊT
Mohamed Heny SELMI © ESPRIT
Coefficientsa
3084.009 546.374 5.645 .000
5.222 .704 7.415 .000
1.700 3.111 .546 .589
-13.467 6.589 -2.044 .049
1.984 .686 2.893 .007
8.328 1.666 4.998 .000
(Constant)
MT
RG
PRIX
INV
PUB
Model
1
B Std. Error
Unstandardized
Coefficients
t Sig.
Dependent Variable: VENTESa.
Toutes les « Signification » < 0.05