principes généraux de l’i nduction
Post on 16-Jan-2016
51 Views
Preview:
DESCRIPTION
TRANSCRIPT
1Cornuéjols 1- Principes généraux de l’induction
15/10/03
Antoine Cornuéjols
Principes généraux de
l’INDUCTION
CNAM-IIE
et L.R.I., Université de Paris-Sud, Orsay (France)
antoine@lri.fr
http://www.lri.fr/~antoine/
2Cornuéjols 1- Principes généraux de l’induction
15/10/03
Cours 5
1 & 2- Introduction à l’induction
3- Apprentissage et espace des versions
4- Réseaux de neurones multicouches
5- Analyse formelle de l’induction
6- Les SVM
7- Les arbres de décision
8- Le boosting
9 & 10- Apprentissage par renforcement
3Cornuéjols 1- Principes généraux de l’induction
15/10/03
1- Quel niveau de description ?
1. Analyse de principe, de faisabilité
sans référence à un algorithme particulier !!
Théories mathématiques en particulier de nature statistique
2. Niveau de la réalisation / simulation
Algorithmes
Programmes
Réalisations et tests empiriques
4Cornuéjols 1- Principes généraux de l’induction
15/10/03
1- Le scénario de base
Environnement X :distribution de prob. F(x)
“Oracle”
Apprenant : h (x)x1, x2, ..., xm
x1, x2, ..., xm
Sm = (x1,u1), (x2,u2), ..., (xm,um)
y1, y2, ..., ym
5Cornuéjols 1- Principes généraux de l’induction
15/10/03
1- Définition formelle du problème• Hypothèse :
les données empiriques caractérisent une dépendance probabiliste P entre l’espace X
des descriptions et l’espace Y des étiquettes
Z = (X, Y) : variable aléatoire sur (, B, P), où P est inconnue
S = {(x1,u1), (x2,u2), … (xm,um)} (X Y)m
– Échantillon d’apprentissageÉchantillon d’apprentissage
– Les observation sont i.i.d. suivant P
– H : famille (éventuellement infinie) de fonctions h définies sur X
• Objectif : prédire l’étiquette y connaissant l’observation x
6Cornuéjols 1- Principes généraux de l’induction
15/10/03
1- L’objectif de l’induction
• Objectif : trouver une hypothèse h H minimisant le risque réel le risque réel
(espérance de risque, erreur en généralisation)
R(h) = l h(x),u( ) dP(x,y)X×Y∫
Étiquette prédite
Étiquette vraie(ou désirée)
Fonction de perteFonction de perte
Loi de probabilitéjointe sur X Y
7Cornuéjols 1- Principes généraux de l’induction
15/10/03
1- Exemples de fonctions de pertes
• Discrimination
• Régression
• Estimation de densité
l (h(xi),ui) = 0 si ui = h(xi )
1 si ui ≠ h(xi )⎧ ⎨ ⎩
l (h(xi),ui) = h(xi) − ui[ ]2
l (h(xi)) = −ln h(xi)
8Cornuéjols 1- Principes généraux de l’induction
15/10/03
1- Les grands principes inductifs
• Étant donnés:
un échantillon d’apprentissageéchantillon d’apprentissage Sm
et un espace d’hypothèseespace d’hypothèse H
Qu’est-ce qui caractérise la (les) meilleure(s) hypothèse(s) ?
Quelle hypothèse devrais-je chercher ?
9Cornuéjols 1- Principes généraux de l’induction
15/10/03
2.1- Le principe inductif ERM
• On ne connaît pas le risque réel, en particulier pas la loi de probabilité
P(X,Y).
• Le principe ERMprincipe ERM (minimisation du risque empirique) prescrit de
chercher l’hypothèse h H minimisant le risque empirique le risque empirique
REmp(h) = l h(xi ),ui( )i = 1
m
∑
R(h) = l h(x),u( ) dP(x,y)X×Y∫
10Cornuéjols 1- Principes généraux de l’induction
15/10/03
2.2- Le principe ERM est-il pertinent ?
• h* : hypothèse optimale dans H suivant le risque réel
• hSm : hypothèse optimale dans H suivant le risque empirique mesuré sur l’échantillon Sm
m
Risque
RRéel(h*)
11Cornuéjols 1- Principes généraux de l’induction
15/10/03
2.2- Analyse du principe de minimisation du risque empirique
• Rappel : a-t-on des garanties sur le risque réel lorsque l’on choisit
l’hypothèse minimisant le risque empirique sur un échantillon Sm ?
m
Risque
RRéel(h*)
12Cornuéjols 1- Principes généraux de l’induction
15/10/03
2.3- Les facteurs : le compromis biais-variance
H
F
×
×
×
f
h*
fb = f + bruit
×hS
Erreur d'estimation(Variance)
Erreur d'approximation(Biais )
Erreur totale
Erreur intrinsèque
{hS}S
13Cornuéjols 1- Principes généraux de l’induction
15/10/03
2.3- Les facteurs : le compromis biais-variance
H
F
××
f
h*
fb = f + bruit
h^Erreur d'estimation(Variance)
Erreur d'approximation(Biais)
Erreur totale
Erreur intrinsèque
{h}S^
Fonction cible
H'
14Cornuéjols 1- Principes généraux de l’induction
15/10/03
3- Analyse statistique du principe ERM
• Étude de la corrélation entre :
• Cette corrélation fait intervenir :
RRéel(hS) - RRéel (h*) nécessairement ≥ 0 (pourquoi ?)
La probabilité que cette différence soit supérieure à une borne donnée
– car hS dépend de la représentativité de l’échantillon d’apprentissage Sm
et
∀ 0 ≤ ε,δ ≤ 1 : P(|R(hS) − R(h*) |) ≥ ε) < δ
15Cornuéjols 1- Principes généraux de l’induction
15/10/03
3- Analyse statistique du principe ERM (suite)
H
Risque réel
Risque empirique
hS^
h*
Erreurd'approximation
16Cornuéjols 1- Principes généraux de l’induction
15/10/03
3- Analyse statistique du principe ERM (suite)
H
Risque réel
Risque empirique
hS^
h*
2εε
17Cornuéjols 1- Principes généraux de l’induction
15/10/03
3- Analyse statistique du principe ERM (suite)
∀ 0 ≤ ε,δ ≤ 1 : ∃m, tq. P(|R(hS) − R(h*)|) ≥ ε) < δ
H
Risque réel
Risque empirique(fonction de S)
hS^
h*
mm/2m/3m/4
18Cornuéjols 1- Principes généraux de l’induction
15/10/03
3- Pertinence (consistance) du principe ERM
• On dit que le principe ERM est pertinentpertinent (ou consistant) si le risque risque
réelréel inconnu R(hS) et le risque empiriquerisque empirique REmp(hS) convergent vers la
même limite R(h*) lorsque la taille m de l’échantillon S tend vers .
R(hS) m→ ∞ ⏐ → ⏐ ⏐ ⏐ R(h*)
REmp(hS) m→ ∞ ⏐ → ⏐ ⏐ ⏐ R(h*)
m
Risque
RRéel(h*)
19Cornuéjols 1- Principes généraux de l’induction
15/10/03
• Contexte :
• Discrimination
• Fonction de perte l : {0,1}
• F = H
• H : espace fini
L’apprentissage consiste alors à élimineréliminer toutes les hypothèsesles hypothèses non non
cohérentes cohérentes avec les données et à en choisir une parmi les restantes
Quelle est la probabilité qu’une hypothèse de risque empirique
nul
soit de fait de risque réel ≥ ε ? (0 ≤ ε ≤ 1)
3.1- Le cas de la discrimination : l’analyse PAC
20Cornuéjols 1- Principes généraux de l’induction
15/10/03
3.2- Le cas de la discrimination : l’analyse PAC
• Le risque réel d’une hypothèse herr est égal à la probabilité qu’un exemple tombe
dans la zone d’erreur entre herr et la fonction cible f
R (herr) = PDX(herr Δ f)
X
f
herrZone
d'erreur
21Cornuéjols 1- Principes généraux de l’induction
15/10/03
3.2- Le cas de la discrimination : l’analyse PACRaisonnement par l’absurde
• Supposons une hypothèseune hypothèse de risque réel > ε• Quelle est la probabilité que son risque empirique soit nul après
observation d’un échantillon de m exemples tirés i.i.d. suivant la
distribution DX ?
Après observation d’un exemple, la probabilité de « survie » de herr est : 1 - ε
Après observation de m exemples i.i.d., elle est : (1 - ε)m
22Cornuéjols 1- Principes généraux de l’induction
15/10/03
Quelle est la probabilité qu’une hypothèseune hypothèse au moins dans dans HH « survive » ?
• Événements disjoints :
Donc borné par : |H| (1 - ε)m < | H | e-εm
• Il suffit donc d’avoir un échantillon de taille
• pour que le risque réel de l’hypothèse hS minimisant le risque
empirique soit borné par ε avec une probabilité 1 -
3.2- Le cas de la discrimination : l’analyse PAC
m ≥
1ε
ln|H |δ
23Cornuéjols 1- Principes généraux de l’induction
15/10/03
3.2- Le cas de la discrimination : l’analyse PAC
Pourquoi PAC ?
Les hypothèses qui « survivent » sont approximativement approximativement
correctescorrectes (à moins de ε de la fonction cible)
Avec une certitudecertitude qui dépend de l’échantillon d’apprentissage tiré aléatoirement (taux 1 - )
Probablement Approximativement CorrectProbablement Approximativement Correct
24Cornuéjols 1- Principes généraux de l’induction
15/10/03
3.3- Les leçons
1. La cardinalité de H (en un certain sens la « richesse » de la « richesse » de HH) intervient
directement dans la borne d’erreur
2. Le raisonnement implique l’ensemble des hypothèsesimplique l’ensemble des hypothèses H :
argument de convergence uniforme
3. L’idée directrice de la démonstration consiste à borner la probabilité
qu’une zone d’erreur de poids > ε ne soit pas atteinte par un exemple
au moins de l’échantillon d’apprentissage
25Cornuéjols 1- Principes généraux de l’induction
15/10/03
3.4- Extension : l’analyse de Vapnik
• Contexte : une généralisation
• N’importe quel type de fonctions hypothèses
• N’importe quel type de fonction de perte (> 0 et bornée)
• F éventuellement ≠ H (apprentissage agnostique)
• H : espace infini
• Ici, on va cependant se limiter au cas de la discriminationcas de la discrimination
Risque empirique :
REmp (h) = 1m
l0−1(h(xi) − ui) = 1m
{(xi,ui ) ∈ S / h(xi) ≠ ui}i=1
m
∑
26Cornuéjols 1- Principes généraux de l’induction
15/10/03
3.4- Extension : l’analyse de Vapnik
• Définition (Fonction de croissance) :
La fonction de croissance GH d’une famille H de fonctions h à valeurs
dans {0,1} associe à tout entier positif m le nombre maximal de
dichotomies réalisées par les fonctions de H sur un ensemble de m
points de X.
x1
x2
x4
x3
h1 h2
27Cornuéjols 1- Principes généraux de l’induction
15/10/03
3.4- Extension : l’analyse de Vapnik
• Théorème (Vapnik, 98) :
Pour toute valeur de dans ]0,1], simultanément pour toutes les
fonctions h de H, avec une probabilité au moins de 1 - , on a :
Terme dépendant de la « richesse » de H
28Cornuéjols 1- Principes généraux de l’induction
15/10/03
3.4- Extension : l’analyse de Vapnik
• Problème angoissant : comment croît la fonction de croissance GH(m) ?
Si elle croît exponentiellement : il ne peut pas y avoir de garantieSi elle croît exponentiellement : il ne peut pas y avoir de garantie sur les hypothèses sélectionnées par l’apprentissage sur la base du risque empirique
(ERM) ! !!!!!
• Définition (Dimension de Vapnik-Chervonenkis, 1971)
La dimension de Vapnik-Chervonenkisdimension de Vapnik-Chervonenkis dVC(H) est le plus grand entier d
vérifiant GH(d) = d, si un tel entier existe, l’infini sinon.
Si la dimension de Vapnik-Chervonenkis est finie, elle correspond à la
taille du plus grand sous-ensemble de X pulvérisépulvérisé par H.
29Cornuéjols 1- Principes généraux de l’induction
15/10/03
3.4- Extension : l’analyse de Vapnik
+
+ -
+
+
--
+
+
-
+
+
+
+
-- +
+
-
++
+
-
(a) (b) (c)
+
+
-
(a) (b) (c) (d)
+
30Cornuéjols 1- Principes généraux de l’induction
15/10/03
3.4- Un lemme sauveur : le lemme de Sauer (1972)
• Si Si HH est de dimension de Vapnik-Chervonenkis finie est de dimension de Vapnik-Chervonenkis finie dH = dVC(H), alors,
pour m supérieur à dH, sa fonction de croissance est bornée :
log2 {GH(m)}
mdH
Croît en 2m :croissance exponentielle
Croît en mdH :croissance en fonction polynomiale
31Cornuéjols 1- Principes généraux de l’induction
15/10/03
3.4- Qu’est-ce que cela signifie ?
• Cas de fonctions de discrimination et H = F
La convergence du risque empirique vers le risque réelconvergence du risque empirique vers le risque réel est
exponentiellement rapideexponentiellement rapide, et ceci pour toutes les fonctions de H
E.g. la taille de l’échantillon suffisante pour que la probabilité ci-dessus soit bornée par est :
linéaire en dH !!
32Cornuéjols 1- Principes généraux de l’induction
15/10/03
3.4- Le « take-home » message
• Pour que le principe ERM soit pertinent, il faut que la dimension de
Vapnik-Chervonenkis dH soit finie
• Alors, l’erreur d’estimation entre RRéel(h) et REmp(h) converge vers 0
comme:
dans le cas général
dans le cas où H = F
33Cornuéjols 1- Principes généraux de l’induction
15/10/03
3.4- Quelques exemples de dimensions de VC
34Cornuéjols 1- Principes généraux de l’induction
15/10/03
3.5- Vers d’autres principes inductifs
• Reconsidérons l’équation (valable pour la discrimination et H = F)
Plutôt que de chercher seulement l’hypothèse minimisant le risque
empirique (valable seulement si m/dH très grand), il faut aussi tenir il faut aussi tenir
compte des caractéristiques de l’espace des hypothèses compte des caractéristiques de l’espace des hypothèses HH, et chercher
une hypothèse satisfaisant au mieux un compromis entre :
un risque empiriquerisque empirique faible : bonne adéquation aux données
et un espace d’hypothèseespace d’hypothèse d’expressivité bien réglée
35Cornuéjols 1- Principes généraux de l’induction
15/10/03
3.5- Les méthodes par « sélection de modèles »
• Méthodes cherchant à régler le compromis par réglage automatique de réglage automatique de
l’espace d’hypothèsesl’espace d’hypothèses (modèles)
Le SRM (Structural Risk Minimization)
La théorie de la régularisation
Le MDLp
Les approches bayésiennes
36Cornuéjols 1- Principes généraux de l’induction
15/10/03
3.5- Le SRM
• La procédure s’appuie sur une structure sur H définie a priori
H1 H 2 H3 H4
Risque
H
Risque réel
Risqueempirique
Intervallede confiance
Optimum
37Cornuéjols 1- Principes généraux de l’induction
15/10/03
3.5- La théorie de la régularisation
• Issue de l’étude des problèmes « mal posés » (plusieurs solutions)
• Il faut imposer des conditions supplémentaires
Contraindre l’espace des paramètres si H = {fonctions paramétrées}
Imposer des conditions de régularité (e.g. dynamique limitée)
…
RPén.(h) = REmp(h) + λ G(h)
38Cornuéjols 1- Principes généraux de l’induction
15/10/03
3.5- Le MDLp (Minimum Description Length principle)
On suppose qu’il existe :
– un coût associé à la transmission des données brutes (mesuré en bits) : L(x)
– un coût associé à la transmission d’un codage (modèle des données) : L(h)
On cherche le modèle (ou hypothèse) permettant la transmission la plus économique de l’échantillon de données
39Cornuéjols 1- Principes généraux de l’induction
15/10/03
3.6- En d’autres mots … Notion de biais
Toute connaissance qui restreint le champ des hypothèses
que l'apprenant doit considérer à un instant donné.
• Biais de représentation On ne peut pas apprendre sans biais
Plus le biais est fort, plus l’apprentissage est facile
Bien choisir le biais
• Biais de préférence Dû au contrôle de la recherche
Critère de choix entre hypothèses
– Simplicité, complétude, intelligibilité, facilité d’évaluation, ...
Dû au protocole
– Stratégie éducative (si apprentissage incrémental)
40Cornuéjols 1- Principes généraux de l’induction
15/10/03
3.6- En d’autres mots … Réponses qualitatives
1. De quelle information doit-on disposer ?De quelle information doit-on disposer ?
Compromis entre taille de l'échantillon d'apprentissage nécessaire ET
"richesse" de l'espace d'hypothèses
1'. Quel principe inductif ?Quel principe inductif ?
Pas le principe "naïf"Pas le principe "naïf" : minimiser l'erreur sur l'échantillon d'apprentissage en
pariant que l'erreur sera également minimisée sur les exemples non vus
Un nouveau principenouveau principe : minimiser à la foisà la fois
l'erreur sur l'échantillon d'apprentissage
ET une mesure de la richesse de H
41Cornuéjols 1- Principes généraux de l’induction
15/10/03
3.7- Le no-free-lunch theorem
Systèmes d'apprentissage
possibles
Systèmes d'apprentissage
impossibles
+-
-
- --
-
-
+
-
0
0
0
0 0
0
0
++
++
+
+0
0
00
0
00
0
0
0
00
+
+ -
--
-
42Cornuéjols 1- Principes généraux de l’induction
15/10/03
3.7- Le no-free-lunch theorem
Performance engénéralisation
Taille de l'échantillond'apprentissage
Performance engénéralisation
Taille de l'échantillond'apprentissage
top related