principes généraux de l’i nduction

1Cornuéjols 1- Principes généraux de l’induction

15/10/03

Antoine Cornuéjols

Principes généraux de

l’INDUCTION

CNAM-IIE

et L.R.I., Université de Paris-Sud, Orsay (France)

antoine@lri.fr

http://www.lri.fr/~antoine/

15/10/03

Cours 5

1 & 2- Introduction à l’induction

3- Apprentissage et espace des versions

4- Réseaux de neurones multicouches

5- Analyse formelle de l’induction

6- Les SVM

7- Les arbres de décision

8- Le boosting

9 & 10- Apprentissage par renforcement

15/10/03

1- Quel niveau de description ?

1. Analyse de principe, de faisabilité

sans référence à un algorithme particulier !!

Théories mathématiques en particulier de nature statistique

2. Niveau de la réalisation / simulation

Algorithmes

Programmes

Réalisations et tests empiriques

15/10/03

1- Le scénario de base

Environnement X :distribution de prob. F(x)

“Oracle”

Apprenant : h (x)x1, x2, ..., xm

x1, x2, ..., xm

Sm = (x1,u1), (x2,u2), ..., (xm,um)

y1, y2, ..., ym

15/10/03

1- Définition formelle du problème• Hypothèse :

les données empiriques caractérisent une dépendance probabiliste P entre l’espace X

des descriptions et l’espace Y des étiquettes

Z = (X, Y) : variable aléatoire sur (, B, P), où P est inconnue

S = {(x1,u1), (x2,u2), … (xm,um)} (X Y)m

– Échantillon d’apprentissageÉchantillon d’apprentissage

– Les observation sont i.i.d. suivant P

– H : famille (éventuellement infinie) de fonctions h définies sur X

• Objectif : prédire l’étiquette y connaissant l’observation x

15/10/03

1- L’objectif de l’induction

• Objectif : trouver une hypothèse h H minimisant le risque réel le risque réel

(espérance de risque, erreur en généralisation)

R(h) = l h(x),u( ) dP(x,y)X×Y∫

Étiquette prédite

Étiquette vraie(ou désirée)

Fonction de perteFonction de perte

Loi de probabilitéjointe sur X Y

15/10/03

1- Exemples de fonctions de pertes

• Discrimination

• Régression

• Estimation de densité

l (h(xi),ui) = 0 si ui = h(xi )

1 si ui ≠ h(xi )⎧ ⎨ ⎩

l (h(xi),ui) = h(xi) − ui[ ]2

l (h(xi)) = −ln h(xi)

15/10/03

1- Les grands principes inductifs

• Étant donnés:

un échantillon d’apprentissageéchantillon d’apprentissage Sm

et un espace d’hypothèseespace d’hypothèse H

Qu’est-ce qui caractérise la (les) meilleure(s) hypothèse(s) ?

Quelle hypothèse devrais-je chercher ?

15/10/03

2.1- Le principe inductif ERM

• On ne connaît pas le risque réel, en particulier pas la loi de probabilité

P(X,Y).

• Le principe ERMprincipe ERM (minimisation du risque empirique) prescrit de

chercher l’hypothèse h H minimisant le risque empirique le risque empirique

REmp(h) = l h(xi ),ui( )i = 1

R(h) = l h(x),u( ) dP(x,y)X×Y∫

15/10/03

2.2- Le principe ERM est-il pertinent ?

• h* : hypothèse optimale dans H suivant le risque réel

• hSm : hypothèse optimale dans H suivant le risque empirique mesuré sur l’échantillon Sm

Risque

RRéel(h*)

15/10/03

2.2- Analyse du principe de minimisation du risque empirique

• Rappel : a-t-on des garanties sur le risque réel lorsque l’on choisit

l’hypothèse minimisant le risque empirique sur un échantillon Sm ?

Risque

RRéel(h*)

15/10/03

2.3- Les facteurs : le compromis biais-variance

fb = f + bruit

Erreur d'estimation(Variance)

Erreur d'approximation(Biais )

Erreur totale

Erreur intrinsèque

15/10/03

2.3- Les facteurs : le compromis biais-variance

fb = f + bruit

h^Erreur d'estimation(Variance)

Erreur d'approximation(Biais)

Erreur totale

Erreur intrinsèque

Fonction cible

15/10/03

3- Analyse statistique du principe ERM

• Étude de la corrélation entre :

• Cette corrélation fait intervenir :

RRéel(hS) - RRéel (h*) nécessairement ≥ 0 (pourquoi ?)

La probabilité que cette différence soit supérieure à une borne donnée

– car hS dépend de la représentativité de l’échantillon d’apprentissage Sm

∀ 0 ≤ ε,δ ≤ 1 : P(|R(hS) − R(h*) |) ≥ ε) < δ

15/10/03

3- Analyse statistique du principe ERM (suite)

Risque réel

Risque empirique

Erreurd'approximation

15/10/03

Risque réel

Risque empirique

15/10/03

∀ 0 ≤ ε,δ ≤ 1 : ∃m, tq. P(|R(hS) − R(h*)|) ≥ ε) < δ

Risque réel

Risque empirique(fonction de S)

mm/2m/3m/4

15/10/03

3- Pertinence (consistance) du principe ERM

• On dit que le principe ERM est pertinentpertinent (ou consistant) si le risque risque

réelréel inconnu R(hS) et le risque empiriquerisque empirique REmp(hS) convergent vers la

même limite R(h*) lorsque la taille m de l’échantillon S tend vers .

R(hS) m→ ∞ ⏐ → ⏐ ⏐ ⏐ R(h*)

REmp(hS) m→ ∞ ⏐ → ⏐ ⏐ ⏐ R(h*)

Risque

RRéel(h*)

15/10/03

• Contexte :

• Discrimination

• Fonction de perte l : {0,1}

• F = H

• H : espace fini

L’apprentissage consiste alors à élimineréliminer toutes les hypothèsesles hypothèses non non

cohérentes cohérentes avec les données et à en choisir une parmi les restantes

Quelle est la probabilité qu’une hypothèse de risque empirique

soit de fait de risque réel ≥ ε ? (0 ≤ ε ≤ 1)

3.1- Le cas de la discrimination : l’analyse PAC

15/10/03

• Le risque réel d’une hypothèse herr est égal à la probabilité qu’un exemple tombe

dans la zone d’erreur entre herr et la fonction cible f

R (herr) = PDX(herr Δ f)

herrZone

d'erreur

15/10/03

3.2- Le cas de la discrimination : l’analyse PACRaisonnement par l’absurde

• Supposons une hypothèseune hypothèse de risque réel > ε• Quelle est la probabilité que son risque empirique soit nul après

observation d’un échantillon de m exemples tirés i.i.d. suivant la

distribution DX ?

Après observation d’un exemple, la probabilité de « survie » de herr est : 1 - ε

Après observation de m exemples i.i.d., elle est : (1 - ε)m

15/10/03

Quelle est la probabilité qu’une hypothèseune hypothèse au moins dans dans HH « survive » ?

• Événements disjoints :

Donc borné par : |H| (1 - ε)m < | H | e-εm

• Il suffit donc d’avoir un échantillon de taille

• pour que le risque réel de l’hypothèse hS minimisant le risque

empirique soit borné par ε avec une probabilité 1 -

ln|H |δ

15/10/03

Pourquoi PAC ?

Les hypothèses qui « survivent » sont approximativement approximativement

correctescorrectes (à moins de ε de la fonction cible)

Avec une certitudecertitude qui dépend de l’échantillon d’apprentissage tiré aléatoirement (taux 1 - )

Probablement Approximativement CorrectProbablement Approximativement Correct

15/10/03

3.3- Les leçons

1. La cardinalité de H (en un certain sens la « richesse » de la « richesse » de HH) intervient

directement dans la borne d’erreur

2. Le raisonnement implique l’ensemble des hypothèsesimplique l’ensemble des hypothèses H :

argument de convergence uniforme

3. L’idée directrice de la démonstration consiste à borner la probabilité

qu’une zone d’erreur de poids > ε ne soit pas atteinte par un exemple

au moins de l’échantillon d’apprentissage

15/10/03

3.4- Extension : l’analyse de Vapnik

• Contexte : une généralisation

• N’importe quel type de fonctions hypothèses

• N’importe quel type de fonction de perte (> 0 et bornée)

• F éventuellement ≠ H (apprentissage agnostique)

• H : espace infini

• Ici, on va cependant se limiter au cas de la discriminationcas de la discrimination

Risque empirique :

REmp (h) = 1m

l0−1(h(xi) − ui) = 1m

{(xi,ui ) ∈ S / h(xi) ≠ ui}i=1

15/10/03

• Définition (Fonction de croissance) :

La fonction de croissance GH d’une famille H de fonctions h à valeurs

dans {0,1} associe à tout entier positif m le nombre maximal de

dichotomies réalisées par les fonctions de H sur un ensemble de m

points de X.

15/10/03

• Théorème (Vapnik, 98) :

Pour toute valeur de dans ]0,1], simultanément pour toutes les

fonctions h de H, avec une probabilité au moins de 1 - , on a :

Terme dépendant de la « richesse » de H

15/10/03

• Problème angoissant : comment croît la fonction de croissance GH(m) ?

Si elle croît exponentiellement : il ne peut pas y avoir de garantieSi elle croît exponentiellement : il ne peut pas y avoir de garantie sur les hypothèses sélectionnées par l’apprentissage sur la base du risque empirique

(ERM) ! !!!!!

• Définition (Dimension de Vapnik-Chervonenkis, 1971)

La dimension de Vapnik-Chervonenkisdimension de Vapnik-Chervonenkis dVC(H) est le plus grand entier d

vérifiant GH(d) = d, si un tel entier existe, l’infini sinon.

Si la dimension de Vapnik-Chervonenkis est finie, elle correspond à la

taille du plus grand sous-ensemble de X pulvérisépulvérisé par H.

15/10/03

(a) (b) (c)

(a) (b) (c) (d)

15/10/03

3.4- Un lemme sauveur : le lemme de Sauer (1972)

• Si Si HH est de dimension de Vapnik-Chervonenkis finie est de dimension de Vapnik-Chervonenkis finie dH = dVC(H), alors,

pour m supérieur à dH, sa fonction de croissance est bornée :

log2 {GH(m)}

Croît en 2m :croissance exponentielle

Croît en mdH :croissance en fonction polynomiale

15/10/03

3.4- Qu’est-ce que cela signifie ?

• Cas de fonctions de discrimination et H = F

La convergence du risque empirique vers le risque réelconvergence du risque empirique vers le risque réel est

exponentiellement rapideexponentiellement rapide, et ceci pour toutes les fonctions de H

E.g. la taille de l’échantillon suffisante pour que la probabilité ci-dessus soit bornée par est :

linéaire en dH !!

15/10/03

3.4- Le « take-home » message

• Pour que le principe ERM soit pertinent, il faut que la dimension de

Vapnik-Chervonenkis dH soit finie

• Alors, l’erreur d’estimation entre RRéel(h) et REmp(h) converge vers 0

comme:

dans le cas général

dans le cas où H = F

15/10/03

3.4- Quelques exemples de dimensions de VC

15/10/03

3.5- Vers d’autres principes inductifs

• Reconsidérons l’équation (valable pour la discrimination et H = F)

Plutôt que de chercher seulement l’hypothèse minimisant le risque

empirique (valable seulement si m/dH très grand), il faut aussi tenir il faut aussi tenir

compte des caractéristiques de l’espace des hypothèses compte des caractéristiques de l’espace des hypothèses HH, et chercher

une hypothèse satisfaisant au mieux un compromis entre :

un risque empiriquerisque empirique faible : bonne adéquation aux données

et un espace d’hypothèseespace d’hypothèse d’expressivité bien réglée

15/10/03

3.5- Les méthodes par « sélection de modèles »

• Méthodes cherchant à régler le compromis par réglage automatique de réglage automatique de

l’espace d’hypothèsesl’espace d’hypothèses (modèles)

Le SRM (Structural Risk Minimization)

La théorie de la régularisation

Le MDLp

Les approches bayésiennes

15/10/03

3.5- Le SRM

• La procédure s’appuie sur une structure sur H définie a priori

H1 H 2 H3 H4

Risque

Risque réel

Risqueempirique

Intervallede confiance

Optimum

15/10/03

3.5- La théorie de la régularisation

• Issue de l’étude des problèmes « mal posés » (plusieurs solutions)

• Il faut imposer des conditions supplémentaires

Contraindre l’espace des paramètres si H = {fonctions paramétrées}

Imposer des conditions de régularité (e.g. dynamique limitée)

RPén.(h) = REmp(h) + λ G(h)

15/10/03

3.5- Le MDLp (Minimum Description Length principle)

On suppose qu’il existe :

– un coût associé à la transmission des données brutes (mesuré en bits) : L(x)

– un coût associé à la transmission d’un codage (modèle des données) : L(h)

On cherche le modèle (ou hypothèse) permettant la transmission la plus économique de l’échantillon de données

15/10/03

3.6- En d’autres mots … Notion de biais

Toute connaissance qui restreint le champ des hypothèses

que l'apprenant doit considérer à un instant donné.

• Biais de représentation On ne peut pas apprendre sans biais

Plus le biais est fort, plus l’apprentissage est facile

Bien choisir le biais

• Biais de préférence Dû au contrôle de la recherche

Critère de choix entre hypothèses

– Simplicité, complétude, intelligibilité, facilité d’évaluation, ...

Dû au protocole

– Stratégie éducative (si apprentissage incrémental)

15/10/03

3.6- En d’autres mots … Réponses qualitatives

1. De quelle information doit-on disposer ?De quelle information doit-on disposer ?

Compromis entre taille de l'échantillon d'apprentissage nécessaire ET

"richesse" de l'espace d'hypothèses

1'. Quel principe inductif ?Quel principe inductif ?

Pas le principe "naïf"Pas le principe "naïf" : minimiser l'erreur sur l'échantillon d'apprentissage en

pariant que l'erreur sera également minimisée sur les exemples non vus

Un nouveau principenouveau principe : minimiser à la foisà la fois

l'erreur sur l'échantillon d'apprentissage

ET une mesure de la richesse de H

15/10/03

3.7- Le no-free-lunch theorem

Systèmes d'apprentissage

possibles

Systèmes d'apprentissage

impossibles

15/10/03

3.7- Le no-free-lunch theorem

Performance engénéralisation

Taille de l'échantillond'apprentissage

Performance engénéralisation

Taille de l'échantillond'apprentissage

principes généraux de l’i nduction

Documents

services généraux dossier

principes généraux de traçabilité

aspects généraux de l'évaluation

chromatographie -aspects généraux-

soins palliatifs généraux

lettre de l’i

les signes généraux

principes généraux de ventilation

règlements généraux

annales de l’i. h. p., a

règlements généraux & annexes

concepts généraux de communication

outils généraux - klann-online.de · outils généraux -...

l’i talia nell’europa i valori tra persistenze l’i...

i nformal i nduction c eremony p hi t heta k appa f all 2012

terrassements généraux et particuliers

i nduction t echnology c orporation 450 kw ajax induction...

etude de cas : l’i phone, un produit mondialisé et...

projet éducatif généraux

achats de frais généraux