la théorie de l'apprentissage statistique, eldorado des ... · id ees-forces de...

La theorie de l’apprentissage statistique,eldorado des mathematiques de la prediction.

Nicolas Vayatis

CMLA - Ecole Normale Superieure de Cachan

Journee TIPE ENSTA - UPS 2012

Programme de l’expose

1 Introduction

I Quelques problemes concrets

I Formalisme de la classification et limites des approches ”classiques”

2 La theorie de l’apprentissage statistique

3 Des mesures de complexite

4 Conclusion

I Quelques sujets d’actualite

I Discussion

1. Introduction-

Quelques problemes concrets

Exemple I - Le scoring pour l’attribution d’un credit

Credit - nature des donnees

Collecte des donnees par questionnaire

Facteurs socio-economiques et historique bancaire

I ageI code postal residenceI CSPI revenusI anciennete dans l’agence bancaireI ...

Matrice des donnees

I Lignes/Enregistrements : noi de l’emprunteurI Colonnes/Variables : valeurs de la caracteristique j

Decision/Prediction : bon payeur vs. mauvais payeur

Exemple II - Le diagnostic medical

Diagnostic medical - nature des donnees

Realisation de tests medicaux et resultats de questionnaires

Analyses et bilan medical

I ageI pression arterielleI glycemieI ...

Matrice des donnees

I Lignes/Enregistrements : noi du patientI Colonnes/Variables : valeurs de la caracteristique j

Decision/Prediction : sain vs. malade

Exemple III - La reconnaissance de caracteres manuscrits

Base de donnees USPS

Caracteres - nature des donnees

Images digitales noir et blanc 16× 16 pixels

Grands vecteurs binaires dans {0, 1}256

Matrice des donnees

I Lignes/Enregistrements : noi de l’imageI Colonnes/Variables : valeurs binaires du pixel j

Decision/Prediction : un chiffre

Exemple IV - La lutte contre le spam

Spam - nature des donnees

Descripteur du message par ”sac-de-mots”

Frequence/Occurrence de mots (∼ 1000)

I businessI willI moneyI !I freeI ...

Matrice des donnees

I Lignes/Enregistrements : noi de l’emailI Colonnes/Variables : frequences du mot j

Decision/Prediction : spam vs. non-spam

Enjeux de la modelisation aleatoire pour la prevision

Prevoir dans des domaines ou l’expert est demuni

Automatisation pour le traitement de gros volumes de donnees

Coherence/Rationnalisation des processus de prise de decision

Prise en compte de toute l’information disponible

Optimisation de la performance des regles de decision

1. Introduction-

Cadre de la classification binaire

Formalisme probabiliste pour la classification binaire

(X ,Y ) couple aleatoire de loi de probabilite P

X vecteur aleatoire dans Rd avec d � 1

Y label binaire a valeurs dans {0,+1}

Loi jointe P decrite par (PX ,PY |X )

Loi marginale

PX (A) = P{X ∈ A} , ∀A ∈ B(Rd)

Fonction de regression

η(x) = P{Y = 1 | X = x} , ∀x ∈ Rd

Classifieurs et mesure de qualite

Regles de decision (classifieurs)

g : Rd → {0,+1}

Erreur de classification

L(g) = P {g(X ) 6= Y } = E(I{g(X ) 6= Y })

=

∫Rd×{0,+1}

I{g(x) 6= y} dP(x , y)

= E(η(X ) · I{g(X ) = 0}+ (1− η(X )) · I{g(X ) = 1}

)

Elements optimaux pour l’erreur de classification

Regle de Bayes et erreur de Bayes

g∗(x) = I{η(x) > 1/2} , ∀x ∈ Rd

L∗ := L(g∗) = E{min(η(X ), 1− η(X ))}

On montre facilement que :

L(g)− L∗ = E(| 2η(X )− 1 | ·I{g(X ) 6= g∗(X )}

)≥ 0

La construction de predicteurs, un probleme statistique

Probleme : loi P inconnue

Echantillon : Dn = {(X1,Y1), . . . , (Xn,Yn)} copies i.i.d. de (X ,Y )

Espace de recherche : famille G de classifieurs

Algorithme/Methode d’apprentissage ⇒ gn(x ,Dn) ∈ G

Objectif : Rendre minimale l’erreur de classification

L(gn) := P{Y 6= gn(X ,Dn) | Dn}

Question statistique : consistance forte au sens du risque de Bayes :

L(gn)− L∗p.s.−−→ 0 , n→∞ ?

Approches parametriques pour la classification binaire

Analyse discriminante lineaire (Fischer, 1936)

I Hypothese de melange gaussienI Estimation par maximum de vraisemblance + algorithme EMI Principe de plug-in

Regression logistique (Berkson, 1944)

log

(ηθ(x)

1− ηθ(x)

)= θT x , ∀x ∈ Rd

puis estimation par maximisation de la vraisemblance + algorithme detype Newton-Raphson

Les limites des approches classiques

Lourdes hypotheses sur la loi sous-jacente

Gestion problematique des facteurs correles

Performance tres sensible aux erreurs de modele

Victimes du mal de Bellman en grande dimension

”Curse of dimensionality” - Bellman (1961)

Fonction f lipschitzienne de d variables

Domaine [0, 1]d

On vise une erreur de ε

Necessite O(ε−d) evaluations

Geometrie de la boule unite

Volume d’une boule de rayon r dans Rd :

V (r , d) =rdπd/2

dΓ(d/2)

Volume d’un hypercube de cote 2r : v(r , d) = (2r)d

Ratio quand d →∞ :

πd/2

d2dΓ(d/2)→ 0

La masse se concentre dans les coins de l’hypercube...

Une remarque - Le cas des estimateurs plug-in

Estimateur ηn = ηn(·,Dn) de η

Classifieur plug-in : gn(x) = I{ηn(x) > 1/2} , ∀x ∈ Rd

On a, pour tout x tel que gn(x) 6= g∗(x) :

|η(x)− ηn(x)| >∣∣∣∣η(x)− 1

2

∣∣∣∣Donc, pour tout echantillon Dn :

L(gn)− L∗ ≤ 2E(|η(X )− ηn(X )| | Dn)

La classification est un probleme facile !

2. L’apprentissage statistique

Grandes dates (1)

Algorithmes

I Neurone formel - McCullough& Pitts (1945)I Perceptron - Rosenblatt (1957)I Reseaux de neurones et retropropagation du gradient - Rumelhart,

Hinton & Williams (1986)I Support Vector Machines - Cortes & Vapnik - 1995I Boosting - Freund & Schapire (1990, 1995)I Bagging (1996) + Random Forests (2000) - Breiman

Grandes dates (2)

Theorie

I Theorie des noyaux auto-reproduisants - Aronszajn (1950)I Interpretation geometrique des noyaux - Aizerman, Braverman and

Rozonoer (1964)I Convergence du Perceptron - Novikoff (1962)I Classifieur lineaire a marge optimale - Vapnik and Lerner (1963),

Vapnik & Chervonenkis (1964)I Inegalites probabilistes et concepts combinatoires - Vapnik &

Chervonenkis (1967, 1970, 1971)I Theorie de l’apprentissage statistique - Vapnik (1982, 1995, 1998)I Theorie de l’apprenabilite - Valiant (1984)I Processus empiriques - Pollard (1984), Dudley (1984)I Approximation universelle par RN - Cybenko (1989)I Inegalites de concentration - Ledoux & Talagrand (1991)I Theorie de la classification - Devroye, Gyorfi & Lugosi (1996)

Idees-forces de l’apprentissage statistique

Accent sur la prediction et non sur l’estimation de la loi sous-jacente

Principe de minimisation de fonctionnelles (risques) empiriques

Approche non-parametrique numeriquement plausible en grandedimension

Resultats de convergence et vitesses non-asymptotiques

Caracterisations combinatoires et geometriques des classes defonctions

Principe fondamental - Minimisation du Risque Empirique(MRE)

Donnees : (X1,Y1), . . . , (Xn,Yn) copies i.i.d. de (X ,Y )

Espace de recherche : famille G de classifieurs

Principe de MRE :

Ln(g) :=1

n

n∑i=1

I{g(Xi ) 6= Yi} , gn = argming∈G

Ln(g)

Question statistique : consistance forte au sens du risque de Bayes

L(gn)− L∗p.s.−−→ 0 , n→∞?

Dilemme ”Biais/Variance”

Decomposition de l’exces de risque

L(gn)− L∗ =(L(gn)− inf

g∈GL(g)︸︷︷︸

”variance”

)+(

infg∈G

L(g)− L∗︸︷︷︸”biais”

)

Controle de l’erreur d’estimation

L(gn)− infg∈G

L(g) ≤ 2 supg∈G| Ln(g)− L(g) |

Techniques mathematiques :

I lois uniformes des grands nombresI processus empiriquesI inegalites de concentration

Cle du succes : le controle de la complexite de G

S’il n’y a pas de restriction sur g , alors :

supg∈G| Ln(g)− L(g) | p.s.−−→ 1 , n→∞

S’il y a un seul element, alors on a :

| Ln(g)− L(g) | p.s.−−→ 0 , n→∞

d’apres la Loi Forte des Grands Nombres.

Questions : Conditions sur G garantissant la convergence uniforme ?

Statistique de Kolmogorov-Smirnov

Soit Z1, . . . ,Zn v.a. sur R i.i.d. de fdr F continue

Rappel : F (x) = P{X ≤ x} , x ∈ R

On note Fn la fonction de repartition empirique

Statistique de Kolmogorov-Smirnov

Dn(F ) = supx∈R|Fn(x)− F (x)|

Statistique de Kolmogorov-Smirnov (suite)

Loi limite (Kolmogorov, 1936 - Smirnov, 1936)

limn→∞

PF{√nDn(F ) ≤ t} =

k=+∞∑k=−∞

(−1)ke−2k2t2 , ∀t > 0

Inegalite probabiliste (Massart, 1990)

PF

{√n supx∈R|Fn(x)− F (x)| > t

}≤ 2e−2t

2, ∀t > 0

Loi limite et vitesse de convergence universelles

Controle du processus empirique

Processus stochastique : soit Z1, . . . ,Zn i.i.d. de loi P

(C , ω) 7→ (Pωn (C ))− P(C ) :=1

n

n∑i=1

I{Zi (ω) ∈ C} − P(C )

indexe par C ∈ C

Cas fini : |C| < +∞

P{√

n supC∈C|Pn(C )− P(C )| > t

}≤ 2|C|e−2t2 , ∀t > 0

( borne de la reunion + inegalite de Hoeffding (1963) )

Inegalite de concentration (McDiarmid, 1989)

Soit f fonctions aux differences bornees : ∀i , ∃ci tel que

supz1,...,zn,z ′i

|f (z1, . . . , zn)− f (z1, . . . , zi−1, z′i , zi+1, . . . , zn)| ≤ ci

Alors, pour Z1, . . . ,Zn i.i.d et pour tout t > 0 :

P{| f (Z1, . . . ,Zn)− E(f (Z1, . . . ,Zn)) |> t} ≤ 2 exp(−2t2/∑i

c2i )

On applique l’inegalite avec :

f (Z1, . . . ,Zn) = supC∈C|Pn(C )− P(C )|

et on a : ci = 1/n

Borne combinatoire sur l’esperance

Coefficient d’eclatement

s(C, n) = maxz1,...,zn

| {{z1, . . . , zn} ∩ C : C ∈ C} |

Theoreme (Vapnik-Chervonenkis, 1971)

E(

supC∈C|Pn(C )− P(C )|

)≤ 2

√log(2s(C, n)

)n

Corollaire : avec une probabilite superieure a 1− δ,

L(gn)− infg∈G

L(g) ≤ 4

√log(2s(C, n)

)n

+

√log(2/δ)

2n

Etapes de la preuve du theoreme

1 Double symetrisation :

I Z ′1, . . . ,Z

′n i.i.d. de loi P et independants de Z1, . . . ,Zn

I ε1, . . . , εn i.i.d. Rademacher : P(ε1 = ±1) = 1/2I ε1, . . . , εn independants de Z1, . . . ,Zn,Z

′1, . . . ,Z

′n

E(


)≤ E

(supC∈C

∣∣∣∣∣1nn∑

i=1

εi(I{Zi ∈ C} − I{Z ′i ∈ C}

)∣∣∣∣∣)

2 Denombrement : le vecteur des bi = I{Zi ∈ C} − I{Z ′i ∈ C} peutprendre au plus s(C, n) valeurs

3 Majoration de l’esperance du maximum de N = s(C, n) variablesbornees (donc sous-gaussiennes)

3. Mesures de complexite

Complexites combinatoires de Vapnik-Chervonenkis (1967,1970, ...)

Vapnik et Chervonenkis a Londres en 1998

Capacite combinatoire : VC dimension

Definition : VC dimension d’une classe C d’ensembles de Rd

V := V (C) = max{n ∈ N : s(C, n) = 2n}

Exemple : demi-plans sur R2, V ≥ 2

Proprietes de la VC dimension

Relation entre VC dimension et coef. d’eclatement

s(C, n) ≤V∑i=0

(ni

)≤ (n + 1)V , ∀n

( Lemme combinatoire de Sauer )

Remarque : Le coefficient d’eclatement subit une transition de phasepour n = V .

Consequence :

E(


)≤ 2

√V log

(n + 1)

)+ log 2

n

Exemples de VC dimension (1)

Demi-droites sur R : V = 2

Intervalles sur R : V = 2

Demi-espaces dans Rd : V = d + 1

Exemples de VC dimension (2)

Hyperrectangles dans Rd : V = 2d

Polygones convexes dans R2 : V = +∞

C = {{x ∈ [0, 1] : sin(ωx) > 0} : ω ∈ [0, 2π[} sur R : V = +∞

Faiblesses de la VC dimension

Difficile a calculer en general

On a generalement des bornes superieures

Notion ”distribution-free” ⇒ elle surestime la complexite effective

En selection de modele, elle conduit a des choix trop conservatifs(modeles plus simples que necessaire)

Ne capture pas la complexite des classes de fonctions utilisees dansles algorithmes efficaces

Complexites geometriques de Rademacher

Soit F une classe fonctionnelle...

... et les variables aleatoires

I ε1, . . . , εn i.i.d. Rademacher : P(ε1 = ±1) = 1/2I X1, . . . ,Xn independants de ε1, . . . , εn

Complexite de Rademacher :

Rn(F) = E supf ∈F

1

n

∣∣∣∣∣n∑

i=1

εi f (Xi )

∣∣∣∣∣

Exemple 1 - cas du boosting

Agregation lineaire (λ > 0) ou convexe (λ = 1)

F = λ conv(G) ou G famille d’indicatrices de VC dimension V finie

On a :

Rn(F) ≤ λRn(G ) ≤ λ

√V log

(n + 1)

)+ log 2

n

Exemple 2 - cas des familles a noyau

Soit X un ensemble mesurable

K noyau defini sur X × X symetrique et positif

F = { f =∑N

j=1 αjK (xj , ·) : N ≥ 1, x1, . . . , xN ∈ X , ‖f ‖K ≤ λ }

On a :

Rn(F) ≤ λ

nE

√√√√ n∑i=1

K (Xi ,Xi )

d’apres les inegalites de Cauchy-Schwarz et de Kahane-Khinchine

4. Conclusion

Compromis a realiser entre underfitting et overfitting

Calibration de complexite et courbes en U

Variations autour du meme theme

ERM basee sur des risques convexifies

I Communication des risquesI Principe de contractionI Arguments issus de l’analyse convexe

Selection de modeles par regularisation/validation croisee

I Complexites empiriquesI Inegalites de concentration avanceesI Geometrie des espaces de Banach

Une branche des mathematiques desormais reconnue

Publications dans lesjournaux ”must”

Cours Peccot 2011”Selection de modeles etselection d’estimateurspour l’apprentissagestatistique”par Sylvain Arlot

Session ”Etats de laRecherche” organisee parla SMF a l’IHP en mai2011

Quelques messages

Sur le domaine de recherche

I La statistique mathematique a change !

I Les applications des maths et les donnees reelles ( !) comme sourcesd’inspiration...

I ... mais aussi comme ouverture des maths sur le monde reel

Sur la formation

I Recherche de doubles profils pour animer les projets actuels

I Culture des mathematiques reellement appliquees a l’ENS de Cachan

I Formation M2R ”MVA” Maths-Vision-Apprentissage

Quelques lectures pour aller plus loin...

Apprentissage statistique

I Survey on classification theory, par Boucheron, Bousquet & Lugosi(2005)

Theorie du signal

I Compressed sensing, tutoriel par E. Candes (2006)

Optimisation

I Convex analysis, par Boyd & Vandenberghe (2004)

Methodes spectrales en data mining

I Completion de matrices de rang faible, par Candes et Recht (2009)

la théorie de l'apprentissage statistique, eldorado des ... · id ees-forces de...

Documents