la théorie de l'apprentissage statistique, eldorado des ... · id ees-forces de...
TRANSCRIPT
![Page 1: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/1.jpg)
La theorie de l’apprentissage statistique,eldorado des mathematiques de la prediction.
Nicolas Vayatis
CMLA - Ecole Normale Superieure de Cachan
Journee TIPE ENSTA - UPS 2012
![Page 2: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/2.jpg)
Programme de l’expose
1 Introduction
I Quelques problemes concrets
I Formalisme de la classification et limites des approches ”classiques”
2 La theorie de l’apprentissage statistique
3 Des mesures de complexite
4 Conclusion
I Quelques sujets d’actualite
I Discussion
![Page 3: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/3.jpg)
1. Introduction-
Quelques problemes concrets
![Page 4: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/4.jpg)
Exemple I - Le scoring pour l’attribution d’un credit
![Page 5: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/5.jpg)
Credit - nature des donnees
Collecte des donnees par questionnaire
Facteurs socio-economiques et historique bancaire
I ageI code postal residenceI CSPI revenusI anciennete dans l’agence bancaireI ...
Matrice des donnees
I Lignes/Enregistrements : noi de l’emprunteurI Colonnes/Variables : valeurs de la caracteristique j
Decision/Prediction : bon payeur vs. mauvais payeur
![Page 6: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/6.jpg)
Exemple II - Le diagnostic medical
![Page 7: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/7.jpg)
Diagnostic medical - nature des donnees
Realisation de tests medicaux et resultats de questionnaires
Analyses et bilan medical
I ageI pression arterielleI glycemieI ...
Matrice des donnees
I Lignes/Enregistrements : noi du patientI Colonnes/Variables : valeurs de la caracteristique j
Decision/Prediction : sain vs. malade
![Page 8: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/8.jpg)
Exemple III - La reconnaissance de caracteres manuscrits
Base de donnees USPS
![Page 9: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/9.jpg)
Caracteres - nature des donnees
Images digitales noir et blanc 16× 16 pixels
Grands vecteurs binaires dans {0, 1}256
Matrice des donnees
I Lignes/Enregistrements : noi de l’imageI Colonnes/Variables : valeurs binaires du pixel j
Decision/Prediction : un chiffre
![Page 10: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/10.jpg)
Exemple IV - La lutte contre le spam
![Page 11: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/11.jpg)
Spam - nature des donnees
Descripteur du message par ”sac-de-mots”
Frequence/Occurrence de mots (∼ 1000)
I businessI willI moneyI !I freeI ...
Matrice des donnees
I Lignes/Enregistrements : noi de l’emailI Colonnes/Variables : frequences du mot j
Decision/Prediction : spam vs. non-spam
![Page 12: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/12.jpg)
Enjeux de la modelisation aleatoire pour la prevision
Prevoir dans des domaines ou l’expert est demuni
Automatisation pour le traitement de gros volumes de donnees
Coherence/Rationnalisation des processus de prise de decision
Prise en compte de toute l’information disponible
Optimisation de la performance des regles de decision
![Page 13: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/13.jpg)
1. Introduction-
Cadre de la classification binaire
![Page 14: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/14.jpg)
Formalisme probabiliste pour la classification binaire
(X ,Y ) couple aleatoire de loi de probabilite P
X vecteur aleatoire dans Rd avec d � 1
Y label binaire a valeurs dans {0,+1}
Loi jointe P decrite par (PX ,PY |X )
Loi marginale
PX (A) = P{X ∈ A} , ∀A ∈ B(Rd)
Fonction de regression
η(x) = P{Y = 1 | X = x} , ∀x ∈ Rd
![Page 15: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/15.jpg)
Classifieurs et mesure de qualite
Regles de decision (classifieurs)
g : Rd → {0,+1}
Erreur de classification
L(g) = P {g(X ) 6= Y } = E(I{g(X ) 6= Y })
=
∫Rd×{0,+1}
I{g(x) 6= y} dP(x , y)
= E(η(X ) · I{g(X ) = 0}+ (1− η(X )) · I{g(X ) = 1}
)
![Page 16: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/16.jpg)
Elements optimaux pour l’erreur de classification
Regle de Bayes et erreur de Bayes
g∗(x) = I{η(x) > 1/2} , ∀x ∈ Rd
L∗ := L(g∗) = E{min(η(X ), 1− η(X ))}
On montre facilement que :
L(g)− L∗ = E(| 2η(X )− 1 | ·I{g(X ) 6= g∗(X )}
)≥ 0
![Page 17: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/17.jpg)
La construction de predicteurs, un probleme statistique
Probleme : loi P inconnue
Echantillon : Dn = {(X1,Y1), . . . , (Xn,Yn)} copies i.i.d. de (X ,Y )
Espace de recherche : famille G de classifieurs
Algorithme/Methode d’apprentissage ⇒ gn(x ,Dn) ∈ G
Objectif : Rendre minimale l’erreur de classification
L(gn) := P{Y 6= gn(X ,Dn) | Dn}
Question statistique : consistance forte au sens du risque de Bayes :
L(gn)− L∗p.s.−−→ 0 , n→∞ ?
![Page 18: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/18.jpg)
Approches parametriques pour la classification binaire
Analyse discriminante lineaire (Fischer, 1936)
I Hypothese de melange gaussienI Estimation par maximum de vraisemblance + algorithme EMI Principe de plug-in
Regression logistique (Berkson, 1944)
log
(ηθ(x)
1− ηθ(x)
)= θT x , ∀x ∈ Rd
puis estimation par maximisation de la vraisemblance + algorithme detype Newton-Raphson
![Page 19: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/19.jpg)
Les limites des approches classiques
Lourdes hypotheses sur la loi sous-jacente
Gestion problematique des facteurs correles
Performance tres sensible aux erreurs de modele
Victimes du mal de Bellman en grande dimension
![Page 20: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/20.jpg)
”Curse of dimensionality” - Bellman (1961)
Fonction f lipschitzienne de d variables
Domaine [0, 1]d
On vise une erreur de ε
Necessite O(ε−d) evaluations
![Page 21: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/21.jpg)
Geometrie de la boule unite
Volume d’une boule de rayon r dans Rd :
V (r , d) =rdπd/2
dΓ(d/2)
Volume d’un hypercube de cote 2r : v(r , d) = (2r)d
Ratio quand d →∞ :
πd/2
d2dΓ(d/2)→ 0
La masse se concentre dans les coins de l’hypercube...
![Page 22: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/22.jpg)
Une remarque - Le cas des estimateurs plug-in
Estimateur ηn = ηn(·,Dn) de η
Classifieur plug-in : gn(x) = I{ηn(x) > 1/2} , ∀x ∈ Rd
On a, pour tout x tel que gn(x) 6= g∗(x) :
|η(x)− ηn(x)| >∣∣∣∣η(x)− 1
2
∣∣∣∣Donc, pour tout echantillon Dn :
L(gn)− L∗ ≤ 2E(|η(X )− ηn(X )| | Dn)
La classification est un probleme facile !
![Page 23: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/23.jpg)
2. L’apprentissage statistique
![Page 24: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/24.jpg)
Grandes dates (1)
Algorithmes
I Neurone formel - McCullough& Pitts (1945)I Perceptron - Rosenblatt (1957)I Reseaux de neurones et retropropagation du gradient - Rumelhart,
Hinton & Williams (1986)I Support Vector Machines - Cortes & Vapnik - 1995I Boosting - Freund & Schapire (1990, 1995)I Bagging (1996) + Random Forests (2000) - Breiman
![Page 25: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/25.jpg)
Grandes dates (2)
Theorie
I Theorie des noyaux auto-reproduisants - Aronszajn (1950)I Interpretation geometrique des noyaux - Aizerman, Braverman and
Rozonoer (1964)I Convergence du Perceptron - Novikoff (1962)I Classifieur lineaire a marge optimale - Vapnik and Lerner (1963),
Vapnik & Chervonenkis (1964)I Inegalites probabilistes et concepts combinatoires - Vapnik &
Chervonenkis (1967, 1970, 1971)I Theorie de l’apprentissage statistique - Vapnik (1982, 1995, 1998)I Theorie de l’apprenabilite - Valiant (1984)I Processus empiriques - Pollard (1984), Dudley (1984)I Approximation universelle par RN - Cybenko (1989)I Inegalites de concentration - Ledoux & Talagrand (1991)I Theorie de la classification - Devroye, Gyorfi & Lugosi (1996)
![Page 26: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/26.jpg)
Idees-forces de l’apprentissage statistique
Accent sur la prediction et non sur l’estimation de la loi sous-jacente
Principe de minimisation de fonctionnelles (risques) empiriques
Approche non-parametrique numeriquement plausible en grandedimension
Resultats de convergence et vitesses non-asymptotiques
Caracterisations combinatoires et geometriques des classes defonctions
![Page 27: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/27.jpg)
Principe fondamental - Minimisation du Risque Empirique(MRE)
Donnees : (X1,Y1), . . . , (Xn,Yn) copies i.i.d. de (X ,Y )
Espace de recherche : famille G de classifieurs
Principe de MRE :
Ln(g) :=1
n
n∑i=1
I{g(Xi ) 6= Yi} , gn = argming∈G
Ln(g)
Question statistique : consistance forte au sens du risque de Bayes
L(gn)− L∗p.s.−−→ 0 , n→∞?
![Page 28: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/28.jpg)
Dilemme ”Biais/Variance”
Decomposition de l’exces de risque
L(gn)− L∗ =(L(gn)− inf
g∈GL(g)︸ ︷︷ ︸
”variance”
)+(
infg∈G
L(g)− L∗︸ ︷︷ ︸”biais”
)
Controle de l’erreur d’estimation
L(gn)− infg∈G
L(g) ≤ 2 supg∈G| Ln(g)− L(g) |
Techniques mathematiques :
I lois uniformes des grands nombresI processus empiriquesI inegalites de concentration
![Page 29: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/29.jpg)
Cle du succes : le controle de la complexite de G
S’il n’y a pas de restriction sur g , alors :
supg∈G| Ln(g)− L(g) | p.s.−−→ 1 , n→∞
S’il y a un seul element, alors on a :
| Ln(g)− L(g) | p.s.−−→ 0 , n→∞
d’apres la Loi Forte des Grands Nombres.
Questions : Conditions sur G garantissant la convergence uniforme ?
![Page 30: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/30.jpg)
Statistique de Kolmogorov-Smirnov
Soit Z1, . . . ,Zn v.a. sur R i.i.d. de fdr F continue
Rappel : F (x) = P{X ≤ x} , x ∈ R
On note Fn la fonction de repartition empirique
Statistique de Kolmogorov-Smirnov
Dn(F ) = supx∈R|Fn(x)− F (x)|
![Page 31: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/31.jpg)
Statistique de Kolmogorov-Smirnov (suite)
Loi limite (Kolmogorov, 1936 - Smirnov, 1936)
limn→∞
PF{√nDn(F ) ≤ t} =
k=+∞∑k=−∞
(−1)ke−2k2t2 , ∀t > 0
Inegalite probabiliste (Massart, 1990)
PF
{√n supx∈R|Fn(x)− F (x)| > t
}≤ 2e−2t
2, ∀t > 0
Loi limite et vitesse de convergence universelles
![Page 32: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/32.jpg)
Controle du processus empirique
Processus stochastique : soit Z1, . . . ,Zn i.i.d. de loi P
(C , ω) 7→ (Pωn (C ))− P(C ) :=1
n
n∑i=1
I{Zi (ω) ∈ C} − P(C )
indexe par C ∈ C
Cas fini : |C| < +∞
P{√
n supC∈C|Pn(C )− P(C )| > t
}≤ 2|C|e−2t2 , ∀t > 0
( borne de la reunion + inegalite de Hoeffding (1963) )
![Page 33: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/33.jpg)
Inegalite de concentration (McDiarmid, 1989)
Soit f fonctions aux differences bornees : ∀i , ∃ci tel que
supz1,...,zn,z ′i
|f (z1, . . . , zn)− f (z1, . . . , zi−1, z′i , zi+1, . . . , zn)| ≤ ci
Alors, pour Z1, . . . ,Zn i.i.d et pour tout t > 0 :
P{| f (Z1, . . . ,Zn)− E(f (Z1, . . . ,Zn)) |> t} ≤ 2 exp(−2t2/∑i
c2i )
On applique l’inegalite avec :
f (Z1, . . . ,Zn) = supC∈C|Pn(C )− P(C )|
et on a : ci = 1/n
![Page 34: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/34.jpg)
Borne combinatoire sur l’esperance
Coefficient d’eclatement
s(C, n) = maxz1,...,zn
| {{z1, . . . , zn} ∩ C : C ∈ C} |
Theoreme (Vapnik-Chervonenkis, 1971)
E(
supC∈C|Pn(C )− P(C )|
)≤ 2
√log(2s(C, n)
)n
Corollaire : avec une probabilite superieure a 1− δ,
L(gn)− infg∈G
L(g) ≤ 4
√log(2s(C, n)
)n
+
√log(2/δ)
2n
![Page 35: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/35.jpg)
Etapes de la preuve du theoreme
1 Double symetrisation :
I Z ′1, . . . ,Z
′n i.i.d. de loi P et independants de Z1, . . . ,Zn
I ε1, . . . , εn i.i.d. Rademacher : P(ε1 = ±1) = 1/2I ε1, . . . , εn independants de Z1, . . . ,Zn,Z
′1, . . . ,Z
′n
E(
supC∈C|Pn(C )− P(C )|
)≤ E
(supC∈C
∣∣∣∣∣1nn∑
i=1
εi(I{Zi ∈ C} − I{Z ′i ∈ C}
)∣∣∣∣∣)
2 Denombrement : le vecteur des bi = I{Zi ∈ C} − I{Z ′i ∈ C} peutprendre au plus s(C, n) valeurs
3 Majoration de l’esperance du maximum de N = s(C, n) variablesbornees (donc sous-gaussiennes)
![Page 36: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/36.jpg)
3. Mesures de complexite
![Page 37: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/37.jpg)
Complexites combinatoires de Vapnik-Chervonenkis (1967,1970, ...)
Vapnik et Chervonenkis a Londres en 1998
![Page 38: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/38.jpg)
Capacite combinatoire : VC dimension
Definition : VC dimension d’une classe C d’ensembles de Rd
V := V (C) = max{n ∈ N : s(C, n) = 2n}
Exemple : demi-plans sur R2, V ≥ 2
![Page 39: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/39.jpg)
Proprietes de la VC dimension
Relation entre VC dimension et coef. d’eclatement
s(C, n) ≤V∑i=0
(ni
)≤ (n + 1)V , ∀n
( Lemme combinatoire de Sauer )
Remarque : Le coefficient d’eclatement subit une transition de phasepour n = V .
Consequence :
E(
supC∈C|Pn(C )− P(C )|
)≤ 2
√V log
(n + 1)
)+ log 2
n
![Page 40: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/40.jpg)
Exemples de VC dimension (1)
Demi-droites sur R : V = 2
Intervalles sur R : V = 2
Demi-espaces dans Rd : V = d + 1
![Page 41: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/41.jpg)
Exemples de VC dimension (2)
Hyperrectangles dans Rd : V = 2d
Polygones convexes dans R2 : V = +∞
C = {{x ∈ [0, 1] : sin(ωx) > 0} : ω ∈ [0, 2π[} sur R : V = +∞
![Page 42: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/42.jpg)
Faiblesses de la VC dimension
Difficile a calculer en general
On a generalement des bornes superieures
Notion ”distribution-free” ⇒ elle surestime la complexite effective
En selection de modele, elle conduit a des choix trop conservatifs(modeles plus simples que necessaire)
Ne capture pas la complexite des classes de fonctions utilisees dansles algorithmes efficaces
![Page 43: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/43.jpg)
Complexites geometriques de Rademacher
Soit F une classe fonctionnelle...
... et les variables aleatoires
I ε1, . . . , εn i.i.d. Rademacher : P(ε1 = ±1) = 1/2I X1, . . . ,Xn independants de ε1, . . . , εn
Complexite de Rademacher :
Rn(F) = E supf ∈F
1
n
∣∣∣∣∣n∑
i=1
εi f (Xi )
∣∣∣∣∣
![Page 44: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/44.jpg)
Exemple 1 - cas du boosting
Agregation lineaire (λ > 0) ou convexe (λ = 1)
F = λ conv(G) ou G famille d’indicatrices de VC dimension V finie
On a :
Rn(F) ≤ λRn(G ) ≤ λ
√V log
(n + 1)
)+ log 2
n
![Page 45: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/45.jpg)
Exemple 2 - cas des familles a noyau
Soit X un ensemble mesurable
K noyau defini sur X × X symetrique et positif
F = { f =∑N
j=1 αjK (xj , ·) : N ≥ 1, x1, . . . , xN ∈ X , ‖f ‖K ≤ λ }
On a :
Rn(F) ≤ λ
nE
√√√√ n∑i=1
K (Xi ,Xi )
d’apres les inegalites de Cauchy-Schwarz et de Kahane-Khinchine
![Page 46: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/46.jpg)
4. Conclusion
![Page 47: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/47.jpg)
Compromis a realiser entre underfitting et overfitting
![Page 48: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/48.jpg)
Calibration de complexite et courbes en U
![Page 49: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/49.jpg)
Variations autour du meme theme
ERM basee sur des risques convexifies
I Communication des risquesI Principe de contractionI Arguments issus de l’analyse convexe
Selection de modeles par regularisation/validation croisee
I Complexites empiriquesI Inegalites de concentration avanceesI Geometrie des espaces de Banach
![Page 50: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/50.jpg)
Une branche des mathematiques desormais reconnue
Publications dans lesjournaux ”must”
Cours Peccot 2011”Selection de modeles etselection d’estimateurspour l’apprentissagestatistique”par Sylvain Arlot
Session ”Etats de laRecherche” organisee parla SMF a l’IHP en mai2011
![Page 51: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/51.jpg)
Quelques messages
Sur le domaine de recherche
I La statistique mathematique a change !
I Les applications des maths et les donnees reelles ( !) comme sourcesd’inspiration...
I ... mais aussi comme ouverture des maths sur le monde reel
Sur la formation
I Recherche de doubles profils pour animer les projets actuels
I Culture des mathematiques reellement appliquees a l’ENS de Cachan
I Formation M2R ”MVA” Maths-Vision-Apprentissage
![Page 52: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente](https://reader033.vdocuments.mx/reader033/viewer/2022041520/5e2d94e5c640aa655622e62e/html5/thumbnails/52.jpg)
Quelques lectures pour aller plus loin...
Apprentissage statistique
I Survey on classification theory, par Boucheron, Bousquet & Lugosi(2005)
Theorie du signal
I Compressed sensing, tutoriel par E. Candes (2006)
Optimisation
I Convex analysis, par Boyd & Vandenberghe (2004)
Methodes spectrales en data mining
I Completion de matrices de rang faible, par Candes et Recht (2009)