donnees lineairement sepa rables...illustration de l'algorithme d'apprentissage jaune : 1...
Post on 03-Feb-2020
12 Views
Preview:
TRANSCRIPT
Introduction a l’apprentissage automatique
Seance 3
Classification supervisee lineaire:regression logistique et perceptron
Frederic Sur
https://members.loria.fr/FSur/enseignement/apprauto/
1/23
Plan
1 Introduction : donnees lineairement separables
2 Retour sur la regression logistique
3 Le perceptron
4 Cas multiclasse
5 Conclusion
2/23
Rappel : classification aux plus proches voisins
1-p.p.v. 5-p.p.v.
Inconvenients : beaucoup trop de � parametres �,algorithmiquement lourd, frontieres de separation trop complexes
Objectif dans la suite du cours : classification robuste au� bruit �, necessitant peu de parametres, algorithmiquementefficace
3/23
Donnees lineairement separables
Donnees : (xi , yi )
xi ∈ Rd
yi ∈ {−1, 1}
Fonction discriminante : f (x) = β0 + β1 · x (β0 ∈ R, β1 ∈ Rd)autre notation : f (x) = β0 + βT
1 x (= β0 +∑d
j=1 β1,jxj)
Regle de classification :f (x) > 0⇒ x ∈ C1, et f (x) < 0⇒ x ∈ C−1,
Question du jour : comment trouver un (hyper-)plan separateur ?→ c’est a dire β0 et β1 permettant de classer une nouvelle observation x
selon le signe de β0 + β1 · x4/23
Separation lineaire et dimension
Illustration : https://en.wikipedia.org/wiki/VC_dimension
Propriete 1 : d + 1 points de Rd non alignes sont toujourslineairement separables (quelles que soient les classesd’appartenance).
Propriete 2 : aucun ensemble de d + 2 points n’est separable pourtoute affectation de classes.
→ plus � facile � de separer lineairement en grande dimension.
5/23
Moindres carres ?
(β0, β1) minimisantN∑
i=1
‖β0 + β1 · xi − yi‖2
→ pas une bonne idee. . .
Probleme : influence des observations “trop correctes”. . .
Illustration : C. Bishop, Pattern Recognition and Machine Learning, Springer 2006
6/23
Plan
1 Introduction : donnees lineairement separables
2 Retour sur la regression logistique
3 Le perceptron
4 Cas multiclasse
5 Conclusion
7/23
Classification bayesienne biclasse
Rappel : classification MAP
argmaxkp(Ck |x) = argmaxkp(Ck)p(x |Ck)
Dans le cas biclasse (formule de Bayes) :
p(C1|x) =p(C1)p(x |C1)
p(C1)p(x |C1) + p(C2)p(x |C2)=
1
1 + p(C2)p(x |C2)p(C1)p(x |C1)
Avec f (x) = log(p(x |C1)p(x |C2)
)+ log
(p(C1)p(C2)
)∈ ]−∞,+∞[ :
p(C1|x) =1
1 + e−f (x)et p(C2|x) = 1− p(C1|x) =
1
1 + ef (x)
Definition : fonction logistique (ou sigmoıde) : σ(t) = 11+e−t
8/23
La regression logistique revisitee
Hypothese simplificatrice : f (x) = β0 + β1 · xRemarque : cas de classes gaussiennes de meme variance
si p(x |Ck) = 1(2π)d/2|Σ|1/2 e
− 12 (x−µk )T Σ−1(x−µk ),
f (x) = − 12 (x −µ1)TΣ−1(x −µ1) + 1
2 (x −µ2)TΣ−1(x −µ2) + log(
p(C1)p(C2)
)
→ d’ou f (x) = β0 + β1 · x avec :
β0 = 12µ
T2 Σ−1µ2 − 1
2µT1 Σ−1µ1 + log
(p(C1)p(C2)
)
β1 = Σ−1(µ1 − µ2)
Estimation de (β0, β1) :maximisation de la log-vraisemblance conditionnelle
`(xi ,yi )1≤i≤N(β0, β1) = log
n∏
i=1
((p(C1|xi ))yi
(1− p(C1|xi )
)1−yi)
=n∑
i=1
(−(1− yi )(β0 + β1xi )− log(1 + exp(β0 + β1xi ))
)
avec ici : yi = 1↔ xi ∈ C1, yi = 0↔ xi ∈ C2
→ fonction concave9/23
Classifieur de la regression logistiqueClassification MAP :x dans C1 ⇐⇒ p(C1|x) > 1/2 ⇐⇒ f (x) > 0→ il s’agit d’un classifieur lineaire(les deux classes sont separees par un plan)
Remarque : interpretation de la sortie de la regression logistique
p(C1|x) = σ(f (x))
Interpretation de la maximisation de la log-vraisemblance cond. :
`(xi ,yi )1≤i≤N(β0, β1) =
n∑
i=1
yi log(σ(f (xi ))) + (1− yi ) log(σ(−f (xi )))
si yi = 1 on a interet a avoir f (xi ) = β0 + β1 · xi > 0si yi = 0 on a interet a avoir f (xi ) = β0 + β1 · xi < 0la sigmoıde est peu sensible a l’eloignement de xi au plan [f = 0]
(cf. distance Euclidienne signee : d(x ,P) = (β0 + β1 · x)/||β1||)10/23
Illustration
Illustration : C. Bishop, Pattern Recognition and Machine Learning, Springer 2006
11/23
Plan
1 Introduction : donnees lineairement separables
2 Retour sur la regression logistique
3 Le perceptron
4 Cas multiclasse
5 Conclusion
12/23
Le perceptron (neurone artificiel)Rappel : classifieur lineairew0 + w1x1 + · · ·+ wnxn > 0 : x ∈ C1
w0 + w1x1 + · · ·+ wnxn < 0 : x ∈ C−1
Perceptron : Frank Rosenblatt 1950-1960→ naissance du machine learning et de l’IA
xn
x2
x1
1
∑
wn
w2
w1
w0
entree
poids
seuilApprentissage :trouver les wi
Nouvelle observation :(x1, . . . , xn) ∈ C−1 ou C1 ?
13/23
Algorithme d’apprentissage du perceptronBase d’apprentissage : N observations (xi , yi ) ∈ Rd × {−1, 1}Remarque : quitte a considerer les xi ∈ Rd+1 avec premierecomposante = 1, on peut toujours se ramener a des hyperplansd’equation wT x .
Algorithme d’apprentissage (Rosenblatt 1957)
Initialisation : w = 0Tant qu’il y a des mises a jours :
Pour i = 1 a N :yi = signe(wT xi )Si yi 6= yi alors : w ← w + yixi
Retourner w
Remarque : w determine a une constante multiplicative pres
Raffinement : w ← w + θyixi , θ ∈]0, 1] (amortissement)14/23
Illustration de l’algorithme d’apprentissagejaune : 1 mauve : -1
Donnees15/23
Illustration de l’algorithme d’apprentissagejaune : 1 mauve : -1
Droite separatrice a l’etape n15/23
Illustration de l’algorithme d’apprentissagejaune : 1 mauve : -1
yi = 1, yi = 1 : pas de mise a jour15/23
Illustration de l’algorithme d’apprentissagejaune : 1 mauve : -1
yi = −1, yi = −1 : pas de mise a jour15/23
Illustration de l’algorithme d’apprentissagejaune : 1 mauve : -1
yi = −1, yi = 1 : mise a jour de w15/23
Illustration de l’algorithme d’apprentissagejaune : 1 mauve : -1
w ← w + yixi15/23
Illustration de l’algorithme d’apprentissagejaune : 1 mauve : -1
Droite separatrice a l’etape n + 115/23
Convergence de l’algorithme du perceptronTheoreme (Novikoff 1962) : si les donnees sont lineairementseparables, alors le perceptron converge en un nombre fini d’etapesvers un hyperplan separateur.
Remarque :vers un des hyperplans...
By Qwertyus - Own work, CC BY-SA 4.0
https://commons.wikimedia.org/w/index.php?curid=41351528
→ si donnees pas separables, pas de convergence→ il faut alors arreter apres un certain nombre de parcours desdonnees (epoch)
16/23
Plan
1 Introduction : donnees lineairement separables
2 Retour sur la regression logistique
3 Le perceptron
4 Cas multiclasse
5 Conclusion
17/23
Cas de la classification multiclasseclasses : C1, C2, . . ., CK (K > 2)
� Nativement � multiclasse :Naive Bayes, plus proches voisins. . .
Algorithmes dedies :regression logistique multiclasse, perceptron multiclasse. . .
A partir d’un classifieur biclasse :
One-vs-all : entraınement de K classifieurs fk discriminant entre Cket l’ensemble des autres classes.Puis : f (x) = argmaxk fk(x)Probleme : echelle des fk ?
One-vs-one : K (K − 1)/2 classifieurs discriminant entre Ci et CjPuis : voteProbleme : complexite, ambiguıte ?
Algorithme exact dans scikit-learn a verifier :http://scikit-learn.org/stable/modules/multiclass.html
18/23
Le perceptron multiclasse
x1
x2
x3
x4
x5
argmax
Illustration : C. Bishop, Pattern Recognition and Machine Learning, Springer 2006
19/23
Battage mediatique autour du perceptron
1957 : Perceptron - Frank Rosenblatt (1928-1971)
The New Yorker, 6 decembre 1958 :� Dr. Rosenblatt defined the perceptron as the first non-biological object
which will achieve an organization of its external environment in a
meaningful way. [...] It can tell the difference betwen a cat and a dog [...].
Right now it is of no practical use, Dr. Rosenblatt conceded, but he said
that one day it might be useful to send one into outer space to take in
impressions for us. �
20/23
� Critique � du perceptron
Perceptrons - 1969
Marvin Minsky (1927-2016), MITSeymour Papert (1928-2016), MIT (Logo)
→ AI winter
21/23
Plan
1 Introduction : donnees lineairement separables
2 Retour sur la regression logistique
3 Le perceptron
4 Cas multiclasse
5 Conclusion
22/23
Conclusion
Recherche de modeles de classification supervisee robustes, avecpeu de parametres et un algorithme d’apprentissage simple.
Suite du cours :
ambiguıte de l’hyperplan separateur ?quel est le “meilleur” hyperplan ?→ regression logistique→ Machines a Vecteurs Supports (SVM)
donnees non lineairement separables ?→ perceptron multicouche (reseaux de neurones)→ machines a noyau(k(x , y) = φ(x) · φ(y), avec φ plongement des observations dans un
espace de � plus grande dimension � ; generalise la notion de
produit scalaire)
23/23
top related