donnees lineairement sepa rables...illustration de l'algorithme d'apprentissage jaune : 1...

Introduction a l’apprentissage automatique

Seance 3

Classification supervisee lineaire:regression logistique et perceptron

Frederic Sur

https://members.loria.fr/FSur/enseignement/apprauto/

1 Introduction : donnees lineairement separables

2 Retour sur la regression logistique

3 Le perceptron

4 Cas multiclasse

5 Conclusion

Rappel : classification aux plus proches voisins

1-p.p.v. 5-p.p.v.

Inconvenients : beaucoup trop de � parametres �,algorithmiquement lourd, frontieres de separation trop complexes

Objectif dans la suite du cours : classification robuste au� bruit �, necessitant peu de parametres, algorithmiquementefficace

Donnees lineairement separables

Donnees : (xi , yi )

xi ∈ Rd

yi ∈ {−1, 1}

Fonction discriminante : f (x) = β0 + β1 · x (β0 ∈ R, β1 ∈ Rd)autre notation : f (x) = β0 + βT

1 x (= β0 +∑d

j=1 β1,jxj)

Regle de classification :f (x) > 0⇒ x ∈ C1, et f (x) < 0⇒ x ∈ C−1,

Question du jour : comment trouver un (hyper-)plan separateur ?→ c’est a dire β0 et β1 permettant de classer une nouvelle observation x

selon le signe de β0 + β1 · x4/23

Separation lineaire et dimension

Illustration : https://en.wikipedia.org/wiki/VC_dimension

Propriete 1 : d + 1 points de Rd non alignes sont toujourslineairement separables (quelles que soient les classesd’appartenance).

Propriete 2 : aucun ensemble de d + 2 points n’est separable pourtoute affectation de classes.

→ plus � facile � de separer lineairement en grande dimension.

Moindres carres ?

(β0, β1) minimisantN∑

‖β0 + β1 · xi − yi‖2

→ pas une bonne idee. . .

Probleme : influence des observations “trop correctes”. . .

Illustration : C. Bishop, Pattern Recognition and Machine Learning, Springer 2006

3 Le perceptron

4 Cas multiclasse

5 Conclusion

Classification bayesienne biclasse

Rappel : classification MAP

argmaxkp(Ck |x) = argmaxkp(Ck)p(x |Ck)

Dans le cas biclasse (formule de Bayes) :

p(C1|x) =p(C1)p(x |C1)

p(C1)p(x |C1) + p(C2)p(x |C2)=

1 + p(C2)p(x |C2)p(C1)p(x |C1)

Avec f (x) = log(p(x |C1)p(x |C2)

)+ log

(p(C1)p(C2)

)∈ ]−∞,+∞[ :

p(C1|x) =1

1 + e−f (x)et p(C2|x) = 1− p(C1|x) =

1 + ef (x)

Definition : fonction logistique (ou sigmoıde) : σ(t) = 11+e−t

La regression logistique revisitee

Hypothese simplificatrice : f (x) = β0 + β1 · xRemarque : cas de classes gaussiennes de meme variance

si p(x |Ck) = 1(2π)d/2|Σ|1/2 e

− 12 (x−µk )T Σ−1(x−µk ),

f (x) = − 12 (x −µ1)TΣ−1(x −µ1) + 1

2 (x −µ2)TΣ−1(x −µ2) + log(

p(C1)p(C2)

→ d’ou f (x) = β0 + β1 · x avec :

β0 = 12µ

T2 Σ−1µ2 − 1

2µT1 Σ−1µ1 + log

(p(C1)p(C2)

β1 = Σ−1(µ1 − µ2)

Estimation de (β0, β1) :maximisation de la log-vraisemblance conditionnelle

`(xi ,yi )1≤i≤N(β0, β1) = log

((p(C1|xi ))yi

(1− p(C1|xi )

)1−yi)

(−(1− yi )(β0 + β1xi )− log(1 + exp(β0 + β1xi ))

avec ici : yi = 1↔ xi ∈ C1, yi = 0↔ xi ∈ C2

→ fonction concave9/23

Classifieur de la regression logistiqueClassification MAP :x dans C1 ⇐⇒ p(C1|x) > 1/2 ⇐⇒ f (x) > 0→ il s’agit d’un classifieur lineaire(les deux classes sont separees par un plan)

Remarque : interpretation de la sortie de la regression logistique

p(C1|x) = σ(f (x))

Interpretation de la maximisation de la log-vraisemblance cond. :

`(xi ,yi )1≤i≤N(β0, β1) =

yi log(σ(f (xi ))) + (1− yi ) log(σ(−f (xi )))

si yi = 1 on a interet a avoir f (xi ) = β0 + β1 · xi > 0si yi = 0 on a interet a avoir f (xi ) = β0 + β1 · xi < 0la sigmoıde est peu sensible a l’eloignement de xi au plan [f = 0]

(cf. distance Euclidienne signee : d(x ,P) = (β0 + β1 · x)/||β1||)10/23

Illustration

3 Le perceptron

4 Cas multiclasse

5 Conclusion

Le perceptron (neurone artificiel)Rappel : classifieur lineairew0 + w1x1 + · · ·+ wnxn > 0 : x ∈ C1

w0 + w1x1 + · · ·+ wnxn < 0 : x ∈ C−1

Perceptron : Frank Rosenblatt 1950-1960→ naissance du machine learning et de l’IA

entree

seuilApprentissage :trouver les wi

Nouvelle observation :(x1, . . . , xn) ∈ C−1 ou C1 ?

Algorithme d’apprentissage du perceptronBase d’apprentissage : N observations (xi , yi ) ∈ Rd × {−1, 1}Remarque : quitte a considerer les xi ∈ Rd+1 avec premierecomposante = 1, on peut toujours se ramener a des hyperplansd’equation wT x .

Algorithme d’apprentissage (Rosenblatt 1957)

Initialisation : w = 0Tant qu’il y a des mises a jours :

Pour i = 1 a N :yi = signe(wT xi )Si yi 6= yi alors : w ← w + yixi

Retourner w

Remarque : w determine a une constante multiplicative pres

Raffinement : w ← w + θyixi , θ ∈]0, 1] (amortissement)14/23

Illustration de l’algorithme d’apprentissagejaune : 1 mauve : -1

Donnees15/23

Droite separatrice a l’etape n15/23

yi = 1, yi = 1 : pas de mise a jour15/23

yi = −1, yi = −1 : pas de mise a jour15/23

yi = −1, yi = 1 : mise a jour de w15/23

w ← w + yixi15/23

Droite separatrice a l’etape n + 115/23

Convergence de l’algorithme du perceptronTheoreme (Novikoff 1962) : si les donnees sont lineairementseparables, alors le perceptron converge en un nombre fini d’etapesvers un hyperplan separateur.

Remarque :vers un des hyperplans...

By Qwertyus - Own work, CC BY-SA 4.0

https://commons.wikimedia.org/w/index.php?curid=41351528

→ si donnees pas separables, pas de convergence→ il faut alors arreter apres un certain nombre de parcours desdonnees (epoch)

3 Le perceptron

4 Cas multiclasse

5 Conclusion

Cas de la classification multiclasseclasses : C1, C2, . . ., CK (K > 2)

� Nativement � multiclasse :Naive Bayes, plus proches voisins. . .

Algorithmes dedies :regression logistique multiclasse, perceptron multiclasse. . .

A partir d’un classifieur biclasse :

One-vs-all : entraınement de K classifieurs fk discriminant entre Cket l’ensemble des autres classes.Puis : f (x) = argmaxk fk(x)Probleme : echelle des fk ?

One-vs-one : K (K − 1)/2 classifieurs discriminant entre Ci et CjPuis : voteProbleme : complexite, ambiguıte ?

Algorithme exact dans scikit-learn a verifier :http://scikit-learn.org/stable/modules/multiclass.html

Le perceptron multiclasse

argmax

Battage mediatique autour du perceptron

1957 : Perceptron - Frank Rosenblatt (1928-1971)

The New Yorker, 6 decembre 1958 :� Dr. Rosenblatt defined the perceptron as the first non-biological object

which will achieve an organization of its external environment in a

meaningful way. [...] It can tell the difference betwen a cat and a dog [...].

Right now it is of no practical use, Dr. Rosenblatt conceded, but he said

that one day it might be useful to send one into outer space to take in

impressions for us. �

� Critique � du perceptron

Perceptrons - 1969

Marvin Minsky (1927-2016), MITSeymour Papert (1928-2016), MIT (Logo)

→ AI winter

3 Le perceptron

4 Cas multiclasse

5 Conclusion

Conclusion

Recherche de modeles de classification supervisee robustes, avecpeu de parametres et un algorithme d’apprentissage simple.

Suite du cours :

ambiguıte de l’hyperplan separateur ?quel est le “meilleur” hyperplan ?→ regression logistique→ Machines a Vecteurs Supports (SVM)

donnees non lineairement separables ?→ perceptron multicouche (reseaux de neurones)→ machines a noyau(k(x , y) = φ(x) · φ(y), avec φ plongement des observations dans un

espace de � plus grande dimension � ; generalise la notion de

produit scalaire)

donnees lineairement sepa rables...illustration de l'algorithme d'apprentissage jaune : 1...

Documents

sepa in the austrian federal...

การเชื่อมโยง sepa...

auntyge sepa

annexe 5a l'algorithme du transport - hec...

sepa report

formát xml výpisu podporovaný v kbsk platný od 25.2sepa...

nacionalni forum deležnikov - sepa...projekt sepa pri zbs...

critical connections - equens · sepa standards (sepa...

sepa die zeit läuft – starten sie jetzt!. private...

application de l'algorithme de max-hashing pour le...

conducting sepa revie · sepa regulations & guides sepa,...

un exemple de l'algorithme de little pour le problème du...

เกณฑ์ sepa...

xml format of account statements supported by kbsk ...sepa...

sepa direct debit implementation guide - danske bank ·...

sepa présentation

sepa documents

sujet 1: l'algorithme du simplexe révisé et l'algorithme...

sepa betriebstechnische hinweise, anforderungen und ... ·...

einheitlicher euro-zahlungsverkehrsraum sepa · (single...