sys828: systèmes biométriques Éric granger b3-1 contenu du cours

SYS828: Systèmes biométriques Éric Granger

CONTENU DU COURS

ARECONNAISSANCE

BIOMÉTRIQUE

BALGORITHMES POUR

L’APPRENTISSAGE AUTOMATIQUE

CCONCEPTION DE

SYSTÈMES ROBUSTES

Ø A.1 Un système généralisé

Ø A.2 État de l’art – reconnaissance avec visages et signatures

Ø B.1 Introduction aux algorithmes d’apprentissage

Ø B.2 Apprentissage non-supervisé pour la catégorisation de vecteurs

Ø B.3 Apprentissage supervisé pour la classification de vecteurs

Ø B.4 Apprentissage supervisé pour la classification de séquences

Ø C.1 Systèmes de classification modulaires et hiérarchiques

Ø C.2 Techniques pour la fusion multimodale

Ø C.3 Systèmes adaptatifs

Ø C.4 Reconnaissance contextuelle

CONTENU DU COURS

B. Algorithmes d’apprentissage:

B.1 Introduction aux algorithmes d’apprentissage

B.2 Apprentissage non-supervisé pour la catégorisation de vecteurs

B.3 Apprentissage supervisé pour la classification de vecteurs

B.4 Apprentissage supervisé pour la classification de séquences

Sommaire Sommaire –– Section B.3 Section B.3

B.B.33 Apprentissage supervisé pour la Apprentissage supervisé pour la catégorisation de vecteurscatégorisation de vecteurs

1.1. réseaux de neurones ARTMAPréseaux de neurones ARTMAP

2.2. réseaux de neurones à fonctions de base réseaux de neurones à fonctions de base radiale (RBF)radiale (RBF)

3.3. réseaux de neurones probabilistes (PNN)réseaux de neurones probabilistes (PNN)

4.4. machines à vecteurs de support (SVM)machines à vecteurs de support (SVM)

B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAPFondements – modèle ART

Taxonomie des réseaux ARTMAP:

B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAPRéseau fuzzy ARTMAP

Modèle ARTMAP: famille de RNA classificateurs capables d’apprentissage rapide, en-ligne, supervisé, non-supervisé et incrémental

B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAP

Réseau fuzzy ARTMAP Structure simplifiée d’un réseau ARTMAP:

Réseau fuzzy ARTMAP

Description algorithmique – mode entraînement:

1. Initialisation des poids: fixer tous les poids Wab = 0

2. Encodage d’un patron d’entrée: remise à la base du ρ

3. Choix de catégorie

4. Critère de vigilance

5. Prédiction d’une classe: le code de réponse désirée t est transmise à Fab

fonction de prédiction: le patron y active la couche Fab via les poids Wab

5. Prédiction d’une classe: (suite) prédiction:

• actif pour le neurone K correspondant à la prédiction (yK

ab = 1 et ykab = 0 pour k ≠ K)

si la prédiction K correspond à la réponse désirée, on procède à l’apprentissage (étape 6), sinon on effectue un ‘match tracking’

max ( ) : 1,2,...,yabkK S k L

‘match tracking’:

augmente ρ du fuzzy ART juste assez pour induire une recherche pour soit: trouver un autre neurone commis de F2 qui prédit la

classe désirée (étape 3) créer un neurone non-commis de F2 pour apprendre

la classe désirée (étape 6)

Description algorithmique – mode entraînement:6. Apprentissage:

mise à jour du prototype de J: le vecteur prototype wJ du neurone J est adapté selon:

création d’un nouveau lien associatif: si J vient d’être commis, on fixe wJK

ab = 1, où k = K est la réponse désiré

Retour à l’étape 2 pour prendre une autre entrée

Description algorithmique – mode test:

Afin de prédire la classe liée à chaque patron d’entrée:

1. 2. Encodage d’un patron d’entrée3. Choix de catégorie4. 5. Prédiction d’une classe (sans tests)6.

Réseau ARTMAP-FD • Entraînement sur patrons de classes connues: patrons étiquette de classe

A a a class #1 b b B class #2 C c C class #3

• Test sur patrons de classes connues et inconnues: patrons prédiction du classificateur

A class #1 C class #3 D classe inconnue!

Réseau ARTMAP-FD

ARTMAP-FD: une extension de fuzzy ARTMAP qui permet de détecter des patrons qui appartiennent à de classes inconnues

pour chaque entrée a en mode test, on calcul la mesure de familiarité:

)(ASi patron déclaré connu (prédit une classe K)

)(ASi patron déclaré inconnu (aucune prédiction)

Réseau ARTMAP-FD

Mesure simple du degré d’appartenance d’un patron à un hyper rectangle (catégorie):

φ(A) = 1 à l’intérieur, et φ(A) < 1 à l’extérieur

B.B.33 Apprentissage supervisé pour la Apprentissage supervisé pour la classification de vecteursclassification de vecteurs

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Qu’est ce qu’un réseau RBF?

fonctions à bases radiales – un domaine de recherche actif an analyse numérique depuis environ 1980

– solution au problème d’interpolation multi variable– approximation de fonctions dans des espaces

multidimensionnels

réseau RBF – un réseau de neurone pour la classification et la régression (Broomhead et Low, 1988)

− un réseau de neurones non-récurrent (‘feed forward’) à apprentissage supervisé

− conception inspirée de méthodes d’interpolation qui exploitent les RBF

B.3(2) Réseaux RBFB.3(2) Réseaux RBFMéthodes d’interpolation:

Apprentissage: trouver une surface multidimensionnelle qui correspond le mieux avec les données d’entraînementGénéralisation: utiliser cette surface pour interpoler les données de test

données apprises

donnée de test

B.3(2) Réseaux RBFB.3(2) Réseaux RBFStructure générale d’un réseau de neurones RBF:

couche cachée: transformation non linéaire x → φ(x)− chaque neurone constitue une fonction cachée φ(x) (i.e., RBF) pour

la transformation non linéaire des patrons d’entrée x− le nombre de neurones est généralement bien plus grand que le

nombre de nœuds d’entréecouche de sortie: transformation linéaire φ(x) → y

− combinaison linéaire des fonctions φ(x) pour produire une sortie

3 ( )x

1( )xm

2 ( )x

( ) :x fonction non linéairei

Sortie y1

( )xim

Théorème sur la séparabilité de patrons (Cover, 1965)

Un problème de classification qui est transposé de façon non linéaire dans un espace de haute dimensionnalité a une plus grande probabilité d’être séparable qu’en basse dimensionnalité

Séparabilité – problème à 2 classes:

transpose x dans l’espace image de haute dimensionnalité avec des fonctions cachées φ(x) non-linéaires à valeur réelle:

le problème est ‘φ – séparable’ s’il existe un vecteur de paramètres w à m1 dimensions tel que:

11 2( ) [ ( ), ( ), ..., ( )]φ x x x x

( ) 0,

w φ x x

B.3(2) Réseaux RBFB.3(2) Réseaux RBFThéorème sur la séparabilité de patrons (Cover, 1965)

Exemple 2D – cas des fonctions cachées φ polynomiales:

classe de transformations obtenue à partir d’une combinaison linéaire des produits des coordonnées de x = (x1, x2)

variété d’ordre r :

1 1 2 2 0

( ) [ , ]

(2 fonctions de base)

w x w x w

2 21 2 1 2

2 21 1 2 2 3 1 4 2 0

( ) [ , , , ]

4 fonctions de base)

x x x x

w x w x w x w x w

2 21 2 1 2 1 2

2 21 1 2 2 3 1 4 2 5 1 2 0

( ) [ , , , , ]

(5 fonctions de base)

x x x x x x

w x w x w x w x w x x w

1 2 1 2

...0 ...

... 0N r

i i i i i ii i i m

y w x x x

B.3(2) Réseaux RBFB.3(2) Réseaux RBFThéorème sur la séparabilité de patrons (Cover, 1965)

Exemple – cas des fonctions cachées Gaussiennes: problème XOR (linéairement non séparable)

1( ) ,

0( ) ,

Input pattern x

First Hidden Function

Second Hidden Function

(1,1) 1 0.1353 (0,1) 0.3678 0.3678 (0,0) 0.1353 1 (1,0) 0.3678 0.3678

1( )x 2 ( )x

))(),(( 21 xx

(0,0) (1,0)

(0,1)(1,1)

(0,1)(1,0)

Decision Boundary

B.3(2) Réseaux RBFB.3(2) Réseaux RBFInterpolation

Problème: étant donnée N patrons différents et les N réponses désirées correspondantes

, trouvez une fonction qui satisfait:

La technique RBF consiste à utiliser une fonction de la forme:

( ) ( )x x xN

11 12 13 1 1 1

21 21 21 2 2 2

11 12 13 1

21 21 21 2

avec x x

Nji j i

N NN N N NN

Φw d alors w Φ d

N NN NN

0 | 1, 2, ,x mi R i N

NiRd i ,,2,1|1 1: Ny R R ( )x i iy d

Théorème de Micchelli (1986):Si est un ensemble de patrons distincts, alors la matrice N-par-N d’interpolation est non singulière (i.e., une solution existe).

Théorème de Light (1971):Si est un ensemble de patrons distincts, une matrice d’interpolation avec éléments de la forme

est positive et définie.

( )ji j ix x

RBF communes qui respectent le théorème de Light:

fonctions multi quadratiques:

fonctions multi quadratiques inverse:

fonctions Gaussiennes:

1/ 22 2( ) pour un 0, r r c r r

1/ 22 2

1( ) pour un 0, r r r

2( ) exp pour un 0,

rr r r

Exemple en 1-D: données d’entraînement {(xi ,yi)} = {(-1, 1), (0, 2), (1, 1)} avec RBF multi quadratique:

1 1 2 2 3 3

2 2 21 2 3

( ) ( 0.5)

( ) ( ) ( ) ( )

( 1) 0.5 0.5 ( 1) 0.5

x x x x x x x

y w w w

5.05.15.4

5.15.05.1

5.45.15.0

5.05.15.4

5.15.05.1

5.45.15.0

Interpolation

Selon les théorèmes de Michelli et Light, on peut résoudre:

mais, en pratique, on veut résoudre quand Φ est arbitrairement proche d’une matrice singulière

solutions: théorie de régularisation (solution exacte) réseau RBF généralisé (estimation)

-1w=Φ d

B.3(2) Réseaux RBFB.3(2) Réseaux RBFRégularisation

Problème avec l’interpolation stricte: généralisation sur de nouvelles données → sur apprentissage

L’apprentissage peut être perçu comme un problème de reconstruction d’hyper surfaces:

problèmes directes vs inverses

Problèmes inverses sont soit bien ou mal posés:un problème est bien posé ssi il respecte 3 conditions: 1. existe: il exister un y(x) pour chaque x 2. unique: y(x1) = y(x2) ssi x1 = x2

3. continue: si dist(x1,x2) < δ(ε) implique dist(y(x1),y(x2)) < ε

B.3(2) Réseaux RBFB.3(2) Réseaux RBFRégularisation

Problèmes inverses mal posés: pas assez d’information dans TRAIN pour décrire un y(x) de façon unique (viole #2) bruit/imprécisions dans TRAIN ajoute trop d’incertitude dans y(x): discontinuités (viole #3)

Solution possible: inclure de l’information a priori sur la transformation entrée-sortie y(x)

mais, le processus générateur de TRAIN doit être lisse et exhiber de la redondance

Régularisation

Idée de base de la régularisation:stabiliser la solution avec une fonctionnelle non négative qui intègre de l’information a priori sur la forme de la solution.

information a priori contient des contraintes de lissage sur y(x) hypothèse sur la famille de fonctions qui décrit le phénomène qu’on cherche à approximer...

Régularisation Théorie de régularisation de Tikhonov:

terme d’erreur standard – distance entre y(xi) et di

terme de régularisation (stabilisateur) – dépend des propriétés géométriques de y(xi)

où P est un opérateur différentielle linéaire qui intègre l’information a priori sur la forme de la solution y(x)

fonction de coût totale à minimiser:

2Pc y y

1 1( ) ( ) ( ) [ ( )]

2 2x P

s c i ii

y y y d y y

1( ) ( ( ))

s i ii

Régularisation

paramètre de régularisation λ :

nombre positif réel qui indique si TRAIN est suffisant pour spécifier y(x) si λ→ 0 , problème non-contrainte: y(x) est déterminée entièrement par TRAINsi λ→ ∞, les contraintes de lissage imposées a priori par P sont suffisant pour spécifier y(x): TRAIN est non fiableen pratique , alors les deux informations contribuent à la solution

B.3(2) Réseaux RBFB.3(2) Réseaux RBFRéseau de régularisation

Une solution au problème de régularisation: [Poggio et Girosi, 1990]

somme pondérée de fonctions de Green, G(x;xi), centrées sur les xi de TRAIN:

l’approche par régularisation est équivalent à l’expansion de y(x) en termes d’un ensemble de fonctions de Green, spécifiée par la forme de P

le nombre de fonctions de Green est égal à |TRAIN|

( ) ( ; )N

ix x x

Détermination de coefficients wi:

est évaluées pour chaque patron de TRAIN, alors:

si on pose: et

en éliminant y, alors:

1 2( ), ( ), , ( )y x x xT

Ny y y

),(),(),(

xxxxxx

1( )w d y

y = Gw

dwIG )( dIGw 1)(

Réseau de régularisation

Les fonctions G(x;xi), centrées à xi, sont spécifiées par la forme de P

si P est invariant aux rotations et aux translations, alors G(x;xi) dépend seulement de la norme Euclidienne du vecteur différence, alors:

sous ces conditions, G(x;xi) doit être une RBF, et la solution de régularisation doit prendre la forme:

( ; ) ( )x x x xi iG G

( ) ( )ix x xN

Exemple: fonctions Gaussiennes multi variablescorrespondent à un opérateur différentiel P qui est invariants aux rotations et aux translations:

la solution au problème de régularisation prend la forme:

qui consiste d’une superposition linéaire de Gaussiennes avec centres xi et avec dispersions σi

1exp),( i

iiG xxxx

1( ) exp

2x x x

i ii i

Réseau de régularisation

Réseau RBF de régularisation:

la sortie est la somme pondérée des sorties de la couche cachée

( ) )x G(x xN

N( )xy

InputLayer

Hiddenlayerof N Green’sfunctions

Outputlayer

1dIGw 1)(

Propriétés d’un réseau RBF de régularisation: [Poggio et Girosi, 1990]

☻ approximateurs universels: ils peuvent approximer n’importe quelle fonction continue arbitrairement bien avec un nombre suffisant de neurones cachées:– étant donnée une fonction non linéaire inconnue f, il existe toujours

un choix de coefficients w qui approxime f mieux que tout autre choix possible;

– ses solutions sont optimales: il minimise la fonction de coût ε(y).

complexité de calculs: la correspondance des neurones cachées avec N patrons donne un réseau très coûteux

calcul des poids w est O(N3) car on doit inverser une matrice N-par-Ndifficile à réaliser en pratique pour de grands N...

B.3(2) Réseaux RBFB.3(2) Réseaux RBFRéseaux RBF généralisés

Un approximation de la solution régularisée: solution sous optimale dans l’espace à dimension M < N, qui est alors moins coûteuseon peut dériver un approximation avec la méthode de Galerkin’s [Poggio and Girosi, 1990]:

où les centre ti et les poids wi sont à déterminer.

( ) ( ) ( )M M

i i i ii i

y w w G

x x x t

( ) ( ) 1,2,..,x x ti iG i M M N

Architecture générale:

M* ( )xy

InputLayer

Hidden layer of of radial functions

Outputlayer

Détermination des poids wi:

Un nouvelle fonction de coût:

la minimisation de cette fonction de coût en fonction du vecteur de poids donne:

( ) ( )N M

i j i ji j

y d w G y

1 1 1 2 1

2 1 2 2 2

(t , t ) (t , t ) ... (t , t )

. : : . : :

(t , t ) (t , t ) ... (t , t )

M M M M

G G GG

0( )G G G w G dT T

B.3(2) Réseaux RBFB.3(2) Réseaux RBF Réseaux RBF généralisés

il a été démontré que lorsque le paramètre λ → 0, le vecteur w converge vers une solution pseudo-inverse pour M ≤ N [Broomhead et Lowe, 1988]:

+w = G d

w G G G dT T

Comparaison entre réseaux RBF régularisés (exact) et généralisés (estimation):

le nombre de neurones de la couche cachée: régularisation: N généralisés: M ≤ N (selon la complexité du

problème) les paramètres inconnus:

régularisation: poids de la couche de sortie généralisés: les poids de la couche de sortie et la position des centres

B.3(2) Réseaux RBFB.3(2) Réseaux RBFStratégies d’apprentissage

Structure générale d’un réseau RBF classificateur: couche cachée: transformation non linéaire x → φ (x)couche de sortie: transformation linéaire φ(x) → y (combinaison linéaire des fonctions cachées)

B.3(2) Réseaux RBFB.3(2) Réseaux RBFStratégies d’apprentissage

L’activation des neurones:

couche cachée: (j = 1, .., M)

(dans le cas de RBF de forme Gaussienne)

couche de sortie: (par classe k)

superposition linéaire de RBF capables d’approximation universelle

Apprentissage: optimiser les centre μi , les dispersions σj et les poids wkj

( ) ( )M

k kj jj

2( ) exp

Stratégies d’apprentissage

Le processus d’apprentissage du réseau RBF généralisé comprend deux phases d’optimisation:

1. les neurones cachées – évoluent lentement selon une stratégie d’optimisation non linéaire

2. les poids de sortie – s’ajustent rapidement selon une stratégie d’optimisation linéaire

Stratégies d’apprentissage

Plusieurs différentes stratégies d’apprentissage selon la façon dont les centres sont déterminés

Principales stratégies en littérature:

1. centres fixes, sélectionnés de façon aléatoire2. centres obtenus par apprentissage non-supervisé3. centres obtenus par apprentissage supervisé

( ) exp( ), 1, 2,...,j j

mG x x i m

B.3(2) Réseaux RBFB.3(2) Réseaux RBF1. centres fixes sélectionnés de façon aléatoire

Approche LMS – résoudre des équations linéaires pour dériver les poids wi de la couche de sortie: − méthode pseudo-inverse:− où G+ est la matrice pseudo-inverse de la matrice

Calcul de G+ par décomposition en valeur singulière− si G est une matrice réelle N-by-M, il existe deux matrices

orthogonales et telle que

− alors, la matrice avec matrice N-by-N

+w = G d{ }ijgG

2exp , 1,2,..., ; 1,2,...,ij i j

mg i N j m

}u,...,u,u{U N21 }v,...,v,v{V M21T

1, 2, ,diag( ..., ), min( , )U GV K K M N TUVG

)0,...,0,1

,...,1

(diagK21

2( ) exp , 1,2i iG i x μ x μ

1μ [1,1]T,

2μ [0,0]T

Fixed input = +1

b(bias)

Inputnode

GaussianFunction

Linearoutputneuron

( ) ( )i ii

x G x t

1. centres fixes sélectionnés de façon aléatoire

Exemple: problème XOR (linéairement non séparable)

Input-Output TransformationComputed for XOR Problem

Data Point,j Input Pattern, Desired Output, jx jd

1 (1,1) 0 2 (0,1) 1 3 (0,0) 0 4 (1,0) 1

13678.03678.0

111353.0

13678.03678.0

11353.01

G [ ]w Tb

[0 1 0 1]d T

T -1 Tw=(G G) G d

2.5018

2.8404

Problème avec la méthode à centres fixés:

justifiée seulement si TRAIN est distribué d’une façon représentative pour le problème

peut nécessiter plusieurs neurones cachées, et un grand TRAIN pour obtenir des performances adéquates

B.3(2) Réseaux RBFB.3(2) Réseaux RBF2. centres obtenus par apprentissage non-supervisé

Apprentissage hybride:

couche cachée: apprentissage non-supervisé de type auto-organisateur pour estimer les centres des RBFs

e.g., catégorisation k-means ou GMM

couche de sortie: apprentissage supervisé pour estimer les poids linéaires

e.g., algorithme LMS, règle delta (à base d’erreurs)

2. centres obtenus par apprentissage non-supervisé

Exemple: apprentissage séquentielle k-means (en-ligne):

1. Initialisation – choisir aléatoirement les centres

2. Échantillonnage – prendre un patron x de TRAIN

3. Calcul de proximité – déterminer J, l’index du centre qui est le plus proche de x

4. Ajuster les centres –

retourner à l’étape 2

arg min ( ) ( ) 1,2,...,jJ n n j m x μ :

( ) [ ( ) ( )],( 1)

n n n j Jn

μ x μ μ

μ , sinon0 1

3. centres sélectionnés par apprentissage supervisé

Tous les paramètres libres sont ajustés par un processus d’apprentissage supervisé à base d’erreur (e.g., l’algo. LMS)

Exploite des la descente de gradient, avec la fonction de coût:

Détermine tous les paramètres qui minimisent E.

( ) x ti

j i j i Ci

e d F x

B.3(2) Réseaux RBFB.3(2) Réseaux RBF3. centres sélectionnés par apprentissage supervisé

poids linéaires:

position des centres:

dispersion des centres:

( )( ) ( ( ) )

j j iji

E ne n G t n

( )2 ( ) ( ) ( ( ) ) [ ( )]

( )x x

i j j i i j iji

E nw n e n G t n t n

( )( ) ( ) ( ( ) ) ( )

i j j i jiji

E nw n e n G t n Q n

Tijijji )]n(tx)][n(tx[)n(Q

)n(E)n()1n(

1ii m,...,2,1i ,)n(w

)n(E)n(w)1n(w

2ii m,...,2,1i ,)n(t

)n(E)n(t)1n(t

3. centres sélectionnés par apprentissage supervisé

Remarques:

− il est possible de se fait prendre dans un minimum local dans l’espace des paramètres, surtout pour et

− on utilise différents paramètres de taux d’apprentissage pour chacune des équations précédentes

− la procédure par descente de gradient dans le réseaux RBF n’implique pas la rétro-propagation d’erreurs.

321 ,,

* arg max ( | ) : 1, 2,...,xkk p c k K

réseaux RBF pour la classification

Problème de classification à k classes:

sachant tous les statistiques sous-jacentes d’un problème de classification, la règle de décision de la probabilité a posteriori maximum (MAP) est optimale:

selon le théorème de Bayes, on calcule la probabilité a posteriori comme:

( | ) ( )( | )

( | ) ( )

k kk K

p c P cp c

p c P c

( | ) ( | ) ( | )x xM

p c p j p j c

Transposition dans le réseau RBF:

si plusieurs RBF (j = 1, 2, ..., M) sont utilisées pour représenter les classes, on peut remplacer dans l`équation de probabilité a posteriori:

les probabilités conditionnelles:

la probabilité non-conditionnelle:

( ( | ) ( ) ( | ) ( )x) x xK M

h hh j

p p c P c p j P j

Transposition dans le réseau RBF:couche cachée: l’activation φj est interprétée comme la probabilité à posteriori de la présence du RBF j sachant x:

poids de la couche de sortie: interprété comme la probabilité à posteriori d’appartenance à une classe étant donnée les RBFs

( | ) ( )( ) ( | )

( | ) ( )j M

p j p jp j

p j p j

( | ) ( )( | )

( )k k

p j c P cw p c j

Remarques:le réseau RBF classificateur est une réalisation parallèle du test d’hypothèse Bayesien

chaque sorties du réseaux RBF est interprétée comme une probabilité a posteriori

la distribution de chaque classe est modélisée comme un mélange de Gaussiennes: permet d’accommoder classes multimodales, ou non-Gaussiennes

des RBFs Gaussiennes permettent de régulariser

s’adapte bien à la détection de nouveauté, détection d’ambiguïté, etc.

Comparaison MLP vs RBF

Neurones de la couche cachée:

MLP: calculent une fonction non-linéaire du produit scalaire entre entrée et poids

activation dépend de la somme pondérée avec entrées, et d’une fonction d’activation monotonique donc, l’activation est constante sur surfaces d’hyperplans

RBF: calculent une fonction non-linéaire de la distance entre entrée et centres

activation dépend de la distance radiale entre entrée et centroïde, et une fonction d’activation locale donc, l’activation est constante sur hyper ellipses

Séparation des classes:MLP: les neurones cachés forment des hyperplans dans l’espace d’entrée

discriminatif – bornes de décision explicitesRBF: les neurones cachées représentent des RFB locales

génératif – bornes des décision implicites

Représentation des connaissances dans l’espace des neurones cachées p/r à l’espace d’entrée:

MLP: distribuée plusieurs neurones cachés vont s’activer pour contribuer à la sortie car optimisation globale de tous les poids donne une approximation globale

RBF: locale très peu de neurones cachés vont s’activer pour contribuer à la sortie une approximation locale

Architecture neuronique:

MLP: peut avoir plusieurs couches cachées et des patrons complexes d’interconnexions

tous les neurones partagent le même modèle neuronique couches cachées et de sorties non-linéaires

RBF: simple, consistant généralement d’une couche cachée

la couche cachée est différente de la couche de sortie couche cachée non-linéaires et couche de sortie linéaires

B.3(2) Réseaux RBFB.3(2) Réseaux RBFComparaison MLP vs RBF

Processus d’apprentissage de paramètres:

MLP: tous les paramètres sont appris en même temps, via un processus supervisé global

problème d’optimisation complexe qui peut converger lentement, et trouver des minimums locaux

RBF: les paramètres sont appris en deux étapes1. centres et dispersions sont apprises par apprentissage

non-supervisé (choix sans effectuer une optimisation complexe...)

2. les poids w sont apprises par apprentissage supervisé rapide (solution à un problème linéaire)

3.3. réseaux de neurones probabilistes réseaux de neurones probabilistes (PNN)(PNN)

B.3(3) Réseaux PNNB.3(3) Réseaux PNN

Classificateur neuronique ‘feedforward’ (Specht, 1988)

Structure: réseau à 3 couches

1. couche d’entrée: unités de distribution des caractéristiques

2. couche cachée: noyaux Gaussiennes sphériques centrés sur chaque patron de TRAIN

3. couche de sommation: sommation des neurones cachés par classe

Réalisation parallèle d’une technique d’estimation de PDFs non-paramétrique (~ fenêtres de Parsen)

Avantages:

apprentissage rapide (entrainement en une passe)

converge asymptotiquement vers la borne de décision optimale quand |TRAIN| augmente

peut donner des résultats comparables au MLP-BP

Inconvénients:

ressources: un neurone caché est requis pour chaque patron de TRAIN

alors, on limite aux problèmes avec petites bases

B.3(4) SVMB.3(4) SVM

‘Support Vector Machines’: (Vapnik, 1992) reconnu comme un des meilleurs classificateurs statistiques̶i classificateur binaire à 2 classes̶i plusieurs applications pratiques: détection de visage,

reconnaissance de caractères, etc.̶i un sujet de recherche intensif depuis jj 2001

Variantes pertinentes:

a. SVM linéaires (LSVM) – approche discriminative

b. SVM non-linéaires (méthode à noyau) – approche hybride discriminative-générative

(a) SVM linéaires – cas séparable

LSVM – un classificateur linéaire à 2 classes (dichotomie):

Problème de conception:soit l’ensemble de données pour l’apprentissage:

notre objectif est de trouver un hyperplan:

qui sépare les données des deux classes

1 1 2 2

{ , , ..., }

( , ),( , ) ...,( , ) 1,1

, ,wx w db b

Approche SVM: déterminer l’hyperplan séparateur qui maximise marge M entre patrons des deux classes

La marge de l’hyperplan, M = d+ + d– , avec

d+ ≡ la distance la plus courte entre cet hyperplan et le patron positif (classe +1) le plus proche

d– ≡ la distance la plus courte entre cet hyperplan et le patron négatif (classe -1) le plus proche

(a) SVM linéaires – cas séparable Exemple: un cas de données linéairement séparables

Maximisation de marges – une justification de l’idée est liée au principe du MDL:

MDL ≡ ‘Minimum Description Length’

la meilleure description de données (en termes de Egen ) est celle qui permet de stocker le plus petit nombre de bits

(a) SVM linéaires – cas séparablesi les patrons TRAIN et TEST sont pigés d’une même distribution inconnue

et, si tous les patrons TEST sont à une distance maximum de Δ par rapport à un patron TRAIN (de la même classe):

.: preuve: une marge de 2Δ est suffisant pour correctement classifier tous les patrons TEST

(a) SVM linéaires – cas séparablesi tous les patrons sont à une distance d’au moins Δ du plan séparateur, et l’ensemble des patrons est borné par une sphère:

.: une petite perturbation dans la définition du plan séparateur est tolérable

.: maximiser la marge permet de choisir un hyperplan qui est encodé avec le minimum de bits

Calcul de la marge M:

− on peut définir les contraintes d’optimisation suivantes:

1, pour 1

qu'on peut combiner comme suit :

1 0, pour 1,2,...,

c y b i n

Calcul de la marge M (suite)

on peut démontrer que d+ = d– = 1 / ||w|| , où ||w|| est la norme Euclidienne de w

la marge de l’hyperplan devient donc:

2 2 = =

||w||w wM d d

Problème d’optimisation sous contraintes:

Apprentissage → recherche dans l’hyperplan (w et b) avec la marge maximum, permettant de classifier tous les patrons dans Dn

le problème consiste alors à minimiser la fonction de coût:

( ) , sujet aux contraintes :2

1 0, pour 1,2,...,i i i

c y b i n

Problème d’optimisation avec contraintes: (suite)

pour résoudre un problème d’optimisation avec coût L(w) et paramètre w, on peut fixer

mais, lorsqu’il y a des contraintes ci ≥ 0, on utilise les multiplicateurs Lagrangiens, et on vérifie notre solution avec les conditions Karush-Kuhn-Tucker (KKT)

minimiser ( ) 32

( )alors : 3 0 3

wL w w

L ww w

Exemple (1D):

( ) / 0L w w

(a) SVM linéaires – cas séparable Problème d’optimisation avec contraintes: (suite)

Lagrangien – fonction de cout formé en soustrayant un terme pour chaque contrainte ci ≥ 0, pondéré par un multiplicateur Lagrangien positif:

on peut alors résoudre le problème dual – maximiser L(w,α) en fonction de α sujet au contraintes:

le problème général consiste donc à trouver la solution:

( , )0 et 0, pour 1,2,...,i

( , ) ( ) i ii

L L c w w

max min ( , )w

(a) SVM linéaires – cas séparable Problème d’optimisation avec contraintes: (suite)

on introduit un multiplicateur Lagrangien αi (i = 1, 2, ..., n), pour chaque contrainte d’inégalité:

L(w,b,α) doit être (1) minimisé p/r aux variables primaires (w et b), tout en (2) maximisant p/r aux variables duales (αi )

aux extremums, nous avons:( , , ) ( , , )0 et 0

L b L b

( , , ) ( ( ) 1)2

i i ii

L b y b

(a) SVM linéaires – cas séparableRésolution: min L(w,b,α) par rapport aux variables primaires afin de produire des contraintes pour la substitution

( , , )0 0

i i i i i ii i

L by y

ww x w x

( , , ) ( ( ) 1)2

i i ii

L b y b

( , , )0 0

Substitution: on combine ces contraintes dans L(w,b,α)

, 1 1 1

1 1 1 1 1 1

( , , ) ( ( ) 1)2

i i ii

i j i j i j i i j j j ii j i j

n n n n n n

i j i j i j i j i j i j i i ii j i j i i

L b y b

y y y y b

y y y y b y

x x x x

La formulation duale – on cherche à maximiser:

on peut résoudre avec des techniques d’optimisation classiques en programmation quadratique (basées sur, e.g., l’ascente de gradient avec contraintes)

sujet aux contraintes linéaires :

0 et 0

x xn n n

i i j i j i ji i j

i i ii

Cette solution fait en sorte que les conditions KKT suivantes sont satisfaites:

après avoir trouvé w via l’entrainement, on peut s’en servir pour estimer b

( ) 1 0

( ( ) 1) 0 et 0

i i ii

i i i i

(a) SVM linéaires – cas non-séparable

Problème − l’optimisation n’a pas de solution si les 2 classes ne sont pas linéairement séparables:

Solution – marge molle (‘soft margin’) pour modéliser le chevauchement ou le bruit:

ξi ≡ distance entre patron erroné xi et la droite définie par les SV de sa classe

contraintes pour l’optimisation:

1 , pour 1

Solution – marge molle pour modéliser le chevauchement ou le bruit:

on repose les contraintes p/r à une marge dur

on cherche alors à minimiser le critère d’optimisation quadratique suivant:

sujet aux contraintes:

( ) 1 , 0,i i i iic y b i wx

B.3(4) SVMB.3(4) SVM(a) SVM linéaires – cas non-séparable

La formulation duale – on cherche à maximiser:

on obtient w et b selon:

sujet aux contraintes :

0 , et 0

x xn n n

i i j i j i ji i j

i i ii

1 ( ) 0

i i ii

i i i i

Fonction de décision:

Vecteurs de support: patrons d’entrainement xi de Dn

(i = 1, 2, …, n) avec αi ≠ 0

ˆ sign signwx x xn

i i ii

y b y b

(b) SVM non-linéaires

Solution: projeter les patrons dans un espace de plus grande dimensionnalité avec une transformation non-linéaire

− cet espace devrait séparer les deux classes plus facilement

− étant donné une fonction , travailler avec une l’espace image du patron φ(xi) au lieu de celle du patron xi

Avec un SVM, on doit calculer les produits φ(xi)φ(xj) pour passer à l’espace image

cependant, ce calcul peut être très coûteux dans un espace de grande dimensionnalité

Fonction noyaux: on utilise plutôt une fonction noyau k(xi, xj), qui représente un produit dans un espace image ( , ) ( ) ( )x x x xi j i jk

Fonction noyaux communs:

Polynomial:

Gaussien ou ‘Radial Basis Function’ (RBF):

*( , ) ( ) , ,x x x x pi j i jk u v u v p

( , ) exp ,2

x xx x

La formulation duale – on cherche à maximiser

sujet aux contraintes:

2( , )x x

i i j i ji i j

i jkL y y

0 et 0i i ii

La formulation duale:

on détermine les variables primaires w et b avec:

( 0)1 ,x xi ji j jj

y ky b

( , )w x xn

i jy k

Mode opérationnel:

fonction de décision:

ˆ sig ( )n ,x xii ii

ky y b

B3-100

Avec cette solution, les conditions KKT suivants sont satisfaits avec :

rem: αi = 0 pour tous patrons de Dn qui ne sont pas des vecteurs de support

( ) 1 0,

0 , tel que ( ) 1

, tel que ( ) 1

C i y b

B3-101

B.3(4) SVMB.3(4) SVM(b) SVM non-linéaires

Synthèse des propriétés:objectif: conçu pour maximiser la marge dans l’espace des partons

méthode Lagrangienne: permet de formuler l’apprentissage comme un problème d’optimisation quadratique (sous contraintes)

populations non linéairement séparables: utilise une marge molle et/ou une fonction noyau

relations non-linéaires: projeter les patrons dans une espace de haute dimensionnalité

fonctions noyaux: permettent de simplifier le calcul

B3-102

Considérations pratiques:

pour optimiser la capacité du modèle: le choix du noyau est le paramètre le plus important

noyau polynomial: si on augmente le degré du polynôme, on augmente la capacité

noyau Gaussien: si on augmente la variance, on diminue la capacité

B3-103

Considérations pratiques:

optimiser C: représente le compromis entre la marge et le taux d’erreurs

données non-bruitées: le choix de C a généralement peu d’impact

données bruitées: le choix de C est critique

les petites valeurs donnent habituellement de meilleurs résultats

B3-104

Problèmes à N classes:

apprentissage: approche un contre tousutilise un ensemble de SVM (un par classe)SVMj apprend classe j vs les reste, j = 1, 2, ..., N

opérations: choisir la classe (SVMj) dont la prédiction tombe le plus loin dans la région positive

B3-105

Apprentissage: (complexité du problème de PQ)

Mémoire – taux de croissance O(n2) est requise pour stocker la matrice de noyaux

Comment gérer des Dn avec n = 100,000 patrons?

Approches proposées:1. ‘Chunking’: à chaque itération, résoudre le problème de PQ

utilisant tous les αi non-nuls de l’itération précédente + le M pires patrons (violations de conditions KKT)

2. Décomposition: résoudre une série de problèmes PQ plus petites, où chacun ajoute un patrons qui viole les conditions KKT

B3-106

Apprentissage: approche ‘Sequential Minimal Optimisation’ (SMO)

Objectif: résoudre le problème d’optimisation le plus petit à chaque itération

Processus itératif:

1. choisir 2 αi pour l’optimisation conjoint, avec au moins un des deux qui viole les conditions KKT

2. trouver la valeur optimal pour ces 2 αi et faire une mise-à-jour du modèle SVM

B3-107

Apprentissage: approche ‘Sequential Minimal Optimisation’ (SMO)

ce processus itératif converge toujours vers un optimum

sys828: systèmes biométriques Éric granger b3-1 contenu du cours

Documents

pierre rémillard1 Éric amyot. pierre rémillard2...

université du québec École de technologie supérieure...

granger medical west jordan granger medical draper granger

Éric trouillot - mathador

nagasaki -Éric faye

l’utilisation des données biométriques à des fins de...

granger & gregory, 1923

présentation Éric blot

connecticut granger

granger quickfinder%202013

Éric corne - urdla

cas clinique: Éric

granger appointment

l’art de l’hdr Éric pichet l’art de l’hdr Éric...

granger stockmarket

système de personnalisation et d'édition de cartes...

asymmetric granger causality between military expenditures...

Éric duyckaerts « 'idéo »

forecasting granger

Éric dufour