sys828: systèmes biométriques Éric granger b3-1 contenu du cours
Post on 04-Apr-2015
113 Views
Preview:
TRANSCRIPT
SYS828: Systèmes biométriques Éric Granger
B3-1
CONTENU DU COURS
ARECONNAISSANCE
BIOMÉTRIQUE
BALGORITHMES POUR
L’APPRENTISSAGE AUTOMATIQUE
CCONCEPTION DE
SYSTÈMES ROBUSTES
Ø A.1 Un système généralisé
Ø A.2 État de l’art – reconnaissance avec visages et signatures
Ø B.1 Introduction aux algorithmes d’apprentissage
Ø B.2 Apprentissage non-supervisé pour la catégorisation de vecteurs
Ø B.3 Apprentissage supervisé pour la classification de vecteurs
Ø B.4 Apprentissage supervisé pour la classification de séquences
Ø C.1 Systèmes de classification modulaires et hiérarchiques
Ø C.2 Techniques pour la fusion multimodale
Ø C.3 Systèmes adaptatifs
Ø C.4 Reconnaissance contextuelle
SYS828: Systèmes biométriques Éric Granger
B3-2
CONTENU DU COURS
B. Algorithmes d’apprentissage:
B.1 Introduction aux algorithmes d’apprentissage
B.2 Apprentissage non-supervisé pour la catégorisation de vecteurs
B.3 Apprentissage supervisé pour la classification de vecteurs
B.4 Apprentissage supervisé pour la classification de séquences
SYS828: Systèmes biométriques Éric Granger
B3-3
Sommaire Sommaire –– Section B.3 Section B.3
B.B.33 Apprentissage supervisé pour la Apprentissage supervisé pour la catégorisation de vecteurscatégorisation de vecteurs
1.1. réseaux de neurones ARTMAPréseaux de neurones ARTMAP
2.2. réseaux de neurones à fonctions de base réseaux de neurones à fonctions de base radiale (RBF)radiale (RBF)
3.3. réseaux de neurones probabilistes (PNN)réseaux de neurones probabilistes (PNN)
4.4. machines à vecteurs de support (SVM)machines à vecteurs de support (SVM)
SYS828: Systèmes biométriques Éric Granger
B3-4
B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAPFondements – modèle ART
Taxonomie des réseaux ARTMAP:
SYS828: Systèmes biométriques Éric Granger
B3-5
B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAPRéseau fuzzy ARTMAP
Modèle ARTMAP: famille de RNA classificateurs capables d’apprentissage rapide, en-ligne, supervisé, non-supervisé et incrémental
SYS828: Systèmes biométriques Éric Granger
B3-6
B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAP
Réseau fuzzy ARTMAP Structure simplifiée d’un réseau ARTMAP:
SYS828: Systèmes biométriques Éric Granger
B3-7
B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAP
Réseau fuzzy ARTMAP
Description algorithmique – mode entraînement:
1. Initialisation des poids: fixer tous les poids Wab = 0
2. Encodage d’un patron d’entrée: remise à la base du ρ
3. Choix de catégorie
4. Critère de vigilance
5. Prédiction d’une classe: le code de réponse désirée t est transmise à Fab
fonction de prédiction: le patron y active la couche Fab via les poids Wab
SYS828: Systèmes biométriques Éric Granger
B3-8
B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAP
Réseau fuzzy ARTMAP
Description algorithmique – mode entraînement:
5. Prédiction d’une classe: (suite) prédiction:
• actif pour le neurone K correspondant à la prédiction (yK
ab = 1 et ykab = 0 pour k ≠ K)
si la prédiction K correspond à la réponse désirée, on procède à l’apprentissage (étape 6), sinon on effectue un ‘match tracking’
max ( ) : 1,2,...,yabkK S k L
SYS828: Systèmes biométriques Éric Granger
B3-9
B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAP
Réseau fuzzy ARTMAP
Description algorithmique – mode entraînement:
‘match tracking’:
augmente ρ du fuzzy ART juste assez pour induire une recherche pour soit: trouver un autre neurone commis de F2 qui prédit la
classe désirée (étape 3) créer un neurone non-commis de F2 pour apprendre
la classe désirée (étape 6)
SYS828: Systèmes biométriques Éric Granger
B3-10
B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAP
Réseau fuzzy ARTMAP
Description algorithmique – mode entraînement:6. Apprentissage:
mise à jour du prototype de J: le vecteur prototype wJ du neurone J est adapté selon:
création d’un nouveau lien associatif: si J vient d’être commis, on fixe wJK
ab = 1, où k = K est la réponse désiré
Retour à l’étape 2 pour prendre une autre entrée
SYS828: Systèmes biométriques Éric Granger
B3-11
B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAP
Réseau fuzzy ARTMAP
Description algorithmique – mode test:
Afin de prédire la classe liée à chaque patron d’entrée:
1. 2. Encodage d’un patron d’entrée3. Choix de catégorie4. 5. Prédiction d’une classe (sans tests)6.
SYS828: Systèmes biométriques Éric Granger
B3-12
B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAP
Réseau ARTMAP-FD • Entraînement sur patrons de classes connues: patrons étiquette de classe
A a a class #1 b b B class #2 C c C class #3
• Test sur patrons de classes connues et inconnues: patrons prédiction du classificateur
A class #1 C class #3 D classe inconnue!
SYS828: Systèmes biométriques Éric Granger
B3-13
B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAP
Réseau ARTMAP-FD
ARTMAP-FD: une extension de fuzzy ARTMAP qui permet de détecter des patrons qui appartiennent à de classes inconnues
pour chaque entrée a en mode test, on calcul la mesure de familiarité:
J
J
J
J
TT
w
wA
AA
A
)(
)()(
max
)(ASi patron déclaré connu (prédit une classe K)
)(ASi patron déclaré inconnu (aucune prédiction)
SYS828: Systèmes biométriques Éric Granger
B3-14
B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAP
Réseau ARTMAP-FD
Mesure simple du degré d’appartenance d’un patron à un hyper rectangle (catégorie):
φ(A) = 1 à l’intérieur, et φ(A) < 1 à l’extérieur
XX
X XX
X
( )a1
0a
SYS828: Systèmes biométriques Éric Granger
B3-15
Sommaire Sommaire –– Section B.3 Section B.3
B.B.33 Apprentissage supervisé pour la Apprentissage supervisé pour la classification de vecteursclassification de vecteurs
1.1. réseaux de neurones ARTMAPréseaux de neurones ARTMAP
2.2. réseaux de neurones à fonctions de base réseaux de neurones à fonctions de base radiale (RBF)radiale (RBF)
3.3. réseaux de neurones probabilistes (PNN)réseaux de neurones probabilistes (PNN)
4.4. machines à vecteurs de support (SVM)machines à vecteurs de support (SVM)
SYS828: Systèmes biométriques Éric Granger
B3-16
B.3(2) Réseaux RBFB.3(2) Réseaux RBF
Qu’est ce qu’un réseau RBF?
fonctions à bases radiales – un domaine de recherche actif an analyse numérique depuis environ 1980
– solution au problème d’interpolation multi variable– approximation de fonctions dans des espaces
multidimensionnels
réseau RBF – un réseau de neurone pour la classification et la régression (Broomhead et Low, 1988)
− un réseau de neurones non-récurrent (‘feed forward’) à apprentissage supervisé
− conception inspirée de méthodes d’interpolation qui exploitent les RBF
SYS828: Systèmes biométriques Éric Granger
B3-17
B.3(2) Réseaux RBFB.3(2) Réseaux RBFMéthodes d’interpolation:
Apprentissage: trouver une surface multidimensionnelle qui correspond le mieux avec les données d’entraînementGénéralisation: utiliser cette surface pour interpoler les données de test
X
X
X
X
X
X
OX
données apprises
donnée de test
SYS828: Systèmes biométriques Éric Granger
B3-18
B.3(2) Réseaux RBFB.3(2) Réseaux RBFStructure générale d’un réseau de neurones RBF:
couche cachée: transformation non linéaire x → φ(x)− chaque neurone constitue une fonction cachée φ(x) (i.e., RBF) pour
la transformation non linéaire des patrons d’entrée x− le nombre de neurones est généralement bien plus grand que le
nombre de nœuds d’entréecouche de sortie: transformation linéaire φ(x) → y
− combinaison linéaire des fonctions φ(x) pour produire une sortie
...
x1
x2
x3
Nx
X
...
1( )x
3 ( )x
1( )xm
2 ( )x
( ) :x fonction non linéairei
3w
1mw
1w
2w
Sortie y1
( )xim
i ii
y w
SYS828: Systèmes biométriques Éric Granger
B3-19
B.3(2) Réseaux RBFB.3(2) Réseaux RBF
Théorème sur la séparabilité de patrons (Cover, 1965)
Un problème de classification qui est transposé de façon non linéaire dans un espace de haute dimensionnalité a une plus grande probabilité d’être séparable qu’en basse dimensionnalité
Séparabilité – problème à 2 classes:
transpose x dans l’espace image de haute dimensionnalité avec des fonctions cachées φ(x) non-linéaires à valeur réelle:
le problème est ‘φ – séparable’ s’il existe un vecteur de paramètres w à m1 dimensions tel que:
11 2( ) [ ( ), ( ), ..., ( )]φ x x x x
m
1
2
( ) 0,
( ) 0,
w φ x x
w φ x x
T
T
C
C
SYS828: Systèmes biométriques Éric Granger
B3-20
B.3(2) Réseaux RBFB.3(2) Réseaux RBFThéorème sur la séparabilité de patrons (Cover, 1965)
Exemple 2D – cas des fonctions cachées φ polynomiales:
classe de transformations obtenue à partir d’une combinaison linéaire des produits des coordonnées de x = (x1, x2)
variété d’ordre r :
X
O
O
O
X
X
XX
XO
X O
O
OX
1 2
1 1 2 2 0
( ) [ , ]
0
x
(2 fonctions de base)
x x
w x w x w
2 21 2 1 2
2 21 1 2 2 3 1 4 2 0
( ) [ , , , ]
0
(
x
4 fonctions de base)
x x x x
w x w x w x w x w
2 21 2 1 2 1 2
2 21 1 2 2 3 1 4 2 5 1 2 0
( ) [ , , , , ]
0
x
(5 fonctions de base)
x x x x x x
w x w x w x w x w x x w
1 2 1 2
1 2 1
...0 ...
... 0N r
r
i i i i i ii i i m
y w x x x
SYS828: Systèmes biométriques Éric Granger
B3-21
B.3(2) Réseaux RBFB.3(2) Réseaux RBFThéorème sur la séparabilité de patrons (Cover, 1965)
Exemple – cas des fonctions cachées Gaussiennes: problème XOR (linéairement non séparable)
21
22
1 1
2 2
1( ) ,
1
0( ) ,
0
x-μ
x-μ
x μ
x μ
e
e
Input pattern x
First Hidden Function
Second Hidden Function
(1,1) 1 0.1353 (0,1) 0.3678 0.3678 (0,0) 0.1353 1 (1,0) 0.3678 0.3678
1( )x 2 ( )x
))(),(( 21 xx
(0,0) (1,0)
(0,1)(1,1)
(0,0)
(1,1)
(0,1)(1,0)
1
2
Decision Boundary
SYS828: Systèmes biométriques Éric Granger
B3-22
B.3(2) Réseaux RBFB.3(2) Réseaux RBFInterpolation
Problème: étant donnée N patrons différents et les N réponses désirées correspondantes
, trouvez une fonction qui satisfait:
La technique RBF consiste à utiliser une fonction de la forme:
1
( ) ( )x x xN
i ii
y w
11 12 13 1 1 1
21 21 21 2 2 2
1 2 3
11 12 13 1
21 21 21 2
1 2
( )
ou
avec x x
N
Nji j i
N NN N N NN
N
N
N N
w d
w d
w d
1 1
2 2
3
; ;
, 1
d w
Φw d alors w Φ d
N NN NN
d w
d w
d w
0 | 1, 2, ,x mi R i N
NiRd i ,,2,1|1 1: Ny R R ( )x i iy d
x1
x2
d
SYS828: Systèmes biométriques Éric Granger
B3-23
B.3(2) Réseaux RBFB.3(2) Réseaux RBFInterpolation
Théorème de Micchelli (1986):Si est un ensemble de patrons distincts, alors la matrice N-par-N d’interpolation est non singulière (i.e., une solution existe).
Théorème de Light (1971):Si est un ensemble de patrons distincts, une matrice d’interpolation avec éléments de la forme
est positive et définie.
1x
N
i i
1x
N
i i
( )ji j ix x
SYS828: Systèmes biométriques Éric Granger
B3-24
B.3(2) Réseaux RBFB.3(2) Réseaux RBFInterpolation
RBF communes qui respectent le théorème de Light:
fonctions multi quadratiques:
fonctions multi quadratiques inverse:
fonctions Gaussiennes:
1/ 22 2( ) pour un 0, r r c r r
1/ 22 2
1( ) pour un 0, r r r
r c
2
2( ) exp pour un 0,
2
rr r r
SYS828: Systèmes biométriques Éric Granger
B3-25
B.3(2) Réseaux RBFB.3(2) Réseaux RBFInterpolation
Exemple en 1-D: données d’entraînement {(xi ,yi)} = {(-1, 1), (0, 2), (1, 1)} avec RBF multi quadratique:
2
1 1 2 2 3 3
2 2 21 2 3
( ) ( 0.5)
( ) ( ) ( ) ( )
( 1) 0.5 0.5 ( 1) 0.5
x x x x x x x
x x x
r r
y w w w
w w w
1
2
1
5.05.15.4
5.15.05.1
5.45.15.0
1
2
1
5.05.15.4
5.15.05.1
5.45.15.0
1
3
2
1
3
2
1
w
w
w
w
w
w
SYS828: Systèmes biométriques Éric Granger
B3-26
B.3(2) Réseaux RBFB.3(2) Réseaux RBF
Interpolation
Selon les théorèmes de Michelli et Light, on peut résoudre:
mais, en pratique, on veut résoudre quand Φ est arbitrairement proche d’une matrice singulière
solutions: théorie de régularisation (solution exacte) réseau RBF généralisé (estimation)
-1w=Φ d
SYS828: Systèmes biométriques Éric Granger
B3-27
B.3(2) Réseaux RBFB.3(2) Réseaux RBFRégularisation
Problème avec l’interpolation stricte: généralisation sur de nouvelles données → sur apprentissage
L’apprentissage peut être perçu comme un problème de reconstruction d’hyper surfaces:
problèmes directes vs inverses
Problèmes inverses sont soit bien ou mal posés:un problème est bien posé ssi il respecte 3 conditions: 1. existe: il exister un y(x) pour chaque x 2. unique: y(x1) = y(x2) ssi x1 = x2
3. continue: si dist(x1,x2) < δ(ε) implique dist(y(x1),y(x2)) < ε
SYS828: Systèmes biométriques Éric Granger
B3-28
B.3(2) Réseaux RBFB.3(2) Réseaux RBFRégularisation
Problèmes inverses mal posés: pas assez d’information dans TRAIN pour décrire un y(x) de façon unique (viole #2) bruit/imprécisions dans TRAIN ajoute trop d’incertitude dans y(x): discontinuités (viole #3)
Solution possible: inclure de l’information a priori sur la transformation entrée-sortie y(x)
mais, le processus générateur de TRAIN doit être lisse et exhiber de la redondance
SYS828: Systèmes biométriques Éric Granger
B3-29
B.3(2) Réseaux RBFB.3(2) Réseaux RBF
Régularisation
Idée de base de la régularisation:stabiliser la solution avec une fonctionnelle non négative qui intègre de l’information a priori sur la forme de la solution.
information a priori contient des contraintes de lissage sur y(x) hypothèse sur la famille de fonctions qui décrit le phénomène qu’on cherche à approximer...
SYS828: Systèmes biométriques Éric Granger
B3-30
B.3(2) Réseaux RBFB.3(2) Réseaux RBF
Régularisation Théorie de régularisation de Tikhonov:
terme d’erreur standard – distance entre y(xi) et di
terme de régularisation (stabilisateur) – dépend des propriétés géométriques de y(xi)
où P est un opérateur différentielle linéaire qui intègre l’information a priori sur la forme de la solution y(x)
fonction de coût totale à minimiser:
21( )
2Pc y y
22
1
1 1( ) ( ) ( ) [ ( )]
2 2x P
N
s c i ii
y y y d y y
2
1
1( ) ( ( ))
2x
N
s i ii
y d y
SYS828: Systèmes biométriques Éric Granger
B3-31
B.3(2) Réseaux RBFB.3(2) Réseaux RBF
Régularisation
paramètre de régularisation λ :
nombre positif réel qui indique si TRAIN est suffisant pour spécifier y(x) si λ→ 0 , problème non-contrainte: y(x) est déterminée entièrement par TRAINsi λ→ ∞, les contraintes de lissage imposées a priori par P sont suffisant pour spécifier y(x): TRAIN est non fiableen pratique , alors les deux informations contribuent à la solution
0
SYS828: Systèmes biométriques Éric Granger
B3-32
B.3(2) Réseaux RBFB.3(2) Réseaux RBFRéseau de régularisation
Une solution au problème de régularisation: [Poggio et Girosi, 1990]
somme pondérée de fonctions de Green, G(x;xi), centrées sur les xi de TRAIN:
l’approche par régularisation est équivalent à l’expansion de y(x) en termes d’un ensemble de fonctions de Green, spécifiée par la forme de P
le nombre de fonctions de Green est égal à |TRAIN|
1
( ) ( ; )N
ii
y w G
ix x x
SYS828: Systèmes biométriques Éric Granger
B3-33
B.3(2) Réseaux RBFB.3(2) Réseaux RBFRéseau de régularisation
Détermination de coefficients wi:
est évaluées pour chaque patron de TRAIN, alors:
si on pose: et
en éliminant y, alors:
1 2( ), ( ), , ( )y x x xT
Ny y y
),(),(),(
),(),(),(
),(),(),(
21
22212
12111
NNNN
N
N
GGG
GGG
GGG
xxxxxx
xxxxxx
xxxxxx
G
1( )w d y
y = Gw
dwIG )( dIGw 1)(
SYS828: Systèmes biométriques Éric Granger
B3-34
B.3(2) Réseaux RBFB.3(2) Réseaux RBF
Réseau de régularisation
Les fonctions G(x;xi), centrées à xi, sont spécifiées par la forme de P
si P est invariant aux rotations et aux translations, alors G(x;xi) dépend seulement de la norme Euclidienne du vecteur différence, alors:
sous ces conditions, G(x;xi) doit être une RBF, et la solution de régularisation doit prendre la forme:
( ; ) ( )x x x xi iG G
1
( ) ( )ix x xN
ii
y w G
SYS828: Systèmes biométriques Éric Granger
B3-35
B.3(2) Réseaux RBFB.3(2) Réseaux RBFRéseau de régularisation
Exemple: fonctions Gaussiennes multi variablescorrespondent à un opérateur différentiel P qui est invariants aux rotations et aux translations:
la solution au problème de régularisation prend la forme:
qui consiste d’une superposition linéaire de Gaussiennes avec centres xi et avec dispersions σi
2
22
1exp),( i
iiG xxxx
2
21
1( ) exp
2x x x
N
i ii i
y w
SYS828: Systèmes biométriques Éric Granger
B3-36
B.3(2) Réseaux RBFB.3(2) Réseaux RBF
Réseau de régularisation
Réseau RBF de régularisation:
la sortie est la somme pondérée des sorties de la couche cachée
1
( ) )x G(x xN
i ii
y w ,
G
2x
1mx
mx
1x
G
G
j
N( )xy
InputLayer
Hiddenlayerof N Green’sfunctions
Outputlayer
1dIGw 1)(
SYS828: Systèmes biométriques Éric Granger
B3-37
B.3(2) Réseaux RBFB.3(2) Réseaux RBFRéseau de régularisation
Propriétés d’un réseau RBF de régularisation: [Poggio et Girosi, 1990]
☻ approximateurs universels: ils peuvent approximer n’importe quelle fonction continue arbitrairement bien avec un nombre suffisant de neurones cachées:– étant donnée une fonction non linéaire inconnue f, il existe toujours
un choix de coefficients w qui approxime f mieux que tout autre choix possible;
– ses solutions sont optimales: il minimise la fonction de coût ε(y).
complexité de calculs: la correspondance des neurones cachées avec N patrons donne un réseau très coûteux
calcul des poids w est O(N3) car on doit inverser une matrice N-par-Ndifficile à réaliser en pratique pour de grands N...
SYS828: Systèmes biométriques Éric Granger
B3-38
B.3(2) Réseaux RBFB.3(2) Réseaux RBFRéseaux RBF généralisés
Un approximation de la solution régularisée: solution sous optimale dans l’espace à dimension M < N, qui est alors moins coûteuseon peut dériver un approximation avec la méthode de Galerkin’s [Poggio and Girosi, 1990]:
car:
où les centre ti et les poids wi sont à déterminer.
*
1 1
( ) ( ) ( )M M
i i i ii i
y w w G
x x x t
( ) ( ) 1,2,..,x x ti iG i M M N
SYS828: Systèmes biométriques Éric Granger
B3-39
B.3(2) Réseaux RBFB.3(2) Réseaux RBFRéseaux RBF généralisés
Architecture générale:
2x
1mx
mx
1x
j
M* ( )xy
InputLayer
Hidden layer of of radial functions
Outputlayer
1
b0
1
SYS828: Systèmes biométriques Éric Granger
B3-40
B.3(2) Réseaux RBFB.3(2) Réseaux RBFRéseaux RBF généralisés
Détermination des poids wi:
Un nouvelle fonction de coût:
la minimisation de cette fonction de coût en fonction du vecteur de poids donne:
22
* *
1 1
( ) ( )N M
i j i ji j
y d w G y
x t D
0
1 1 1 2 1
2 1 2 2 2
1 1
(t , t ) (t , t ) ... (t , t )
(t , t ) (t , t ) ... (t , t )
. : : . : :
(t , t ) (t , t ) ... (t , t )
M
M
M M M M
G G G
G G GG
G G G
0( )G G G w G dT T
SYS828: Systèmes biométriques Éric Granger
B3-41
B.3(2) Réseaux RBFB.3(2) Réseaux RBF Réseaux RBF généralisés
il a été démontré que lorsque le paramètre λ → 0, le vecteur w converge vers une solution pseudo-inverse pour M ≤ N [Broomhead et Lowe, 1988]:
1( )
+w = G d
w G G G dT T
SYS828: Systèmes biométriques Éric Granger
B3-42
B.3(2) Réseaux RBFB.3(2) Réseaux RBFRéseaux RBF généralisés
Comparaison entre réseaux RBF régularisés (exact) et généralisés (estimation):
le nombre de neurones de la couche cachée: régularisation: N généralisés: M ≤ N (selon la complexité du
problème) les paramètres inconnus:
régularisation: poids de la couche de sortie généralisés: les poids de la couche de sortie et la position des centres
SYS828: Systèmes biométriques Éric Granger
B3-43
B.3(2) Réseaux RBFB.3(2) Réseaux RBFStratégies d’apprentissage
Structure générale d’un réseau RBF classificateur: couche cachée: transformation non linéaire x → φ (x)couche de sortie: transformation linéaire φ(x) → y (combinaison linéaire des fonctions cachées)
SYS828: Systèmes biométriques Éric Granger
B3-44
B.3(2) Réseaux RBFB.3(2) Réseaux RBFStratégies d’apprentissage
L’activation des neurones:
couche cachée: (j = 1, .., M)
(dans le cas de RBF de forme Gaussienne)
couche de sortie: (par classe k)
superposition linéaire de RBF capables d’approximation universelle
Apprentissage: optimiser les centre μi , les dispersions σj et les poids wkj
1
( ) ( )M
k kj jj
y w
x x
2( ) exp
2j
jj
xx
SYS828: Systèmes biométriques Éric Granger
B3-45
B.3(2) Réseaux RBFB.3(2) Réseaux RBF
Stratégies d’apprentissage
Le processus d’apprentissage du réseau RBF généralisé comprend deux phases d’optimisation:
1. les neurones cachées – évoluent lentement selon une stratégie d’optimisation non linéaire
2. les poids de sortie – s’ajustent rapidement selon une stratégie d’optimisation linéaire
SYS828: Systèmes biométriques Éric Granger
B3-46
B.3(2) Réseaux RBFB.3(2) Réseaux RBF
Stratégies d’apprentissage
Plusieurs différentes stratégies d’apprentissage selon la façon dont les centres sont déterminés
Principales stratégies en littérature:
1. centres fixes, sélectionnés de façon aléatoire2. centres obtenus par apprentissage non-supervisé3. centres obtenus par apprentissage supervisé
SYS828: Systèmes biométriques Éric Granger
B3-47
B.3(2) Réseaux RBFB.3(2) Réseaux RBF
2 2
2max
( ) exp( ), 1, 2,...,j j
mG x x i m
d
max
2
d
m
SYS828: Systèmes biométriques Éric Granger
B3-48
B.3(2) Réseaux RBFB.3(2) Réseaux RBF1. centres fixes sélectionnés de façon aléatoire
Approche LMS – résoudre des équations linéaires pour dériver les poids wi de la couche de sortie: − méthode pseudo-inverse:− où G+ est la matrice pseudo-inverse de la matrice
Calcul de G+ par décomposition en valeur singulière− si G est une matrice réelle N-by-M, il existe deux matrices
orthogonales et telle que
− alors, la matrice avec matrice N-by-N
+w = G d{ }ijgG
2
2exp , 1,2,..., ; 1,2,...,ij i j
mg i N j m
d
x μ
}u,...,u,u{U N21 }v,...,v,v{V M21T
1, 2, ,diag( ..., ), min( , )U GV K K M N TUVG
)0,...,0,1
,...,1
,1
(diagK21
SYS828: Systèmes biométriques Éric Granger
B3-49
B.3(2) Réseaux RBFB.3(2) Réseaux RBF
2( ) exp , 1,2i iG i x μ x μ
1μ [1,1]T,
2μ [0,0]T
1x
1x
1
2
Fixed input = +1
b(bias)
Inputnode
GaussianFunction
Linearoutputneuron
2
1
( ) ( )i ii
y w b
x G x t
1. centres fixes sélectionnés de façon aléatoire
Exemple: problème XOR (linéairement non séparable)
SYS828: Systèmes biométriques Éric Granger
B3-50
B.3(2) Réseaux RBFB.3(2) Réseaux RBF
Input-Output TransformationComputed for XOR Problem
Data Point,j Input Pattern, Desired Output, jx jd
1 (1,1) 0 2 (0,1) 1 3 (0,0) 0 4 (1,0) 1
13678.03678.0
111353.0
13678.03678.0
11353.01
G [ ]w Tb
[0 1 0 1]d T
T -1 Tw=(G G) G d
2.5018
2.5018
2.8404
w
1. centres fixes sélectionnés de façon aléatoire
SYS828: Systèmes biométriques Éric Granger
B3-51
B.3(2) Réseaux RBFB.3(2) Réseaux RBF
1. centres fixes sélectionnés de façon aléatoire
Problème avec la méthode à centres fixés:
justifiée seulement si TRAIN est distribué d’une façon représentative pour le problème
peut nécessiter plusieurs neurones cachées, et un grand TRAIN pour obtenir des performances adéquates
SYS828: Systèmes biométriques Éric Granger
B3-52
B.3(2) Réseaux RBFB.3(2) Réseaux RBF2. centres obtenus par apprentissage non-supervisé
Apprentissage hybride:
couche cachée: apprentissage non-supervisé de type auto-organisateur pour estimer les centres des RBFs
e.g., catégorisation k-means ou GMM
couche de sortie: apprentissage supervisé pour estimer les poids linéaires
e.g., algorithme LMS, règle delta (à base d’erreurs)
SYS828: Systèmes biométriques Éric Granger
B3-53
B.3(2) Réseaux RBFB.3(2) Réseaux RBF
2. centres obtenus par apprentissage non-supervisé
Exemple: apprentissage séquentielle k-means (en-ligne):
1. Initialisation – choisir aléatoirement les centres
2. Échantillonnage – prendre un patron x de TRAIN
3. Calcul de proximité – déterminer J, l’index du centre qui est le plus proche de x
4. Ajuster les centres –
retourner à l’étape 2
arg min ( ) ( ) 1,2,...,jJ n n j m x μ :
( ) [ ( ) ( )],( 1)
( )
j j
jj
n n n j Jn
n
μ x μ μ
μ , sinon0 1
SYS828: Systèmes biométriques Éric Granger
B3-54
B.3(2) Réseaux RBFB.3(2) Réseaux RBF
3. centres sélectionnés par apprentissage supervisé
Tous les paramètres libres sont ajustés par un processus d’apprentissage supervisé à base d’erreur (e.g., l’algo. LMS)
Exploite des la descente de gradient, avec la fonction de coût:
Détermine tous les paramètres qui minimisent E.
2
1
1
2
N
jj
E e
*
1
( )
( ) x ti
j j j
M
j i j i Ci
e d F x
d w G
SYS828: Systèmes biométriques Éric Granger
B3-55
B.3(2) Réseaux RBFB.3(2) Réseaux RBF3. centres sélectionnés par apprentissage supervisé
poids linéaires:
position des centres:
dispersion des centres:
1
( )( ) ( ( ) )
( )x
N
j j iji
E ne n G t n
w n
1
1
( )2 ( ) ( ) ( ( ) ) [ ( )]
( )x x
N
i j j i i j iji
E nw n e n G t n t n
t n
11
( )( ) ( ) ( ( ) ) ( )
( )x
N
i j j i jiji
E nw n e n G t n Q n
n
Tijijji )]n(tx)][n(tx[)n(Q
)n(
)n(E)n()1n(
1i
31
i1
i
1i
1ii m,...,2,1i ,)n(w
)n(E)n(w)1n(w
1i
2ii m,...,2,1i ,)n(t
)n(E)n(t)1n(t
SYS828: Systèmes biométriques Éric Granger
B3-56
B.3(2) Réseaux RBFB.3(2) Réseaux RBF
3. centres sélectionnés par apprentissage supervisé
Remarques:
− il est possible de se fait prendre dans un minimum local dans l’espace des paramètres, surtout pour et
− on utilise différents paramètres de taux d’apprentissage pour chacune des équations précédentes
− la procédure par descente de gradient dans le réseaux RBF n’implique pas la rétro-propagation d’erreurs.
it 1i
321 ,,
SYS828: Systèmes biométriques Éric Granger
B3-57
B.3(2) Réseaux RBFB.3(2) Réseaux RBF
* arg max ( | ) : 1, 2,...,xkk p c k K
réseaux RBF pour la classification
Problème de classification à k classes:
sachant tous les statistiques sous-jacentes d’un problème de classification, la règle de décision de la probabilité a posteriori maximum (MAP) est optimale:
selon le théorème de Bayes, on calcule la probabilité a posteriori comme:
1
( | ) ( )( | )
( | ) ( )
xx
x
k kk K
h hh
p c P cp c
p c P c
SYS828: Systèmes biométriques Éric Granger
B3-58
B.3(2) Réseaux RBFB.3(2) Réseaux RBF
1
( | ) ( | ) ( | )x xM
k kj
p c p j p j c
réseaux RBF pour la classification
Transposition dans le réseau RBF:
si plusieurs RBF (j = 1, 2, ..., M) sont utilisées pour représenter les classes, on peut remplacer dans l`équation de probabilité a posteriori:
les probabilités conditionnelles:
la probabilité non-conditionnelle:
1 1
( ( | ) ( ) ( | ) ( )x) x xK M
h hh j
p p c P c p j P j
réseaux RBF pour la classification
Transposition dans le réseau RBF:couche cachée: l’activation φj est interprétée comme la probabilité à posteriori de la présence du RBF j sachant x:
poids de la couche de sortie: interprété comme la probabilité à posteriori d’appartenance à une classe étant donnée les RBFs
SYS828: Systèmes biométriques Éric Granger
B3-59
B.3(2) Réseaux RBFB.3(2) Réseaux RBF
1
( | ) ( )( ) ( | )
( | ) ( )j M
m
p j p jp j
p j p j
x
x xx
( | ) ( )( | )
( )k k
kj k
p j c P cw p c j
p j
SYS828: Systèmes biométriques Éric Granger
B3-60
B.3(2) Réseaux RBFB.3(2) Réseaux RBF
réseaux RBF pour la classification
Remarques:le réseau RBF classificateur est une réalisation parallèle du test d’hypothèse Bayesien
chaque sorties du réseaux RBF est interprétée comme une probabilité a posteriori
la distribution de chaque classe est modélisée comme un mélange de Gaussiennes: permet d’accommoder classes multimodales, ou non-Gaussiennes
des RBFs Gaussiennes permettent de régulariser
s’adapte bien à la détection de nouveauté, détection d’ambiguïté, etc.
SYS828: Systèmes biométriques Éric Granger
B3-61
B.3(2) Réseaux RBFB.3(2) Réseaux RBF
Comparaison MLP vs RBF
Neurones de la couche cachée:
MLP: calculent une fonction non-linéaire du produit scalaire entre entrée et poids
activation dépend de la somme pondérée avec entrées, et d’une fonction d’activation monotonique donc, l’activation est constante sur surfaces d’hyperplans
RBF: calculent une fonction non-linéaire de la distance entre entrée et centres
activation dépend de la distance radiale entre entrée et centroïde, et une fonction d’activation locale donc, l’activation est constante sur hyper ellipses
SYS828: Systèmes biométriques Éric Granger
B3-62
B.3(2) Réseaux RBFB.3(2) Réseaux RBF
Comparaison MLP vs RBF
Séparation des classes:MLP: les neurones cachés forment des hyperplans dans l’espace d’entrée
discriminatif – bornes de décision explicitesRBF: les neurones cachées représentent des RFB locales
génératif – bornes des décision implicites
SYS828: Systèmes biométriques Éric Granger
B3-63
B.3(2) Réseaux RBFB.3(2) Réseaux RBF
Comparaison MLP vs RBF
Représentation des connaissances dans l’espace des neurones cachées p/r à l’espace d’entrée:
MLP: distribuée plusieurs neurones cachés vont s’activer pour contribuer à la sortie car optimisation globale de tous les poids donne une approximation globale
RBF: locale très peu de neurones cachés vont s’activer pour contribuer à la sortie une approximation locale
SYS828: Systèmes biométriques Éric Granger
B3-64
B.3(2) Réseaux RBFB.3(2) Réseaux RBF
Comparaison MLP vs RBF
Architecture neuronique:
MLP: peut avoir plusieurs couches cachées et des patrons complexes d’interconnexions
tous les neurones partagent le même modèle neuronique couches cachées et de sorties non-linéaires
RBF: simple, consistant généralement d’une couche cachée
la couche cachée est différente de la couche de sortie couche cachée non-linéaires et couche de sortie linéaires
SYS828: Systèmes biométriques Éric Granger
B3-65
B.3(2) Réseaux RBFB.3(2) Réseaux RBFComparaison MLP vs RBF
Processus d’apprentissage de paramètres:
MLP: tous les paramètres sont appris en même temps, via un processus supervisé global
problème d’optimisation complexe qui peut converger lentement, et trouver des minimums locaux
RBF: les paramètres sont appris en deux étapes1. centres et dispersions sont apprises par apprentissage
non-supervisé (choix sans effectuer une optimisation complexe...)
2. les poids w sont apprises par apprentissage supervisé rapide (solution à un problème linéaire)
SYS828: Systèmes biométriques Éric Granger
B3-66
Sommaire Sommaire –– Section B.3 Section B.3
B.B.33 Apprentissage supervisé pour la Apprentissage supervisé pour la classification de vecteursclassification de vecteurs
1.1. réseaux de neurones ARTMAPréseaux de neurones ARTMAP
2.2. réseaux de neurones à fonctions de base réseaux de neurones à fonctions de base radiale (RBF)radiale (RBF)
3.3. réseaux de neurones probabilistes réseaux de neurones probabilistes (PNN)(PNN)
4.4. machines à vecteurs de support (SVM)machines à vecteurs de support (SVM)
SYS828: Systèmes biométriques Éric Granger
B3-67
B.3(3) Réseaux PNNB.3(3) Réseaux PNN
Classificateur neuronique ‘feedforward’ (Specht, 1988)
Structure: réseau à 3 couches
1. couche d’entrée: unités de distribution des caractéristiques
2. couche cachée: noyaux Gaussiennes sphériques centrés sur chaque patron de TRAIN
3. couche de sommation: sommation des neurones cachés par classe
Réalisation parallèle d’une technique d’estimation de PDFs non-paramétrique (~ fenêtres de Parsen)
SYS828: Systèmes biométriques Éric Granger
B3-68
B.3(3) Réseaux PNNB.3(3) Réseaux PNN
SYS828: Systèmes biométriques Éric Granger
B3-69
B.3(3) Réseaux PNNB.3(3) Réseaux PNN
Avantages:
apprentissage rapide (entrainement en une passe)
converge asymptotiquement vers la borne de décision optimale quand |TRAIN| augmente
peut donner des résultats comparables au MLP-BP
Inconvénients:
ressources: un neurone caché est requis pour chaque patron de TRAIN
alors, on limite aux problèmes avec petites bases
SYS828: Systèmes biométriques Éric Granger
B3-70
Sommaire Sommaire –– Section B.3 Section B.3
B.B.33 Apprentissage supervisé pour la Apprentissage supervisé pour la classification de vecteursclassification de vecteurs
1.1. réseaux de neurones ARTMAPréseaux de neurones ARTMAP
2.2. réseaux de neurones à fonctions de base réseaux de neurones à fonctions de base radiale (RBF)radiale (RBF)
3.3. réseaux de neurones probabilistes (PNN)réseaux de neurones probabilistes (PNN)
4.4. machines à vecteurs de support (SVM)machines à vecteurs de support (SVM)
SYS828: Systèmes biométriques Éric Granger
B3-71
B.3(4) SVMB.3(4) SVM
‘Support Vector Machines’: (Vapnik, 1992) reconnu comme un des meilleurs classificateurs statistiques̶i classificateur binaire à 2 classes̶i plusieurs applications pratiques: détection de visage,
reconnaissance de caractères, etc.̶i un sujet de recherche intensif depuis jj 2001
Variantes pertinentes:
a. SVM linéaires (LSVM) – approche discriminative
b. SVM non-linéaires (méthode à noyau) – approche hybride discriminative-générative
SYS828: Systèmes biométriques Éric Granger
B3-72
B.3(4) SVMB.3(4) SVM
(a) SVM linéaires – cas séparable
LSVM – un classificateur linéaire à 2 classes (dichotomie):
y
(a) SVM linéaires – cas séparable
Problème de conception:soit l’ensemble de données pour l’apprentissage:
notre objectif est de trouver un hyperplan:
qui sépare les données des deux classes
SYS828: Systèmes biométriques Éric Granger
B3-73
B.3(4) SVMB.3(4) SVM
1 2
1 1 2 2
{ , , ..., }
( , ),( , ) ...,( , ) 1,1
D
x x x
n n
dn n
z z z
y y y
, ,wx w db b
SYS828: Systèmes biométriques Éric Granger
B3-74
B.3(4) SVMB.3(4) SVM
(a) SVM linéaires – cas séparable
Approche SVM: déterminer l’hyperplan séparateur qui maximise marge M entre patrons des deux classes
La marge de l’hyperplan, M = d+ + d– , avec
d+ ≡ la distance la plus courte entre cet hyperplan et le patron positif (classe +1) le plus proche
d– ≡ la distance la plus courte entre cet hyperplan et le patron négatif (classe -1) le plus proche
SYS828: Systèmes biométriques Éric Granger
B3-75
B.3(4) SVMB.3(4) SVM
(a) SVM linéaires – cas séparable Exemple: un cas de données linéairement séparables
SYS828: Systèmes biométriques Éric Granger
B3-76
B.3(4) SVMB.3(4) SVM
(a) SVM linéaires – cas séparable
Maximisation de marges – une justification de l’idée est liée au principe du MDL:
MDL ≡ ‘Minimum Description Length’
la meilleure description de données (en termes de Egen ) est celle qui permet de stocker le plus petit nombre de bits
SYS828: Systèmes biométriques Éric Granger
B3-77
B.3(4) SVMB.3(4) SVM
(a) SVM linéaires – cas séparablesi les patrons TRAIN et TEST sont pigés d’une même distribution inconnue
et, si tous les patrons TEST sont à une distance maximum de Δ par rapport à un patron TRAIN (de la même classe):
.: preuve: une marge de 2Δ est suffisant pour correctement classifier tous les patrons TEST
SYS828: Systèmes biométriques Éric Granger
B3-78
B.3(4) SVMB.3(4) SVM
(a) SVM linéaires – cas séparablesi tous les patrons sont à une distance d’au moins Δ du plan séparateur, et l’ensemble des patrons est borné par une sphère:
.: une petite perturbation dans la définition du plan séparateur est tolérable
.: maximiser la marge permet de choisir un hyperplan qui est encodé avec le minimum de bits
SYS828: Systèmes biométriques Éric Granger
B3-79
B.3(4) SVMB.3(4) SVM
(a) SVM linéaires – cas séparable
Calcul de la marge M:
− on peut définir les contraintes d’optimisation suivantes:
1, pour 1
1, pour 1
qu'on peut combiner comme suit :
1 0, pour 1,2,...,
i i
i i
i i i
b y
b y
c y b i n
wx
wx
wx
SYS828: Systèmes biométriques Éric Granger
B3-80
B.3(4) SVMB.3(4) SVM
(a) SVM linéaires – cas séparable
Calcul de la marge M (suite)
on peut démontrer que d+ = d– = 1 / ||w|| , où ||w|| est la norme Euclidienne de w
la marge de l’hyperplan devient donc:
-
2 2 = =
||w||w wM d d
SYS828: Systèmes biométriques Éric Granger
B3-81
B.3(4) SVMB.3(4) SVM
(a) SVM linéaires – cas séparable
Problème d’optimisation sous contraintes:
Apprentissage → recherche dans l’hyperplan (w et b) avec la marge maximum, permettant de classifier tous les patrons dans Dn
le problème consiste alors à minimiser la fonction de coût:
( ) , sujet aux contraintes :2
1 0, pour 1,2,...,i i i
L
c y b i n
2w
w
wx
SYS828: Systèmes biométriques Éric Granger
B3-82
B.3(4) SVMB.3(4) SVM
(a) SVM linéaires – cas séparable
Problème d’optimisation avec contraintes: (suite)
pour résoudre un problème d’optimisation avec coût L(w) et paramètre w, on peut fixer
mais, lorsqu’il y a des contraintes ci ≥ 0, on utilise les multiplicateurs Lagrangiens, et on vérifie notre solution avec les conditions Karush-Kuhn-Tucker (KKT)
2
minimiser ( ) 32
( )alors : 3 0 3
wL w w
L ww w
w
Exemple (1D):
( ) / 0L w w
SYS828: Systèmes biométriques Éric Granger
B3-83
B.3(4) SVMB.3(4) SVM
(a) SVM linéaires – cas séparable Problème d’optimisation avec contraintes: (suite)
Lagrangien – fonction de cout formé en soustrayant un terme pour chaque contrainte ci ≥ 0, pondéré par un multiplicateur Lagrangien positif:
on peut alors résoudre le problème dual – maximiser L(w,α) en fonction de α sujet au contraintes:
le problème général consiste donc à trouver la solution:
( , )0 et 0, pour 1,2,...,i
Li n
w
w
( , ) ( ) i ii
L L c w w
max min ( , )w
wL
SYS828: Systèmes biométriques Éric Granger
B3-84
B.3(4) SVMB.3(4) SVM
(a) SVM linéaires – cas séparable Problème d’optimisation avec contraintes: (suite)
on introduit un multiplicateur Lagrangien αi (i = 1, 2, ..., n), pour chaque contrainte d’inégalité:
L(w,b,α) doit être (1) minimisé p/r aux variables primaires (w et b), tout en (2) maximisant p/r aux variables duales (αi )
aux extremums, nous avons:( , , ) ( , , )0 et 0
L b L b
b
w w
w
2
1
( , , ) ( ( ) 1)2
ww wx
n
i i ii
L b y b
SYS828: Systèmes biométriques Éric Granger
B3-85
B.3(4) SVMB.3(4) SVM
(a) SVM linéaires – cas séparableRésolution: min L(w,b,α) par rapport aux variables primaires afin de produire des contraintes pour la substitution
1 1
( , , )0 0
n n
i i i i i ii i
L by y
ww x w x
w
2
1
( , , ) ( ( ) 1)2
n
i i ii
L b y b
w
w wx
1
( , , )0 0
i
n
i i
L by
b
w
SYS828: Systèmes biométriques Éric Granger
B3-86
B.3(4) SVMB.3(4) SVM
(a) SVM linéaires – cas séparable
Substitution: on combine ces contraintes dans L(w,b,α)
2
1
, 1 1 1
1 1 1 1 1 1
( , , ) ( ( ) 1)2
1
1
2
n
i i ii
n n n
i j i j i j i i j j j ii j i j
n n n n n n
i j i j i j i j i j i j i i ii j i j i i
L b y b
y y y y b
y y y y b y
ww wx
x x x x
x x x x
SYS828: Systèmes biométriques Éric Granger
B3-87
B.3(4) SVMB.3(4) SVM
(a) SVM linéaires – cas séparable
La formulation duale – on cherche à maximiser:
on peut résoudre avec des techniques d’optimisation classiques en programmation quadratique (basées sur, e.g., l’ascente de gradient avec contraintes)
1 1 1
1
1
2
sujet aux contraintes linéaires :
0 et 0
x xn n n
i i j i j i ji i j
n
i i ii
L y y
i y
SYS828: Systèmes biométriques Éric Granger
B3-88
B.3(4) SVMB.3(4) SVM
(a) SVM linéaires – cas séparable
Cette solution fait en sorte que les conditions KKT suivantes sont satisfaites:
après avoir trouvé w via l’entrainement, on peut s’en servir pour estimer b
1
1
0
0
( ) 1 0
( ( ) 1) 0 et 0
w xw
wx
wx
n
i i ii
n
i ii
i i
i i i i
Ly
Ly
b
y b i
y b i
SYS828: Systèmes biométriques Éric Granger
B3-89
B.3(4) SVMB.3(4) SVM
(a) SVM linéaires – cas non-séparable
Problème − l’optimisation n’a pas de solution si les 2 classes ne sont pas linéairement séparables:
SYS828: Systèmes biométriques Éric Granger
B3-90
B.3(4) SVMB.3(4) SVM
(a) SVM linéaires – cas non-séparable
Solution – marge molle (‘soft margin’) pour modéliser le chevauchement ou le bruit:
ξi ≡ distance entre patron erroné xi et la droite définie par les SV de sa classe
contraintes pour l’optimisation:
1 , pour 1
1 , pour 1
wx
wxi i
i
i
i i
b y
b y
SYS828: Systèmes biométriques Éric Granger
B3-91
B.3(4) SVMB.3(4) SVM
(a) SVM linéaires – cas non-séparable
Solution – marge molle pour modéliser le chevauchement ou le bruit:
on repose les contraintes p/r à une marge dur
on cherche alors à minimiser le critère d’optimisation quadratique suivant:
sujet aux contraintes:
2
1
|| ||
2
w n
ii
C
( ) 1 , 0,i i i iic y b i wx
SYS828: Systèmes biométriques Éric Granger
B3-92
B.3(4) SVMB.3(4) SVM(a) SVM linéaires – cas non-séparable
La formulation duale – on cherche à maximiser:
on obtient w et b selon:
1 1 1
1
1
2
sujet aux contraintes :
0 , et 0
x xn n n
i i j i j i ji i j
n
i i ii
L y
i yC
y
1
1 ( ) 0
w x
wx
n
i i ii
i i i i
y
y b
SYS828: Systèmes biométriques Éric Granger
B3-93
B.3(4) SVMB.3(4) SVM
(a) SVM linéaires – cas non-séparable
Fonction de décision:
Vecteurs de support: patrons d’entrainement xi de Dn
(i = 1, 2, …, n) avec αi ≠ 0
1
ˆ sign signwx x xn
i i ii
y b y b
SYS828: Systèmes biométriques Éric Granger
B3-94
B.3(4) SVMB.3(4) SVM
(b) SVM non-linéaires
Solution: projeter les patrons dans un espace de plus grande dimensionnalité avec une transformation non-linéaire
− cet espace devrait séparer les deux classes plus facilement
− étant donné une fonction , travailler avec une l’espace image du patron φ(xi) au lieu de celle du patron xi
: d F
SYS828: Systèmes biométriques Éric Granger
B3-95
B.3(4) SVMB.3(4) SVM
(b) SVM non-linéaires
Avec un SVM, on doit calculer les produits φ(xi)φ(xj) pour passer à l’espace image
cependant, ce calcul peut être très coûteux dans un espace de grande dimensionnalité
Fonction noyaux: on utilise plutôt une fonction noyau k(xi, xj), qui représente un produit dans un espace image ( , ) ( ) ( )x x x xi j i jk
SYS828: Systèmes biométriques Éric Granger
B3-96
B.3(4) SVMB.3(4) SVM
(b) SVM non-linéaires
Fonction noyaux communs:
Polynomial:
Gaussien ou ‘Radial Basis Function’ (RBF):
*( , ) ( ) , ,x x x x pi j i jk u v u v p
2
*2
( , ) exp ,2
x xx x
i j
i jk
SYS828: Systèmes biométriques Éric Granger
B3-97
B.3(4) SVMB.3(4) SVM
(b) SVM non-linéaires
La formulation duale – on cherche à maximiser
sujet aux contraintes:
1 1 1
1
2( , )x x
n n n
i i j i ji i j
i jkL y y
0 et 0i i ii
C y
SYS828: Systèmes biométriques Éric Granger
B3-98
B.3(4) SVMB.3(4) SVM
(b) SVM non-linéaires
La formulation duale:
on détermine les variables primaires w et b avec:
pour:
( 0)1 ,x xi ji j jj
y ky b
0 i C
1
( , )w x xn
i ii
i jy k
SYS828: Systèmes biométriques Éric Granger
B3-99
B.3(4) SVMB.3(4) SVM
(b) SVM non-linéaires
Mode opérationnel:
fonction de décision:
ˆ sig ( )n ,x xii ii
ky y b
SYS828: Systèmes biométriques Éric Granger
B3-100
B.3(4) SVMB.3(4) SVM
(b) SVM non-linéaires
Avec cette solution, les conditions KKT suivants sont satisfaits avec :
rem: αi = 0 pour tous patrons de Dn qui ne sont pas des vecteurs de support
( ) 1 0,
0 , tel que ( ) 1
, tel que ( ) 1
wx
wx
wx
i i
i i i
i i i
y b i
C i y b
C i y b
SYS828: Systèmes biométriques Éric Granger
B3-101
B.3(4) SVMB.3(4) SVM(b) SVM non-linéaires
Synthèse des propriétés:objectif: conçu pour maximiser la marge dans l’espace des partons
méthode Lagrangienne: permet de formuler l’apprentissage comme un problème d’optimisation quadratique (sous contraintes)
populations non linéairement séparables: utilise une marge molle et/ou une fonction noyau
relations non-linéaires: projeter les patrons dans une espace de haute dimensionnalité
fonctions noyaux: permettent de simplifier le calcul
SYS828: Systèmes biométriques Éric Granger
B3-102
B.3(4) SVMB.3(4) SVM
(b) SVM non-linéaires
Considérations pratiques:
pour optimiser la capacité du modèle: le choix du noyau est le paramètre le plus important
noyau polynomial: si on augmente le degré du polynôme, on augmente la capacité
noyau Gaussien: si on augmente la variance, on diminue la capacité
SYS828: Systèmes biométriques Éric Granger
B3-103
B.3(4) SVMB.3(4) SVM
(b) SVM non-linéaires
Considérations pratiques:
optimiser C: représente le compromis entre la marge et le taux d’erreurs
données non-bruitées: le choix de C a généralement peu d’impact
données bruitées: le choix de C est critique
les petites valeurs donnent habituellement de meilleurs résultats
SYS828: Systèmes biométriques Éric Granger
B3-104
B.3(4) SVMB.3(4) SVM
(b) SVM non-linéaires
Problèmes à N classes:
apprentissage: approche un contre tousutilise un ensemble de SVM (un par classe)SVMj apprend classe j vs les reste, j = 1, 2, ..., N
opérations: choisir la classe (SVMj) dont la prédiction tombe le plus loin dans la région positive
SYS828: Systèmes biométriques Éric Granger
B3-105
B.3(4) SVMB.3(4) SVM
(b) SVM non-linéaires
Apprentissage: (complexité du problème de PQ)
Mémoire – taux de croissance O(n2) est requise pour stocker la matrice de noyaux
Comment gérer des Dn avec n = 100,000 patrons?
Approches proposées:1. ‘Chunking’: à chaque itération, résoudre le problème de PQ
utilisant tous les αi non-nuls de l’itération précédente + le M pires patrons (violations de conditions KKT)
2. Décomposition: résoudre une série de problèmes PQ plus petites, où chacun ajoute un patrons qui viole les conditions KKT
SYS828: Systèmes biométriques Éric Granger
B3-106
B.3(4) SVMB.3(4) SVM
(b) SVM non-linéaires
Apprentissage: approche ‘Sequential Minimal Optimisation’ (SMO)
Objectif: résoudre le problème d’optimisation le plus petit à chaque itération
Processus itératif:
1. choisir 2 αi pour l’optimisation conjoint, avec au moins un des deux qui viole les conditions KKT
2. trouver la valeur optimal pour ces 2 αi et faire une mise-à-jour du modèle SVM
SYS828: Systèmes biométriques Éric Granger
B3-107
B.3(4) SVMB.3(4) SVM
(b) SVM non-linéaires
Apprentissage: approche ‘Sequential Minimal Optimisation’ (SMO)
ce processus itératif converge toujours vers un optimum
top related