résumé domaine des réseaux de neurones. gpa-779 application des réseaux de neurones et des...

RésuméDomaine des réseaux de neurones

GPA-779 Application des réseaux de neurones et des systèmes expertsCours #10 - 2

Domaines d’application de l ’IA

RobotiqueVision

Langagesnaturels

Senscommun

Systèmesexperts

Réseauxneuroniques

ParoleTâches

formelles



RobotiqueVision

Langagesnaturels

Senscommun

Systèmesexperts

Réseauxneuroniques

ParoleTâches

formelles

Chapitre 1

Réseaux de neurones artificiels


Sortie

x1

x2

x3

x4

xn

xN

x5

Entrée xk

Wm 1

Wm 2

Wm 3

Wm 4

Wm 5

Wm n

Wm N

Modèle d’un neurone artificiel

ym

=

f(a)

netm

m

f :

Binaire ouSigne

Linéaireà seuil

Sigmoïde

€

netm

= wmn

xn

− θmi=1

N∑

€

ym

= f (F ( wmnn=0

N∑ x

n, a

m)) = f (a

m)

am (k)

F(net,a)

=


netj : Somme pondérée de toutes les entrées à ce site du neurone

netj : lorsqu’il y a 1 site

skj : lorsqu’il y a plus d’un site par neurone

€

netj= wjixi=v

W j•v X

i=0

I∑

€

netj=v

W j⋅v X cosθ⎛

⎝ ⎞ ⎠

j

W

O


€

neti= winxn±θin=1

N∑

=

ai (k)

F(net,a)

yi =

f(a)

neti

j

x1

x2

x3

x4

xn

xN

x5

Sortie yi

Wi 1

Wi 2

Wi 3

Wi 4

Wi 5

Wi n

Wi N

Entrée X

€

Δwin=η⋅xn⋅r win,yi,di( )

€

ΔWi=ηr(Wi,yi,di)X

Générateur du

Signal

d’apprentissage

xn

wi n

di r


Taxonomie générale

# couches

dynamique

modèle

apprentis.

Réseauxmonocouches

Anticipation Récurrent Anticipation Résonant

supervisénon

supervisé

PerceptronAdalineMémoireassociative

Compétition Oja SangerCellulaire

LVQ1-2 LVQSOFM

Réseauxmulticouches

supervisénon

supervisé

Perceptron(rétroprop)MadalineRBF

Multiréso- lutionBCS

supervisénon

supervisé

HopfieldBoltzmann

BSBEidos

supervisénon

supervisé

ARTMAP ART 1-2BAM

CognitronConvolution

SARDSRN


Espace d'entrée

XExtraction

desprimitives

Espace des primitives

YSystème

dedécision

Espace des décisions

D

Problématique

Taxonomie pour la reconnaissance de formes


Réseau de neurones d’extraction de

primitives Système de

décision

Espace d’objet

s


Espace des

décisions

Les réseaux de neurones extracteurs de primitives


Composantes principales

Système de

décision

Espace d’objet

s


Espace des

décisions

a) Vecteurs propres

.... .

...... ..... ... ...v

x

z

uV1

V2

yy1...

. ... .... ..... .... ...z

x1i

j

i

j


Extraction des

primitivesP1, P2, P3

Vecteurs prototypes

Espace d’objets


Espace des

décisions

......

..

........ .....

..d1

zd2d3

P1

P2

P3

b) Prototypes


Primitives visuelles

Système de

décision

Espace d’objet

s


Espace des

décisions

c) Primitives visuelles


Éléments linéaires

Système de

décision

Espace d’objet

s


Espace des

décisions

c) Primitives visuelles (suite)


Extraction des

primitives

Réseau de neurones

classifieur

Espace d’objets


Espace des

décisions

Les réseaux de neurones classifieurs


Réseau d’extraction de primitives / classifieurs

Extraction des

primitives

Système de

décision

Espace d’objets


(d’observations)

Espace des

décisions

Les réseaux de neurones extracteurs/classifieurs


Taxonomie pour la reconnaissance de formes

Extraction de primitives Système de décision

Type (a) : vecteurs propresréseau d’Oja; réseau de Sangercomposantes principalescomposantes indépendantes

Type (c) : primitives visuellesréseau cellulaire; BCSpyramide multirésolutionréseau impulsionnel de Eckhorn

Type (b) : vecteurs prototypesréseaux LVQ; LVQ1 et LVQ2réseau SOFM de Kohonen

Réseaux de classificationneurone de McCulloch & Pittsperceptron de RosenblattAdaline; Madalineréseau à base radiale (RBF)

Mémoires associativesstatiques : matricesitératives : Hopfield, BAMséquentielles : SARDSRN, SARDNET

ACP : Brain State in a Box, EIDOS

Réseaux mixtes d’extraction de primitives et de classificationréseaux multicouches : rétropropagation du gradient d’erreur ; G.A.L.réseaux résonants : ART1, ART2, ARTMAP

réseaux convolutifs :Néocognitron; convolution

Chapitre 2

Domaines d’application


Principaux domaines d ’application

1. Classification 2. Regroupement 3. Approximation 4. Prédiction 5. Optimisation de

parcours

6. Mémoire associative

7. Commande

Introduction aux Réseaux de Neurones Application en Reconnaissance de Formes

B. SolaimanDépt. Image & Traitement de l'Information

Ecole Nationale Supérieure des Télécommunications de Bretagne

Neurone formel Réseaux Madaline4

Le neurone formel de McCulloch&Pitts

?.AND. .OR.

.XOR.

…....

Fonctions logiques


1

x1

wn

xn

wN

xN

y

Circuit à seuil

Combinateur linéaire adaptatif

yq

Modèle du neurone formel de McCulloch&Pitts 1943

€

y = X × WT = wn xn

n =1

N∑

⎩⎨⎧ >

=sinon. 1-

y si 1 yq

θ

Version circuit à seuil


w1=+1

x1

x2

w2=+1 ET

w1=+1

x1

x2

w2=+1 OU

x1 x2Sortie ET Sortie OU

-1 -1

-1 1

1 -1

1 1

-1 -1

-1

-1

1

1

1

1

Exemple

4 Neurone formel - Réseaux Madaline

Le neurone formel et la reconnaissance de formes

1 Sortie binaire Discrimination de 2 classesC1 -1, etC2 +1

yq <

2 Surface de décision

<=ω = ∑

N

1n nnq xy

Hyperplan dans N :

=ω∑

N

1nnn x - = 0


x1

x2

D +

D -

x1

x2

D +

D -

x3

Surface de décision 3Surface de décision 2

La fonction réalisée par un neurone formel :

La séparation linéaire


Apprentissage des poids synaptiques

Apprentissage ?1 deux classes C1 et C2

linéairement séparables

2

=ω∑

N

1nnn x

Surface de séparation :

- = 0

3 Apprentissage

Base d’exemples

(Xk, d(k))

d(k) = 1Estimer wn et


L’algorithme d’apprentissage de Rosenblatt , 1958

w1

x1(k)

wn

xn(k)

wN

xN(k)

y(k)

yq(k)

d(k)Algorithme

deRosenblattNouveaux

[w1, w2,…, wN] eq(k)

W (t+1) = W (t) + eq(k) Xk


Xk

W (t)

W(t+1)

x1x2

x3

W (t+1) = eq(k) Xk

Interprétation géométrique de l’algorithme de Rosenblatt

La modification de poids est proportionnelle à l’erreur et au vecteur d’entrée et est de même direction que ce dernier


initialisation aléatoire des poids synaptiques;

tant que CONDITION D’ARRÊT non vérifiée fairePour k = 1 jusqu'à k = K

faireprésenter la forme Xk à l'entrée;calculer yq(k);calculer eq(k);

Pour n = 0 jusqu'à n = N faireajustement des poids :

wn(t+1) = wn(t) + eq (k) xn(k)

Fin;

Fin;

Fin.

Le déroulement de l’algorithme d'apprentissage


Rosenblatt a démontré, 1960, la convergence de cetalgorithme pour la séparation de deux classes à condition qu'elles soient linéairement séparables.

Si eq(k) = 0 yq(k)= d(k)

w (k+1) = w (k) (i.e. pas de modification des poids synaptiques)

Exemple : = 0, d(k)= 1 y (k) = 0.0001 y (k) = 0.9999

eq(k) = 0


L’algorithme de Widrow-Hoff, 1960

w1

x1(k)

wn

xn(k)

wN

xN(k)

y(k)

yq(k)

d(k)

Algorithme de

Widrow-Hoff

Nouveaux[w1, w2,…, wN] e(k)

Minimiser l'erreur analogique quadratique moyenne : [d(k) - y(k)]2

W (t+1) = W (t) + e(k) Xk


C1

C2

C1

C2

C1

C2

Widrow-Hoff

C1

C2

C1

C2

C1

C2

RosenblattA p p r e n t i s s a g e

6 Applications - OCR

Le neurone formel en reconnaissance de chiffres

Séparation entre deux classes

Imagette d’entrée

X

Poidssynaptiques

ω

Classe 1 : -1

Classe 2 : +1


réseaux Madalinex2

x1

x1

x2 OR

AND

Décision C1 : {-1,+1}

Décision C2 : {-1,+1}

Solution « artificielle »

et si N > 3 ?Naissance de l’architecture multicouches

Réseaux de Neurones MulticouchesAlgorithme de rétropropagation de gradient

B. SolaimanDépt. Image & Traitement de l'Information

Ecole Nationale Supérieure des Télécommunications de Bretagne

1 Réseaux multicouches

x1

x2

xn

xN

Couche d’entrée

Couche cachée 1

Couche cachée 2

Couche de sortie

X S

Comment associer une sortie à chaque classe ? Classe « m » : X Cm sm=1, et sm’=0 si mm’

Quelle est la nature des sorties ? Neurone de McCulloch&Pitts

sorties binaires +1 et -1Comment réaliser l’apprentissage

des poids synaptiques ?

Algorithme du gradient fonctions «dérivables»

ta 2e+1

1 = ) t f( -

« Légère » modification du modèle proposé par McCulloch & Pitts

0

0,2

0,4

0,6

0,8

1

1,2

t

f(t)

a = 0.5

a =1.0

a = 1.5

Fonction seuil

la fonction sigmoïde

Nouveau paramètre à régler : la pente de la fonction sigmoïde

L’algorithme de la rétropropagation du gradient

Base d’apprentissage étiquetée

B = {( Xk, Dk), k=1, 2, …, K}Xk=[x1(k), .., xi(k), .., xN(k) ]tr

k = 1, 2, .., K indice qui désigne une forme d’entrée K nombre de formes d’entrée dans la base N dimension des vecteurs d’entrée

Hypothèse

Dk=[d1(k), .., dm(k), .., dM(k) ]tr {0, 1}M

vecteur de sortie désirée correspondant à Xk

2

Exemple : Trois classes C1, C2 et C3

Xk=[x1(k), .., xi(k), .., xN(k) ]tr : Classe C1

Dk=[1, 0, 0]tr

x1(k)x2(k)

xi(k)

xN(k)

d1(k) = 1

d2(k) = 0

d3(k) = 0

concrètement :

x1(k)x2(k)

xi(k)

xN(k)

d1(k)

d2(k)

d3(k)

s1(k)

s2(k)

s3(k)

Fonction du coût : Erreur quadratique instantanée

2(k))m

M

1m(k)m(d

2

1 k sE −

== ∑

Algorithme de descente du gradient classique :

Fonction du coût à minimiser : Coût(p)

P(n)

Coût(p)

p

P (n+1)

P(n+1) = P(n) - )(

)(nPp

pCoût∂

∂

Fonction du coût à minimiser : Coût(p1, p2 ,…., pL)

Pl(n+1) = Pl(n) - n)(

),...,,...,1

(

lP

lp

Lp

lppCoût

∂∂


x1(k)

Xk vj,n wm,j

yj(k) sm(k)

s1(k)

sM(k)

Couche cachéecomportant J neurones

Sk

Vecteur de sortie obtenu

Vecteur d’entrée

x2(k)

xn(k)

xN(k)

Cas d’une couche cachée


Fonction du coût : Erreur quadratique instantanée

2(k))m

M

1m(k)m(d

2

1 k sE −

== ∑

pour les poids synaptiques wm,j

€

wm, j

= η yj(k) δ

m(k)

Wm,j

Erreur liée à sm

€

δm

(k) = (dm

(k) − sm

(k)) ′ f ( wm, j

yj(k)

j =1

L∑ )


pour les poids synaptiques vj,i

€

vj,n

= η xn (k) δ j (k)

vj,n ?

€

δ j (k) = f ' net j k( )( ) δm

(k) wm, j

m =1

M∑

j

'δ

δ1

δm

δM


Le déroulement de l'algorithme de la rétropropagation du gradient

La propagation directe 1. La forme Xk est présentée à l'entrée du réseau

2. Calcul des yj(k), j= 1, 2, .., J, et sm(k), m= 1, 2, .., M

3. Calcul des δm(k), m= 1, 2, .., M

La rétropropagation 1. Rétropropagation et calcul de δj, j=1,2, … ,J

2. Actualisation des poids wm,j

3. Actualisation des poids vj,n


Résumé: fonctionnement du rétro-prop. a) propagation directe


Résumé: fonctionnement du rétro-prop.b) propagation inverse du gradient

Discrimination linéaire

Extraction des primitives

Point de vue extraction de primitives

0

. .

. . **

**

*0

000

0

0 ... .

* ****00 00

00.

4Applications

Reconnaissance Optique des Caractères (O.C.R)

Seuillage d’images

Base d’apprentissage incrémentale

Data Mining, Extraction des connaissances

Compression d’images (Réseau Diabolo)

Chapitre 5

Mémoires associatives


Reconstruction d ’images


5.1 Architecture

W

x1

x2

xN yM

y2

y1


Phases d’opération1- Entraînement

Prototype à mémoriser:

Mémorisation:

Entrée:

2- Recherche

Pk ≤≤Vk

W= W(k)

k:1

p

∑

kT

TT

T

WXY

XWY

==


Catégories 1- Mémoire auto-associative

2- Mémoire héréro-associative

PkVTkk TVkk ≤≤→ =

PkVTkk TVkk ≤≤→ ≠


5.2 Entraînement Règle de Hebb

Algorithme0- Initialisation

Wmn = 0

1- Pour chaque paire T : V2- xn = tn

3- ym = vm

4- Wmn = Wmn(précédent) + xnym


Algorithme alternatif: produit externe de vecteurs

PIWW −=0

⎥⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢⎢

⎣

⎡

=×==

MNNN

Mnnn

Mm

kTkkkk

vtvtvt

vtvtvt

vtvtvt

VTVTW

LL

MMM

LL

MMM

LL

o

11

11

1111

∑=

×=P

kk

Tk VTW

1


Phase de recherche

1- Entrées non-corrélés (vecteurs orthogonaux)recouvrement total et parfait

2- Entrées corrélésrecouvrement croisé (bruit d’intercorrélation)

llk TTX == =

TXWY =

∑

∑

≠

+=

=

lkk

Tkll

Tll

p

kk

Tkl

VTTVTT

VTT1:


Règle DeltaRègle itérative utilisée pour des vecteurs à mémoriser qui sont linéairement indépendants mais non-orthogonaux. La règle atténue les effets de corrélation croisée et produit une solution de moindres carrés lorsque les vecteurs ne sont pas linéairement indépendants

ijjjij

ijjiij

ii

xyvnetfw

netwxfy

tx

)()( −′=

⎟⎠

⎞⎜⎝

⎛ ==

=

∑


5.3 Mémoires anticipatives

Algorithme 1- Entraînement

a) Hebbienb) Delta

2- Forme (partielle ou bruitée) présentée à l’entrée

01

00

01

<−=>

=

=∑

j

j

j

j

ijiij

netnetnet

y

wxnet


5.4 Mémoires itératives 5.4.1 Réseau de Hopfield

1 1

-1

y1 y3

x2

1x1

1

y2

-2

+1+4

⎪⎩

⎪⎨

⎧

<−

≥=

=

=

∑∑

jjij

jjij

i

ii

jiij

yw

yw

y

w

ww

01

01

0

Chapitre 6

Réseaux récurrents


Énergie d ’un réseau de Hopfield

€

E=−12 TijViVj

j∑

i∑ − SiVi

i∑

Le système tend vers son état d’énergie minimal :

• Décroissance assurée de la fonction d’énergie

• Neurones activés à 1

• Activations calculées une à une

• Attention aux minima locaux (A) !


Exemple de calcul de l’énergie

1 1

V1 V2

-2

-1

V3

+1

+4

1

1

S3

S1

€

E=−V1V3T13+V1V2T12+V2V3T23[ ]−S1V1+S3V3[ ]

€

−E=−4+(−2)+(−1)+1+(−1)

€

−E=−7


6.2 Dynamique du réseau: relaxation

Objectif : Partir d’un niveau d’énergie donné, atteindre le minimum local le plus proche pour récupérer l’information stockée

Conditions initiales : Forme P Si

Poids : Fixes (donnés par un apprentissage antérieur)

Neurones : a) Activations calculées une à une b) Selon une séquence aléatoire

c) Valeurs 1 pour assurer la minimisation de la fonction d’energie.

Résultat : Minimisation de la fonction d’énergie et rappel de formes similaires précédemment enregistrées lors de l’apprentissage


Relation entre changement d’état et minimisation de l’ énergie

On a

€

E=−12 TijViVj

j∑

i∑ − SiVi

i∑

Si le neurone ne change pas d’état :

Si le neurone change d’état :

€

ΔE=E t+1( )−E t( )

€

ΔE=−ΔVk TikVi+Sk

i≠k∑⎛

⎝ ⎜ ⎞

⎠

€

ΔE=0

Net(k)

Soit Vk l’activation d’un neurone k quelconque :


Relation entre changement d’état et minimisation de l’énergie (2)

€

ΔE=−ΔVk TikVi+Sk

i≠k∑⎛

⎝ ⎜ ⎞

⎠

€

ΔE=0

€

ΔE<0

€

ΔVkestpositifssi Tik

i≠k∑ Vi+Skestpositif

€

ΔVkestnegatifssi Tik

i≠k∑ Vi+Skestnegatif

€

Vk t( )=Vk t+1( )

€

Vk t( )≠Vk t+1( )

Si on a un changement d’état alors on est assuré de diminuer E :


Algorithme de relaxation

Vj tous visités ?

Tirage aléatoire d’une séquence de visite des neurones

Sélection du prochain neurone de la séquence

€

Vk=1si TikVi+Sk

i∑ ≥0

P stable ?

Non

NonOui

Oui

FIN

DÉPART

€

Vk=−1si TikVi+Sk

i∑ <0


6.3 Apprentissage « tailler » la courbe d’énergie

La règle la plus simple: Hebb L’apprentissage est réalisé AVANT d’utiliser le réseau comme mémoire associative pour retrouver la forme emmagasinée à partir d’information partielle ou bruitée


6.4 Optimisation Une fonction de coût remplace la fonction d’énergie

L’optimisation consiste à minimiser la fonction de coût

La fonction de sortie utilisée est la fonction sigmoïde (au lieu de la fonction signe ou échelon)

€

tanhnet2( )ou 1

1+e−net


Exemple: Voyageur de commerceUn vendeur doit établir un itinéraire de visite de 5 villes. Il doit partir de Boston et revenir à Boston à la fin de son itinéraire.

Chaque ville est visitée une et une seule fois L’itinéraire doit être le plus court possible afin de minimiser les frais d’essence

La principale difficulté rencontrée avec ce type de problème est l’explosion combinatoire des solutions à évaluer.


Réseau de Hopfield Lignes villes Colonnes séquence de visite

Poids contraintes du problème à résoudre– 1 ville visitée 1 seule fois

– 1 étape 1 seule ville– Distance entre les villes

Activation du réseau minimisation du coût


Fonction de coût C

€

C≡E=A2 Vxi

j≠i∑

i∑

x∑ Vxj+B

2 Vxi

y≠x∑

x∑

i∑ Vyi+C

2 Vxi−ni

∑x∑⎛

⎝ ⎜ ⎞

⎠

2

+D2 dxyVxi Vy,i+1+Vy,i−1( )

i∑

y≠x∑

x∑

Vxi : neurone correspondant à la ville x à l’étape i

dxy : distance entre les villes x et y

A, B, C, D : facteurs de pondération pour les contraintes

C1 C2 C3 C4


Calcul des poids

€

Wxi,yj = −Aδxy 1−δ ij( ) − Bδ ij 1−δxy( ) −C − Ddxy δ i, j +1 + δi, j−1( )

sinon 0

si 1

:Kronecker deopérateur l' avec

=

==

ij

ij ji

δ

δ

résumé domaine des réseaux de neurones. gpa-779 application des réseaux de neurones et des...

Documents