![Page 1: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/1.jpg)
Apprentissage de représentation et auto-organisation modulaire
pour un agent autonome
Bruno Scherrer6 janvier 2003
Directeurs : F. Alexandre, F. Charpillet
![Page 2: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/2.jpg)
2
Construire un agent autonome
• Calculer une stratégie/politique
• Exemples– marcher– conduire une voiture– jouer au backgammon
Environnement
perception actionrenforcement
instantané
long-terme
![Page 3: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/3.jpg)
3
Représentation et organisation modulaire
Organisationen modulesspécialisés
Organisationcentralisée
24 V
50000 V
Perception brute Représentation
?
![Page 4: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/4.jpg)
4
S'inspirer d'un système performant
• autonome• robuste• "anytime"• dynamique• distribué & parallèle• tolérant aux pannes
réseaux fortement connectés de processeurs élémentaires
fonctionnant en parallèle
Algorithmes connexionnistes
![Page 5: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/5.jpg)
5
Objectifs
• Montrer que les problèmes consistant à– calculer une stratégie/politique– apprendre une représentation– organiser un système en modules
admettent des solutions connexionnistes
Comprendre les enjeux computationnelsd'une telle approche
![Page 6: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/6.jpg)
6
Plan
• Introduction• Un calcul connexionniste • Contrôle optimal et apprentissage par
renforcement• Apprentissage de représentation• Auto-organisation modulaire• Conclusions et perspectives
![Page 7: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/7.jpg)
7
Algorithmes connexionnistes
• Connectivité• Activations• Loi(s) d'apprentissage• (A)synchronisme ? entrées
sorties
propagationsynchrone
Loi deHebb
Système dynamique généralement complexe à analyser et concevoir !
![Page 8: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/8.jpg)
8
Un calcul connexionniste
unités
Activation
t=0
M
t=1
M M
t=∞
...
M M M...
<1Contraction Point fixe
![Page 9: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/9.jpg)
9
Un calcul connexionniste
• Calcul du point fixe d'une contraction– Solution traditionnelle
– Solution connexionniste
calcul distribuéparallèle
asynchroneM
[Bertsekas & Tsitsiklis, 89]
![Page 10: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/10.jpg)
10
• Propriétés du calcul du point fixe…– anytime– dynamique
… avec une méthode connexionniste– massivement parallèle
• Difficulté : taille du réseau– nombre d’itérations pour approcher le point
fixe
Bilan
![Page 11: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/11.jpg)
11
Plan
• Introduction• Un calcul connexionniste• Contrôle optimal et apprentissage par
renforcement• Apprentissage de représentation• Auto-organisation modulaire• Conclusions et perspectives
![Page 12: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/12.jpg)
12
Contrôle optimalétatsactionstransitionrécompense
T(s,a,s’)=P(s’|s,a)
R(s)
: S → AOn cherche une politique
qui maximise les récompenses sur le long terme
On calcule la fonction de valeur optimale :
instantané
long-terme
![Page 13: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/13.jpg)
13
Illustration
Actions
Plan :
![Page 14: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/14.jpg)
14
Illustration
• Récompense
![Page 15: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/15.jpg)
15
Illustration
• Fonction de valeur optimale
récompense
![Page 16: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/16.jpg)
16
Illustration
• Politique optimale
fonction de valeur optimale
![Page 17: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/17.jpg)
17
Lien avec le connexionnisme
V
R
s
s'
s''
...
T(s,←,s')
T(s,↑,s'')
![Page 18: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/18.jpg)
18
Un calcul dynamique
![Page 19: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/19.jpg)
19
Apprentissage par renforcement
• Problème de contrôle optimal dont on ne connaît pas les paramètres a priori
• Estimation des paramètres
• Le dilemme exploration/exploitation
? ?
![Page 20: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/20.jpg)
20
Lien avec le connexionnisme
• Dans le réseau– Estimation de R : calculée par chaque unité– Estimation de T : loi d'apprentissage du
réseau
similaire à la loi de HebbV
R
s
s'
s''
...
T(s,←,s')
T(s,↑,s'')
![Page 21: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/21.jpg)
21
• Une architecture connexionniste pour l’apprentissage par renforcement :
• Difficulté : taille de l'espace d'états– nombre d’itérations pour le point fixe– estimation de R et T
Bilan
SATRSA
Estimation paramètres Controle
environnement
πTR
![Page 22: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/22.jpg)
22
Plan
• Introduction• Un calcul connexionniste• Contrôle optimal et apprentissage par
renforcement• Apprentissage de représentation• Auto-organisation modulaire• Conclusions et perspectives
![Page 23: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/23.jpg)
23
Représentation
Difficile à exploiter
![Page 24: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/24.jpg)
24
Représentation
Chemin sous-optimal
![Page 25: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/25.jpg)
25
Représentation
Chemin optimal
![Page 26: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/26.jpg)
26
Qu'est-ce qu'une bonne représentation ?
Qualité
Complexité
![Page 27: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/27.jpg)
27
Mesure de l’erreur d'approximation
• L’erreur d’approximation définie par
dépend de l’erreur d’interpolation
et est le point fixe de
• Calcul de la politique la plus incertaine
[Munos, 99]
instantané
long-terme
![Page 28: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/28.jpg)
28
Mesure de l’erreur
• Erreur d’interpolation
![Page 29: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/29.jpg)
29
Mesure de l’erreur
• Erreur d’approximation
![Page 30: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/30.jpg)
30
Mesure de l’erreur
• Politique la plus incertaine
![Page 31: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/31.jpg)
31
Réduction de l'erreur
Qualité
Complexité
Spécialisation
Généralisation
![Page 32: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/32.jpg)
32
Réduction de l’erreur
• On peut améliorer une approximation...
…en faisant une descente de gradient :
Point fixe
instantanélong-terme
zones d'intérêt
![Page 33: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/33.jpg)
33
Réduction de l’erreurzone d'intérêt
Spécialisation
Généralisation
![Page 34: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/34.jpg)
34
Réduction de l’erreur
• Nouvelle représentation, nouvelles erreurs
Spécialisation
Généralisation
![Page 35: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/35.jpg)
35
Réduction de l’erreur
• Nouvelle représentation, nouvelles erreurs
![Page 36: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/36.jpg)
36
Réduction de l’erreur
• Nouvelle représentation, nouvelles erreurs
![Page 37: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/37.jpg)
37
Réduction de l’erreur
• Nouvelle représentation, nouvelles erreursSpécialisation
Généralisation
![Page 38: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/38.jpg)
38
Expériences (1/2)
![Page 39: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/39.jpg)
39
Expériences (1/2)
![Page 40: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/40.jpg)
40
Expériences (2/2)
![Page 41: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/41.jpg)
41
Expériences (2/2)
![Page 42: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/42.jpg)
42
• Une couche fonctionnelle connexionniste supplémentaire
Bilan
SATRSA
Estimation paramètres Controle
environnement
πTR
App. représentationπTR
S
TR
Optimisation du rapport complexité / qualité
![Page 43: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/43.jpg)
43
Plan
• Introduction• Un calcul connexionniste• Contrôle optimal et apprentissage par
renforcement• Apprentissage de représentation• Auto-organisation modulaire• Conclusions et perspectives
![Page 44: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/44.jpg)
44
Apprentissage de représentation
M
bonne représentationmauvaise représentation
![Page 45: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/45.jpg)
45
Apprentissage de représentation
M1
M2
M3
M4
Avoir une seule représentation peut être insuffisant !
![Page 46: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/46.jpg)
46
Apprentissage de représentations
M1
M2
M3
M4
![Page 47: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/47.jpg)
47
Une approche modulaire
M1
M2
M3
M4
![Page 48: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/48.jpg)
48
• L’apprentissage de représentation c’est :
• L’auto-organisation modulaire c’est :
Description
Problème de classification : nuées dynamiques
![Page 49: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/49.jpg)
49
Expérience
6 tâches à résoudre
3 modules
![Page 50: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/50.jpg)
50
Expérience
1
2
3
Module 1 Module 2 Module 3
![Page 51: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/51.jpg)
51
Bilanenvironnement
SATRSA
Estimation paramètres Controle TR
App. représentationTR
S
TR
π
TR
π
π
SATRSA
Estimation paramètres Controle TR
App. représentationTR
S
Amélioration du rapport complexité / qualité
![Page 52: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/52.jpg)
52
Plan
• Introduction• Un calcul connexionniste• Contrôle optimal et apprentissage par
renforcement• Apprentissage de représentation• Auto-organisation modulaire• Conclusions et perspectives
![Page 53: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/53.jpg)
53
Construction d'algorithmes connexionnistes ? Calcul d'un point fixe Application à l'apprentissage par renforcement
Grand espace d'états ? Apprentissage de représentation
Multiplicité des problèmes ? Auto-organisation modulaire
Conclusions
parallélisme massif
optimisation du taux qualité / complexité
amélioration du taux qualité / complexité
![Page 54: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/54.jpg)
54
Schémas d'approximations convergents Généricité des résultats
Validation sur des problèmes complexes Véhicule de type voiture Agent autonome devant résoudre une multitude de tâches
Conclusions
![Page 55: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome](https://reader035.vdocuments.mx/reader035/viewer/2022062411/56816849550346895dde35da/html5/thumbnails/55.jpg)
55
Perspectives
• Extensions/améliorations des travaux de thèse– Gestion adaptative des ressources– Coopération des modules– Implantation matérielle parallèle– Approximateurs de fonctions plus puissants– Le dilemme exploration/exploitation
• Liens avec des travaux de sciences cognitives