reinforcement learning - vl algorithmisches lernen, teil 3e · universit at hamburg min-fakult at...
TRANSCRIPT
![Page 1: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/1.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Reinforcement Learning (2)
Reinforcement LearningVL Algorithmisches Lernen, Teil 3e
Jianwei Zhang
University of HamburgMIN Faculty, Dept. of Informatics
Vogt-Kolln-Str. 30, D-22527 [email protected]
15/07/2008
Zhang 1
![Page 2: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/2.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Reinforcement Learning (2)
Reinforcement LearningVL Algorithmisches Lernen, Teil 3e
Jianwei Zhang
University of HamburgMIN Faculty, Dept. of Informatics
Vogt-Kolln-Str. 30, D-22527 [email protected]
15/07/2008
Zhang 2
![Page 3: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/3.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Reinforcement Learning (2)
Terminubersicht: Part 3
I 17/06/2009 Dimensionsproblem, PCA
I 18/06/2009 Support-Vektor Maschinen
I 24/06/2009 Support-Vektor Maschinen (4st.)
I 25/06/2009 Ubung
I 01/07/2009 Funktionsapproximation, Fuzzy-Logik (4st.)
I 02/07/2009 Ubung (Prof. Dr. Menzel)
I 08/07/2009 Verstarkungslernen (1)
I 09/07/2009 Verstarkungslernen (2)
I 15/07/2009 Verstarkungslernen (3)
I 16/07/2009 Anwendungen in der Robotik
Zhang 3
![Page 4: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/4.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Reinforcement Learning (2)
Gliederung
IntroductionDynamic ProgrammingExample: GridworldAsynchrones DPQ-LernenBeschleunigung des LernensBahnplanung mit DPGrasping mit RL: 2-Backen-GreiferGrasping mit RL: Barret-Hand
Automatischer Value CutoffAutomatischer Value CutoffEvaluationExperimente mit TASER
Zhang 4
![Page 5: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/5.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Dynamic Programming Reinforcement Learning (2)
Dynamic Programming
Ziele dieses Abschnitts:
I Uberblick uber eine Sammlung klassischer Losungsmethodenfur MDPs, die dynamic programming genannt werden
I Demonstration des Einsatzes von DP beim Errechnen vonWertefunktionen und somit von optimalen Policies
I Diskussion der Effektivitat und des Nutzens von DP
Dieser Teil ist aus “Reinforcement Learning: An Introduction”, Richard S. Sutton and Andrew G. Barto
http://www.cs.ualberta.ca/˜sutton/book/ebook/index.html
Zhang 5
![Page 6: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/6.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Dynamic Programming Reinforcement Learning (2)
Dynamische Programmierung fur Modellbasiertes Lernen
Wenn die Dynamik der Umwelt bekannt ist, kann die Klasse derDynamischen Programmierung verwendet werden.Bei der Dynamischen Programmierung handelt es sich um eineSammlung von Ansatzen, bei der ein perfektes Modell des MDP’svorhanden ist. Um die optimale Policy zu berechen, werden dieBellmann Gleichungen in Update-Regeln eingebettet, die dann diegewunschte Werte-Funktion (V ) approximieren.Drei Schritte:
1. Policy Evaluation
2. Policy Improvement
3. Policy Iteration
Zhang 6
![Page 7: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/7.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Dynamic Programming Reinforcement Learning (2)
Policy Evaluierung - I
Policy Evaluierung: Errechne die Zustands-Wertefunktion V π fureine gegebene Policy π.Erinnern wir uns:Zustands-Wertefunktion fur Policy π:
V π(s) = Eπ {Rt |st = s} = Eπ
{ ∞∑k=0
γk rt+k+1|st = s
}
Bellman-Gleichung fur V π:
V π(s) =∑
a
π(s, a)∑s′
Pass′ [Ra
ss′ + γV π(s ′)]
– ein System von |S | gleichzeitigen linearen GleichungenZhang 7
![Page 8: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/8.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Dynamic Programming Reinforcement Learning (2)
Policy Evaluation - II
Unter Policy Evaluation versteht man das Problem, aus einerwillkurlichen festen Policy π die Werte-Funktion V π zu berechnen.Ausgehend von der Bellmann-Gleichung kann man eineUpdate-Regel entwerfen, in der approximierte Werte-FunktionenV0,V1,V2,V3, . . . berechnet werden:
Vk+1(s) =∑
a
π(s, a)∑s′
Pass′ [Ra
ss′ + γVk(s ′)] ∀s ∈ S
Es wird ausgehend von der k-ten Naherung Vk fur jeden Zustand ssukzessiv die k + 1-te Naherung Vk+1 berechnet, mit anderenWorten wird der alte Funktionswert von s durch den neuen Wertersetzt, der mit den alten Werten gemass der Iterationsregelberechnet wird.Es kann gezeigt werden, dass die Sequenz der iteriertenWerte-Funktionen {Vk} gegen V π konvergiert, falls k →∞.
Zhang 8
![Page 9: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/9.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Dynamic Programming Reinforcement Learning (2)
Iterative Policy Evaluierung
Input π, die zu evaluierende PolicyInitialisiere V (s) = 0, fur alle s ∈ S+
Wiederhole∆← 0Fur jedes s ∈ S :
v ← V (s)V (s)←
∑aπ(s, a)
∑s′
Pass′ [Ra
ss′ + γVk(s ′)]
∆ <← max(∆, |v − V (s)|)
bis ∆ < θ (eine kleine positive Zahl)Output V ≈ V π
Zhang 9
![Page 10: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/10.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Example: Gridworld Reinforcement Learning (2)
Eine kleine Gridworld
I Eine episodische Aufgabe (undiscounted)
I Nicht-terminale Zustande: 1, 2, . . . , 14;
I Ein terminaler Zustand (zweimal als schattiertes Quadratdargestellt)
I Aktionen, die den Agenten aus dem Grid nehmen wurden,lasssen den Zustand unverandert
I Der Reward ist - 1 bis der terminale Zustand erreicht ist
Zhang 10
![Page 11: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/11.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Example: Gridworld Reinforcement Learning (2)
Iterative Policy-Evaluierung fur die kleine Gridworld - I
links: Vk(s) fur die random Policy π (zufallige Zuge)
rechts: Zuge der greedy Policy auf Vk(s)Zhang 11
![Page 12: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/12.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Example: Gridworld Reinforcement Learning (2)
Iterative Policy-Evaluierung fur die kleine Gridworld - II
In diesem Beispiel: die greedy Policy fur Vk(s) ist fur k ≥ 3 optimal
Zhang 12
![Page 13: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/13.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Example: Gridworld Reinforcement Learning (2)
Policy Verbesserung
Man betrachtet jetzt die Aktions-Werte-Funktion Qπ(s, a), bei derin Zustand s Aktion a ausgewahlt wird, und dann die Policy πverfolgt wird:
Qπ(s, a) =∑s′
Pass′ [Ra
ss′ + γV π(s ′)]
Man sucht in jedem Zustand die Aktion, die dieAktions-Werte-Funktion maximiert. Somit wird eine greedy Policyπ′ fur eine gegebene Werte-Funktion V π generiert:
π′(s) = arg maxa
Qπ(s, a)
= arg maxa
∑s′
Pass′ [Ra
ss′ + γV π(s ′)]
Zhang 13
![Page 14: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/14.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Example: Gridworld Reinforcement Learning (2)
Policy Verbesserung
Angenommen, wir haben V π fur eine deterministische Policy πberechnet.Ware es besser fur einen gegebenen Zustand s eine Aktiona 6= π(s) durchzufuhren?Der Wert, wenn a im Zustand s durchgefuhrt wird, ist:
Qπ(s, a) = Eπ{rr+1 + γV π(st+1)|st = s, at = a}=
∑s′
Pass′ [Ra
ss′ + γV π(s ′)]
Es ist genau dann besser, zur Aktion a fur den Zustand s zuwechseln, wenn
Qπ(s, a) > V π(s)
Zhang 14
![Page 15: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/15.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Example: Gridworld Reinforcement Learning (2)
Policy Verbesserung Forts.
Fuhre dies fur alle Zustande durch, um eine neue Policyπ zubekommen, die in Bezug auf V π greedy ist:
π′(s) = argmax
aQπ(s, a)
= argmaxa
∑s′
Pass′ [Ra
ss′ + γV π(s ′)]
Dann V π′ ≥ V π
Zhang 15
![Page 16: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/16.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Example: Gridworld Reinforcement Learning (2)
Policy Verbesserung Forts.
Was wenn V π′= V π?
Z.B. fur alle s ∈ S , V π′(s) = max
a
∑s′
Pass′ [Ra
ss′ + γV π(s ′)]?
Merke: dies ist die optimale Bellman-Gleichung.
Also sind V π′= V ∗ und sowohl π als auch π′ optimale Policies.
Zhang 16
![Page 17: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/17.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Example: Gridworld Reinforcement Learning (2)
Iterative Methoden
V0 → V1 → . . .→ Vk → Vk+1 → . . .→ V π
⇑ ein “Durchlauf”
Ein Durchlauf besteht darin, auf jeden Zustand eineBackup-Operation anzuwenden.
Ein full-policy Evaluierungs-Backup:
Vk+1(s)←∑
a
π(s, a)∑s′
Pass′ [Ra
ss′ + γVk(s ′)]
Zhang 17
![Page 18: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/18.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Example: Gridworld Reinforcement Learning (2)
Policy Iteration - I
Verwendet man abwechselnd Policy Improvement und PolicyEvaluation, so heisst das, dass mit einer festen Werte-Funktion V π
die Policy π verbessert wird und dann fur die bessere Policy π′ diedazugehorige Werte-Funktion V π′
berechnet wird.Man wendet wieder Policy Improvement an, um eine noch besserePolicy π′′ zu bekommen, und so weiter . . . :
π0PE−→ V π0
PI−→ π1PE−→ V π1
PI−→ π2PE−→ V π2 · · · PI−→ π∗
PE−→ V ∗
Hierbei stehtPI−→ fur das Anwenden des Policy Improvement und
analogPE−→ fur Policy Evaluation.
Zhang 18
![Page 19: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/19.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Example: Gridworld Reinforcement Learning (2)
Policy Iteration
π0 → V π0 → π1 → V π1 → . . . π∗ → V ∗ → π∗
Policy-Evaluierung ⇑ ⇑ Policy-Verbesserung “Greedification”
Zhang 19
![Page 20: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/20.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Example: Gridworld Reinforcement Learning (2)
Policy Iteration
1. InitialisierungV (s) ∈ < und π(s) ∈ A(s) beliebig fur alle s ∈ S
2. Policy-EvaluierungWiederhole
∆← 0Fur jedes s ∈ S :
v ← V (s)
V (s)←∑s′
Pπ(s)ss′ [R
π(s)ss′ + γV (s ′)]
∆← max(∆, |v − V (s)|)bis ∆ < θ (eine kleine positive Zahl)
Zhang 20
![Page 21: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/21.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Example: Gridworld Reinforcement Learning (2)
Policy Iteration Forts.
3. Policy-Verbesserung
Policy-stable ← wahrFur jedes s ∈ S :
b ← π(s)π(s)← arg max
a
∑s′
Pass′ [Ra
ss′ + γV (s ′)]
Wenn b 6= π(s), dann Policy-stable ← falschWenn Policy-stable, dann aufhoren; ansonsten gehe zu 2
Zhang 21
![Page 22: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/22.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Example: Gridworld Reinforcement Learning (2)
Wert Iteration
Erinnern wir uns an das full policy Evaluierungs-Backup
Vk+1(s)←∑
a
π(s, a)∑s′
Pass′ [Ra
ss′ + γVk(s ′)]
Hier ist das full value Iterations-Backup:
Vk+1(s)← maxa
∑s′
Pass′ [Ra
ss′ + γVk(s ′)]
Zhang 22
![Page 23: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/23.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Example: Gridworld Reinforcement Learning (2)
Wert Iteration Forts.
Initialisiere V beliebig, z.B. V (s) = 0, fur alle s ∈ S+
Wiederhole∆← 0Fur jedes s ∈ S :
v ← V (s)V (s)← max
a
∑s′
Pass′ [Ra
ss′ + γV (s ′)]
∆← max(∆, |v − V (s)|)bis ∆ < θ (eine kleine positive Zahl)
Output ist eine deterministische Policy π, so dassπ(s) = arg max
a
∑s′
Pass′ [Ra
ss′ + γV (s ′)]
Zhang 23
![Page 24: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/24.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Asynchrones DP Reinforcement Learning (2)
Asynchrones DP
I Alle DP Methoden, die bisher beschrieben wurden, erfordernvollstandige Durchlaufe des gesamten Zustands-Sets
I Das asynchrone DP benutzt keine Durchlaufe. Stattdessenfunktioniert es so:
I Wiederhole bis das Konvergenzkriterium eingehalten wird:I Suche einen Zustand zufallig heraus und wende das passende
Backup an
I Benotigt immer noch viel Berechnung, aber hangt nicht inhoffnungslos langen Durchlaufen fest
I Kann man Zustande fur die Anwendung des Backup intelligentauswahlen? JA: die Erfahrung eines Agenten kann als Fuhrerdienen
Zhang 24
![Page 25: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/25.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Asynchrones DP Reinforcement Learning (2)
Generalized Policy Iteration (GPI)
Generalized Policy Iteration (GPI):jede Interaktion zwischen Policy-Evaluierung und Policy-Verbesserung,
unabhangig von ihrer Granularitat.
Eine geometrische Metapher
fur die Konvergenz von GPI:
Zhang 25
![Page 26: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/26.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Asynchrones DP Reinforcement Learning (2)
Effizienz des DP
I Eine optimale Policy zu finden ist polynomisch mit der Zahl derZustande. . .
I ABER, die Zahl der Zustande ist oft astronomisch, z.B. wachtsie oft exponentiell mit der Zahl der Zustands-Variablen (wasBellman “den Fluch der Dimensionalitat” nannte)
I In der Praxis kann das klassische DP auf Probleme mit ein paarMillionen Zustanden angewandt werden
I Das asynchrone DP kann auf großere Probleme angewandtwerden und eignet sich fur parallele Berechnung
I Es ist uberraschend leicht, MDPs zu finden, fur die DPMethoden unpraktisch sind
Zhang 26
![Page 27: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/27.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Asynchrones DP Reinforcement Learning (2)
Zusammenfassung: Dynamisches Programming
I Policy Evaluierung: Backups ohne Maximum
I Policy Verbesserung: bilde eine greedy Policy, wenn auch nurlokal
I Policy Iteration: wechsle die beiden obigen Prozesse ab
I Wert Iteration: Backups mit Maximum
I Vollstandige Backups (die spater Beispiel-Backupsgegenubergestellt werden)
I Generalized Iteration (GPI)
I Asynchrones DP: eine Methode, um vollstandige Durchlaufe zuvermeiden
I Bootstrapping: Schatzungen durch andere Schatzungen auf denneuesten Stand bringen
Zhang 27
![Page 28: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/28.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Q-Lernen Reinforcement Learning (2)
Q-Lernen
I Q-Funktion
I Q-Lernalgorithmus
I Konvergenz
I Beispiel: GridWorld
I Experience-Replay
Zhang 28
![Page 29: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/29.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Q-Lernen Reinforcement Learning (2)
Die Q-Funktion
Man definiert die Q-Funktion wie folgt:
Q(s, a) ≡ r(s, a) + γV ∗(δ(s, a))
Damit lasst sich π∗ schreiben als
π∗(s) = arg maxa
Q(s, a)
D.h.: Die optimale Policy kann erlernt werden, indem Q gelerntwird, auch wenn r und δ nicht bekannt sind.
Zhang 29
![Page 30: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/30.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Q-Lernen Reinforcement Learning (2)
Q-Lernalgorithmus - I
Q und V ∗ stehen in enger Beziehung zueinander:
V ∗(s) = maxa′
Q(s, a′)
Damit lasst sich die Definition von Q(s, a) umschreiben:
Q(s, a) ≡ r(s, a) + γmaxa′
Q(δ(s, a), a′)
Diese rekursive Definition von Q bildet die Basis fur einenAlgorithmus, der Q iterativ approximiert.
Zhang 30
![Page 31: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/31.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Q-Lernen Reinforcement Learning (2)
Q-Lernalgorithmus - II
Im folgenden sei Q der aktuelle Schatzwert fur Q. s ′ sei der neueZustand nach Ausfuhrung der gewahlten Handlung und r sei derdabei erzielte Reward.Dann ergibt sich aus der rekursiven Definition von Q dieIterationsvorschrift wie folgt:
Q(s, a) ≡ r(s, a) + γmaxa′
Q(δ(s, a), a′)
⇒:
Q(s, a)← r + γmaxa′
Q(s ′, a′)
Zhang 31
![Page 32: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/32.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Q-Lernen Reinforcement Learning (2)
Q-Lernalgorithmus - III
Damit lautet der Algorithmus:
1. Initialisierte alle Tabelleneintrage von Q zu 0.
2. Ermittle aktuellen Zustand s.
3. LoopI Wahle Handlung a und fuhre sie aus.I Erhalte Reward r .I Ermittle neuen Zustand s ′.I Q(s, a)← r + γmaxa′ Q(s ′, a′)I s ← s ′.
Endloop
Zhang 32
![Page 33: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/33.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Q-Lernen Reinforcement Learning (2)
Konvergenz des Q-Lernens
Satz: Es seien folgende Bedingungen erfullt:
I |r(s, a)| <∞,∀s, aI 0 ≤ γ < 1
I jedes (s, a)-Paar wird unendlich oft besucht
Dann konvergiert Q gegen die richtige Q-Funktion.
Zhang 33
![Page 34: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/34.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Q-Lernen Reinforcement Learning (2)
Kontinuierliche Systeme
Die Q-Funktion sehr großer oder kontinuierlicher Zustandsraumelasst sich nicht durch eine explizite Tabelle darstellen.Man verwendet stattdessen einenFunktionsapproximations-Algorithmus, z.B. ein Neuronales Netzoder B-Splines.Die Ausgaben des Q-Learning-Algorithmus dienen dem NeuronalenNetz als Trainingsbeispiele.Konvergenz ist dann aber nicht mehr garantiert!
Zhang 34
![Page 35: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/35.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Q-Lernen Reinforcement Learning (2)
Beispiel: GridWorld - I
gegeben: m × n-Grid
I S = {(x , y)|x ∈ {1, · · · ,m}, y ∈ {1, · · · , n}}I A = {up, down, left, right}
I r(s, a) =
{100, falls δ(s, a) = Goalstate
0, sonst.
I δ(s, a) gibt den Folgezustand entsprechend der durch agegebenen Bewegungsrichtung an.
Zhang 35
![Page 36: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/36.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Q-Lernen Reinforcement Learning (2)
Beispiel: GridWorld - II
Beispiel fur einen Pfad durch einen Zustandsraum:
Die Zahlen an den Pfeilen geben die momentanen Werte von Q an.
Zhang 36
![Page 37: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/37.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Q-Lernen Reinforcement Learning (2)
Beispiel: GridWorld - III
Entwicklung der Q-Werte:
Q(S11, up) = r + γmaxa′
Q(s ′, a′) = 0 + 0.9 ∗ 100 = 91
Q(S10, right) = 0 + 0.9 ∗ 91 = 81
. . .
Zhang 37
![Page 38: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/38.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Q-Lernen Reinforcement Learning (2)
Q-Lernen - offene Fragen
I oft nicht vorhanden: Markov-Annahme, Beobachbarkeit
I kontinuierliche Zustand-Aktion-Raume
I Generalisierung uber Zustand und Aktion
I Kompromiss zwischen “Exploration” und “Exploitation”
I Generalisierung der automatischen Bewertung (Kredit-Vergabe)
Zhang 38
![Page 39: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/39.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Q-Lernen Reinforcement Learning (2)
Ad-hoc Explorationsstrategie
I Zu ausgiebiges Erforschen bedeutet, dass der Agent auch nachlangem Lernen noch ziellos im meist sehr großen Zustandsraumumherwandert. Dadurch werden auch Bereiche intensiv untersucht,die fur die Losung der Aufgabe gar nicht relevant sind.
I Zu fruhes Ausbeuten der gelernten Approximation der Q-Funktionbewirkt moglicherweise, dass sich ein suboptimaler, d.h. langererPfad durch den Zustandsraum, der zufallig zuerst gefunden wurde,etabliert und die optimale Losung nicht mehr gefunden wird.
Es existieren:
I “Greedy strategies”
I “randomized strategies”
I “interval-based techniques”
Zhang 39
![Page 40: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/40.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Beschleunigung des Lernens Reinforcement Learning (2)
Beschleunigung des Lernens
Einige Ad-hoc Techniken:
I Experience Replay
I Backstep Punishment
I Reward Distance Reduction
I Lerner-Kaskade
Zhang 40
![Page 41: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/41.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Beschleunigung des Lernens Reinforcement Learning (2)
Experience Replay - I
Ein Pfad durch den Zustandsraum gilt als beendet, sobald Gerreicht wurde.Nun sei angenommen, im Zuge des Q-Learning werde dieser Pfadwiederholt durchlaufen.Oftmals sind echt neue Lernschritte sehr viel kostenintensiverund/oder zeitaufwendiger als interne Wiederholungen bereitsgespeicherter Lernschritte. Aus den genannten Grunden bietet essich an, die Lernschritte abzuspeichern und intern zu wiederholen.Das Verfahren wird Experience Replay genannt.
Zhang 41
![Page 42: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/42.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Beschleunigung des Lernens Reinforcement Learning (2)
Experience Replay - II
Eine Erfahrung e (engl.: experience) ist ein Tupel
e = (s, s ′, a, r)
mit s, s ′ ∈ S , a ∈ A, r ∈ IR. e reprasentiert einen Lernschritt, d.h.einen Zustandsubergang, wobei s der Ausgangszustand, s ′ derZielzustand, a die Aktion, die zu dem Zustandsubergang fuhrte,und r das dabei erhaltene Reinforcement-Signal ist.
Ein Lernpfad ist dann eine Serie e1 . . . eLkvon Erfahrungen (Lk ist
die Lange des k-ten Lernpfades).
Zhang 42
![Page 43: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/43.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Beschleunigung des Lernens Reinforcement Learning (2)
Experience Replay - III
Der ER-Algorithmus:
for k = 1 to Nfor i = Lk down to 1
update( ei aus Serie k)end for
end for
Zhang 43
![Page 44: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/44.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Beschleunigung des Lernens Reinforcement Learning (2)
Experience Replay - IV
Vorteile:
I Interne Wiederholungen gespeicherter Lernschritte verursachenmeist weit weniger Kosten als echt neue Lernschritte.
I Intern laßt sich ein Lernpfad in umgekehrter Reihenfolgedurchlaufen, was die Informationsausbreitung beschleunigt.
I Wenn sich Lernpfade kreuzen, konnen sie sozusagen“voneinander lernen”, d.h. Information austauschen.Experience Replay macht diesen Austausch unabhangig von derReihenfolge, in der die Lernpfade erstmals ausgefuhrt wurden.
Zhang 44
![Page 45: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/45.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Beschleunigung des Lernens Reinforcement Learning (2)
Experience Replay - Beispiel
Entwicklung der Q-Werte bei wiederholtem Durchlaufen einesLernpfades:
Zhang 45
![Page 46: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/46.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Beschleunigung des Lernens Reinforcement Learning (2)
Backstep Punishment
Eine Explorationsstrategie wird benotigt, die fur eine etwas“geradlinigere” Bewegung des Agenten durch den Zustandsraum sorgt.Dazu mussen vor allem Ruckschritte vermieden werden.Eine sinnvollere Methode scheint es zu sein, fur den Fall, dass der Agenteinen Ruckschritt auswahlt, ihn diesen ausfuhren zu lassen, aber einkunstliches, negatives Reinforcement-Signal zu generieren.Kompromiss zwischen “Sackgasse-Vermeidung” und “schnellem Lernen”.Beim zielorientierten Lernen konnte eine entsprechend erweiterteReward-Funktion wie folgt aussehen:
rBP =
100 falls Ubergang in einen Zielzustand erfolgte
−1 falls ein Ruckschritt gemacht wurde
0 sonst
Zhang 46
![Page 47: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/47.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Beschleunigung des Lernens Reinforcement Learning (2)
Reward Distance Reduction
Die Reward-Funktion kann eine intelligentere Bewertung der Aktionendes Agenten vornehmen. Dies setzt aber Kenntnisse uber die Struktur desZustandsraumes voraus.Wenn man zusatzlich die Kodierung des Zielzustandes kennt, dann kannes eine gute Strategie sein, die euklidische Distanz zwischen demaktuellen Zustand und dem Zielzustand zu verringern.Man kann die Rewardfunktion so erweitern, dass Aktionen, die dieeuklidische Distanz zum Zielzustand verringern, belohnt werden (rewarddistance reduction, RDR):
rRDR =
100 falls ~s ′ = ~sg
50 falls |~s ′ −~sg | < |~s −~sg |0 sonst
wobei ~s, ~s ′ und ~sg die den Ausgangszustand, den Endzustand und den
Zielzustand kodierenden Vektoren sind.Zhang 47
![Page 48: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/48.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Beschleunigung des Lernens Reinforcement Learning (2)
Lerner-Kaskade - I
Es ist fur die Genauigkeit der Positionierung entscheidend, wie feinder Zustandsraum eingeteilt ist.Andererseits steigt mit wachsender Feinheit der Diskretisierungauch die Anzahl der Zustande und damit der Aufwand fur dasLernen.Man muss sich vor dem Lernen fur eine Diskretisierung entscheidenund dabei abwagen zwischen Lernaufwand und Genauigkeit derPositionierung.
Zhang 48
![Page 49: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/49.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Beschleunigung des Lernens Reinforcement Learning (2)
Lerner-Kaskade - Variable Diskretisierung
Ein Beispiel-Zustandsraum a) ohne Diskretisierung b) mit variablerDiskretisierung
a) b)
Dies setzt aber Kenntnisse uber die Struktur des Zustandsraumesvoraus.
Zhang 49
![Page 50: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/50.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Beschleunigung des Lernens Reinforcement Learning (2)
Lerner-Kaskade - n-stufige Lerner-Kaskade
Einteilungen des Zustandsraumes einer vierstufigenLerner-Kaskade:
1. Lerner: 2. Lerner:
3. Lerner: 4. Lerner:
Zhang 50
![Page 51: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/51.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Beschleunigung des Lernens Reinforcement Learning (2)
Bahnplanung mit der Policy Iteration - II
I Fur die Rewardfunktion Rass′ gilt:
Rass′ = Reward nicht im Ziel ∀s ∈ S , a ∈ A(s), s ′ ∈ S und
Rass′ = Reward im Ziel ∀s ∈ S , a ∈ A(s), s ′ = st .
Also nur fur das Erreichen des Zielzustandes wird ein andererRewardwert geliefert. Fur alle anderen Zustande gibt es eineneinheitlichen Betrag
I Die Policy π(s, a) sei ebenfalls deterministisch, dh. es gibtgenau ein a mit π(s, a) = 1
I Eine Schranke Θ, bei der die Policy Evaluation beendet wird,muss gewahlt werden
I Fur das Problem ist das Infinite-Horizon Discounted Model amsinnvollsten, deshalb muss γ entsprechend gesetzt werden
Zhang 51
![Page 52: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/52.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Beschleunigung des Lernens Reinforcement Learning (2)
Q-Lernen: Zusammenfassung
I Q-Funktion
I Q-Lernalgorithmus
I Konvergenz
I Beschleunigung des Lernens
I Beispiele
Zhang 52
![Page 53: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/53.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Bahnplanung mit DP Reinforcement Learning (2)
Bahnplanung mit DP - I
Zum finden des Pfades zwischen Start- und Zielkonfiguration wird diePolicy Iteration benutzt.Folgende Großen mußen dementsprechend beim vorliegendenPlanungsproblem definiert werden:
I Als Zustandsmenge S dient der diskrete Konfigurationsraum, dh.jedes mogliche Gelenkwinkeltupel (θ1, θ2, . . . , θDim) ist genau einZustand der Menge S mit Ausnahme der Zielkonfiguration
I Die Menge A(s) aller moglichen Aktionen fur einen Zustand s sinddie Ubergange zu Nachbarkonfigurationen im K-Raum, also fur einenoder mehrere Gelenkwinkel θi die Anderung um ±Dis. Dabei sind nurAktionen a in A(s) enthalten, die nicht zu K-Hindernissen fuhren, dh.die nicht mit Hindernissen kollidieren, und nicht die Grenzen desK-Raumes verletzen
Zhang 53
![Page 54: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/54.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Bahnplanung mit DP Reinforcement Learning (2)
Bahnplanung mit DP - II
I Fur die Rewardfunktion Rass′ gilt:
Rass′ = Reward nicht im Ziel ∀s ∈ S , a ∈ A(s), s ′ ∈ S und
Rass′ = Reward im Ziel ∀s ∈ S , a ∈ A(s), s ′ = st .
Also nur fur das Erreichen des Zielzustandes wird ein andererRewardwert geliefert. Fur alle anderen Zustande gibt es eineneinheitlichen Betrag
I Die Policy π(s, a) sei ebenfalls deterministisch, dh. es gibt genau eina mit π(s, a) = 1
I Eine Schranke Θ, bei der die Policy Evaluation beendet wird, mussgewahlt werden
I Fur das Problem ist das Infinite-Horizon Discounted Model amsinnvollsten, deshalb muss γ entsprechend gesetzt werden
Zhang 54
![Page 55: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/55.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Bahnplanung mit DP Reinforcement Learning (2)
2-gelenkiger Roboter
Die gefundene Bewegungssequenz des 2-gelenkigen Roboters (von links
nach rechts, von oben nach unten):
Zhang 55
![Page 56: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/56.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: 2-Backen-Greifer Reinforcement Learning (2)
Grasping mit RL: Aufteilung der DOFs
Ublicherweise braucht ein Roboterarm 6 DOFs um ein Objekt ausirgendeiner Position und Orientierung zu greifen.Um quasi-planare Objekte zu greifen nehmen wir an, dass derGreifer senkrecht zum Tisch steht und dass sein Gewicht bekanntist.Es bleiben immer noch drei DOFs zur Kontrolle des Roboterarms:Bewegungen parallel zur Tischebene (x , y) und die Rotation umdie senkrecht zum Tisch stehende Achse (θ).
Zhang 56
![Page 57: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/57.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: 2-Backen-Greifer Reinforcement Learning (2)
Grasping mit RL: Aufteilung der DOFs(2)
Kontrolle von x , y , θ. Die vor-prozessierten Bilder werden fur dieRotations-Kodierung zusatzlich zentriert.
Zhang 57
![Page 58: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/58.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: 2-Backen-Greifer Reinforcement Learning (2)
Grasping mit RL: Aufteilung der DOFs(3)
Um einen kleinen Zustandsraum zu erzeugen, wird das Lernen zwischenzwei Lernern aufgeteilt:einer fur die translationale Bewegung auf der Ebene,der andere fur die Rotationsbewegung.Der Translations-Lerner kann dann vier Aktionen auswahlen (zwei in x-und zwei in y -Richtung).Der Rotations-Lerner kann zwei Aktionen auswahlen (Rotation im undgegen den Uhrzeigersinn).Diese Aufteilung hat folgende Vorteile gegenuber einem monolithischemLerner:
I Der Zustandsraum ist wesentlich kleiner.
I Die Zustandskodierung ist so entworfen, dass die Zustandsvektorennur die relevanten Informationen fur den entsprechenden Lernerenthalten.
Zhang 58
![Page 59: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/59.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: 2-Backen-Greifer Reinforcement Learning (2)
Grasping mit RL: Aufteilung der DOFs(4)
In der Praxis werden die beiden Lerner abwechselnd angewandt.Zuerst wird der Translations-Lerner in langen Lern-Schritten angewandt,bis er das in seiner Zustands-Kodierung definierte Ziel erreicht hat.Dann wird der Translations-Lerner durch den Rotations-Lerner ersetzt,der ebenfalls in langen Lern-Schritten angewandt wird bis sein Zielerreicht ist.
Zu diesem Zeitpunkt kann es passieren, dass der Translations-Zielzustand
vom Rotations-Lerner gestort wird. Daher wird der Translations-Lerner
noch einmal aktiviert. Diese Prozeduren werden wiederholt, bis beide
Lerner berichten, dass sie alle den Zielzustand erreichen. Dieser Zustand
ist daher der gemeinsame Zielzustand.
Zhang 59
![Page 60: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/60.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: 2-Backen-Greifer Reinforcement Learning (2)
Grasping mit RL: Aufteilung der DOFs(5)
(a) (b) (c)
(d) (e) (f)
Positionierung und Orientierungs-Kontrolle mit 6 DOFs in vier Schritten.
Zhang 60
![Page 61: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/61.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: 2-Backen-Greifer Reinforcement Learning (2)
Grasping mit RL: Aufteilung der DOFs(6)
Um alle sechs DOFs zu benutzen sollten zusatzliche Lernereingefuhrt werden.
1. Der erste Lerner besitzt zwei DOFs und seine Aufgabe ist dassdas Objekt von einer bestimmten Perspektive aus betrachtetwird. Fur einen ebenen Tisch bedeutet dies typischerweise, dassder Greifer senkrecht zur Tischoberflache positioniert werdenmuss (a → b).
2. Wende den x/y Lerner an (b → c).
3. Wende den θ Rotations-Lerner an (c → d).
4. Der letzte Hohen-Lerner wird die z-Koordinate korrigieren, dieHohe uber dem Tisch (d → e).
Zhang 61
![Page 62: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/62.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: 2-Backen-Greifer Reinforcement Learning (2)
Visuell gefuhrtes Greifen mittels selbstbewertendem Lernen
Griff ist optimal bzgl. lokaler Kriterien:
I Die Finger des Greifers konnen das Objekt am Greifpunktumschließen
I Keine Reibung tritt zwischen Fingern und Objekt auf
Griff ist optimal bzgl. globaler Kriterien:
I Kein bzw. minimales Drehmoment an den Fingern
I Objekt rutscht nicht aus dem Greifer
I Der Griff ist stabil, d.h. Objekt sitzt fest zwischen den Fingern
Zhang 62
![Page 63: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/63.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: 2-Backen-Greifer Reinforcement Learning (2)
Bsp. Lokale und globale Kriterien
(a) (b)
Zhang 63
![Page 64: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/64.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: 2-Backen-Greifer Reinforcement Learning (2)
Zwei AnsatzeEin Lerner:
I Die Zustande bestehen aus einem Satz m + n lokaler und globalerEigenschaften: s = (fl1 , . . . , flm , fg1 , . . . , fgn ).
I Der Lerner versucht sie auf die Aktionen a = (x , y , φ) abzubilden, wox und y in Richtung x und y translationale Komponenten sind und φdie Rotation um den Annaherungsvektor des Greifers ist.
Zwei Lerner:
I Die Zustande fur den ersten Lerner liefern nur die lokalenEigenschaften s = (fl1 , . . . , flm ).
I Der Lerner versucht sie auf Aktionen abzubilden, die nur aus derRotationskomponente a = (φ) bestehen.
I Der zweite Lerner versucht, Zustande globaler Eigenschaftens = (fg1 , . . . , fgn ) auf Aktionen translationaler Komponentenabzubilden: a = (x , y).
Zhang 64
![Page 65: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/65.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: 2-Backen-Greifer Reinforcement Learning (2)
Aufbau
I Zweikomponentiges Lernsystem:
1. Orientierungs-Lerner 2. Orts-Lerner
Operiert auf lokalen Kriterien Operiert auf globalen Kriterien
Gleich fur jedes Objekt Unterschiedlich fur jedes neue Objekt
I Einsatz von Multisensorik:I KameraI Kraft-Moment-Sensor
I Beide Lerner arbeiten aufeinanderfolgend imPerzeptions-Aktions-Zyklus
Zhang 65
![Page 66: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/66.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: 2-Backen-Greifer Reinforcement Learning (2)
Zustandskodierung
θ
L D COA
θ
θ θ
2 1
3 4
Der Orientierungs-Lerner benutzt Lange L sowie WinkelΘ1, . . . ,Θ4 wahrend der Orts-Lerner die Distanz D zwischenMittelpunkt der Greiflinie und Bildschwerpunkt des Objektes nutzt.
Zhang 66
![Page 67: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/67.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: 2-Backen-Greifer Reinforcement Learning (2)
Selbstbewertungsmaßnahmen im Orientierungs-Lerner
Visuelle Bewertung des Grifferfolges:Reibung resultiert in Rotation oder Versatz des Objektes
Zhang 67
![Page 68: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/68.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: 2-Backen-Greifer Reinforcement Learning (2)
Selbstbewertungsmaßnahmen im Orts-Lerner I
Bewertung mittels Kraftmomenten-Sensors:Instabiler Griff – analysiert durch Kraftmessung
Zhang 68
![Page 69: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/69.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: 2-Backen-Greifer Reinforcement Learning (2)
Selbstbewertungsmaßnahmen im Orts-Lerner II
Suboptimaler Griff – analysiert uber Drehmomente
Zhang 69
![Page 70: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/70.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: 2-Backen-Greifer Reinforcement Learning (2)
Das Problem der unvollstandigen Zustandsinformation
Man spricht auch von verborgenen Zustanden (engl.: hiddenstates).Beispiel fur unvollstandige Zustandsinformation:
a) b) c) d)
Zhang 70
![Page 71: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/71.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: Barret-Hand Reinforcement Learning (2)
Handhabung von Alltagsgegenstanden
I Lernen des Greifens von Alltagsgegenstanden
I Reinforcement-Learning-Prozess basiert auf Simulation
I Ziel: moglichst viele geeignete Griffe finden
I Berucksichtigung moglicher Folgeoperationen
I anwendbar auf beliebigeObjekttypen
I Effizienz bezuglich:I SpeicherbedarfI gefundene Griffe/Lernepisode
Zhang 71
![Page 72: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/72.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: Barret-Hand Reinforcement Learning (2)
BarretHand BH-262
I 3-Finger Roboter-Hand
I Finger konnen einzeln offnen/schließen
I variabler Spreizwinkel
I Positions- und Kraftmessung
I TorqueSwitch-Mechanismus
I Spannweite 32 cm
Zhang 72
![Page 73: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/73.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: Barret-Hand Reinforcement Learning (2)
Angewandtes Modell
Zustande S :
I Position des Greifers zum Objekt
I Spreizwinkel der Hand
I Griff bereits ausgefuhrt?
Aktionen a:
I Translation (x-Achse, y-Achse, z-Achse)
I Rotation(roll-, yaw-, pitch-Achse)
I Veranderung des Spreizwinkels
I Griff ausfuhren
Definition AktionenDefinition Aktionen
Die möglichen Aktionen sind folgendermaßen definiert:
Zhang 73
![Page 74: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/74.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: Barret-Hand Reinforcement Learning (2)
Angewandtes Modell (cont.)
Action-Selection:
I ε-greedy (mit Wahrscheinlichkeit ε Zufallsaktion)
Reward-Funktion:
I Reward abhangig von Stabilitat des Griffes
I Stabilitat wird uber “wrench-space”(GWS) berechnet(Ferrari und Canny, 1992)
I kleiner negativer Reward bei instabilen Griffen
I großer negativer Reward falls Objekt verfehlt
r(s, a) =
−100 if number of contact points < 2−1 if GWS(g) = 0GWS(g) otherwise
Zhang 74
![Page 75: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/75.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: Barret-Hand Reinforcement Learning (2)
Lern- Strategie
Problem: Der Zustandsraum ist extrem groß:
I TD-(λ)-Algorithmus
I Lernen in EpisodenI eine Episode endet:
I nach einer festen Anzahl SchrittenI nach einen Greif-Versuch
I Q-table wird dynamisch erstellt
I Zustande werden erst beim ersten Auftreten hinzugefugt
Zhang 75
![Page 76: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/76.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: Barret-Hand - Automatischer Value Cutoff Reinforcement Learning (2)
Problem der Terminalzustande
Problem: Mit der Aktion”Griff“
kann jeder Zustand in einen Ter-minalzustand uberfuhrt werden.Moglicherweise findet man nur einlokales Maximum und somit nichtden optimalen Griff.
Problem: (Zu) Viele TerminalzuständeProblem: (Zu) Viele Terminalzustände
Zhang 76
![Page 77: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/77.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: Barret-Hand - Automatischer Value Cutoff Reinforcement Learning (2)
Problem der Terminalzustande
Auswirkungen auf das Lernverhalten:
I instabile Griffe werden mehrmals getestet
I Agent verbleibt in lokalen Minima
I nicht alle Griffe werden gefunden
=⇒ Kein Lernen am Ende einer Episode - Verschwendung vonRechenzeit
Dies kann nicht durch Anpassen der RL-Lernparameter gelostwerden.
Zhang 77
![Page 78: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/78.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: Barret-Hand - Automatischer Value Cutoff Reinforcement Learning (2)
Automatischer Value Cutoff (cont.)
Automatischer Value Cutoff: Loschen von Aktionen
I die zu instabilen Griffen fuhren (Reward < 0)
I die bereits mehrfach evaluiert sind
Q(s, a)←
Q(s, a) + α
[r + γQ(s
′, a
′)− Q(s, a)
]falls 0 ≤ Q(s, a) < r ∗ β
anderenfalls entferne Q(s, a) aus Q
mit 0 ≤ β ≤ 1. (gute Ergebnisse lieferte β = 0.95)
Zhang 78
![Page 79: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/79.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: Barret-Hand - Evaluation Reinforcement Learning (2)
Automatischer Value Cut-Off: 100 Episoden
Zhang 79
![Page 80: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/80.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: Barret-Hand - Evaluation Reinforcement Learning (2)
Automatischer Value Cut-Off: 750 Episoden
Zhang 80
![Page 81: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/81.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: Barret-Hand - Evaluation Reinforcement Learning (2)
Automatischer Value Cut-Off: 1500 Episoden
Zhang 81
![Page 82: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/82.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: Barret-Hand - Evaluation Reinforcement Learning (2)
Automatischer Value Cutoff vs. kein Cutoff
0
10
20
30
40
50
60
70
0 200 400 600 800 1000 1200 1400
Gri
ffe
Episode
Box 1 − NCOBox 1 − CO
Box 2 − NCOBox 2 − CO
Cylinder − NCOCylinder − COBanana − NCOBanana − CO
Zhang 82
![Page 83: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/83.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: Barret-Hand - Evaluation Reinforcement Learning (2)
Reinforcement Learning vs. Brute Force: Tasse
0
100
200
300
400
500
600
0 5000 10000 15000 20000
Gra
sps
Episodes
Mug top − BFMug top − RL
Mug side − BFMug side − RL
Zhang 83
![Page 84: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/84.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: Barret-Hand - Evaluation Reinforcement Learning (2)
Reinforcement Learning vs. Brute Force: Telefon
0
50
100
150
200
250
300
0 5000 10000 15000 20000 25000 30000 35000 40000
Gra
sps
Episodes
Phone side − BFPhone side − RLPhone top − BFPhone top − RL
Zhang 84
![Page 85: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/85.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: Barret-Hand - Experimente mit TASER Reinforcement Learning (2)
Experimente mit TASER
Test einiger Griffe auf der Roboterplattform:
Zhang 85
![Page 86: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/86.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: Barret-Hand - Experimente mit TASER Reinforcement Learning (2)
Experimente mit TASER (cont.)
Test einiger Griffe auf der Roboterplattform:
Zhang 86
![Page 87: Reinforcement Learning - VL Algorithmisches Lernen, Teil 3e · Universit at Hamburg MIN-Fakult at Department Informatik Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches](https://reader033.vdocuments.mx/reader033/viewer/2022041501/5e21d7804068961f274e2156/html5/thumbnails/87.jpg)
Universitat Hamburg
MIN-FakultatDepartment Informatik
Grasping mit RL: Barret-Hand - Experimente mit TASER Reinforcement Learning (2)
Erweiterungsmoglichkeiten
Automatische Ausfuhrung der Griffe auf TASER:
I Kamera-basierte Objekterkennung und Positionsbestimmung
I Trajektorie-Generierung
I Griff-Ausfuhrung
Automatische Generierung von Objektmodellen:
I 3D Modell basierend auf Bilddaten
I Erkennung von Ahnlichkeiten/Wiederverwendung von Griffen
I bei unbekannten Objekten: Neuberechnung
Zhang 87