meger ősítéses tanulás = reinforcement learning (rl)
DESCRIPTION
Meger ősítéses Tanulás = Reinforcement Learning (RL). Szepesv ári Csaba Gépi Tanulás és Ember-Gép Interfészek Csoport MTA SZTAKI [email protected] www.sztaki.hu/~szcsaba. Gépi tanulás és Ember-Gép Interfészek Csoport MTA SZTAKI, 2 004-. Tanulás Megerősítéses tanulás Klasszifikáció - PowerPoint PPT PresentationTRANSCRIPT
Megerősítéses Tanulás=
Reinforcement Learning (RL)
Szepesvári Csaba
Gépi Tanulás és Ember-Gép Interfészek Csoport
MTA SZTAKI
www.sztaki.hu/~szcsaba
2
Gépi tanulás és Ember-Gép Interfészek CsoportMTA SZTAKI, 2004-
• Tanulás– Megerősítéses tanulás– Klasszifikáció– Jellegzetesség kivonás
• Alkalmazási területek– Kontroll, játékok– Beszéd– Természetes nyelv (NKFP projekt:
NYELVBÁNYÁSZ)– Pénzügyi mat. (portfólió opt.)
•Kocsis Levente, PhD
•Szepesvári Csaba, PhD
•Szamonek Zoltán, PhD hallg.
•„your name”?
MA: Megerősítéses Tanulás
•Tartalom:
•Motiváció
•Algoritmusok, módszerek, eszközök
•Alkalmazások
4
AI - „a nagy kép”
Intelligencia:- Tanulás„Programozói” lustaság + a feladatok komplexitásának kezelése:- Minél önállóbb tanulás
5
PókerCélok: •mesterszintű játék•játék aspektusok•ellenfél modellezés
Hol tartunk? (MLHCI Csoport)
Autóverseny-szimulátorCélok: •Emberi teljesítmény mesteri reprodukciója•Autóvezetés forgalomban
6
Mi a megerősítéses tanulás (RL) ?
• Nagyfokú önállóság a tanulásban• Információk:
– büntetés/jutalom alapján– megfigyelések a környezetről (állapotok)
• Cél: a jutalom egy függvényét maximalizálni!
s9s5s4s2
……
…s3
+50
-1-1
+3
r9r5r4r1
s1
a9a5a4a2 …a3a1
7
A k-karú bandita probléma
Ágens
Akciók
Átlagos kifizetés (jutalom)
10
-5
100
0
0, 0, 5, 10, 35
5, 10, -15, -15, -10
8
Markov Döntési Folyamatok ~ Markov Decision Processes
(MDPs)• Állapotok, véletlentől függő átmenetekkel• Átmenetvalószínűségek aktuális állapottól függnek
• Transition matrix P, and reward function
r = 2211r = 0a1
a2
9
Hosszútávú jutalom
• Ágens politikája rögzített:
• Az Rt kifizetés a t pillanat utáni össz-jutalom
+50
-1-1
+3
r9r5r4r1
10
Érték = Hasznosság = Várható kifizetés
• Rt valószínűségi változó
• Vehetjük a várható értékét! Politikától függ Rt !
• Feladat: találjuk meg azt a politikát amelyik a várható értéket maximalizálja, minden állapotban
11
Az eddigi sztori..• RL feladatok részei:
– Több lépéses döntési feladatok
– Cél *-ot megtalálni
– Kritérium: Rövid távú Hosszú távú
rt+1 rt+2 rt+3
at at+1 at+2st st+1 st+2 st+3
12
A Bellman egyenletek
• A Markov tulajdonság miatt a várható összjutalmat egy rekurzív egyenlettel is kifejezhető:
ahol
és
Másképp:
s
4
3
5
(s)
V = TV vagy BV = 0
13
Bellman egyenletek- optimális értékelő függvény
• Optimális értékelő függvény
• Mohó politka: mindig a Q* szerinti legjobb akciót választja: argmax_a Q*(s,a)
• Ez optimális!!!• Politika javítás algoritmus: (kiértékel, javít)*
14
„Bootstrapping” módszerek• P és R ismeretét feltételezve; Dinamikus Programozás
• Nem ismerjük P-t és R-et, mintavételezés;
„Temporal Difference learning”
s
4
3
5
(s)
st st+1rt+1
at = (st)
15
TD(0) tanulás: Politikák kiértékelése
t:=0
is the policy to be evaluated
Initialise arbitrarily for all
Repeat
select an action at from (st)
observe the transition
update according to
t:=t+1
st st+1rt+1
at
1 1 1ˆ ˆ ˆ ˆ( ) ( ) ( ( ) ( ))t t t t t t t t tV s V s r V s V s
ˆ ( )tV s s S
ˆ ( )tV s
16
„On-” és „Off-” politika tanulás• „On politika”: az éppen követett politikát értékeljük pl. TD
tanulással
• „Off-politika”: más politikát követünk, mint aminek az értékét számoljuk
• Pl. Q-tanulás:
st st+1rt+1
at
1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) max ( , ) ( , )t t t t t t t t t t t t
b AQ s a Q s a r Q s b Q s a
1 1 1ˆ ˆ ˆ ˆ( ) ( ) ( ( ) ( ))t t t t t t t t tV s V s r V s V s
st+1
atst
rt+1
17
„Off-politika” tanulás
• A Q-tanulás előnyei
– Az optimális politika értékét becsli
– miközben tetszőleges (felfedező) akciókat lehet végrehatjani
• -mohó felfedezés:
• Mohó akció valószínűséggel
• Véletlen akció 1-valószínűséggel
• Garantált konvergencia, ha kellően bejárjuk az MDP-t
• Meg lehet-e találni -ot „on-politika” algoritmussal?
18
„On politika” tanulás: Sarsa
• Töröljük a „max” operátort!• Értékeljük a követett politikát:
• Fokozatosan, lassan változtassuk a politikát• Konvergál! (Jaakkola,Singh,Littman,Szepesvári)
1 1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) ( , ) ( , )t t t t t t t t t t t t tQ s a Q s a r Q s a Q s a
atst+1st
at+1
rt+1
19
„On politika” tanulás: Sarsa
t:=0
Initialise arbitrarily for all
select an action at from explore( )
Repeat
observe the transition
select an action at+1 from explore( )
update according to
t:=t+1
atst+1st
rt+1
20
Összefoglalás: TD, Q-learning, Sarsa • TD learning
• One step Q-learning
• Sarsa learning
1 1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) ( , ) ( , )t t t t t t t t t t t t tQ s a Q s a r Q s a Q s a
strt+1
at
1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) max ( , ) ( , )t t t t t t t t t t t t
b AQ s a Q s a r Q s b Q s a
1 1 1ˆ ˆ ˆ ˆ( ) ( ) ( ( ) ( ))t t t t t t t t tV s V s r V s V s
st+1
atst
rt+1
st+1
atst+1st
at+1
rt+1
21
• Minden állapotra meghatározunk egy „alkalmazhatósági mértéket”:
ahol
• Módosítsuk minden állapot értékét az „alkalmazhatósági mértékkel” arányosan:
2-es fokozat: „Eligibility traces”, TD( • A TD hibával a TD tanulásban csak egy állapot értékét módosítjuk:
1 1 1ˆ ˆ ˆ ˆ( ) ( ) ( ( ) ( ))t t t t t t t t tV s V s r V s V s
1
1 if ( )
( ) otherwiset
tt
s se s
e s
0 1
1 1 1ˆ ˆ ˆ ˆ( ) ( ) ( ( ) ( )) ( )t t t t t t t tV s V s r V s V s e s
ˆ ( )tV s
at-2 at-1 at
rt-1 rt rt+1
st-2 st-1 st st+1
22
„Eligibility trace” a Q-tanulásban: Q()
• Sokféleképpen lehet csinálni
• Pl. minden s,a párra:
• Nem-mohó akciónál is van információ visszaterjesztés
• Elvész a konvergencia garancia!
• Watkin’s megoldási javaslata: nem-mohó után e:=0
• Probléma: hatásfokot csökkenti
• “Bias variance” dilemma
rt+1
st+1rt
at-1 atat+1
st-1 st
agreedy
1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) max ( , ) ( , ) ( , )t t t t t t t t t
b AQ s a Q s a r Q s b Q s a e s a
23
Sarsa()
• Másik megoldás: használjuk a Sarsa algoritmust!
• Minden s,a párra:
• Konvergencia tulajdonság megmarad(?)
1 1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) ( , ) ( , ) ( , )t t t t t t t t t tQ s a Q s a r Q s a Q s a e s a
at at+1 at+2
rt+1 rt+2
st st+1 st+2
24
„Közelítő” RL
• Miért?
– Idő és tárkorlátok!
(Bellman: dimenzionalítás átka)
– Általánosítás új szituációkra (elégtelen mintavételezés)
• Megoldások
– Érték-függvény közelítése
– Politika térbeli keresés
– Közelítő modellek + tervezés
25
Lineáris approximáció
• Egyszerű és hasznos!
• Vannak konvergencia eredmények
• Most: lineáris TD(
Súlyvektor a t. időpillanatban:
„Feature” vektor az s állapotra:
Becslés
Cél: minimalizálni..
1 , 2t t t t n
1 , 2s s s s n
t̂ t sV s
2ˆMSE ( )t t
s S
P s V s V s
26
Értékfüggvény közelítés: approximátorok• Választások: pl. CMAC, RBF népszerűek
• CMAC: n db. cserépdarab
• „Features”
• Tulajdonságok– „Coarse coding”
– Szabályos fedés jó hatásfok
– Véletlen hash: memóriaigénycsökkenti
1 , 2s s s s n
1 or 0s i
27
Lineáris közelítések
• Gradiens módszer -re
• TD egyenlet új alakja:
• Most az E.T. n-dimenziós vektor, amit így módosítunk:
• Konvergál -hoz
t
1 1ˆ ˆ
t t t t t t t tr V s V s e
1t t te e
*
28
Újabb önreklám
• William D. Smart, Cs. Szepesvári, ICML’2004:
• Q-learning egy formája konvergál egy megfelelő függvény-approximátorral együtt használva.
• Nem gradiens módszer.
• A megfelelő gradiens módszer konvergenciája nem ismert.
• Sejtés: ....
Konvergens?
29
Egy különösen sikeres példa:TD-gammon
• TD() tanulás, 1 rejtett rétegű neuronháló, Backprop
• 1,500,000 játék (saját magával)
• A legjobb játékosokkal azonos képességek (világbajnok)
• Backgammon állapottere: ~1020 , DP nem megy!!
30
Modell alapú RL: struktúrált modellek• Dinamikus Bayes háló a P állapotátmenetek reprezentációjára
(másképp: faktorizált MDP)
• V: fa
• Backup: „goal regression”
• Hasonlít a tervezési feladatokra
31
RL: rejtett állapotok
• POMDP, k-Markov
• POMDP-ben a tervezés nem(sem) kivihető (intractable)
• Faktorizált POMDP-k: igéretes
• Politika keresés előnyös
at at+1 at+2
rt+1 rt+2
st st+1 st+2
ot ot+1 ot+2
32
Politika keresés (direkt módszer)
• Módszerek– Gradiens– Evolúciós (egyéb local/global search)
33
Alkalmazások
34
Robot navigációs feladat
• Pavlov: Nomad 200 robot
• Nomad 200 simulator
Sridhar MahadevanUMass
35
Hierarchikus modellek – térbeli modellezésre
575 states
1385 states
Corridorstate
Entireenvironment
Productionstate
Sridhar MahadevanUMass
36
Hierarchikus modellek
abstract states
product states,which generate observations
entry states
exit states
verticaltransitions
horizontaltransitions
37
Internet forgalom-szabályozás“Multi-protocol label switching”
Ingress router
ingress router egress router
egress router
Cél: a sok lehetséges útvonalból úgy választani, hogy a blokkolásvalószínűségét minimalizáljuk
(Yong Liu, Singapore)
38
Robot foci: szimulációs liga
Situation (s) Action (a) Utility Q(s,a)
Ball kickable, goal near shoot 0.6
Ball kickable, goal far shoot 0.33
Ball kickable, goal far pass 0.4
… … …
Jeremy WyattYoshiyuki MatsumuraMatthew ToddUniversity of BirminghamSchool of Computer Science
39
A k-lábú robot
40
Egyidejű (konkurrens) akciók
Example: driving
Look in the mirror Look at the road Check the speed
Press brakes Accelerate Press brakes
Put on high gear Steer the wheelSteer the wheel
Right arm
Decision epochs
Head & eyes
Legs
41
Alkalmazások (A-tól N-ig)
• Airline Meal Planning
• Behaviourial Ecology
• Capacity Expansion
• Decision Analysis
• Equipment Replacement
• Fisheries Management
• Gambling Systems
• Highway Pavement Repair
• Inventory Control
• Job Seeking Strategies
• Knapsack Problems
• Learning
• Medical Treatment
• Network Control
M.L.Puterman, 2002
42
Alkalmazások (O-tól Z-ig)
• Option Pricing
• Project Selection
• Queueing System Control
• Robotic Motion
• Scheduling
• Tetris
• User Modeling
• Vision (Computer)
• Water Resources
• X-Ray Dosage
• Yield Management
• Zebra Hunting
M.L.Puterman, 2002
43
Néhány további RL alkalmazás
• Liftek vezérlése (Barto & Crites)• Ütemezési feladatok, űrsikló pakolása (Zhang &
Dietterich)• Dinamikus csatorna kiosztás mobil hálózatokban (Singh
& Bertsekas)• Egyensúlyozás: Járni, biciklizni, seprűt egyensúlyozni
tanulás, zsonglőrködés• Ragadozó-préda (PacMan)• Portfólió optimalizálás
44
Aktív területek
• Optimális felfedező stratégiák
• Struktúrált modellek
• Relációs modellek
• Folytonos állapot és akció-terek
• Hierarchikus RL
• Állapotok és akciók absztrakciói (options, macros,..)
• Rejtett állapotok (eg. POMDPs)
• Prediktív állapot-reprezentáció
• Politika keresés
• Szignifikancia tesztek
45
Reinforcement Learning: key papers
OverviewsR. Sutton and A. Barto. Reinforcement Learning: An Introduction. The MIT Press,
1998.J. Wyatt, Reinforcement Learning: A Brief Overview. Perspectives on Adaptivity
and Learning. Springer Verlag, 2003.L.Kaelbling, M.Littman and A.Moore, Reinforcement Learning: A Survey. Journal
of Artificial Intelligence Research, 4:237-285, 1996.
Value Function ApproximationD. Bersekas and J.Tsitsiklis. Neurodynamic Programming. Athena Scientific, 1998.
Eligibility TracesS.Singh and R. Sutton. Reinforcement learning with replacing eligibility traces.
Machine Learning, 22:123-158, 1996.
46
Reinforcement Learning: key papers
Structured Models and Planning
C. Boutillier, T. Dean and S. Hanks. Decision Theoretic Planning: Structural Assumptions and Computational Leverage. Journal of Artificial Intelligence Research, 11:1-94, 1999.
R. Dearden, C. Boutillier and M.Goldsmidt. Stochastic dynamic programming with factored representations. Artificial Intelligence, 121(1-2):49-107, 2000.
B. Sallans. Reinforcement Learning for Factored Markov Decision ProcessesPh.D. Thesis, Dept. of Computer Science, University of Toronto, 2001.
K. Murphy. Dynamic Bayesian Networks: Representation, Inference and Learning. Ph.D. Thesis, University of California, Berkeley, 2002.
47
Reinforcement Learning: key papers
Policy SearchR. Williams. Simple statistical gradient algorithms for connectionist reinforcement
learning. Machine Learning, 8:229-256.R. Sutton, D. McAllester, S. Singh, Y. Mansour. Policy Gradient Methods for
Reinforcement Learning with Function Approximation. NIPS 12, 2000.
Hierarchical Reinforcement LearningR. Sutton, D. Precup and S. Singh. Between MDPs and Semi-MDPs: a framework
for temporal abstraction in reinforcement learning. Artificial Intelligence, 112:181-211.
R. Parr. Hierarchical Control and Learning for Markov Decision Processes. PhD Thesis, University of California, Berkeley, 1998.
A. Barto and S. Mahadevan. Recent Advances in Hierarchical Reinforcement Learning. Discrete Event Systems Journal 13: 41-77, 2003.
48
Reinforcement Learning: key papers
Exploration
N. Meuleau and P.Bourgnine. Exploration of multi-state environments: Local Measures and back-propagation of uncertainty. Machine Learning, 35:117-154, 1999.
J. Wyatt. Exploration control in reinforcement learning using optimistic model selection. In Proceedings of 18th International Conference on Machine Learning, 2001.
POMDPs
L. Kaelbling, M. Littman, A. Cassandra. Planning and Acting in Partially Observable Stochastic Domains. Artificial Intelligence, 101:99-134, 1998.