rl talk 2004 09 alkmat rl talk 2004 09 alkmat
DESCRIPTION
RL Talk 2004 09 AlkmatTRANSCRIPT
![Page 1: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/1.jpg)
Megerősítéses Tanulás=
Reinforcement Learning (RL)
Szepesvári Csaba
Gépi Tanulás és Ember-Gép Interfészek Csoport
MTA SZTAKI
www.sztaki.hu/~szcsaba
![Page 2: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/2.jpg)
2
Gépi tanulás és Ember-Gép Interfészek CsoportMTA SZTAKI, 2004-
• Tanulás– Megerősítéses tanulás– Klasszifikáció– Jellegzetesség kivonás
• Alkalmazási területek– Kontroll, játékok– Beszéd– Természetes nyelv (NKFP projekt:
NYELVBÁNYÁSZ)– Pénzügyi mat. (portfólió opt.)
•Kocsis Levente, PhD
•Szepesvári Csaba, PhD
•Szamonek Zoltán, PhD hallg.
•„your name”?
![Page 3: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/3.jpg)
MA: Megerősítéses Tanulás
•Tartalom:
•Motiváció
•Algoritmusok, módszerek, eszközök
•Alkalmazások
![Page 4: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/4.jpg)
4
AI - „a nagy kép”
Intelligencia:- Tanulás„Programozói” lustaság + a feladatok komplexitásának kezelése:- Minél önállóbb tanulás
![Page 5: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/5.jpg)
5
PókerCélok: •mesterszintű játék•játék aspektusok•ellenfél modellezés
Hol tartunk? (MLHCI Csoport)
Autóverseny-szimulátorCélok: •Emberi teljesítmény mesteri reprodukciója•Autóvezetés forgalomban
![Page 6: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/6.jpg)
6
Mi a megerősítéses tanulás (RL) ?
• Nagyfokú önállóság a tanulásban• Információk:
– büntetés/jutalom alapján– megfigyelések a környezetről (állapotok)
• Cél: a jutalom egy függvényét maximalizálni!
s9s5s4s2
……
…s3
+50
-1-1
+3
r9r5r4r1
s1
a9a5a4a2 …a3a1
![Page 7: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/7.jpg)
7
A k-karú bandita probléma
Ágens
Akciók
Átlagos kifizetés (jutalom)
10
-5
100
0
0, 0, 5, 10, 35
5, 10, -15, -15, -10
![Page 8: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/8.jpg)
8
Markov Döntési Folyamatok ~ Markov Decision Processes
(MDPs)• Állapotok, véletlentől függő átmenetekkel• Átmenetvalószínűségek aktuális állapottól függnek
• Transition matrix P, and reward function
r = 2211r = 0a1
a2
![Page 9: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/9.jpg)
9
Hosszútávú jutalom
• Ágens politikája rögzített:
• Az Rt kifizetés a t pillanat utáni össz-jutalom
+50
-1-1
+3
r9r5r4r1
![Page 10: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/10.jpg)
10
Érték = Hasznosság = Várható kifizetés
• Rt valószínűségi változó
• Vehetjük a várható értékét! Politikától függ Rt !
• Feladat: találjuk meg azt a politikát amelyik a várható értéket maximalizálja, minden állapotban
![Page 11: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/11.jpg)
11
Az eddigi sztori..• RL feladatok részei:
– Több lépéses döntési feladatok
– Cél *-ot megtalálni
– Kritérium: Rövid távú Hosszú távú
rt+1 rt+2 rt+3
at at+1 at+2st st+1 st+2 st+3
![Page 12: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/12.jpg)
12
A Bellman egyenletek
• A Markov tulajdonság miatt a várható összjutalmat egy rekurzív egyenlettel is kifejezhető:
ahol
és
Másképp:
s
4
3
5
(s)
V = TV vagy BV = 0
![Page 13: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/13.jpg)
13
Bellman egyenletek- optimális értékelő függvény
• Optimális értékelő függvény
• Mohó politka: mindig a Q* szerinti legjobb akciót választja: argmax_a Q*(s,a)
• Ez optimális!!!• Politika javítás algoritmus: (kiértékel, javít)*
![Page 14: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/14.jpg)
14
„Bootstrapping” módszerek• P és R ismeretét feltételezve; Dinamikus Programozás
• Nem ismerjük P-t és R-et, mintavételezés;
„Temporal Difference learning”
s
4
3
5
(s)
st st+1rt+1
at = (st)
![Page 15: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/15.jpg)
15
TD(0) tanulás: Politikák kiértékelése
t:=0
is the policy to be evaluated
Initialise arbitrarily for all
Repeat
select an action at from (st)
observe the transition
update according to
t:=t+1
st st+1rt+1
at
1 1 1ˆ ˆ ˆ ˆ( ) ( ) ( ( ) ( ))t t t t t t t t tV s V s r V s V s
ˆ ( )tV s s S
ˆ ( )tV s
![Page 16: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/16.jpg)
16
„On-” és „Off-” politika tanulás• „On politika”: az éppen követett politikát értékeljük pl. TD
tanulással
• „Off-politika”: más politikát követünk, mint aminek az értékét számoljuk
• Pl. Q-tanulás:
st st+1rt+1
at
1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) max ( , ) ( , )t t t t t t t t t t t t
b AQ s a Q s a r Q s b Q s a
1 1 1ˆ ˆ ˆ ˆ( ) ( ) ( ( ) ( ))t t t t t t t t tV s V s r V s V s
st+1
atst
rt+1
![Page 17: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/17.jpg)
17
„Off-politika” tanulás
• A Q-tanulás előnyei
– Az optimális politika értékét becsli
– miközben tetszőleges (felfedező) akciókat lehet végrehatjani
• -mohó felfedezés:
• Mohó akció valószínűséggel
• Véletlen akció 1-valószínűséggel
• Garantált konvergencia, ha kellően bejárjuk az MDP-t
• Meg lehet-e találni -ot „on-politika” algoritmussal?
![Page 18: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/18.jpg)
18
„On politika” tanulás: Sarsa
• Töröljük a „max” operátort!• Értékeljük a követett politikát:
• Fokozatosan, lassan változtassuk a politikát• Konvergál! (Jaakkola,Singh,Littman,Szepesvári)
1 1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) ( , ) ( , )t t t t t t t t t t t t tQ s a Q s a r Q s a Q s a
atst+1st
at+1
rt+1
![Page 19: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/19.jpg)
19
„On politika” tanulás: Sarsa
t:=0
Initialise arbitrarily for all
select an action at from explore( )
Repeat
observe the transition
select an action at+1 from explore( )
update according to
t:=t+1
atst+1st
rt+1
![Page 20: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/20.jpg)
20
Összefoglalás: TD, Q-learning, Sarsa • TD learning
• One step Q-learning
• Sarsa learning
1 1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) ( , ) ( , )t t t t t t t t t t t t tQ s a Q s a r Q s a Q s a
strt+1
at
1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) max ( , ) ( , )t t t t t t t t t t t t
b AQ s a Q s a r Q s b Q s a
1 1 1ˆ ˆ ˆ ˆ( ) ( ) ( ( ) ( ))t t t t t t t t tV s V s r V s V s
st+1
atst
rt+1
st+1
atst+1st
at+1
rt+1
![Page 21: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/21.jpg)
21
• Minden állapotra meghatározunk egy „alkalmazhatósági mértéket”:
ahol
• Módosítsuk minden állapot értékét az „alkalmazhatósági mértékkel” arányosan:
2-es fokozat: „Eligibility traces”, TD( • A TD hibával a TD tanulásban csak egy állapot értékét módosítjuk:
1 1 1ˆ ˆ ˆ ˆ( ) ( ) ( ( ) ( ))t t t t t t t t tV s V s r V s V s
1
1 if ( )
( ) otherwiset
tt
s se s
e s
0 1
1 1 1ˆ ˆ ˆ ˆ( ) ( ) ( ( ) ( )) ( )t t t t t t t tV s V s r V s V s e s
ˆ ( )tV s
at-2 at-1 at
rt-1 rt rt+1
st-2 st-1 st st+1
![Page 22: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/22.jpg)
22
„Eligibility trace” a Q-tanulásban: Q()
• Sokféleképpen lehet csinálni
• Pl. minden s,a párra:
• Nem-mohó akciónál is van információ visszaterjesztés
• Elvész a konvergencia garancia!
• Watkin’s megoldási javaslata: nem-mohó után e:=0
• Probléma: hatásfokot csökkenti
• “Bias variance” dilemma
rt+1
st+1rt
at-1 atat+1
st-1 st
agreedy
1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) max ( , ) ( , ) ( , )t t t t t t t t t
b AQ s a Q s a r Q s b Q s a e s a
![Page 23: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/23.jpg)
23
Sarsa()
• Másik megoldás: használjuk a Sarsa algoritmust!
• Minden s,a párra:
• Konvergencia tulajdonság megmarad(?)
1 1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) ( , ) ( , ) ( , )t t t t t t t t t tQ s a Q s a r Q s a Q s a e s a
at at+1 at+2
rt+1 rt+2
st st+1 st+2
![Page 24: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/24.jpg)
24
„Közelítő” RL
• Miért?
– Idő és tárkorlátok!
(Bellman: dimenzionalítás átka)
– Általánosítás új szituációkra (elégtelen mintavételezés)
• Megoldások
– Érték-függvény közelítése
– Politika térbeli keresés
– Közelítő modellek + tervezés
![Page 25: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/25.jpg)
25
Lineáris approximáció
• Egyszerű és hasznos!
• Vannak konvergencia eredmények
• Most: lineáris TD(
Súlyvektor a t. időpillanatban:
„Feature” vektor az s állapotra:
Becslés
Cél: minimalizálni..
1 , 2t t t t n
1 , 2s s s s n
t̂ t sV s
2ˆMSE ( )t t
s S
P s V s V s
![Page 26: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/26.jpg)
26
Értékfüggvény közelítés: approximátorok• Választások: pl. CMAC, RBF népszerűek
• CMAC: n db. cserépdarab
• „Features”
• Tulajdonságok– „Coarse coding”
– Szabályos fedés jó hatásfok
– Véletlen hash: memóriaigénycsökkenti
1 , 2s s s s n
1 or 0s i
![Page 27: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/27.jpg)
27
Lineáris közelítések
• Gradiens módszer -re
• TD egyenlet új alakja:
• Most az E.T. n-dimenziós vektor, amit így módosítunk:
• Konvergál -hoz
t
1 1ˆ ˆ
t t t t t t t tr V s V s e
1t t te e
*
![Page 28: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/28.jpg)
28
Újabb önreklám
• William D. Smart, Cs. Szepesvári, ICML’2004:
• Q-learning egy formája konvergál egy megfelelő függvény-approximátorral együtt használva.
• Nem gradiens módszer.
• A megfelelő gradiens módszer konvergenciája nem ismert.
• Sejtés: ....
Konvergens?
![Page 29: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/29.jpg)
29
Egy különösen sikeres példa:TD-gammon
• TD() tanulás, 1 rejtett rétegű neuronháló, Backprop
• 1,500,000 játék (saját magával)
• A legjobb játékosokkal azonos képességek (világbajnok)
• Backgammon állapottere: ~1020 , DP nem megy!!
![Page 30: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/30.jpg)
30
Modell alapú RL: struktúrált modellek• Dinamikus Bayes háló a P állapotátmenetek reprezentációjára
(másképp: faktorizált MDP)
• V: fa
• Backup: „goal regression”
• Hasonlít a tervezési feladatokra
![Page 31: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/31.jpg)
31
RL: rejtett állapotok
• POMDP, k-Markov
• POMDP-ben a tervezés nem(sem) kivihető (intractable)
• Faktorizált POMDP-k: igéretes
• Politika keresés előnyös
at at+1 at+2
rt+1 rt+2
st st+1 st+2
ot ot+1 ot+2
![Page 32: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/32.jpg)
32
Politika keresés (direkt módszer)
• Módszerek– Gradiens– Evolúciós (egyéb local/global search)
![Page 33: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/33.jpg)
33
Alkalmazások
![Page 34: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/34.jpg)
34
Robot navigációs feladat
• Pavlov: Nomad 200 robot
• Nomad 200 simulator
Sridhar MahadevanUMass
![Page 35: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/35.jpg)
35
Hierarchikus modellek – térbeli modellezésre
575 states
1385 states
Corridorstate
Entireenvironment
Productionstate
Sridhar MahadevanUMass
![Page 36: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/36.jpg)
36
Hierarchikus modellek
abstract states
product states,which generate observations
entry states
exit states
verticaltransitions
horizontaltransitions
![Page 37: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/37.jpg)
37
Internet forgalom-szabályozás“Multi-protocol label switching”
Ingress router
ingress router egress router
egress router
Cél: a sok lehetséges útvonalból úgy választani, hogy a blokkolásvalószínűségét minimalizáljuk
(Yong Liu, Singapore)
![Page 38: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/38.jpg)
38
Robot foci: szimulációs liga
Situation (s) Action (a) Utility Q(s,a)
Ball kickable, goal near shoot 0.6
Ball kickable, goal far shoot 0.33
Ball kickable, goal far pass 0.4
… … …
Jeremy WyattYoshiyuki MatsumuraMatthew ToddUniversity of BirminghamSchool of Computer Science
![Page 39: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/39.jpg)
39
A k-lábú robot
![Page 40: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/40.jpg)
40
Egyidejű (konkurrens) akciók
Example: driving
Look in the mirror Look at the road Check the speed
Press brakes Accelerate Press brakes
Put on high gear Steer the wheelSteer the wheel
Right arm
Decision epochs
Head & eyes
Legs
![Page 41: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/41.jpg)
41
Alkalmazások (A-tól N-ig)
• Airline Meal Planning
• Behaviourial Ecology
• Capacity Expansion
• Decision Analysis
• Equipment Replacement
• Fisheries Management
• Gambling Systems
• Highway Pavement Repair
• Inventory Control
• Job Seeking Strategies
• Knapsack Problems
• Learning
• Medical Treatment
• Network Control
M.L.Puterman, 2002
![Page 42: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/42.jpg)
42
Alkalmazások (O-tól Z-ig)
• Option Pricing
• Project Selection
• Queueing System Control
• Robotic Motion
• Scheduling
• Tetris
• User Modeling
• Vision (Computer)
• Water Resources
• X-Ray Dosage
• Yield Management
• Zebra Hunting
M.L.Puterman, 2002
![Page 43: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/43.jpg)
43
Néhány további RL alkalmazás
• Liftek vezérlése (Barto & Crites)• Ütemezési feladatok, űrsikló pakolása (Zhang &
Dietterich)• Dinamikus csatorna kiosztás mobil hálózatokban (Singh
& Bertsekas)• Egyensúlyozás: Járni, biciklizni, seprűt egyensúlyozni
tanulás, zsonglőrködés• Ragadozó-préda (PacMan)• Portfólió optimalizálás
![Page 44: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/44.jpg)
44
Aktív területek
• Optimális felfedező stratégiák
• Struktúrált modellek
• Relációs modellek
• Folytonos állapot és akció-terek
• Hierarchikus RL
• Állapotok és akciók absztrakciói (options, macros,..)
• Rejtett állapotok (eg. POMDPs)
• Prediktív állapot-reprezentáció
• Politika keresés
• Szignifikancia tesztek
![Page 45: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/45.jpg)
45
Reinforcement Learning: key papers
OverviewsR. Sutton and A. Barto. Reinforcement Learning: An Introduction. The MIT Press,
1998.J. Wyatt, Reinforcement Learning: A Brief Overview. Perspectives on Adaptivity
and Learning. Springer Verlag, 2003.L.Kaelbling, M.Littman and A.Moore, Reinforcement Learning: A Survey. Journal
of Artificial Intelligence Research, 4:237-285, 1996.
Value Function ApproximationD. Bersekas and J.Tsitsiklis. Neurodynamic Programming. Athena Scientific, 1998.
Eligibility TracesS.Singh and R. Sutton. Reinforcement learning with replacing eligibility traces.
Machine Learning, 22:123-158, 1996.
![Page 46: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/46.jpg)
46
Reinforcement Learning: key papers
Structured Models and Planning
C. Boutillier, T. Dean and S. Hanks. Decision Theoretic Planning: Structural Assumptions and Computational Leverage. Journal of Artificial Intelligence Research, 11:1-94, 1999.
R. Dearden, C. Boutillier and M.Goldsmidt. Stochastic dynamic programming with factored representations. Artificial Intelligence, 121(1-2):49-107, 2000.
B. Sallans. Reinforcement Learning for Factored Markov Decision ProcessesPh.D. Thesis, Dept. of Computer Science, University of Toronto, 2001.
K. Murphy. Dynamic Bayesian Networks: Representation, Inference and Learning. Ph.D. Thesis, University of California, Berkeley, 2002.
![Page 47: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/47.jpg)
47
Reinforcement Learning: key papers
Policy SearchR. Williams. Simple statistical gradient algorithms for connectionist reinforcement
learning. Machine Learning, 8:229-256.R. Sutton, D. McAllester, S. Singh, Y. Mansour. Policy Gradient Methods for
Reinforcement Learning with Function Approximation. NIPS 12, 2000.
Hierarchical Reinforcement LearningR. Sutton, D. Precup and S. Singh. Between MDPs and Semi-MDPs: a framework
for temporal abstraction in reinforcement learning. Artificial Intelligence, 112:181-211.
R. Parr. Hierarchical Control and Learning for Markov Decision Processes. PhD Thesis, University of California, Berkeley, 1998.
A. Barto and S. Mahadevan. Recent Advances in Hierarchical Reinforcement Learning. Discrete Event Systems Journal 13: 41-77, 2003.
![Page 48: RL Talk 2004 09 Alkmat RL Talk 2004 09 Alkmat](https://reader035.vdocuments.mx/reader035/viewer/2022062420/563db937550346aa9a9b2b34/html5/thumbnails/48.jpg)
48
Reinforcement Learning: key papers
Exploration
N. Meuleau and P.Bourgnine. Exploration of multi-state environments: Local Measures and back-propagation of uncertainty. Machine Learning, 35:117-154, 1999.
J. Wyatt. Exploration control in reinforcement learning using optimistic model selection. In Proceedings of 18th International Conference on Machine Learning, 2001.
POMDPs
L. Kaelbling, M. Littman, A. Cassandra. Planning and Acting in Partially Observable Stochastic Domains. Artificial Intelligence, 101:99-134, 1998.