rl talk 2004 09 alkmat rl talk 2004 09 alkmat

Megerősítéses Tanulás=

Reinforcement Learning (RL)

Szepesvári Csaba

Gépi Tanulás és Ember-Gép Interfészek Csoport

MTA SZTAKI

[email protected]

www.sztaki.hu/~szcsaba

mailto:[email protected]

http://www.sztaki.hu/~szcsaba~

http://www.sztaki.hu/~szcsaba~

2

Gépi tanulás és Ember-Gép Interfészek CsoportMTA SZTAKI, 2004-

• Tanulás– Megerősítéses tanulás– Klasszifikáció– Jellegzetesség kivonás

• Alkalmazási területek– Kontroll, játékok– Beszéd– Természetes nyelv (NKFP projekt:

NYELVBÁNYÁSZ)– Pénzügyi mat. (portfólió opt.)

•Kocsis Levente, PhD

•Szepesvári Csaba, PhD

•Szamonek Zoltán, PhD hallg.

•„your name”?

MA: Megerősítéses Tanulás

•Tartalom:

•Motiváció

•Algoritmusok, módszerek, eszközök

•Alkalmazások

4

AI - „a nagy kép”

Intelligencia:- Tanulás„Programozói” lustaság + a feladatok komplexitásának kezelése:- Minél önállóbb tanulás

5

PókerCélok: •mesterszintű játék•játék aspektusok•ellenfél modellezés

Hol tartunk? (MLHCI Csoport)

Autóverseny-szimulátorCélok: •Emberi teljesítmény mesteri reprodukciója•Autóvezetés forgalomban

6

Mi a megerősítéses tanulás (RL) ?

• Nagyfokú önállóság a tanulásban• Információk:

– büntetés/jutalom alapján– megfigyelések a környezetről (állapotok)

• Cél: a jutalom egy függvényét maximalizálni!

s9s5s4s2

……

…s3

+50

-1-1

+3

r9r5r4r1

s1

a9a5a4a2 …a3a1

7

A k-karú bandita probléma

Ágens

Akciók

Átlagos kifizetés (jutalom)

10

-5

100

0

0, 0, 5, 10, 35

5, 10, -15, -15, -10

8

Markov Döntési Folyamatok ~ Markov Decision Processes

(MDPs)• Állapotok, véletlentől függő átmenetekkel• Átmenetvalószínűségek aktuális állapottól függnek

• Transition matrix P, and reward function

r = 2211r = 0a1

a2

9

Hosszútávú jutalom

• Ágens politikája rögzített:

• Az Rt kifizetés a t pillanat utáni össz-jutalom

+50

-1-1

+3

r9r5r4r1

10

Érték = Hasznosság = Várható kifizetés

• Rt valószínűségi változó

• Vehetjük a várható értékét! Politikától függ Rt !

• Feladat: találjuk meg azt a politikát amelyik a várható értéket maximalizálja, minden állapotban

11

Az eddigi sztori..• RL feladatok részei:

– Több lépéses döntési feladatok

– Cél *-ot megtalálni

– Kritérium: Rövid távú Hosszú távú

rt+1 rt+2 rt+3

at at+1 at+2st st+1 st+2 st+3

12

A Bellman egyenletek

• A Markov tulajdonság miatt a várható összjutalmat egy rekurzív egyenlettel is kifejezhető:

ahol

és

Másképp:

s

4

3

5

(s)

V = TV vagy BV = 0

13

Bellman egyenletek- optimális értékelő függvény

• Optimális értékelő függvény

• Mohó politka: mindig a Q* szerinti legjobb akciót választja: argmax_a Q*(s,a)

• Ez optimális!!!• Politika javítás algoritmus: (kiértékel, javít)*

14

„Bootstrapping” módszerek• P és R ismeretét feltételezve; Dinamikus Programozás

• Nem ismerjük P-t és R-et, mintavételezés;

„Temporal Difference learning”

s

4

3

5

(s)

st st+1rt+1

at = (st)

15

TD(0) tanulás: Politikák kiértékelése

t:=0

is the policy to be evaluated

Initialise arbitrarily for all

Repeat

select an action at from (st)

observe the transition

update according to

t:=t+1

st st+1rt+1

at

1 1 1ˆ ˆ ˆ ˆ( ) ( ) ( ( ) ( ))t t t t t t t t tV s V s r V s V s

ˆ ( )tV s s S

ˆ ( )tV s

16

„On-” és „Off-” politika tanulás• „On politika”: az éppen követett politikát értékeljük pl. TD

tanulással

• „Off-politika”: más politikát követünk, mint aminek az értékét számoljuk

• Pl. Q-tanulás:

st st+1rt+1

at

1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) max ( , ) ( , )t t t t t t t t t t t t

b AQ s a Q s a r Q s b Q s a


st+1

atst

rt+1

17

„Off-politika” tanulás

• A Q-tanulás előnyei

– Az optimális politika értékét becsli

– miközben tetszőleges (felfedező) akciókat lehet végrehatjani

• -mohó felfedezés:

• Mohó akció valószínűséggel

• Véletlen akció 1-valószínűséggel

• Garantált konvergencia, ha kellően bejárjuk az MDP-t

• Meg lehet-e találni -ot „on-politika” algoritmussal?

18

„On politika” tanulás: Sarsa

• Töröljük a „max” operátort!• Értékeljük a követett politikát:

• Fokozatosan, lassan változtassuk a politikát• Konvergál! (Jaakkola,Singh,Littman,Szepesvári)

1 1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) ( , ) ( , )t t t t t t t t t t t t tQ s a Q s a r Q s a Q s a

atst+1st

at+1

rt+1

19

„On politika” tanulás: Sarsa

t:=0

Initialise arbitrarily for all

select an action at from explore( )

Repeat

observe the transition

select an action at+1 from explore( )

update according to

t:=t+1

atst+1st

rt+1

20

Összefoglalás: TD, Q-learning, Sarsa • TD learning

• One step Q-learning

• Sarsa learning

1 1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) ( , ) ( , )t t t t t t t t t t t t tQ s a Q s a r Q s a Q s a

strt+1

at

1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) max ( , ) ( , )t t t t t t t t t t t t

b AQ s a Q s a r Q s b Q s a


st+1

atst

rt+1

st+1

atst+1st

at+1

rt+1

21

• Minden állapotra meghatározunk egy „alkalmazhatósági mértéket”:

ahol

• Módosítsuk minden állapot értékét az „alkalmazhatósági mértékkel” arányosan:

2-es fokozat: „Eligibility traces”, TD( • A TD hibával a TD tanulásban csak egy állapot értékét módosítjuk:


1

1 if ( )

( ) otherwiset

tt

s se s

e s

0 1

1 1 1ˆ ˆ ˆ ˆ( ) ( ) ( ( ) ( )) ( )t t t t t t t tV s V s r V s V s e s

ˆ ( )tV s

at-2 at-1 at

rt-1 rt rt+1

st-2 st-1 st st+1

22

„Eligibility trace” a Q-tanulásban: Q()

• Sokféleképpen lehet csinálni

• Pl. minden s,a párra:

• Nem-mohó akciónál is van információ visszaterjesztés

• Elvész a konvergencia garancia!

• Watkin’s megoldási javaslata: nem-mohó után e:=0

• Probléma: hatásfokot csökkenti

• “Bias variance” dilemma

rt+1

st+1rt

at-1 atat+1

st-1 st

agreedy

1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) max ( , ) ( , ) ( , )t t t t t t t t t

b AQ s a Q s a r Q s b Q s a e s a

23

Sarsa()

• Másik megoldás: használjuk a Sarsa algoritmust!

• Minden s,a párra:

• Konvergencia tulajdonság megmarad(?)

1 1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) ( , ) ( , ) ( , )t t t t t t t t t tQ s a Q s a r Q s a Q s a e s a

at at+1 at+2

rt+1 rt+2

st st+1 st+2

24

„Közelítő” RL

• Miért?

– Idő és tárkorlátok!

(Bellman: dimenzionalítás átka)

– Általánosítás új szituációkra (elégtelen mintavételezés)

• Megoldások

– Érték-függvény közelítése

– Politika térbeli keresés

– Közelítő modellek + tervezés

25

Lineáris approximáció

• Egyszerű és hasznos!

• Vannak konvergencia eredmények

• Most: lineáris TD(

Súlyvektor a t. időpillanatban:

„Feature” vektor az s állapotra:

Becslés

Cél: minimalizálni..

1 , 2t t t t n

1 , 2s s s s n

t̂ t sV s

2ˆMSE ( )t t

s S

P s V s V s

26

Értékfüggvény közelítés: approximátorok• Választások: pl. CMAC, RBF népszerűek

• CMAC: n db. cserépdarab

• „Features”

• Tulajdonságok– „Coarse coding”

– Szabályos fedés jó hatásfok

– Véletlen hash: memóriaigénycsökkenti

1 , 2s s s s n

1 or 0s i

27

Lineáris közelítések

• Gradiens módszer -re

• TD egyenlet új alakja:

• Most az E.T. n-dimenziós vektor, amit így módosítunk:

• Konvergál -hoz

t

1 1ˆ ˆ

t t t t t t t tr V s V s e

1t t te e

*

28

Újabb önreklám

• William D. Smart, Cs. Szepesvári, ICML’2004:

• Q-learning egy formája konvergál egy megfelelő függvény-approximátorral együtt használva.

• Nem gradiens módszer.

• A megfelelő gradiens módszer konvergenciája nem ismert.

• Sejtés: ....

Konvergens?

29

Egy különösen sikeres példa:TD-gammon

• TD() tanulás, 1 rejtett rétegű neuronháló, Backprop

• 1,500,000 játék (saját magával)

• A legjobb játékosokkal azonos képességek (világbajnok)

• Backgammon állapottere: ~1020 , DP nem megy!!

30

Modell alapú RL: struktúrált modellek• Dinamikus Bayes háló a P állapotátmenetek reprezentációjára

(másképp: faktorizált MDP)

• V: fa

• Backup: „goal regression”

• Hasonlít a tervezési feladatokra

31

RL: rejtett állapotok

• POMDP, k-Markov

• POMDP-ben a tervezés nem(sem) kivihető (intractable)

• Faktorizált POMDP-k: igéretes

• Politika keresés előnyös

at at+1 at+2

rt+1 rt+2

st st+1 st+2

ot ot+1 ot+2

32

Politika keresés (direkt módszer)

• Módszerek– Gradiens– Evolúciós (egyéb local/global search)

33

Alkalmazások

34

Robot navigációs feladat

• Pavlov: Nomad 200 robot

• Nomad 200 simulator

Sridhar MahadevanUMass

35

Hierarchikus modellek – térbeli modellezésre

575 states

1385 states

Corridorstate

Entireenvironment

Productionstate

Sridhar MahadevanUMass

36

Hierarchikus modellek

abstract states

product states,which generate observations

entry states

exit states

verticaltransitions

horizontaltransitions

37

Internet forgalom-szabályozás“Multi-protocol label switching”

Ingress router

ingress router egress router

egress router

Cél: a sok lehetséges útvonalból úgy választani, hogy a blokkolásvalószínűségét minimalizáljuk

(Yong Liu, Singapore)

38

Robot foci: szimulációs liga

Situation (s) Action (a) Utility Q(s,a)

Ball kickable, goal near shoot 0.6

Ball kickable, goal far shoot 0.33

Ball kickable, goal far pass 0.4

… … …

Jeremy WyattYoshiyuki MatsumuraMatthew ToddUniversity of BirminghamSchool of Computer Science

39

A k-lábú robot

40

Egyidejű (konkurrens) akciók

Example: driving

Look in the mirror Look at the road Check the speed

Press brakes Accelerate Press brakes

Put on high gear Steer the wheelSteer the wheel

Right arm

Decision epochs

Head & eyes

Legs

41

Alkalmazások (A-tól N-ig)

• Airline Meal Planning

• Behaviourial Ecology

• Capacity Expansion

• Decision Analysis

• Equipment Replacement

• Fisheries Management

• Gambling Systems

• Highway Pavement Repair

• Inventory Control

• Job Seeking Strategies

• Knapsack Problems

• Learning

• Medical Treatment

• Network Control

M.L.Puterman, 2002

42

Alkalmazások (O-tól Z-ig)

• Option Pricing

• Project Selection

• Queueing System Control

• Robotic Motion

• Scheduling

• Tetris

• User Modeling

• Vision (Computer)

• Water Resources

• X-Ray Dosage

• Yield Management

• Zebra Hunting

M.L.Puterman, 2002

43

Néhány további RL alkalmazás

• Liftek vezérlése (Barto & Crites)• Ütemezési feladatok, űrsikló pakolása (Zhang &

Dietterich)• Dinamikus csatorna kiosztás mobil hálózatokban (Singh

& Bertsekas)• Egyensúlyozás: Járni, biciklizni, seprűt egyensúlyozni

tanulás, zsonglőrködés• Ragadozó-préda (PacMan)• Portfólió optimalizálás

44

Aktív területek

• Optimális felfedező stratégiák

• Struktúrált modellek

• Relációs modellek

• Folytonos állapot és akció-terek

• Hierarchikus RL

• Állapotok és akciók absztrakciói (options, macros,..)

• Rejtett állapotok (eg. POMDPs)

• Prediktív állapot-reprezentáció

• Politika keresés

• Szignifikancia tesztek

45

Reinforcement Learning: key papers

OverviewsR. Sutton and A. Barto. Reinforcement Learning: An Introduction. The MIT Press,

1998.J. Wyatt, Reinforcement Learning: A Brief Overview. Perspectives on Adaptivity

and Learning. Springer Verlag, 2003.L.Kaelbling, M.Littman and A.Moore, Reinforcement Learning: A Survey. Journal

of Artificial Intelligence Research, 4:237-285, 1996.

Value Function ApproximationD. Bersekas and J.Tsitsiklis. Neurodynamic Programming. Athena Scientific, 1998.

Eligibility TracesS.Singh and R. Sutton. Reinforcement learning with replacing eligibility traces.

Machine Learning, 22:123-158, 1996.

46


Structured Models and Planning

C. Boutillier, T. Dean and S. Hanks. Decision Theoretic Planning: Structural Assumptions and Computational Leverage. Journal of Artificial Intelligence Research, 11:1-94, 1999.

R. Dearden, C. Boutillier and M.Goldsmidt. Stochastic dynamic programming with factored representations. Artificial Intelligence, 121(1-2):49-107, 2000.

B. Sallans. Reinforcement Learning for Factored Markov Decision ProcessesPh.D. Thesis, Dept. of Computer Science, University of Toronto, 2001.

K. Murphy. Dynamic Bayesian Networks: Representation, Inference and Learning. Ph.D. Thesis, University of California, Berkeley, 2002.

47


Policy SearchR. Williams. Simple statistical gradient algorithms for connectionist reinforcement

learning. Machine Learning, 8:229-256.R. Sutton, D. McAllester, S. Singh, Y. Mansour. Policy Gradient Methods for

Reinforcement Learning with Function Approximation. NIPS 12, 2000.

Hierarchical Reinforcement LearningR. Sutton, D. Precup and S. Singh. Between MDPs and Semi-MDPs: a framework

for temporal abstraction in reinforcement learning. Artificial Intelligence, 112:181-211.

R. Parr. Hierarchical Control and Learning for Markov Decision Processes. PhD Thesis, University of California, Berkeley, 1998.

A. Barto and S. Mahadevan. Recent Advances in Hierarchical Reinforcement Learning. Discrete Event Systems Journal 13: 41-77, 2003.

48


Exploration

N. Meuleau and P.Bourgnine. Exploration of multi-state environments: Local Measures and back-propagation of uncertainty. Machine Learning, 35:117-154, 1999.

J. Wyatt. Exploration control in reinforcement learning using optimistic model selection. In Proceedings of 18th International Conference on Machine Learning, 2001.

POMDPs

L. Kaelbling, M. Littman, A. Cassandra. Planning and Acting in Partially Observable Stochastic Domains. Artificial Intelligence, 101:99-134, 1998.

rl talk 2004 09 alkmat rl talk 2004 09 alkmat

Documents