meger ősítéses tanulás = reinforcement learning (rl)

48
Megerősítéses Tanulás = Reinforcement Learning (RL) Szepesvári Csaba Gépi Tanulás és Ember-Gép Interfészek Csoport MTA SZTAKI [email protected] www.sztaki.hu/~ szcsaba

Upload: hyacinth-roy

Post on 05-Jan-2016

42 views

Category:

Documents


3 download

DESCRIPTION

Meger ősítéses Tanulás = Reinforcement Learning (RL). Szepesv ári Csaba Gépi Tanulás és Ember-Gép Interfészek Csoport MTA SZTAKI [email protected] www.sztaki.hu/~szcsaba. Gépi tanulás és Ember-Gép Interfészek Csoport MTA SZTAKI, 2 004-. Tanulás Megerősítéses tanulás Klasszifikáció - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Meger ősítéses Tanulás = Reinforcement Learning (RL)

Megerősítéses Tanulás=

Reinforcement Learning (RL)

Szepesvári Csaba

Gépi Tanulás és Ember-Gép Interfészek Csoport

MTA SZTAKI

[email protected]

www.sztaki.hu/~szcsaba

Page 2: Meger ősítéses Tanulás = Reinforcement Learning (RL)

2

Gépi tanulás és Ember-Gép Interfészek CsoportMTA SZTAKI, 2004-

• Tanulás– Megerősítéses tanulás– Klasszifikáció– Jellegzetesség kivonás

• Alkalmazási területek– Kontroll, játékok– Beszéd– Természetes nyelv (NKFP projekt:

NYELVBÁNYÁSZ)– Pénzügyi mat. (portfólió opt.)

•Kocsis Levente, PhD

•Szepesvári Csaba, PhD

•Szamonek Zoltán, PhD hallg.

•„your name”?

Page 3: Meger ősítéses Tanulás = Reinforcement Learning (RL)

MA: Megerősítéses Tanulás

•Tartalom:

•Motiváció

•Algoritmusok, módszerek, eszközök

•Alkalmazások

Page 4: Meger ősítéses Tanulás = Reinforcement Learning (RL)

4

AI - „a nagy kép”

Intelligencia:- Tanulás„Programozói” lustaság + a feladatok komplexitásának kezelése:- Minél önállóbb tanulás

Page 5: Meger ősítéses Tanulás = Reinforcement Learning (RL)

5

PókerCélok: •mesterszintű játék•játék aspektusok•ellenfél modellezés

Hol tartunk? (MLHCI Csoport)

Autóverseny-szimulátorCélok: •Emberi teljesítmény mesteri reprodukciója•Autóvezetés forgalomban

Page 6: Meger ősítéses Tanulás = Reinforcement Learning (RL)

6

Mi a megerősítéses tanulás (RL) ?

• Nagyfokú önállóság a tanulásban• Információk:

– büntetés/jutalom alapján– megfigyelések a környezetről (állapotok)

• Cél: a jutalom egy függvényét maximalizálni!

s9s5s4s2

……

…s3

+50

-1-1

+3

r9r5r4r1

s1

a9a5a4a2 …a3a1

Page 7: Meger ősítéses Tanulás = Reinforcement Learning (RL)

7

A k-karú bandita probléma

Ágens

Akciók

Átlagos kifizetés (jutalom)

10

-5

100

0

0, 0, 5, 10, 35

5, 10, -15, -15, -10

Page 8: Meger ősítéses Tanulás = Reinforcement Learning (RL)

8

Markov Döntési Folyamatok ~ Markov Decision Processes

(MDPs)• Állapotok, véletlentől függő átmenetekkel• Átmenetvalószínűségek aktuális állapottól függnek

• Transition matrix P, and reward function

r = 2211r = 0a1

a2

Page 9: Meger ősítéses Tanulás = Reinforcement Learning (RL)

9

Hosszútávú jutalom

• Ágens politikája rögzített:

• Az Rt kifizetés a t pillanat utáni össz-jutalom

+50

-1-1

+3

r9r5r4r1

Page 10: Meger ősítéses Tanulás = Reinforcement Learning (RL)

10

Érték = Hasznosság = Várható kifizetés

• Rt valószínűségi változó

• Vehetjük a várható értékét! Politikától függ Rt !

• Feladat: találjuk meg azt a politikát amelyik a várható értéket maximalizálja, minden állapotban

Page 11: Meger ősítéses Tanulás = Reinforcement Learning (RL)

11

Az eddigi sztori..• RL feladatok részei:

– Több lépéses döntési feladatok

– Cél *-ot megtalálni

– Kritérium: Rövid távú Hosszú távú

rt+1 rt+2 rt+3

at at+1 at+2st st+1 st+2 st+3

Page 12: Meger ősítéses Tanulás = Reinforcement Learning (RL)

12

A Bellman egyenletek

• A Markov tulajdonság miatt a várható összjutalmat egy rekurzív egyenlettel is kifejezhető:

ahol

és

Másképp:

s

4

3

5

(s)

V = TV vagy BV = 0

Page 13: Meger ősítéses Tanulás = Reinforcement Learning (RL)

13

Bellman egyenletek- optimális értékelő függvény

• Optimális értékelő függvény

• Mohó politka: mindig a Q* szerinti legjobb akciót választja: argmax_a Q*(s,a)

• Ez optimális!!!• Politika javítás algoritmus: (kiértékel, javít)*

Page 14: Meger ősítéses Tanulás = Reinforcement Learning (RL)

14

„Bootstrapping” módszerek• P és R ismeretét feltételezve; Dinamikus Programozás

• Nem ismerjük P-t és R-et, mintavételezés;

„Temporal Difference learning”

s

4

3

5

(s)

st st+1rt+1

at = (st)

Page 15: Meger ősítéses Tanulás = Reinforcement Learning (RL)

15

TD(0) tanulás: Politikák kiértékelése

t:=0

is the policy to be evaluated

Initialise arbitrarily for all

Repeat

select an action at from (st)

observe the transition

update according to

t:=t+1

st st+1rt+1

at

1 1 1ˆ ˆ ˆ ˆ( ) ( ) ( ( ) ( ))t t t t t t t t tV s V s r V s V s

ˆ ( )tV s s S

ˆ ( )tV s

Page 16: Meger ősítéses Tanulás = Reinforcement Learning (RL)

16

„On-” és „Off-” politika tanulás• „On politika”: az éppen követett politikát értékeljük pl. TD

tanulással

• „Off-politika”: más politikát követünk, mint aminek az értékét számoljuk

• Pl. Q-tanulás:

st st+1rt+1

at

1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) max ( , ) ( , )t t t t t t t t t t t t

b AQ s a Q s a r Q s b Q s a

1 1 1ˆ ˆ ˆ ˆ( ) ( ) ( ( ) ( ))t t t t t t t t tV s V s r V s V s

st+1

atst

rt+1

Page 17: Meger ősítéses Tanulás = Reinforcement Learning (RL)

17

„Off-politika” tanulás

• A Q-tanulás előnyei

– Az optimális politika értékét becsli

– miközben tetszőleges (felfedező) akciókat lehet végrehatjani

• -mohó felfedezés:

• Mohó akció valószínűséggel

• Véletlen akció 1-valószínűséggel

• Garantált konvergencia, ha kellően bejárjuk az MDP-t

• Meg lehet-e találni -ot „on-politika” algoritmussal?

Page 18: Meger ősítéses Tanulás = Reinforcement Learning (RL)

18

„On politika” tanulás: Sarsa

• Töröljük a „max” operátort!• Értékeljük a követett politikát:

• Fokozatosan, lassan változtassuk a politikát• Konvergál! (Jaakkola,Singh,Littman,Szepesvári)

1 1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) ( , ) ( , )t t t t t t t t t t t t tQ s a Q s a r Q s a Q s a

atst+1st

at+1

rt+1

Page 19: Meger ősítéses Tanulás = Reinforcement Learning (RL)

19

„On politika” tanulás: Sarsa

t:=0

Initialise arbitrarily for all

select an action at from explore( )

Repeat

observe the transition

select an action at+1 from explore( )

update according to

t:=t+1

atst+1st

rt+1

Page 20: Meger ősítéses Tanulás = Reinforcement Learning (RL)

20

Összefoglalás: TD, Q-learning, Sarsa • TD learning

• One step Q-learning

• Sarsa learning

1 1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) ( , ) ( , )t t t t t t t t t t t t tQ s a Q s a r Q s a Q s a

strt+1

at

1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) max ( , ) ( , )t t t t t t t t t t t t

b AQ s a Q s a r Q s b Q s a

1 1 1ˆ ˆ ˆ ˆ( ) ( ) ( ( ) ( ))t t t t t t t t tV s V s r V s V s

st+1

atst

rt+1

st+1

atst+1st

at+1

rt+1

Page 21: Meger ősítéses Tanulás = Reinforcement Learning (RL)

21

• Minden állapotra meghatározunk egy „alkalmazhatósági mértéket”:

ahol

• Módosítsuk minden állapot értékét az „alkalmazhatósági mértékkel” arányosan:

2-es fokozat: „Eligibility traces”, TD( • A TD hibával a TD tanulásban csak egy állapot értékét módosítjuk:

1 1 1ˆ ˆ ˆ ˆ( ) ( ) ( ( ) ( ))t t t t t t t t tV s V s r V s V s

1

1 if ( )

( ) otherwiset

tt

s se s

e s

0 1

1 1 1ˆ ˆ ˆ ˆ( ) ( ) ( ( ) ( )) ( )t t t t t t t tV s V s r V s V s e s

ˆ ( )tV s

at-2 at-1 at

rt-1 rt rt+1

st-2 st-1 st st+1

Page 22: Meger ősítéses Tanulás = Reinforcement Learning (RL)

22

„Eligibility trace” a Q-tanulásban: Q()

• Sokféleképpen lehet csinálni

• Pl. minden s,a párra:

• Nem-mohó akciónál is van információ visszaterjesztés

• Elvész a konvergencia garancia!

• Watkin’s megoldási javaslata: nem-mohó után e:=0

• Probléma: hatásfokot csökkenti

• “Bias variance” dilemma

rt+1

st+1rt

at-1 atat+1

st-1 st

agreedy

1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) max ( , ) ( , ) ( , )t t t t t t t t t

b AQ s a Q s a r Q s b Q s a e s a

Page 23: Meger ősítéses Tanulás = Reinforcement Learning (RL)

23

Sarsa()

• Másik megoldás: használjuk a Sarsa algoritmust!

• Minden s,a párra:

• Konvergencia tulajdonság megmarad(?)

1 1 1 1ˆ ˆ ˆ ˆ( , ) ( , ) ( , ) ( , ) ( , )t t t t t t t t t tQ s a Q s a r Q s a Q s a e s a

at at+1 at+2

rt+1 rt+2

st st+1 st+2

Page 24: Meger ősítéses Tanulás = Reinforcement Learning (RL)

24

„Közelítő” RL

• Miért?

– Idő és tárkorlátok!

(Bellman: dimenzionalítás átka)

– Általánosítás új szituációkra (elégtelen mintavételezés)

• Megoldások

– Érték-függvény közelítése

– Politika térbeli keresés

– Közelítő modellek + tervezés

Page 25: Meger ősítéses Tanulás = Reinforcement Learning (RL)

25

Lineáris approximáció

• Egyszerű és hasznos!

• Vannak konvergencia eredmények

• Most: lineáris TD(

Súlyvektor a t. időpillanatban:

„Feature” vektor az s állapotra:

Becslés

Cél: minimalizálni..

1 , 2t t t t n

1 , 2s s s s n

t̂ t sV s

2ˆMSE ( )t t

s S

P s V s V s

Page 26: Meger ősítéses Tanulás = Reinforcement Learning (RL)

26

Értékfüggvény közelítés: approximátorok• Választások: pl. CMAC, RBF népszerűek

• CMAC: n db. cserépdarab

• „Features”

• Tulajdonságok– „Coarse coding”

– Szabályos fedés jó hatásfok

– Véletlen hash: memóriaigénycsökkenti

1 , 2s s s s n

1 or 0s i

Page 27: Meger ősítéses Tanulás = Reinforcement Learning (RL)

27

Lineáris közelítések

• Gradiens módszer -re

• TD egyenlet új alakja:

• Most az E.T. n-dimenziós vektor, amit így módosítunk:

• Konvergál -hoz

t

1 1ˆ ˆ

t t t t t t t tr V s V s e

1t t te e

*

Page 28: Meger ősítéses Tanulás = Reinforcement Learning (RL)

28

Újabb önreklám

• William D. Smart, Cs. Szepesvári, ICML’2004:

• Q-learning egy formája konvergál egy megfelelő függvény-approximátorral együtt használva.

• Nem gradiens módszer.

• A megfelelő gradiens módszer konvergenciája nem ismert.

• Sejtés: ....

Konvergens?

Page 29: Meger ősítéses Tanulás = Reinforcement Learning (RL)

29

Egy különösen sikeres példa:TD-gammon

• TD() tanulás, 1 rejtett rétegű neuronháló, Backprop

• 1,500,000 játék (saját magával)

• A legjobb játékosokkal azonos képességek (világbajnok)

• Backgammon állapottere: ~1020 , DP nem megy!!

Page 30: Meger ősítéses Tanulás = Reinforcement Learning (RL)

30

Modell alapú RL: struktúrált modellek• Dinamikus Bayes háló a P állapotátmenetek reprezentációjára

(másképp: faktorizált MDP)

• V: fa

• Backup: „goal regression”

• Hasonlít a tervezési feladatokra

Page 31: Meger ősítéses Tanulás = Reinforcement Learning (RL)

31

RL: rejtett állapotok

• POMDP, k-Markov

• POMDP-ben a tervezés nem(sem) kivihető (intractable)

• Faktorizált POMDP-k: igéretes

• Politika keresés előnyös

at at+1 at+2

rt+1 rt+2

st st+1 st+2

ot ot+1 ot+2

Page 32: Meger ősítéses Tanulás = Reinforcement Learning (RL)

32

Politika keresés (direkt módszer)

• Módszerek– Gradiens– Evolúciós (egyéb local/global search)

Page 33: Meger ősítéses Tanulás = Reinforcement Learning (RL)

33

Alkalmazások

Page 34: Meger ősítéses Tanulás = Reinforcement Learning (RL)

34

Robot navigációs feladat

• Pavlov: Nomad 200 robot

• Nomad 200 simulator

Sridhar MahadevanUMass

Page 35: Meger ősítéses Tanulás = Reinforcement Learning (RL)

35

Hierarchikus modellek – térbeli modellezésre

575 states

1385 states

Corridorstate

Entireenvironment

Productionstate

Sridhar MahadevanUMass

Page 36: Meger ősítéses Tanulás = Reinforcement Learning (RL)

36

Hierarchikus modellek

abstract states

product states,which generate observations

entry states

exit states

verticaltransitions

horizontaltransitions

Page 37: Meger ősítéses Tanulás = Reinforcement Learning (RL)

37

Internet forgalom-szabályozás“Multi-protocol label switching”

Ingress router

ingress router egress router

egress router

Cél: a sok lehetséges útvonalból úgy választani, hogy a blokkolásvalószínűségét minimalizáljuk

(Yong Liu, Singapore)

Page 38: Meger ősítéses Tanulás = Reinforcement Learning (RL)

38

Robot foci: szimulációs liga

Situation (s) Action (a) Utility Q(s,a)

Ball kickable, goal near shoot 0.6

Ball kickable, goal far shoot 0.33

Ball kickable, goal far pass 0.4

… … …

Jeremy WyattYoshiyuki MatsumuraMatthew ToddUniversity of BirminghamSchool of Computer Science

Page 39: Meger ősítéses Tanulás = Reinforcement Learning (RL)

39

A k-lábú robot

Page 40: Meger ősítéses Tanulás = Reinforcement Learning (RL)

40

Egyidejű (konkurrens) akciók

Example: driving

Look in the mirror Look at the road Check the speed

Press brakes Accelerate Press brakes

Put on high gear Steer the wheelSteer the wheel

Right arm

Decision epochs

Head & eyes

Legs

Page 41: Meger ősítéses Tanulás = Reinforcement Learning (RL)

41

Alkalmazások (A-tól N-ig)

• Airline Meal Planning

• Behaviourial Ecology

• Capacity Expansion

• Decision Analysis

• Equipment Replacement

• Fisheries Management

• Gambling Systems

• Highway Pavement Repair

• Inventory Control

• Job Seeking Strategies

• Knapsack Problems

• Learning

• Medical Treatment

• Network Control

M.L.Puterman, 2002

Page 42: Meger ősítéses Tanulás = Reinforcement Learning (RL)

42

Alkalmazások (O-tól Z-ig)

• Option Pricing

• Project Selection

• Queueing System Control

• Robotic Motion

• Scheduling

• Tetris

• User Modeling

• Vision (Computer)

• Water Resources

• X-Ray Dosage

• Yield Management

• Zebra Hunting

M.L.Puterman, 2002

Page 43: Meger ősítéses Tanulás = Reinforcement Learning (RL)

43

Néhány további RL alkalmazás

• Liftek vezérlése (Barto & Crites)• Ütemezési feladatok, űrsikló pakolása (Zhang &

Dietterich)• Dinamikus csatorna kiosztás mobil hálózatokban (Singh

& Bertsekas)• Egyensúlyozás: Járni, biciklizni, seprűt egyensúlyozni

tanulás, zsonglőrködés• Ragadozó-préda (PacMan)• Portfólió optimalizálás

Page 44: Meger ősítéses Tanulás = Reinforcement Learning (RL)

44

Aktív területek

• Optimális felfedező stratégiák

• Struktúrált modellek

• Relációs modellek

• Folytonos állapot és akció-terek

• Hierarchikus RL

• Állapotok és akciók absztrakciói (options, macros,..)

• Rejtett állapotok (eg. POMDPs)

• Prediktív állapot-reprezentáció

• Politika keresés

• Szignifikancia tesztek

Page 45: Meger ősítéses Tanulás = Reinforcement Learning (RL)

45

Reinforcement Learning: key papers

OverviewsR. Sutton and A. Barto. Reinforcement Learning: An Introduction. The MIT Press,

1998.J. Wyatt, Reinforcement Learning: A Brief Overview. Perspectives on Adaptivity

and Learning. Springer Verlag, 2003.L.Kaelbling, M.Littman and A.Moore, Reinforcement Learning: A Survey. Journal

of Artificial Intelligence Research, 4:237-285, 1996.

Value Function ApproximationD. Bersekas and J.Tsitsiklis. Neurodynamic Programming. Athena Scientific, 1998.

Eligibility TracesS.Singh and R. Sutton. Reinforcement learning with replacing eligibility traces.

Machine Learning, 22:123-158, 1996.

Page 46: Meger ősítéses Tanulás = Reinforcement Learning (RL)

46

Reinforcement Learning: key papers

Structured Models and Planning

C. Boutillier, T. Dean and S. Hanks. Decision Theoretic Planning: Structural Assumptions and Computational Leverage. Journal of Artificial Intelligence Research, 11:1-94, 1999.

R. Dearden, C. Boutillier and M.Goldsmidt. Stochastic dynamic programming with factored representations. Artificial Intelligence, 121(1-2):49-107, 2000.

B. Sallans. Reinforcement Learning for Factored Markov Decision ProcessesPh.D. Thesis, Dept. of Computer Science, University of Toronto, 2001.

K. Murphy. Dynamic Bayesian Networks: Representation, Inference and Learning. Ph.D. Thesis, University of California, Berkeley, 2002.

Page 47: Meger ősítéses Tanulás = Reinforcement Learning (RL)

47

Reinforcement Learning: key papers

Policy SearchR. Williams. Simple statistical gradient algorithms for connectionist reinforcement

learning. Machine Learning, 8:229-256.R. Sutton, D. McAllester, S. Singh, Y. Mansour. Policy Gradient Methods for

Reinforcement Learning with Function Approximation. NIPS 12, 2000.

Hierarchical Reinforcement LearningR. Sutton, D. Precup and S. Singh. Between MDPs and Semi-MDPs: a framework

for temporal abstraction in reinforcement learning. Artificial Intelligence, 112:181-211.

R. Parr. Hierarchical Control and Learning for Markov Decision Processes. PhD Thesis, University of California, Berkeley, 1998.

A. Barto and S. Mahadevan. Recent Advances in Hierarchical Reinforcement Learning. Discrete Event Systems Journal 13: 41-77, 2003.

Page 48: Meger ősítéses Tanulás = Reinforcement Learning (RL)

48

Reinforcement Learning: key papers

Exploration

N. Meuleau and P.Bourgnine. Exploration of multi-state environments: Local Measures and back-propagation of uncertainty. Machine Learning, 35:117-154, 1999.

J. Wyatt. Exploration control in reinforcement learning using optimistic model selection. In Proceedings of 18th International Conference on Machine Learning, 2001.

POMDPs

L. Kaelbling, M. Littman, A. Cassandra. Planning and Acting in Partially Observable Stochastic Domains. Artificial Intelligence, 101:99-134, 1998.