megerősítéses tanulási módszerek éstompa/korszeruinftech_lev/1_rl.pdf · megerősítéses...

58
MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR Korszerű információs technológiák Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai Intézeti Tanszék Miskolc, 2020. szeptember 18.

Upload: others

Post on 28-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

MISKOLCI EGYETEM

GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR

Korszerű információs technológiák

Megerősítéses tanulási módszerek és

alkalmazásaik

Tompa Tamástanársegéd

Általános Informatikai Intézeti Tanszék

Miskolc, 2020. szeptember 18.

Page 2: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Tartalom

Mesterséges intelligencia

Gépi tanulás története

Gépi tanulás típusai

A megerősítéses tanulás

Q-learning

SARSA

Fuzzy logika

FRIQ-learning

FRIQ-learning Maze, Pong alkalmazás példák

Page 3: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Mesterséges intelligencia bevezető

Mi az MI?

több definíció létezik

2 dimenzió mentén

gondolati folyamatok, következtetés

viselkedés

Siker mérése az emberi teljesítményhez

Intelligencia ideális koncepciója -> racionalitás

egy rendszer akkor racionális ha a tudásához viszonyítva

helyesen cselekszik

Page 4: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Mesterséges intelligencia meghatározása

Forrás: Sturat Russel, Peter Norvig: Mesterséges intelligencia modern megközelítéseben

Page 5: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Mesterséges intelligencia – Turing-teszt

Alan Turing (1950) intelligenciára egy megfelelő definíció keresése

teszt

embertől való megkülönböztethetetlenség

akkor állja ki a próbát a gép, ha néhány írásos kérdés feltevése után

nem lehet eldönteni, hogy az írásos válasz egy embertől vagy a

géptől érkezett-e

fizikai kölcsönhatás (kérdező-számítógép) szándékos elkerülése

nem szükséges egy személy fizikai szimulációja az intelligenciához

Teljes Turing-teszt: videójelek feldolgozása

érzékelési képesség tesztelése is, gépi látás, robotika

60 év után is releváns

Nem sok erőfeszítés a teszt teljesítése érdekében

repülés – madarak utánzása -> aerodinamika

Page 6: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Mesterséges intelligencia – Turing-teszt

MI területei

Természetes nyelvfeldolgozás (párbeszédek)

Tudásreprezentáció (információ tárolása)

Automatizált következtetés (tárolt információ alapján

következtetések levonása)

Gépi tanulás (új körülményekhez való

alkalmazkodás)

Gépi látás (objektumok érzékelése)

Robotika (objektumok mozgatása)

Page 7: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

A gépi tanulás története

1947-ben Arthur Lee Samuel

dáma játék, ami képes legyőzni a világbajnokot

motiváló okok:

szimbolikus számítás hatékonyságának bemutatása

szükség van PC-re az egyetemeken

20 évnyi fejlesztés gépi tanulás alappillérjeinek megalkotása

Page 8: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

A gépi tanulás

A gépi tanulás alapgondolata

egy ágens képességeinek javítása

mi az az ágens?:

ágens bármi lehet, amit úgy tekinthetünk, mint ami az

érzékelői segítségével érzékeli a környezetét, és

beavatkozói segítségével megváltoztatja azt.

az ágens viselkedését az ágensfüggvény írja le, ami az adott

érzékelési sorozatot egy cselekvésre képezi le.

Page 9: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

A gépi tanulás

A gépi tanulás egy eljárás, amely

a rendszerben változásokat hoz létre

a változtatások következtében a problémát a

rendszer már helyesebben oldja meg

alkalmazás területei:

képfeldolgozás

adatbányászat

hangfelismerés

optika karakterfelismerés

stb…

Page 10: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

A gépi tanulás formái

Felügyelt (ellenőrzött, supervised learning )

példákhoz helyes osztálycímkék

a feladat a még nem ismert példákhoz a hozzájuk tartozó

osztálycímke megmondása a minták alapján

(x1,y1),…(xi,yi): xi minta, yi osztálycímke

egyosztályos, kétosztályos, regressszió

Felügyelet nélküli (nem ellenőrzött, unsupervised learning

nem adottak az osztálycímkék

pl klaszterezés

Megerősítéses

reinforcement learning

Page 11: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

A megerősítéses tanulás

Egy módszer, amely

megerősítési információk alapján tanul

a környezetből érkező visszajelzések a

megerősítések (reward)

jutalmak/büntetések (sikerek/kudarcok)

cél: várható jutalmak maximalizálása (optimális

stratégia keresése)

Pl.: egy ismeretlen

játék játszása

Page 12: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

A megerősítéses tanulás típusa

Passzív

rögzített stratégia -> viselkedés

cél: stratégia jóságának megtanulása

Aktív

nincs rögzített stratégia

cselekvés választásának eldöntése (mohó például)

cél: cselekvésérték-függvény tanulása

Page 13: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

A megerősítéses tanulás elemei

állapot (s), akció (a), jutalom (r)

politika (policy)

jutalom függvény (reward function)

értékelő függvény (value funciton)

környezet modellje (model of the environment)

13

Page 14: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Ágens-környezet modell

Page 15: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Ágens-környezet modell – példa

Page 16: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Ágens-környezet modell

ágens lehet bármi, ami (érzékelőivel) érzékeli a környezetét és

(beavatkozóival) megváltoztatja azt

környezet determinisztikus: következő állapota, csakis a jelenlegi

állapotától és a végrehajtott cselekvéstől függ

nem determinisztikus: következő állapotát nem határozza meg az előző állapot és a végrehajtott cselekvés

Page 17: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Ágens-környezet modell

állapot (s), akció (a), jutalom (r), politika (π)

állapot: az ágens megfigyelése a környezetről

akció: cselekvés, ez hat a környezetre

jutalom: egyetlen szám

politika: állapot-akció leképezés

Page 18: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Ágens-környezet modell

diszkrét idő ( t=1, 2, 3, …)

minden egyes t időpillanatban az ágens

megkapja a környezet

ez alapján választ egy akciót

a választott akció függvényeként kap egy

jutalmat

majd egy új állapotba kerül

az ágens célja: hosszú távon maximalizálja az

összegyűjtött jutalmakat

epizódikusság

Page 19: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Ágens-környezet modell

19

st st+1

rt+1

at

st: állapot a t időpillanatban

at: a végrehajtott akció a t időpillanatban

rt+1: a kapott jutalom a t+1 időpillanatban

st+1: az új állapot

Πt(s, a): s-ben a lépés a t időpontban

Page 20: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Ágens-környezet modell

Az összegyűjtött jutalmak összegét hozamnak

nevezzük:

ahol T, az utolsó időpillanat

ha nem beszélhetünk utolsó időpillanatról akkor:

gond: Rt végtelen lehet

megoldás: diszkontálás, a diszkontált hozam:

Page 21: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Ágens-környezet modell

Összefoglalva, a hozamfüggvény a következő

formában írható fel:

γ a diszkontálási paraméter: a jelen állapot

jövőre vetíthetőségének mértéke.

mekkora súllyal vegyük figyelembe egy későbbi

állapot hasznosságát

értéke: [0;1]

Page 22: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Ágens-környezet modell

A feladat realizálása:

interakció

a környezet modellje: az átmeneti valószínűségek és

jutalmak

cél: maximális várható jutalom, optimális stratégia

megtalálása

Page 23: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

A Markov-feltevés

Feltesszük, hogy a múlt nem számít

Markov-tulajdonság : egy folyamat jövőbeli

feltételezett állapota csak a jelenlegi állapottól függ,

még akkor is, ha ismerjük a korábbi történéseket

nincs „emlékezés”

az átmeneti valószínűség megadja az s′ állapotba

kerülés valószínűségét s állapotból a akció választása

mellett:

a várható jutalom:

azokra a feladatokra alkalmazható a megerősítéses

tanulás módszere, amelyek Markov-tulajdonságúak

Page 24: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Az állapot értékelő függvény

Eπ jelöli a π politika követése melletti várható

értéket, a t tetszőleges időpillanatban.

Megadjuk az s állapotban a akció választásának

értékét a π politika mellett. Ezt Qπ (s,a) -val

jelöljük:

Page 25: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

A Bellman-egyenlet

Az előzőek alapján a következő egyenlet a Vπ -re

vonatkozó Bellman-egyenlet:

egy állapot hasznosságának meghatározása

egy állapot hasznossága, az állapotban tartózkodás

jutalmának és a következő állapot várható

hasznosságának összege

az állapotok hasznosságai a Bellman-egyenletek egy

rendszerének egyértelmű megoldásai

Page 26: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

A Bellman-egyenlet

Optimális:

V*(s): s-ből indulva

Q*(s,a): s-ben a

A Bellman-egyenlet megoldása:

dinamikus programozással

értékiteráció

minden egyes állapot hasznosságának számítása ->

optimális cselekvés választása

eljárásmód-iteráció

ha egy akció jobb mint a többi -> a releváns állapotok

hasznosságainak nagyságát nem szükséges precízen tudni -

>értékelés;javítás. Leáll ha nincs hasznosságváltozás.

Page 27: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Megerősítéses tanulási algoritmusok

Q-learning

SARSA

Fuzzy Q-learning

FRI based Q-learning

Stb.

Page 28: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Q-learning

az egyik leggyakrabban alkalmazott megerősítéses

tanulási módszer

Q – quality érték

Q(s,a): s-ben a végrehajtásának jósága -> Q(s,a) párok

->Q-függvény; Q-tábla

Update formula:

Page 29: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Q-learning - algoritmus

Page 30: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Q-learning - algoritmus

Page 31: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

SARSA

Szintén megerősítéses tanulási algoritmus

State-Action-Reward-State-Action

A Q-learning hasonló módszer

Update formula:

31

Page 32: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

SARSA - algoritmus

32

Page 33: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Q-learning vs. SARSA

33

Page 34: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

RL alkalmazások

34

TD-Gammon (Tesauro, 1992)

Robotirányítási alkalmazások

inverz inga (cart-pole)

mountain- car

maze

pong

rc drift autó: video

és számos egyéb...

Page 35: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Q-learning hátrány

35

lehetséges állapotok exponenciálisan sok száma

állapottér növekedése

Q-tábla növekedése

konvergenciája exponenciálisan lassú lehet

Kb. 10000 a kezelhető állapotok száma

Pl. n db állapotleíró, k részre osztva: kn az

állapotok száma

Egyik megoldási lehetőség

Fuzzy logika

Page 36: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Fuzzy logika - röviden

A klasszikus halmazelmélet szerint az X tartományon definiált

A halmazba egy x ∈ X elem vagy beletartozik vagy sem

Leíró karakterisztikus függvény:

Az emberi gondolkodás működése más! Miért?

mert nincs éles elkülönítés

Pl. „hűvös van” kijelentés. Mi számít hűvösnek?

egy konkrét hőmérsékelt? 18 ◦C

vagy inkább egy tartomány? [8,11] ◦C

„kicsit hűvös van” kijelentéssel mi a helyzet?

homokkupac paradoxon

bizonytalanság…

Page 37: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Fuzzy logika - röviden

Hogyan lehet ezt a bizonytalanságot matematikailag

kifejezni?

Megoldás: Fuzzy logika

1965 - Lotfi A. Zadeh

Page 38: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Fuzzy logika - röviden

Az előző példában a [8,11] ◦C hőmérséklet tartományhoz

hűvös lingvisztikai változó hozzárendelése

A hozzárendelés egy tagsági függvény definiálja

µhűvös : [8◦C, 11◦C] → [0, 1]

µhűvös(t) = 1 -> t hűvös

µhűvös(t) = 0 -> t nem hűvös

általánosságban: µA(x) ∈ [0, 1] , x ∈ X

Page 39: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Fuzzy logika - röviden

Tagsági függvény például

Page 40: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Fuzzy logika - röviden

Tagsági függvény típusok

a „körülbelül 2” fogalmat reprezentáló különböző alakú fuzzy halmazok

Page 41: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Fuzzy logika - röviden

Tagsági függvény jellemzők

fuzzy halmazok jelentősen különböző alakkal

modelltől függ, hogy adott fuzzy halmaz alakja

milyen legyen

háromszög vagy trapéz alak az elterjed

szakaszonként lineáris

Page 42: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Fuzzy logika - röviden

Intervallumértékű fuzzy halmaz

valamely alaphalmazbeli elemhez rendelt tagsági érték a valóságban

rendelkezésre álló információkhoz képest gyakran túl precíz

megoldás: intervallumértékű fuzzy halmaz

az elemekhez rendelt tagságifüggvény-

értékek bizonytalanságát modellezi

két görbe- > az egyes elemek alsó és

felső korlátja

Page 43: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Fuzzy logika - röviden

Fuzzy irányítási rendszer

Page 44: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Fuzzy logika - röviden

Szabálybázis:

x ∈ X a bemeneti változó

y ∈ Y a kimeneti változó vagy következtetés,

X, illetve Y rendre a bemeneti, illetve kimeneti változók

alaphalmaza

A és B nyelvi változók.

A az R szabály antecedense (előzménye), B pedig az R szabály

konzekvense (következménye).

Page 45: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Fuzzy logika - röviden

Illeszkedés mértékét meghatározó egység:

a szabálybázis antecedens elemeit hasonlítja össze

az aktuális megfigyelés függvényével vagy konkrét

értékével,

a tüzelő szabályoknál - tehát azon szabályoknál,

ahol az antecedens rész metszete a megfigyeléssel

nem üres –

meghatároz egy 0 és 1 közötti fuzzy illeszkedési

mértéket

Page 46: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Fuzzy logika - röviden

Következtető gép:

lényege, hogy az illeszkedési mérték meghatározása

után a kapott súlyokat valamilyen módon a fuzzy

szabálybázisban található tüzelő

szabályok konzekvenseivel általában egy konjunkció

segítségével kombinálja.

Page 47: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Fuzzy logika - röviden

Defuzzifikációs modul

a következtetési algoritmus eredményül fuzzy halmazt

ad

gyakorlati alkalmazások esetében numerikus értékre

van szükség

Fuzzy halmazból ki kell választani egy konkrték

értéket, amely a halmazt a legjobban jellemzi:

defuzzifikálás

különböző módszerek: COG, MOM, COA, COM, stb.

Page 48: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Fuzzy logika - röviden

A hagyományos fuzzy következtetéssel működő fuzzy

rendszerek a szabály antecedensek és a megfigyelést leíró

nyelvi értékek illeszkedése alapján a szabály konzekvensek

súlyozott kombinációjaként határozzák meg a

következményt

Fedő szabálybázis

Ritka szabálybázis

Page 49: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Fuzzy logika - röviden

Fedő szabálybázis:

azaz bármely bemenő adat

esetén léteznie kell legalább

egy olyan szabálynak

amelynek antecedense ε>0

mértékben fedi a

megfigyelést a bemeneti tér

minden dimenziójában

bármely megfigyelésre

kiértékelhető következtetést

eredményez

Page 50: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Fuzzy logika - röviden

Ritka szabálybázis:

van olyan megfigyelés

amelyre nincs

következtetés

ekkor valamely fuzzy

szabály-interpolációs

módszer segítség ével

határozzák meg a

következményt.

Page 51: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

FRIQ-learning

Az előzőleg bemutatott Q-learning módszer

diszkrét állapot-akció térre alkalmazható

fuzzy modell bevezetésével azonban kiterjeszthető

folytonos állapot- és akciótérre

A fuzzy szabály interpoláció alapú Q-tanulás

(FRIQ-learning)

az FQ-learning (fuzzy Q-learning) kiegészítése

ritka szabálybázisok alkalmazhatósága

Page 52: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

FRIQ-learning

A diszkrét Q-learning fuzzy modell alkalmazásával

kiterjeszthető folytonos állapot-akció térre

Fuzzy Q-learning (FQ-learning)

E.g. 0-order Takagi-Sugeno Fuzzy Inference model

Probléma: a szabályszám exponenciálisan nő az

állapot dimenzió (antecedens) számával

Lehetséges megoldás: Fuzzy Rule Interpolation (FRI)

FQ-learning + FRI FIVE: FRIQ-learning

Page 53: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

FRIQ-learning példák

Nézzünk működő alkalmazásokat : )

Maze

Pong

Page 54: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

FRIQ-learning példák - Maze

2 állapot leíró

x pozíció: 0-8

y pozíció: 0-5

1 akció: elmozdulás (fel, le, jobbra, balra)

Page 55: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

FRIQ-learning példák - Pong

4 állapot leíró

labda x pozíció

labda y pozíció

labda iránya (6 eset)

ütő pozíciója

1 akció: elmozdulás (fel, le, semerre)

Page 56: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

FRIQ-learning példák

Matlab bemutató : )

Page 57: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Felhasznált irodalom

Richard S. Sutton and Andrew G. Barto – Reinforcement Learning:

An Introduction

Peter Norvig, Stuart J. Russel – Mesterséges intelligencia – Modern

megközelítésben

http://project.mit.bme.hu/mi_almanach/books/aima/index

László T. Kóczy, Domonkos Tikk - Fuzzy rendszerek

57

Page 58: Megerősítéses tanulási módszerek éstompa/KorszeruInfTech_lev/1_RL.pdf · Megerősítéses tanulási módszerek és alkalmazásaik Tompa Tamás tanársegéd Általános Informatikai

Köszönöm a figyelmet!