01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 1 מימוש ובדיקת...

18
01/01/01 קקקק קקקקקקקק קקקק קקק קקקקקק קק’1 םםםםם םםםםםם םםםםםםםם םםםםםם ם"ם םםםםםםם םםםם םםםם- םםםםם םםםםם םםםם קקקקקק : קקקק קקק קקקק קקקקקקקק קקקק : קק קקקק םםםםםםם- םםםם םםםםםםםם םםםםםםTECHNION - ISRAEL INSTITUTE OF TECHNOLOGY םםםםםםם םםםםםם םםםם םםםםםם םםםם םםםםםםםםם

Post on 15-Jan-2016

254 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 1 מימוש ובדיקת אלגוריתם ללמידה ע"י חיזוקים עבור רובוט המשחק

01/01/01 אמיר ווינשטוק עירן חוף

1שקופית מס’

מימוש ובדיקת אלגוריתם ללמידה ע"י חיזוקים עבור רובוט המשחק

הוקי - אויר

מגישים :אמיר עירן חוף

ווינשטוק

מנחה :שי מנור

לישראל טכנולוגי מכון - הטכניון TECHNION - ISRAEL INSTITUTE OF TECHNOLOGY

חשמל להנדסת הפקולטהורובוטיקה לקרה המעבדה

Page 2: 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 1 מימוש ובדיקת אלגוריתם ללמידה ע"י חיזוקים עבור רובוט המשחק

01/01/01 אמיר ווינשטוק עירן חוף

2שקופית מס’

מטרת הפרויקט

תכנון ובניית בקר לומד למשחק הוקי אוויר•

בעיות עיקריות:מרחב המצבים של המשחק רציף•

זמן הלימוד ארוך מאוד•

בחירת הפרמטרים של האלגוריתם •

(ANNאופטימיזציה של המימוש להאצת זמן הריצה )•

Page 3: 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 1 מימוש ובדיקת אלגוריתם ללמידה ע"י חיזוקים עבור רובוט המשחק

01/01/01 אמיר ווינשטוק עירן חוף

3שקופית מס’

רקע:

•Reinforcement Learning

•Q-Learning Algorithm

•Instance-Base function approximate

Page 4: 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 1 מימוש ובדיקת אלגוריתם ללמידה ע"י חיזוקים עבור רובוט המשחק

01/01/01 אמיר ווינשטוק עירן חוף

4שקופית מס’

Instance-Baseתאור

Page 5: 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 1 מימוש ובדיקת אלגוריתם ללמידה ע"י חיזוקים עבור רובוט המשחק

01/01/01 אמיר ווינשטוק עירן חוף

6שקופית מס’

במהלך הפרויקט מימשנו: Q-Learning. בקר בסיסי מבוסס על אלגוריתם 1

עם מימוש טבלאי עבור מודל פשטני

. בקר השולט על התאוצות השחקן בשני צירים, 2-Instace ואלגוריתם Qמבוסס על אלגוריתם

Based

. אלגוריתם חמדן לשיפור הפרמטרים הדרושים 3 Instace-Basedבאלגוריתם

להצגת המשחקMFC. אפליקציה מבוססת 4

Page 6: 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 1 מימוש ובדיקת אלגוריתם ללמידה ע"י חיזוקים עבור רובוט המשחק

01/01/01 אמיר ווינשטוק עירן חוף

7שקופית מס’

תוצאות:

דוגמאות נבחרות מתוך הדו”ח עבור הנושאים הבאים:

•Q-Learningטבלאי עבור מודל מפושט

•Q-Learning עם קירוב Instance-Base

אלגוריתם חמדן•

Page 7: 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 1 מימוש ובדיקת אלגוריתם ללמידה ע"י חיזוקים עבור רובוט המשחק

01/01/01 אמיר ווינשטוק עירן חוף

8שקופית מס’

Q-Learningטבלאי מספר השערים כפונקציה של מספר האיטרציות עבור ערכי קצבי

עדכון שונים:

0 1 2 3 4 5 6 7 8 9 10

x 105

0

50

100

150

200

250

Game Iterations

Num

ber

Of G

oals

Number of goals in the game vis game iterations and step size

gamma=0 gamma=0.1gamma=0.2gamma=0.3gamma=0.4gamma=0.5gamma=0.6gamma=0.7gamma=0.8gamma=0.9gamma=1

Page 8: 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 1 מימוש ובדיקת אלגוריתם ללמידה ע"י חיזוקים עבור רובוט המשחק

01/01/01 אמיר ווינשטוק עירן חוף

9שקופית מס’

Q-Learning עם קירוב Instance-Basedשחקן יחיד )לומד( מותקף אופקית מאותו מקום באותה מהירות

0

50

100

150

200

250

300

350

400

00.20.40.60.811.21.41.6

tD

case

ה ר

פס

מ

(tD איטרציות כפונקציה של ערך הסף )200000 לאחר casesמספר ה

Page 9: 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 1 מימוש ובדיקת אלגוריתם ללמידה ע"י חיזוקים עבור רובוט המשחק

01/01/01 אמיר ווינשטוק עירן חוף

10שקופית מס’

Q-Learning עם קירוב Instance-Basedשחקן יחיד )לומד( מותקף אופקית מאותו מקום באותה מהירות

0

200

400

600

800

1000

1200

1400

1600

1800

2000

מספר איטרציות פיסיקליות

םלי

גור

פס

0.5מ

0.6

0.7

1.1

מספר הגולים המצטבר כפונקציה של האיטרציות של המודל הפיסיקלי עבור מספר tDערכי

Page 10: 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 1 מימוש ובדיקת אלגוריתם ללמידה ע"י חיזוקים עבור רובוט המשחק

01/01/01 אמיר ווינשטוק עירן חוף

11שקופית מס’

Q-Learning עם קירוב Instanced-Baseשחקן יחיד )לומד( מותקף אופקית מאותו מקום באותה מהירות

תלות בפרמטרים:

•Dtערך סף להוספת מקרה חדש

•Ktערך סף למציאת שכנים קרובים

גודל צעד•

(explorationיחס חקר )•

מטריקה•

תלות בתגמול•

Page 11: 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 1 מימוש ובדיקת אלגוריתם ללמידה ע"י חיזוקים עבור רובוט המשחק

01/01/01 אמיר ווינשטוק עירן חוף

12שקופית מס’

Q-Learning עם קירוב Instance-Basedשחקן יחיד )לומד( מותקף אופקית באותה מהירות ממקום אקראי

משקול אחידכמה דוגמאות לתלות במטריקה:

צפיפות גולים לאיטרציות כפונקציה של ערך המשקולות

0.00920.00930.00940.00950.00960.00970.00980.0099

00.050.10.15ערך המשקולות

םלי

גות

פופי

צ

כלהמשקולות

חלקמהמשקולות

Page 12: 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 1 מימוש ובדיקת אלגוריתם ללמידה ע"י חיזוקים עבור רובוט המשחק

01/01/01 אמיר ווינשטוק עירן חוף

13שקופית מס’

יחס בלימות לגולים כפונקציה של יחס המשקולות

0246810

05101520

יחס המשקולות

םלי

גו ל

תמו

לי ב

חסי

מספר המקרים הנוצרים כפונקציה של יחס המשקולות

0

10000

20000

05101520

יחס המשקולות

םcי

ase

ה ר

ספמ

משקול יחסי

Page 13: 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 1 מימוש ובדיקת אלגוריתם ללמידה ע"י חיזוקים עבור רובוט המשחק

01/01/01 אמיר ווינשטוק עירן חוף

14שקופית מס’

דוגמא למשחק מול שחקן יוריסטי:

ביצועים )מצטברים( כפונקציה של מספר האיטרציות

0

2000

4000

6000

8000

10000

12000

14000

0100200

] x10000[ מספר האיטרציות

תמו

ליב

ם ורי

שער

פס

מ

שער שספגהשחקן הלומד

שער שספגהשחקן היוריסטי

בלימות שלהשחקן הלומד

Page 14: 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 1 מימוש ובדיקת אלגוריתם ללמידה ע"י חיזוקים עבור רובוט המשחק

01/01/01 אמיר ווינשטוק עירן חוף

15שקופית מס’

אופטימיזציה לפרמטרים ע”י אלגוריתם חמדן:

Page 15: 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 1 מימוש ובדיקת אלגוריתם ללמידה ע"י חיזוקים עבור רובוט המשחק

01/01/01 אמיר ווינשטוק עירן חוף

16שקופית מס’

אלגוריתם חמדן המשך

Page 16: 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 1 מימוש ובדיקת אלגוריתם ללמידה ע"י חיזוקים עבור רובוט המשחק

01/01/01 אמיר ווינשטוק עירן חוף

17שקופית מס’

סרט אנימציה...

Page 17: 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 1 מימוש ובדיקת אלגוריתם ללמידה ע"י חיזוקים עבור רובוט המשחק

01/01/01 אמיר ווינשטוק עירן חוף

18שקופית מס’

מסקנות:תלות חזקה בפרמטרים של האלגוריתם.•

תלות חזקה בפונקצית הגמול.•

מספר האיטרציות להתכנסות גדול מאוד.•

( גדול casesבמודלים מורכבים מספר המקרים )•מאוד )בעיה חישובית(.

שימוש באלגוריתם חמדן למציאת פרמטרים •מיטביים משפר את התוצאות.

Page 18: 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 1 מימוש ובדיקת אלגוריתם ללמידה ע"י חיזוקים עבור רובוט המשחק

01/01/01 אמיר ווינשטוק עירן חוף

19שקופית מס’

נושאים להמשך:Annealingאלגוריתם חמדן עם •אלגוריתם חמדן לאופטימיזצית פונקצית הגמול•למידת התקפה, מודל היררכי••Co - Learningשכלול המודל הפיסיקלי של השולחן )למשל אלמנטים •

סטטיסטיים ומכשולים(מודל של רובוט המדמה זרוע אנושית•לימוד של בקרה אנושית למשחק הוקי אוויר•מימוש מערכת אמיתית•