sugawara b

14
スキルモデルに応じたゴルフプレー戦略の Q学習による獲得 Q-learning based on Skill Model for Acquiring Strategy of Golf 北海道大学 工学部情報エレクトロニクス学科 複雑系工学講座 調和系工学研究室 学部4菅原 翔悟 卒業論文発表

Upload: harmonylab

Post on 19-Feb-2017

418 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Sugawara b

スキルモデルに応じたゴルフプレー戦略のQ学習による獲得

Q-learning based on Skill Model for Acquiring Strategy of Golf

北海道大学 工学部情報エレクトロニクス学科

複雑系工学講座 調和系工学研究室

学部4年 菅原 翔悟

卒業論文発表

Page 2: Sugawara b

はじめにスキル 戦略

「飛距離と方向性がゴルフのスコアに与える影響」Mark Broadie, Soonmin Ko (2009)

「大会の統計データからゴルファーの成績を評価するHarold O Frieda, James Lambrinosa,James Tynerb(2004)

・ショットの正確性・ショットの飛距離

・ボールの位置に対して行動を決定するルール

関連研究

戦略とスコアの関係を調査した研究は行われていない

コース情報ゴルファーのスキル

入力

戦略

バーチャルキャディ 出力

クラブの選択狙う地点

バーチャルキャディの実現

コースの状況・使用者のスキルに応じた戦略を指示することにより、スコアを改善させる

Page 3: Sugawara b

コース状態の集合 State = {teeing ground, Fairway,Rough,Bunker,WH,Woods,Green,Cup}

コース状態と計算モデル

天候(風、天気、・・・)、コースの起伏等の高さの情報ボールの転がり・回転量、・・・

考慮しない

ゴルファーのスキル林、池、地面の状態(ラフ、バンカー、・・・)考慮する

ボール落下位置を求める計算モデルの要素

x0

x1x2

のボール位置打目を打ち終わった後: :最初のボール位置  nxx n0

Page 4: Sugawara b

バーチャルキャディ実現のためのアプローチ

1. 計算モデルの構築

2. 期待スコアの準最適値とその時の戦略を与える手法の作成そのような手法を検討する段階で、各手法の最適性を評価するために期待スコアの最適値が必要

ボール位置 1打前のボール位置,行動,スキル,コース状態から与えられる確率分布に従う

行動 クラブの選択,狙う位置

戦略 ボールの位置から行動を決定するルール

スキル ショットの飛距離,正確性

コース状態 フェアウェイ・ティーインググラウンドが基準他の状態はショットの誤差が大きくなる

計算モデル

Q学習により獲得

Page 5: Sugawara b

計算モデルから学習した結果と大会の公式記録を比較し、モデル・学習結果が妥当か確認する

検討項目

期待スコアの減少を実現する戦略が学習できているか

スキルの高低によってとられる戦略がどのように異なるか

検討2

検討3

検討1

Page 6: Sugawara b

飛距離の分散 r

クラブ集合 Club = {Driver, 3-wood, 5-wood,2-iron, 3-iron, 4-iron, 5-iron, 6-iron,

7-iron, 8-iron, 9-iron, PW, SW}

スキルに依存したボールの落下位置分布

2

22 ,~,~ Nr,Nr r

'sin''

'cos''

ryy

rxx

飛距離・方向が正規分布に従うと仮定する

x = (x, y)

x’ = (x’, y’)

θ

r

行動 a クラブの選択 club

水平打ち出し方向 θ

クラブ別の平均飛距離 r

方向の分散 θ2

),,;(1

skillstg xx nn

スキル skill

y

x

Page 7: Sugawara b

)()(),;( '' 11111 xxPxPxxx nnthrouthnhitnnnqh

)()}]({[),,;( ''' 111011111 xxxxtxxxxxx nnnnnnnnnnj

林と池がボール位置に与える影響

)(xq

)(x

: 森林定義関数: デルタ関数: 池の境界を表すパラメータ:木に当たる確率:木に当たらない確率

0t

xn 1 xn' 1x n

xn 1

'x n

xn 1

hitP

throughP

林の影響

林の中のある位置にボールが存在する確率は、林を通過する距離が長くなるにつれ指数関数的に減少する

※δ(x) : x≠0の確率が0となる関数

この面積の合計が木に当たる確率

池の影響

池の中にボールが入った場合、最後に池を横切った地点にボールを置き、打数に+1を加える

Page 8: Sugawara b

)1()],([min0

   目的関数 : 

n

nStst

nPskillstNE

期待スコアを最小化する最適化問題

)5(''d'd),,'';(),';''(),,;'(

),,,;(

),,|(

)4()(0

)()()(

)3(d)(),,|()(

)2(d)(),,|(

11111111

11

11

0

0

00

222111

111

  

件付き確率 にボールが存在する条・

     

  率 にボールが存在する確・

      打でカップに入る確率・

以外となる確率は0

ンググラウンド・開始位置がティーイ

nnnnnnnnnnn

nnn

nnn

tee

tee

tee

nnnnnn

nnncupn

jhskillstg

skillstf

skillstp

p

pskillstpp

pskillstpPn

xxxxxxxxxxx

xxx

xxx

xx

xxxxx

xxxxxx

xxxx

戦略st、スキルskillとし、その場合の1ホールの期待スコアをとする

最初のボール位置:

ボールの位置打目打ち終わった後の

0

:

x

nxn

カップの位置:

ティーの位置

cup

tee

x

x :

)],([ skillstNE

Page 9: Sugawara b

Q学習の設定

行動選択ε-greedy

報酬OB : -2

報酬WH : -2

報酬その他 : -1

報酬カップまでの

距離に応じた期待パット数

状態空間 S約2ヤード四方のグリッド

行動空間 A・方向 θ 0~360までの整数値・クラブ SWだけ10%刻みの力加減を考える Qの初期値

・グリーン上 ~ 0・それ以外 ~ -PAR学習率α=0.1、割引率γ=0.9

Page 10: Sugawara b

実験パラメータ設定スキル

パッティング

コース オーガスタ・ナショナル・ゴルフクラブ ~ 全18ホール

0%

20%

40%

60%

80%

100%

1 8

15

22

29

36

43

50

57

64

71

78

85

92

99

カップインする

確率

カップまでの残り距離(フィート)

1 put

2 put

3 put

プロゴルファーを想定 ~ 公式記録から平均値を推測

driver 3-wood 5-wood 2-iron 3-iron 4-iron 5-iron 6-iron 7-iron 8-iron 9-iron PW SW

プロ平均 r (yard) 269 243 230 225 212 203 194 183 172 160 148 136 124

プロ平均σr 7.72 7.12 6.63 5.73 5.25 4.77 4.34 4.04 3.50 3.08 2.59 2.29 1.99

σθ 1.81 1.69 1.57 1.51 1.39 1.33 1.27 1.21 1.15 1.03 0.91 0.78 0.66

unskillfullσr 12.80 11.81 10.99 9.50 8.70 7.91 7.20 6.70 5.80 5.11 4.29 3.80 3.30

σθ 3.00 2.80 2.60 2.50 2.30 2.21 2.11 2.00 1.90 1.70 1.50 1.30 1.10

skillfullσr 4.66 4.29 4.00 3.46 3.17 2.88 2.62 2.44 2.11 1.86 1.56 1.38 1.20

σθ 1.09 1.02 0.95 0.91 0.84 0.80 0.77 0.73 0.69 0.62 0.55 0.47 0.40

ボールがグリーンにのった場合カップまでの残り距離に応じて確率的にパット数を決定

Page 11: Sugawara b

検討1:計算モデルから学習した結果と大会の公式記録を比較

0

1

2

3

4

5

6

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

平均スコア

コース番号

マスターズ

Q学習

Q学習プロ平均のスキル

オーガスタの大会結果(マスターズ、2011)

平均スコア 73.68 72.43平均パット数 1.91 1.665

サンドセーブ率(%) 27.43 40.29 フェアウェイキープ率(%) 92.33 69.07

パーオン率(%) 97.38 62.84

・学習の結果、得られるスコアの平均値は実際の大会結果から大きく外れていない

・学習が正しく行われていることが確認できた

Page 12: Sugawara b

検討2:期待スコアの減少を実現する戦略が学習できているか

0

20

40

60

80

100

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

フェアウェイ

キープ率(%)

コース番号

10番ホール:ティーショット学習した行動

ほとんどのコースで8割以上のフェアウェイキープ率

→森やラフなど、

スコアを悪くする場所に打ち込まない戦略を学習

1番ホール:ティーショット学習した行動

Page 13: Sugawara b

検討3:スキルの高低によってとられる戦略がどのように異なるか

0

50

100

150

200

250

300

1打目 2打目 3打目

使用したクラブの

平均飛距離(ヤード)

15番ホール:PAR 5

スキルが高いと、飛距離の長いクラブを優先しての選択し、スキルが低いと、飛距離の短いクラブで刻んでグリーンを狙う

0

50

100

150

200

250

300

1打目 2打目 3打目

14番ホール:PAR 4

unskillfull

skillfull

Page 14: Sugawara b

まとめ1. ゴルフの期待スコアを計算する計算モデル

2. 期待スコアの準最適戦略を与えるヒューリスティックヒューリスティック検討の段階で各ヒューリスティックの最適性を評価するために期待スコアの最適値が必要

ボール位置 前のボール位置,行動,スキル,コースから与えられる確率分布に従う

行動 クラブの選択,狙う位置

戦略 ボールの位置から行動を決定するルール

スキル・コース 確率分布を決める定数パラメータ

計算モデル

Q学習により獲得

検討1: モデルが妥当であり、学習も正しく行われていることがわかった

検討2: スコアを減少させる戦略の学習を実現

検討3: スキルが異なる場合で戦略にどのような違いが現れるか確認