mlp輪読会 バンディット問題の理論とアルゴリズム 第3章

30
DATUMSTUDIO 株株株株 株株株株 MLP株株株 株株株株株株株株株株株株株株株株株株 株3株 株株株株株株株株株株株株株株 © 2016 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 1

Upload: takashi-usami

Post on 13-Apr-2017

117 views

Category:

Technology


4 download

TRANSCRIPT

Page 1: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

1

DATUMSTUDIO 株式会社 宇佐見崇

MLP輪読会バンディット問題の理論とアルゴリズム第3章 確率的バンディット問題の方策

© 2016 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL.

Page 2: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

2

自己紹介

•宇佐見崇• Y!( 開発 ) -> ソシャゲ ( 開発・分析 ) -> ソシャゲ ( 分析 ) -> DATUMSTUDIO 株式会社 ( 分析・コンサル )•大学時代は生物統計専攻• オープンセミナーで高校生のクジラやマグロをやりたいという夢を潰す• 2 週間ほど東シナ海で実習経験あり

•趣味 : ゲーム

Page 3: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

3

この章でやること

•確率的バンディット ( 報酬が何らかの確率分布に従って生成 ) の定式化と理論限界について•理論限界を達成可能な代表的な方策の紹介 (≠ 証明 )

Page 4: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

4

3.1 定式化

•前提条件• K : スロットマシンのアームの本数• i : アームの番号• t : 時刻• : 報酬の期待値• : 報酬の確率分布• : 最大期待値 ( つまりできるだけこれをあて続けたい )• : 最大期待値となるアーム• μ* T : 最大期待値となるアームを引き続けたときの累積報酬最大期待値• : 1 回毎の最大期待値と実際の期待値との差

Page 5: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

5

3.1 定式化

• : 時刻 t の開始時点までにアーム i を引いた回数

確率的バンディットでのリグレット

• : リグレットの期待値

※ このリグレットは確率的バンディットでのみ用いられる

時間ベースでの総和回数ベースでの総和

Page 6: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

6

3.2 理論限界

•リグレットを小さくするという問題は期待値最大ではないアームに対して選択数を小さくする問題と同等になる•その選択数はどこまで小さくすることが出来るか、が理論限界にあたる•理論限界は以下のように定義される

•一貫性を持つとリグレットは多項式オーダーより小さくなる•O(logT) オーダーまで小さくした方策を紹介する

誤植あり =>

Page 7: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

7

3.2 理論限界

•一貫性を持つ方策のリグレット下界

Page 8: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

8

3.3 ε- 貪欲法

•アルゴリズム

Page 9: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

9

3.3 ε- 貪欲法

•アルゴリズムの例1. 全体のアームの選択数を 100 回、アームの本数を 5 本と

する2. ε=0.2 とする3. すべてのアームを 0.2 * 100 / 5 = 4 回ずつ引く4. 残りの 80 回は一番期待値の高かったアームを引く

•なんとなる分かること• ε の値をどれくらいに設定すればいいか分からない• 活用期間に一番期待値の高いアームの選択を誤ると…

Page 10: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

10

3.3 ε- 貪欲法

•リグレット上界

Page 11: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

11

3.3 ε- 貪欲法

• ε の調整に非常に敏感• O(logT) のリグレットを達成するためには ε= O((logT)/T) としてやる必要が

ある• 係数部分は ( 未知である ) に依存して決められる必要もある

•期待値が最大に近いアームも劣っているアームも同じ回数の探索が必要

Page 12: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

12

3.4 尤度に基づく方法

•理論限界から期待値最大でないそれぞれのアームを Ω(logt)回程度は選択しなければいけない•ある時刻 t においてそのアームを 1/t(logt を t で微分 ) 程度は必要となる•逆説的に考えると各時刻に 1/t 程度の確率で期待値最大ではないアームを選ぶことができれば理論限界と同じオーダーのリグレットが見込める

Page 13: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

13

3.4.1 UCB 方策

•Upper Confidence Bound の略•報酬最大化のためには報酬期待値が高いアームを引くことが必要•報酬期待値が高いアームの選択数は多くなりがち•選択数が低いアームについては標本平均が真の期待値に収束しない可能性がある•これらのバランスを取って、各時刻に 1/t 程度の確率で確率最大でないアームも選ぶようにする

Page 14: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

14

3.4.1 UCB 方策

•アルゴリズム

Page 15: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

15

3.4.1 UCB 方策

•はじめに全部 1 回ずつ引き、その後は 1 回ずつスコアを計算して探索期間と活用期間を兼ねながら進めていく•スコアは以下の式で算出

※ 導出はヘフディングの不等式から

Page 16: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

16

3.4.1 UCB 方策

•リグレット上界

※ 証明は 4 章で行うとのこと

Page 17: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

17

3.4.1 UCB 方策

•UCB 方策 : スコアはヘフディングの不等式に基づく• KL-UCB 方策 : スコアはチェルノフ・ヘフディングの不等式に基づく•より精密な確率の上界を与える KL ダイバージェンスを用いている

Page 18: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

18

3.4.1 UCB 方策

•リグレット上界

※UCB 方策の証明に基づく•理論限界を達成することは可能だが、 KL ダイバージェンスの μ に対する逆関数を計算する必要あり

Page 19: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

19

3.4.2 MED 方策

•Minimum Empirical Divergence の略•期待値最大ではないアームの選択率が 1/t 程度になるように選択率を直接操作する•直感的理解が容易なものとして DMED 方策 (Deterministic Minimum Empirical Divergence policy) を例に挙げている

Page 20: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

20

3.4.2 MED 方策

•アルゴリズム

Page 21: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

21

3.4.2 MED 方策

•現在のループで引くべきアームのリストを実行する•実行途中で次のループで引くべきアームのリストを作成する•アームのリストは以下のどちらかの式 ( 同値 ) で決定される

•「期待値最大である尤度が 1/t 以上のアームを引く」方策である

Page 22: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

22

3.4.2 MED 方策

•先程の式を変形すると

が得られて、論理限界が示す最低限必要な回数だけ探索を行うことを DMED 方策が目指していることを言える•リグレット上界

Page 23: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

23

3.5 確率一致法とトンプソン抽出

•確率一致法• 「それぞれのアームが期待値最大である確率」を定式化し、引くアームをそ

の確率に従いランダムに選択する• 例としてソフトマックス法が挙げられる

Page 24: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

24

3.5.1 確率一致法の特徴と解釈

•バッチ更新に対して頑健である• 計算量や運用上の都合により遅延を含んでデータが与えられることがしばし

ばある• そういった場合、データが送られてくるまで、同じアームを引き続ける可能

性がある• 乱数によって引くアームが決定されるため、各アームの選択回数がある程度

は保証される

Page 25: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

25

3.5.2 トンプソン抽出

•確率一致法をベイズ統計の枠組みで定式化したもの•ベイズ更新を行うため、共役事前分布が仮定できると計算が容易になる•今回はベルヌーイ分布モデルを仮定する ( つまりアームが 2本の場合 )

Page 26: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

26

3.5.2 トンプソン抽出

•アルゴリズム

Page 27: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

27

3.5.2 トンプソン抽出

•事前分布が不明ならば α=β=1 といった無情報事前分布を仮定する•指数型分布族以外の確率モデルでは近似計算により事後分布を推定する必要がある ( この部分についてはバンディット問題に限ったことではない )

Page 28: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

28

3.5.2 トンプソン抽出

•リグレット上界

※ こちらも証明については 4 章で行う

Page 29: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

29

3.5.3 トンプソン抽出と UCB 方策の関係

•トンプソン抽出 : 乱数アルゴリズムで事後確率を計算•UCB 方策 : ヘフディングの不等式などからの確率の上界式から計算

•事後確率と尤度という方針は違うかもしれないが、どちらも「期待値最大でいある確率が 1/t 以上のアームを選ぶ」という方策として見なすことが出来る

Page 30: MLP輪読会 バンディット問題の理論とアルゴリズム 第3章

30

3.6 最悪時の評価

•UCB 方策のリグレット上界を例に取ると、 T が十分に大きい場合は O(logT) オーダーとして見なすことが出来る•逆に Δ が T に対して非常に小さい ( もしくは K が非常に大きい )場合は分布のパラメータであるについて依存しない形のリグレット上界を考えることがある• T を固定して最悪の場合を考えるということで再悪事リグレット上界と呼ばれる