mlp輪読会バンディット問題の理論とアルゴリズム第3章

1

DATUMSTUDIO 株式会社宇佐見崇

MLP輪読会バンディット問題の理論とアルゴリズム第3章確率的バンディット問題の方策

© 2016 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL.

2

自己紹介

•宇佐見崇• Y!( 開発 ) -> ソシャゲ ( 開発・分析 ) -> ソシャゲ ( 分析 ) -> DATUMSTUDIO 株式会社 ( 分析・コンサル )•大学時代は生物統計専攻• オープンセミナーで高校生のクジラやマグロをやりたいという夢を潰す• 2 週間ほど東シナ海で実習経験あり

•趣味 : ゲーム

3

この章でやること

•確率的バンディット ( 報酬が何らかの確率分布に従って生成 ) の定式化と理論限界について•理論限界を達成可能な代表的な方策の紹介 (≠ 証明 )

4

3.1 定式化

•前提条件• K : スロットマシンのアームの本数• i : アームの番号• t : 時刻• : 報酬の期待値• : 報酬の確率分布• : 最大期待値 ( つまりできるだけこれをあて続けたい )• : 最大期待値となるアーム• μ* T : 最大期待値となるアームを引き続けたときの累積報酬最大期待値• : 1 回毎の最大期待値と実際の期待値との差

5

3.1 定式化

• : 時刻 t の開始時点までにアーム i を引いた回数

確率的バンディットでのリグレット

• : リグレットの期待値

※ このリグレットは確率的バンディットでのみ用いられる

時間ベースでの総和回数ベースでの総和

6

3.2 理論限界

•リグレットを小さくするという問題は期待値最大ではないアームに対して選択数を小さくする問題と同等になる•その選択数はどこまで小さくすることが出来るか、が理論限界にあたる•理論限界は以下のように定義される

•一貫性を持つとリグレットは多項式オーダーより小さくなる•O(logT) オーダーまで小さくした方策を紹介する

誤植あり =>

7

3.2 理論限界

•一貫性を持つ方策のリグレット下界

8

3.3 ε- 貪欲法

•アルゴリズム

9

3.3 ε- 貪欲法

•アルゴリズムの例1. 全体のアームの選択数を 100 回、アームの本数を 5 本と

する2. ε=0.2 とする3. すべてのアームを 0.2 * 100 / 5 = 4 回ずつ引く4. 残りの 80 回は一番期待値の高かったアームを引く

•なんとなる分かること• ε の値をどれくらいに設定すればいいか分からない• 活用期間に一番期待値の高いアームの選択を誤ると…

10

3.3 ε- 貪欲法

•リグレット上界

11

3.3 ε- 貪欲法

• ε の調整に非常に敏感• O(logT) のリグレットを達成するためには ε= O((logT)/T) としてやる必要が

ある• 係数部分は ( 未知である ) に依存して決められる必要もある

•期待値が最大に近いアームも劣っているアームも同じ回数の探索が必要

12

3.4 尤度に基づく方法

•理論限界から期待値最大でないそれぞれのアームを Ω(logt)回程度は選択しなければいけない•ある時刻 t においてそのアームを 1/t(logt を t で微分 ) 程度は必要となる•逆説的に考えると各時刻に 1/t 程度の確率で期待値最大ではないアームを選ぶことができれば理論限界と同じオーダーのリグレットが見込める

13

3.4.1 UCB 方策

•Upper Confidence Bound の略•報酬最大化のためには報酬期待値が高いアームを引くことが必要•報酬期待値が高いアームの選択数は多くなりがち•選択数が低いアームについては標本平均が真の期待値に収束しない可能性がある•これらのバランスを取って、各時刻に 1/t 程度の確率で確率最大でないアームも選ぶようにする

14

3.4.1 UCB 方策


15

3.4.1 UCB 方策

•はじめに全部 1 回ずつ引き、その後は 1 回ずつスコアを計算して探索期間と活用期間を兼ねながら進めていく•スコアは以下の式で算出

※ 導出はヘフディングの不等式から

16

3.4.1 UCB 方策


※ 証明は 4 章で行うとのこと

17

3.4.1 UCB 方策

•UCB 方策 : スコアはヘフディングの不等式に基づく• KL-UCB 方策 : スコアはチェルノフ・ヘフディングの不等式に基づく•より精密な確率の上界を与える KL ダイバージェンスを用いている

18

3.4.1 UCB 方策


※UCB 方策の証明に基づく•理論限界を達成することは可能だが、 KL ダイバージェンスの μ に対する逆関数を計算する必要あり

19

3.4.2 MED 方策

•Minimum Empirical Divergence の略•期待値最大ではないアームの選択率が 1/t 程度になるように選択率を直接操作する•直感的理解が容易なものとして DMED 方策 (Deterministic Minimum Empirical Divergence policy) を例に挙げている

20

3.4.2 MED 方策


21

3.4.2 MED 方策

•現在のループで引くべきアームのリストを実行する•実行途中で次のループで引くべきアームのリストを作成する•アームのリストは以下のどちらかの式 ( 同値 ) で決定される

•「期待値最大である尤度が 1/t 以上のアームを引く」方策である

22

3.4.2 MED 方策

•先程の式を変形すると

が得られて、論理限界が示す最低限必要な回数だけ探索を行うことを DMED 方策が目指していることを言える•リグレット上界

≦

23

3.5 確率一致法とトンプソン抽出

•確率一致法• 「それぞれのアームが期待値最大である確率」を定式化し、引くアームをそ

の確率に従いランダムに選択する• 例としてソフトマックス法が挙げられる

24

3.5.1 確率一致法の特徴と解釈

•バッチ更新に対して頑健である• 計算量や運用上の都合により遅延を含んでデータが与えられることがしばし

ばある• そういった場合、データが送られてくるまで、同じアームを引き続ける可能

性がある• 乱数によって引くアームが決定されるため、各アームの選択回数がある程度

は保証される

25

3.5.2 トンプソン抽出

•確率一致法をベイズ統計の枠組みで定式化したもの•ベイズ更新を行うため、共役事前分布が仮定できると計算が容易になる•今回はベルヌーイ分布モデルを仮定する ( つまりアームが 2本の場合 )

26



27


•事前分布が不明ならば α=β=1 といった無情報事前分布を仮定する•指数型分布族以外の確率モデルでは近似計算により事後分布を推定する必要がある ( この部分についてはバンディット問題に限ったことではない )

28



※ こちらも証明については 4 章で行う

29

3.5.3 トンプソン抽出と UCB 方策の関係

•トンプソン抽出 : 乱数アルゴリズムで事後確率を計算•UCB 方策 : ヘフディングの不等式などからの確率の上界式から計算

•事後確率と尤度という方針は違うかもしれないが、どちらも「期待値最大でいある確率が 1/t 以上のアームを選ぶ」という方策として見なすことが出来る

30

3.6 最悪時の評価

•UCB 方策のリグレット上界を例に取ると、 T が十分に大きい場合は O(logT) オーダーとして見なすことが出来る•逆に Δ が T に対して非常に小さい ( もしくは K が非常に大きい )場合は分布のパラメータであるについて依存しない形のリグレット上界を考えることがある• T を固定して最悪の場合を考えるということで再悪事リグレット上界と呼ばれる

mlp輪読会 バンディット問題の理論とアルゴリズム 第3章

Technology

mlp輪読会バンディット問題の理論とアルゴリズム第3章