masakazu sano tokyowebmining 37 20140621

25
経路積分から眺める確率過程 Tokyo webmining #37, June 21 2014 Masakazu Sano / 佐野正和 / @Masa_S3 Fringe81 inc. 1

Upload: masakazu-sano

Post on 07-Jul-2015

4.563 views

Category:

Data & Analytics


1 download

TRANSCRIPT

Page 1: Masakazu Sano Tokyowebmining 37 20140621

経路積分から眺める確率過程

Tokyo webmining #37, June 21 2014

Masakazu Sano / 佐野正和 / @Masa_S3

Fringe81 inc.

1

Page 2: Masakazu Sano Tokyowebmining 37 20140621

アジェンダ

2

•自己紹介•動機•経路積分•経路積分の応用例•どういう使い方があるのか•経路積分の考え方•ダイナミクスをどう決めるのか?•パラメータをどう決めるのか?

•個人的な気付き(物理を知っている人向け)•個人的な予想(物理を知っている人向け)•まとめ

Page 3: Masakazu Sano Tokyowebmining 37 20140621

自己紹介

3

•@Masa_S3/佐野正和

•Fringe81株式会社(ネット広告の会社)でデータアナリストを担当(ロジック設計、モデル作成、実装)

•バックグラウンドは素粒子物理学

•最近Qiitaで分析技術ネタの連載を開始しました。やってみよう分析!シリーズ

ネット広告に興味があり、分析(機械学習・高速計算アルゴリズム・大規模データ高速処理など)したいエンジニア募集中!

Page 4: Masakazu Sano Tokyowebmining 37 20140621

4

•ネット広告運用のためのより良いシステム・手法・モデルを探し、自社のサービスレベルをさらに上げたい。

具体的には•ネット広告で予算やCPC(cost per click)を最適化してCV(conversion)を増やしたい。

•Imp(impression), click, cv, cost, UU(unique user), search, creative size, media, imp share, cpc, ctr(click through rate), cvr(conversion rate), cpa(cost per acquisition), 配信面など、各種変数の時間的変化や関連性(寄与度)を知りたい(予測したい)。

•パフォーマンス向上に加え、配信状況を可視化したい。

•これらを取り入れた運用自動化・管理システムを作りたい(改善したい)。

動機

Page 5: Masakazu Sano Tokyowebmining 37 20140621

5

•ネット広告運用のためのより良いシステム・手法・モデルを探し、サービスレベルを上げたい。

具体的には•ネット広告で予算やCPCを最適化してCVを増やしたい。

•Imp, click, cv, cost, UU, search, creative size, media, imp share, cpc, ctr, cvr, cpa, 配信面など、各種変数の時間的変化や関連性(寄与度)を知りたい(予測したい)。

•パフォーマンス向上に加え、配信状況を可視化したい。

•これらを取り入れた運用自動化・管理システムを作りたい(改善したい)。

動機

本日のトークトピック

Page 6: Masakazu Sano Tokyowebmining 37 20140621

動機

6

•時間・空間(ラベル)とともに確率的に変化する変数の変化を捉えたい•例:2つの証券の価格変動

A証券

B証券

A+B証券:100円A+B証券:280円

時間

A証券とB証券の合成価格の変化の軌跡

ラベル

Page 7: Masakazu Sano Tokyowebmining 37 20140621

動機

7

•ネット広告でたとえるなら。•例えばcpc(or cost, cv…)の変化を媒体別(メニュー別)・時間毎に予測したい。

Media A

Media B

Media A

Media B

Media A

Media B

cpc

cpccpc

cpccpc

cpc

時間

ユーザの遷移orメディアの関係性の強さ

ラベル

Page 8: Masakazu Sano Tokyowebmining 37 20140621

動機

8

•さらに”かも知れない”可能性(迷い、ゆらぎ)も予測に取り入れたい。

Media A

Media B

Media A

Media B

Media A

Media B

cpc

cpccpc

cpccpc

cpc

時間

発生したかもしれない可能性

Page 9: Masakazu Sano Tokyowebmining 37 20140621

経路積分(Path integral)

9

•素粒子物理学で誕生•Richard Feynman(ノーベル賞学者)が発明(1948)。•現代素粒子物理学では必要不可欠。•粒子が通過するあらゆる経路の可能性を考慮して、もっとも起こりうる軌道(ダイナミクス)を求める。

wikipedia

マクロ

この軌道のみ起こる

ミクロ

実現確率:低

実現確率:低実現確率:高

Page 10: Masakazu Sano Tokyowebmining 37 20140621

経路積分の応用例• 金融工学[J. Dash 1988]

• ニューラルネットワーク[J.Balakrishnan, 2003]

• カルマン/非線形フィルタ[Bhashyam Balaji, 2007]

• 最適制御(optimal control)[H.J. Kappen, 2004]

• 進化ゲーム[曽弘博, 2014]

10

経路積分: 確率過程を仮定し、それが満たす確率分布を定める。

波動方程式: 確率分布が満たす偏微分方程式を仮定して解き、確率過程を定める。

等価

偏微分方程式を解くのは難しい

Page 11: Masakazu Sano Tokyowebmining 37 20140621

どういう使い方があるのか確率分布が定まれば。。。• パラメータ推定によって変数間の結びつきの強さを見積もれる。

• 相互作用の様子をある程度可視化できる。

• 確率分布がわかっているので変数の期待値が計算できる(期待値をより正確に評価できる)。

• 例えばポートフォリオ最適化に応用できる。

11

2変数間の結びつきの強さ

Page 12: Masakazu Sano Tokyowebmining 37 20140621

経路積分の考え方

12

時間

座標

1つのパスの実現確率

Page 13: Masakazu Sano Tokyowebmining 37 20140621

経路積分の考え方

13

時間

座標

あらゆる経路の寄与を含めた実現確率

粒子が位置する座標範囲の可能性は

Page 14: Masakazu Sano Tokyowebmining 37 20140621

経路積分の考え方

14

時間

座標

この部分を最大化する

最も起こりうる軌道(解)が求まる

Page 15: Masakazu Sano Tokyowebmining 37 20140621

経路積分の考え方• 例を考えてみましょう。

• 正規分布

15

時間

座標

確率が最大化される経路

Page 16: Masakazu Sano Tokyowebmining 37 20140621

ダイナミクスをどう決めるのか?• 複雑な確率過程の確率分布をどうやって定めればいいか。

16

離散化

?• 一般にF(X)の関数形は複雑かつ様々なパラメータが含まれている。• F(X)のX依存性が非線形や多項式の場合、Nを求めるのは容易ではない。• 規格化因子Nに正しくパラメータが含まれていないと全確率を1に規格化できない。• どうやって規格化因子Nを定めるのか。

出発点:モデルの仮定

Page 17: Masakazu Sano Tokyowebmining 37 20140621

ダイナミクスをどう決めるのか?• 確率過程量子化を応用すると、全確率1の確率分布を持つ確率過程を経路積分で定式化できる[G. Parisi and N.

Sourlas(1982), J.Balakrishnan(2003), Bhashyam Balaji(2007)]。

17

十分小さい

Page 18: Masakazu Sano Tokyowebmining 37 20140621

ダイナミクスをどう決めるのか?• 簡単な例で確認。

18

Nが十分大きい

Page 19: Masakazu Sano Tokyowebmining 37 20140621

パラメータをどう決めるのか?• 例えば最尤法を使う。

• 一般にはW(X)にモデルのパラメータが含まれる。

• からもパラメータ依存項が出てくる可能性があり、無視できない。

19

Page 20: Masakazu Sano Tokyowebmining 37 20140621

個人的な気付き(物理を知っている人向け)• 極限の取り方で違う記述方法もある[F. Cooper, A. Khare, U. Sukhatme(1994)]。

20

Grassmann変数

Superpotential

N=2 Supersymmetric sigma model(Euclidean)

Page 21: Masakazu Sano Tokyowebmining 37 20140621

個人的な予想(物理を知っている人向け)

21

N=2 Supersymmetric sigma model(Euclidean)

?• もしこの形式が成立していれば、ボラティリティが時間やラベルに対して変化するモデル(確率分布)を作ることが可能になる。

• Grassmann変数を消去した形に書き換えることができれば、原理的にはパラメータ推定できる。

N=2 Supersymmetric sigma model(on curved Euclid space)

Page 22: Masakazu Sano Tokyowebmining 37 20140621

まとめ• 経路積分を使うと、簡単に全確率が1になる確率分布とそれに付随するモデルを構成できる。

• 確率分布が定まればパラメータ推定を実行できる。

• 経路積分を通じて物理学、確率過程(数学)の知見を統計的データ分析の理解・実際に活用できると期待したい。

22

経路積分

物理学

統計的データ分析

確率過程(数学)

Page 23: Masakazu Sano Tokyowebmining 37 20140621

参考文献• G. Parisi and N. Sourlas, Supersymmetric Field Theories and Stochastic Differential

Equations, Nucl.Phys. B206 (1982) 321

• J. Dash, Quantitative finance and risk management : a physicist’s approach, World Scientific Pub., 2004.

• J. Dash, Path Integrals and Options, Part I, CNRS Preprint CPT88/PE.2206. , 1988

• J. Dash, Path Integrals and Options, Part II, CNRS Preprint CPT89/PE.2333., 1989

• H.J. Kappen, A linear theory for control of non-linear stochastic systems, Phys. Rev. Lett. 95, 200201

• J.Balakrishnan, Neural network learning dynamics in a path integral framework, Eur.Phys.J.B15, 679 (2000)

• Bhashyam Balaji, Universal Nonlinear Filtering Using Feynman Path Integrals I: The Continuous-Discrete Model with Additive Noise, Aerospace and Electronic Systems, IEEE Transactions on (Volume:48 , Issue: 3 )

• 曽弘博, 双安定進化ゲームの確率的ダイナミクスに対する空間自由度の影響,物性研究・電子版 Vol. 3, No. 2 032601 (2014年5月号)

• F. Cooper, A. Khare, U. Sukhatme, Supersymmetry and Quantum Mechanics, Phys.Rept.251:267-385,1995

23

Page 24: Masakazu Sano Tokyowebmining 37 20140621

補足

24

Page 25: Masakazu Sano Tokyowebmining 37 20140621

経路積分確率過程と経路積分(like Gauge fixing)

25

=1