bgnd kobe.r5

17
1 正規分布の背景 Kobe.R #5 2014.06.14 @florets1

Upload: florets1

Post on 07-Jul-2015

431 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: Bgnd kobe.r5

1

正規分布の背景

Kobe.R #5

2014.06.14

@florets1

Page 2: Bgnd kobe.r5

2

正規分布

−−= 2

22/122 )(

2

1exp

)2(

1),( µ

σπσσµ xN

Page 3: Bgnd kobe.r5

3

正規分布はあちこちに現れる

測定値の分布

熱の拡散

Page 4: Bgnd kobe.r5

4

今回お話すること

日常のいろいろなところに現れる正規分布

他の分布に比べて何かが特別な感じがしませんか?

実は正規分布とは

情報量の平均(エントロピー)が最大になる分布なんです。

Page 5: Bgnd kobe.r5

5

驚きの度合い(情報量)を測ろう

A 起こりそうもないことが起きた。

B いつでも起きそうなことが起きた。

A の情報量 > Bの情報量

Page 6: Bgnd kobe.r5

6

情報量を起きやすさの関数として表す

起きやすさ p(x)

情報量 h(x)

x: できごと

A

B

Page 7: Bgnd kobe.r5

7

情報量は足し算できてほしい

h(x, y) = h(x) + h(y)

x, y: できごと

例えばトランプを引くとき

h(x): ハートが出た場合の情報量

h(y): エースが出た場合の情報量

h(x,y): ハートのエースが出た場合の情報量

Page 8: Bgnd kobe.r5

8

2つの無関係なできごとは統計的に独立

p(x, y) = p(x) p(y)

x, y: できごと

Page 9: Bgnd kobe.r5

9

以上より情報量 h(x) をこのように定義する

p(x)

h(x)

h(x, y) = h(x) + h(y)

p(x, y) = p(x) p(y)

)(log)( xpxh −=

Page 10: Bgnd kobe.r5

10

底は何でもよい

)(log)( 2 xpxh −=

)(ln)( xpxh −=

底が 2の場合、 h(x)の単位は bit

Page 11: Bgnd kobe.r5

11

エントロピー 情報量の平均

)(log)(][ xpxpxHx

∑−=

dxxpxpxH )(log)(][ ∫−=

離散確率変数 xの場合

連続確率変数 xの場合

Page 12: Bgnd kobe.r5

12

エントロピーの性質

bitxH 264

1log

64

4

16

1log

16

1

8

1log

8

1

4

1log

4

1

2

1log

2

1][ 22222 =−−−−−=

xの 8個の状態それぞれの確率が

{1/2,1/4,1/8,1/16,1/64,1/64,1/64,1/64}の場合のエントロピー

bitxH 38

1log

8

18][ 2 =×−=

xが 8個の状態を等確率で取る場合のエントロピー

Page 13: Bgnd kobe.r5

13

エントロピーの性質

データ分析者の観点だと

エントロピーが大きい→面白みのない退屈なデータだな。

エントロピーが小さい→面白い。何かが起こっていそうだ。

Page 14: Bgnd kobe.r5

14

エントロピーが最大となる確率分布(離散)

離散確率変数 xの場合は一様分布

)(log)(][ xpxpxHx

∑−=

1)( =∑x

xp制約条件

求め方

のもとで

を最大化する。

Page 15: Bgnd kobe.r5

15

連続確率変数 xの場合は正規分布

∫ =1)( dxxp制約条件

求め方

のもとで

を最大化する。

∫ = µdxxxp )(

∫ =− 22 )()( σµ dxxpx

dxxpxpxH )(log)(][ ∫−=

エントロピーが最大となる確率分布(連続)

Page 16: Bgnd kobe.r5

16

まとめ

正規分布の正体は

エントロピーが最大となる連続分布だった。

やっぱり特別だった。

データ分析者にとってはエントロピーは小さいほうが面白い。

例えば正規分布に従う値動きの株があるとする。

その株を買いたいですか?

正規分布に従っていないデータに注目すべし。

Page 17: Bgnd kobe.r5

17

参考文献

C.M. ビショップ パターン認識と機械学習 上

平岡和幸・堀玄 プログラミングのための確率統計