人工知能特論 ii 　第 7 回

1

人工知能特論 II 　第 7 回二宮　崇

2

今日の講義の予定

系列ラベリングのための HMM 解析

ビタビアルゴリズム学習

最尤推定

教科書北研二 ( 著 ) 辻井潤一 ( 編 ) 言語と計算 4 確率的言語モデ

ル東大出版会 C. D. Manning & Hinrich Schütze “FOUNDATIONS OF

STATISTICAL NATURAL LANGUAGE PROCESSING” MIT Press, 1999

Christopher M. Bishop “PATTERN RECOGNITION AND MACHINE LEARNING” Springer, 2006

3

HMM FOR SEQUENTIAL LABELING

系列ラベリングのための HMM

4

品詞解析

品詞タガー

“I have a pen.”

II havehave aa penpen ..

代名詞代名詞動詞動詞不定冠詞不定冠詞名詞名詞ピリオドピリオド


トーカナイザー

POS タガー

5

隠れマルコフモデルHidden Markov Model (HMM)

名詞

代名詞

動詞

不定冠詞

ピリオド

I

he

Mary

…

遷移 (transition)

出力 (emission)

代名詞代名詞動詞動詞不定冠詞不定冠詞名詞名詞ピリオドピリオド


0.5 0.1

0.3

0.430.01

0.3

0.25

0.01

0.3

0.010.4

6

隠れマルコフモデルHidden Markov Model (HMM)

Q: 状態の有限集合Σ: 出力記号の有限集合πq: 文頭が状態 q になる確率

Σr∈Q πr=1

aq,r: 状態 q から状態 r への遷移確率Σr∈Q aq,r=1

bq,o: 状態 q における記号 o の出力確率Σo Σ∈ bq,o = 1

7

状態記号列の確率と生成確率

状態と記号の列が与えられた時

記号列のみが与えられた時

T

toq

T

tqqq

oqoqoqqqqqq

oqqqoqqqoqqTT

TT

tttt

TTTT

TTTT

ba

bbbaa

bababoqoqoqp

oqoqoq

1,

2,

,,,,,

,,,,,2211

2211

11

22111211

12221111)(

:

状態記号列

QqQqQq

TTT

T

T

oqoqoqpooop

ooo

,,221121

21

21

)()(

:記号列

( 生成確率 )

8

解析 (INFERENCE)復号化 (DECODING)

9

解析

解析 ( 入力 : o1o2…oT)

)(maxarg~~~2211

,,21

21

TTQqQqQq

T oqoqoqpqqqT

しかし、計算量は O(|Q|T)!

10

効率的な品詞解析 : ビタビアルゴリズム

動的計画法

状態 1

o1 o2 oT

トレリス

o3

…

…

…

…

状態 2

状態 3

状態 4

δ(t, q): 時刻 t(ot が出力される時 ) に状態 q となる状態列の中で最大確率となる列の確率

maxq∈ Q δ(T, q) を求めれば良い時刻 1 2 3 T

出力記号

11


o1 o2 oTot-1

状態 q

tt

t

tttttttt

ttt

oqqqtQq

oqqqoqqqttQqQqQq

oqqqttQqQq

baqt

babaoqoqp

baoqoqpqt

,,1

,,,,2211,,

,,1111,,

11

11112211

111

),1(max

)(maxmax

)(max),(

ot

…

…

…

…

…

…

…

…

状態 1

状態 2

…

…

最大確率で遷移したパスをバックポインタで保存

12


動的計画法

状態 1

o1 o2 oTo3

…

…

…

…

状態 2

状態 3

状態 4


時刻 1 2 3 T出力記号

左から右に向かって全ての δ(t,q) を計算

δ(1, 状態 1)=π 状態 1b 状態 1,o1

δ(1, 状態 2)=π 状態 2b 状態 2,o1

δ(1, 状態 3)=π 状態 3b 状態 3,o1

δ(1, 状態 4)=π 状態 4b 状態 4,o1

13


動的計画法

状態 1

o1 o2 oTo3

…

…

…

…

状態 2

状態 3

状態 4




δ(2, 状態 1)=max {δ(1, 状態 1)a 状態 1, 状態 1b 状態 1,o2,δ(1, 状態 2)a 状態 2, 状態 1b 状態 1,o2,δ(1, 状態 3)a 状態 3, 状態 1b 状態 1,o2,δ(1, 状態 4)a 状態 4, 状態 1b 状態 1,o2

}

最大確率で遷移したパスをバックポインタで保存

14


動的計画法

状態 1

o1 o2 oTo3

…

…

…

…

状態 2

状態 3

状態 4




δ(2, 状態 2)=max {δ(1, 状態 1)a 状態 1, 状態 2b 状態 2,o2,δ(1, 状態 2)a 状態 2, 状態 2b 状態 2,o2,δ(1, 状態 3)a 状態 3, 状態 2b 状態 2,o2,δ(1, 状態 4)a 状態 4, 状態 2b 状態 2,o2

}

15


最後にバックポインタを辿ることで最大確率となる状態列が得られる

o1 o2 oToT-2

状態 3

oT-1

…

…

…

状態 1

状態 2

…

状態 4

16


δ[1,q] := π[q]b[q, o1] (for all q)

for t =2 to T for q ∈ Q δ[t, q] := maxq’∈Q {δ[t-1, q’]a[q’,q]b[q, ot]}

bp[t,q] := argmaxq’∈Q {δ[t-1, q’]a[q’,q]b[q, ot]}

17

学習 ( パラメータ推定 ): 最尤推定

18

パラメータ推定 : 最尤推定

最尤推定文の集合を観測したとき、その文の集合がそ

こに出現したのは、その文の集合が最も確率が高かったから、と考えるやり方

コインの例：表がでる確率 θ が未知のコインがある。 100 回投げたところ、 62 回表がでた。すると、その確率は θ62(1 － θ)38 となる。この確率は θ=0.62 で最大となるので、 θ は0.62 であったのだろう、と考えるのが最尤推定の考え方である。

19

最尤推定

最尤推定観測値 x1,...,xn が与えられた時、それぞれが独

立に出現したと考えると、その確率はパラメータ θ の関数になる

この l(θ) を尤度 (likelihood) もしくは尤度関数 (likelihood function) と呼ぶ

尤度関数を最大化する θ を求める

)(maxarg~

l

)();(),...,(1

1 lxpxxpn

iin

20

最尤推定

最大を求めるために尤度関数の極値を求める

コインの例を解析的に解いてみようl(θ) = θ62(1 － θ)38

0)(

l

21

最尤推定

対数尤度 (log likelihood) を使うと計算が楽になる

コインの例で解いてみようlog l(θ) = log( θ62(1 － θ)38 )

)(logmaxarg)(maxarg~

ll

22

最尤推定

正規分布の最尤推定正規分布 N(μ, σ2) から抽出された標本を x1,...,xn

とする尤度

対数尤度

2

2

1

2

2

)(exp

2

1),(

i

n

i

xl

n

i

i

n

i

in

i

xn

xl

12

21

2

2

1

2

2

)()2log(

2

)(

2

1log),(log

23

ラグランジュの未定乗数法

ラグランジュの未定乗数法

　　はラグランジュ関数と呼ばれる

0,...,0,0

)(...)()()(

0)(,...,0)()(maxarg

21

11

1

n

mm

m

LLL

ggfL

ggf

θθθθ

θθθθ

ただし

)(θL

24

まとめ

HMM解析

ビタビアルゴリズム学習

最尤推定資料

http://aiweb.cs.ehime-u.ac.jp/~ninomiya/ai2/



人工知能特論 ii 第 7 回

Documents

人工知能特論 ii 　第 7 回