kuroda & hasebe nlp15 slides on pattern lattice model

Pattern Lattice を使ったヒトの言語知識と処理のモデル化

黒田航* & 長谷部陽一郎** *杏林大学 **同志社大学

(*NLP15当時 NICT **NLP15当時同志社大/NICT)

概要

• Pattern Lattice の理論の紹介

• 自然言語の意味の準構成性 (quasi-compositionality) を適切に扱える処理システムの設計

• Pattern Lattice 処理系の実装例の紹介

一言で表現したPLM (x PSEC)

• PLM x PSEC がやろうとしている事は，

•言語研究の分野での合成の誤謬 (fallacy of composition) からの脱却

• システムを諸部門 components = modules に分け，部門ごとの最適性を追求しても，一般には全体最適性には至らない

• これを称して「合成の誤謬」

• 元は経済学

• 一般に存在するシステムは非線型なシステム

もう少し具体的に表現したPLM (x PSEC)

• PLM x PSEC がやろうとしている事は，

•言語という知識 (knowledge of language: KoL) のモデル化で，全体最適性を実現するための逆向き工学 (reverse engineering) の実践

Why a theory of pattern lattice?

出発点 1/3

•根本的な問い

• 本当にヒトは文 s = w1 w2 ... wn の意味を，s を構成する語 w1, w2, …, wn の語彙的意味 l1, l2, …, ln を合成して得ているのか？

• そうだとしたら，自然言語の文の意味はもっともっと規則的であるはず

• 例えば (規則を基にした) 機械翻訳はもっとうまくいってよい

• 自然言語の意味構築が構成的であるという想定は，事実や法則というより，研究者の希望的観測ではないのか？

出発点 2/3

•でも，ちょっと待って

• 言語の意味構築は非構成的だと言えばそれで済むのか？

出発点 2/3

•発展的に問うべき事

• 意味構築の構成性が希望的観測に過ぎないとしたら，現実に合った意味構築のシステムはどういうものなのか？

出発点 3/3

•本当の問題

• 意味解釈の概念を緩めて，

• 従来の意味構築モデルに対して上位互換性を持つようなシステムを構築できないのか？

解決すべき問題の再定義 1/4

•大前提 P1

• 言語の大きな単位 (e.g., s) の意味は，その部分 p1, p2, …, pn の意味 m1, m1, …, mn で決まる

•小前提 P2

• 部分 p1, p2, …, pn の意味 m1, m1, …, mn は，究極的にs を構成する語 w1, w2, …, wn の意味 l1, l2, …, ln で決まる

•帰結 C

• 言語の大きな単位 (e.g., s) の意味は，その語 w1, w2, …, wn の意味 l1, l1, …, ln で決まる


•要点

• 大前提 P1は認めるが，小前提 P2 を認めない (結果として，Cを認めない) 意味構築モデル，準構成性 (quasi-compositionality) を想定するモデルが実装可能なのでは？

•パターン束モデル (pattern lattice model: PLM) と並列擬似エラー補正 (parallel simulated error corretion: PSEC) の組み合わせが，これに対する肯定的解答の一つ


•条件

1.部分 p1, p2, …, pn の認定 (= 操作的定義)

2.それらの意味 m1, m1, …, mn の記述

3.全体の意味 M = m(s) と部分の意味 m1, m1, …, mn との関係の規定

4.部分の意味 m1, m1, …, mn と，それらの部分になる語 (や形態素) w1, w1, …, wn の意味 l1, l1, …, ln との関係の規定


•パターン束 (pattern lattice) は

1.部分 p1, p2, …, pn の認定 (= 操作的定義)

•の (プログラムとして実行可能な) モデル化

•他の条件

2.それらの意味 m1, m1, …, mn の記述

3.全体の意味 M = m(s) と部分の意味 m1, m1, …, mn との関係の規定

4.部分の意味 m1, m1, …, mn と，それらの部分になる語 (や形態素) w1, w1, …, wn の意味 l1, l1, …, ln との関係の規定

•には，2のために意味フレーム理論 (Fillmore 1988, et seq.) を想定し，3, 4 のために PSEC を想定

準構成性の具体例

非構成性の簡単な例 1/2

•次の二つの文のでは同じ動詞「かかる」が使われているのに，多くの人は意味が似ているとすら感じない

(1) その男は医者にかかっていた

(2) その絵は壁にかかっていた

•しかし ...

非構成性の簡単な例 2/2

•次のような例で生じる語義の競合は説明不能

(3)??その絵は医者にかかっていた

(4)??その男は壁にかかっていた

•「かかる」の語義の曖昧性だけで説明できるか?

• ムリではないかも知れないが効率は悪い

• (1, 2)の例で同じ効果が起きない理由が説明できない

見こみのある路線 1/3

•次のような超語彙的パターンに(語の意味に還元不可能な) 状況喚起の効果を認めるのが効率的

(5) X1 は壁にかかっていた

• X1の典型的な実現値は {(その)絵, (その) 服, (その) コート, (その) 帽子, ...}

(6) X2 は医者にかかっていた

• X2の典型的な実現値は {その人, 彼, 彼女, (その)男, (その) 少年, ...}


• (5, 6) の他に次のような超語彙的パターンの影響もある

(7) その絵は X3 にかかっていた

• X3 の典型的な実現値は {壁, 廊下, 玄関, 居間, ...}

(8) その男は X4 にかかっていた

• X4の典型的な実現値は {病気, 医者, X医, 病院, ...}


•言語の意味は (5, 6, 7, 8) のような超語彙的パターンからの解釈の引き込み効果=誘引で決まる

• 慣用句やコロケーションは超語彙的パターンの特殊な場合

• 超語彙的パターン非線型表現 (池原 2009)

•それらで決まっていない “隙間” の部分が語の意味で “埋め” られる

池原悟 (2009). 非線形言語モデルによる自然言語処理―基礎と応用. 岩波書店.

本発表の立場

•新たな問題

1. 超語彙的パターンはどれぐらい存在するか?

2. 意味構築が構成的でないなら，どうやって新奇な表現の意味が理解できるのか?

•膨大な事例記憶の上のパターン束内での処理を考える事で，これらに同時に答える

データ観察から

•規模の大きなコーパスを調査しても，完全に同一な文が現われる可能性はかなり低い

•その一方で，ほとんどの表現が数百個程度の基本的なパターンの変異形 (variations)

• 多くの表現にも複数個のパターンが同時並行的に部分一致する

•ただし

問題1への解答

•ヒトの言語知識が膨大な事例記憶 (黒田 2007, Port 2007)

に基づくものであれば，超語彙的パターンは次の形で (原理的には) 際限なく存在する

• 基本形の変異 (= 1次変異)

• 変異形の変異 (= 2次変異)

• 変異形の変異形の ... の変異 (= n次変異)

• Pattern Lattice はこの問題を合理的に解決

問題2への解答 1/3

•準構成的意味構築のモデル化の具体案

• 任意の表現 e について，e に同時並行的に部分一致するパターン群 p1, p2, ..., pn の間にうまく統語/意味演算を定義すれば，アナロジーに基づいた統語/意味処理の問題は解決する

• 演算は p1, p2, ..., pn の素性の重合わせ (論理和)で ok

•これは (Parallel) Pattern Matching Analysis: PMA (Kuroda 2000; Kuroda & Iida 2005) の基本的発想


• PMA によるモデル化の難点は，p1, p2, ..., pn を網羅的に列挙するアルゴリズムが不在だった点

•その不備を補うのが本発表の Pattern Lattice の理論


•言語表現 e の意味解釈は，

• PL(e)の上で (Cascaded) Parallel Simulated Error Correction ((C)PSEC) の処理として実現

• (C)PSECの説明は別の機会に

• JCSS 26, NLP 17

PLM x PSEC の重要な含意

•重要な点

• PSEC を想定する s の意味構築システムでは，意味解釈のもっとも基本的資源は，s の類似例集合

•これから言える事

• 語や形態素 w1, w2, …, wn の意味 l1, l2, …, ln は存在しない訳ではないが

• W = {w1, w2, …, wn} を含む複合的な単位の意味解釈で利用されるのは，最後の手段として

• 構成性を想定するモデルは，W の意味がもっとも基本的資源

Pattern Lattice in Action

生成アルゴリズム1. 表現 e を適当な単位 u1 u2 ... un に分割する

• 単位の認定基準は任意

2. ui を再帰的に変項化 (変項化の結果 = pattern)

3. 2で生成されたパターン集合の instance-of の下での半順序集合が Pattern Lattice

4. instance-of(pi, pj)の定義:

1. is (pi,k, pj,k) OR

2. instance-of (pi,k, pj,k)

Pattern Lattice Builder

•長谷部陽一郎が開発したWeb 版と command-line 版あり

• Command-line 版

• https://github.com/yohasebe/rubyplb

• 実行に Ruby, Graphviz が必要

• Web版

• www.kotonoba.net/rubyfca/pattern

• 2015/05/15 現在は稼働していません

• 注意

• 分割数が 6 を超えると graphviz/dot の処理が非常に重くなる

https://github.com/yohasebe/rubyplb

http://www.kotonoba.net/rubyfca/pattern

Ruby PLB

RubyPLB を使った解析例

•李 (2001)より

• (9) 患者が部屋に消えた．

• (10) 患者が部屋に入った．

• 「消える」は移動動詞でしたっけ？

李在鎬 (2001). 他動詞のゆらぎ現象に対する「構文」的アプローチ. In 言語科学論集 7, pp. 1–20.

補足情報

•パターン束を使った(1,2,3,4)の解析は，NLP17の発表「並列疑似エラー補正法に基づく“破格” な言語表現の (疑似) 解釈」で扱っています

[患者,が,部屋,に,消え,た]のパターン束

[患者,が,部屋,に,消え,た]と[患者,が,部屋,に,入っ,た]のパターン束

RubyPLB の入力

•元は次のようなtextファイル

•半角空白で区切られた任意の部分文字列を分節と認識

• MWE は this_book のように扱う

• UTF-8 に対応済み

•ヘブライ語のような R-to-L 言語にも (先日) 対応

[患者,が,部屋,に,{消え,入っ},た]

•事例間のパターンの共有率 r を色温度で表現

• r は z-score 同一ランクのパターンの中での

• 別の指標を使えば別の共有度の測り方も可能 (未実装)

注目すべき事

• (9) [患者が部屋に消えた] に最近のパターン集合

• [__, が, 部屋, に, 消え, た], [患者, __, 部屋, に, 消え, た], [患者, が, __, に, 消え, た], [患者, が, 部屋, __, 消え, た], [患者, が, 部屋, に, __, た], [患者, が, 部屋, に, 消え, __]

• (10) [患者が部屋に入った] に最近のパターン集合

• [__, が, 部屋, に, 入っ, た], [患者, __, 部屋, に, 入っ, た], [患者, が, __, に, 入っ, た], [患者, が, 部屋, __, 入っ, た], [患者, が, 部屋, に, __, た], [患者, が, 部屋, に, 入っ, __]

•が [患者, が, 部屋, に, __, た] を共有している

[患者,が,部屋,に,{消え,入っ},た]

Remark 1/3

• PL上の処理では単語の合成ではなく，超語彙的パターンの重ね合わせによって目的を実現するが

•部分の意味の合成によって全体の意味を構成する点では従来のモデルと互換

Remark 2/3

•表現の分割が任意なのは意図的

• 音素の集合 ⥤ 形態素

• 形態素の集合 ⥤ 語

• 語の集合 ⥤ 句

• 句の集合 ⥤ 文

•のような厳密にボトムアップな構成系を考えているわけではない

Pattern Lattice の問題点

•扱える要素の数に上限がある

• 要素数が7を超えた辺りから急に s/n が大きくなる

• 複数のレベルで Pattern Lattice が成立するのでは?

•記憶容量より検索の効率化が問題

• 並列処理を想定しても効果的な索引づけが必要

• ヒトの想起の仕組みにトリックがあるのでは?

Summary

発表のまとめ

•自然言語の意味の非構成性を捉えるためにヒトの言語知識を Pattern Lattice としてモデル化

•語彙意味論で説明のつかない現象の説明の可能性を提示し，

•試験的な実装を紹介した

今後の課題

•大規模化/データベース化の可能性を検討したい

• 今は使い捨てだが，できれば処理結果をデータベースとして蓄積する仕組みを導入したい

•パターンを素性表現して階層性を暗黙化したい

•変項を意味クラスとして特徴づける仕組みを導入したい

• 今は文字列一致しか扱えていない

Thank you

Discussion

知性観

•ヒトが知的なのは

• すぐれた知性を備えているからというより

• 膨大な事例記憶を効率良く使っているから

•関連する議論

• Hawkins (2004) の Memory-Prediction framework

記憶という概念の明確化 1/2

•覚え (storage) と思い出し=想起 (recall/remembering)は別の処理

•覚えには上限がないが，思い出しには強い制限がかかっている

• 更に言うと想起の基本的仕組みは検索 retrieve ではない

記憶という概念の明確化 2/2

•動物の記憶には想起可能な記憶 explicit memory と想起不可能な記憶 implicit memory が共存

• てんかんの治療で不幸にして後行性健忘者になった HM は explicit memory は失ったが implicit memory は失っていない

記憶のパラドックス

A.知覚したことは覚えていない限り思い出せない

• 将来に必要になるかどうかを見越して覚えるか否かを先決できない ⥤ 盲目的に覚えるしかない

• 無用な想起は正しい現実認識の邪魔になる

• 患者 S の症状

B.覚えたことの多くは必要がない限り思い出さない方が適応的

パラドックス解消の条件

1. 何から何まで全部覚える

2. 効率的な思い出しのための効果的なインデクスづけを行なう

• 睡眠時の脳の活動の一部はこれ

3. しかし，実際の想起は思い出しに対する恒常的な抑制の一時的な弱化によって起こる

• 月元 (2008) の EMILE モデル

Vast Memory の証拠

!

• Solomon Shereshevky (Luria のMnemonist)

• Kim Peek (Savant Syndrome)

•は通常のヒトとどう違うか?

•彼らは異常な銘記能力を獲得したというより無用なことを想起さない能力を失っているだけでは?

結論の系 1/2

•カテゴリー事例記憶 exemplar memory モデル (Nosofsky 1993ほか) は正しい

• ヒトの知性は膨大な事例記憶 Vast Exemplar Memory: VEM の上に成立している

• Case-based Reasoning システム (Kolodner 1993 ほか) は正しい

結論の系 2/2

•ヒトは自分が知覚したことありとあらゆることをそのまま覚えているが，そのほとんどが想起できない状態にある

•言語の知識もそういう種類の膨大な事例記憶の上に成立していると考えると「文法」の役割は極力小さくできる

•それと同時に単語の辞書は意味をもたなくなる

kuroda & hasebe nlp15 slides on pattern lattice model

Data & Analytics