読解支援プレゼン 4 21

29
やさしい日本語ニュースのための 自動文分割 ‹#›

Upload: kentshioda

Post on 15-Aug-2015

82 views

Category:

Engineering


3 download

TRANSCRIPT

やさしい日本語ニュースのための自動文分割

‹#›

概要

・ニュースを外国人住民のためにやさしく書き換える・やさしくする方法→単語をやさしくする (削除⇒消す)→構文をやさしくする (~したところ⇒~しました。そして~)

‹#›

概要

・やさしいニュースに書き換えるために、、、「文分割の実施の判定に関係する特徴を用い、文分割を整数計画問題として定式化して解く」

‹#›

先行研究・聴覚障害者向け字幕放送のためのニュース文自動短文分割(江原)・接続構造解析に基づく日本語複文の分割(武石)

→文の表層情報、分割点前後の形態素解析などを用いて分割規則を作成しかし、分割後の文全体の自然さは考慮していない

・Text Simplification for Children.(De Belder) →整数計画法で文の難易度を最低にしている しかし、文の自然さについては考慮していない

‹#›

先攻研究

難易度をやさしくすることに加え、既にあるやさしい日本語ニュースに近づけ、文の自然さの条件を満たした文分割の手法を提案する。

‹#›

手法De Belderの手法を参考に1.対象のニュースに対して文節間の係り受け解析を行い、解析結果から分割候補点を抽出する。2.分割候補点全てに分割規則を適用して、「主語の補完」「文末表現の補完」「接続詞の補完」の3つの文分割処理を行う。

‹#›

手法

3.予備的な文分割処理の結果を用いて分割候補点の中から最適な分割点を求めて、それらの文分割処理のみを採用する。

‹#›

分割候補点

・ここでの分割候補点は、用言を含む文節を修飾する従属節の直後を分割候補点とする。・これら分割候補点をCaboChaを用いて抽出した。例)関東では/今日も/雨が/続き、/土砂災害の/危険性が/高くなっている/地域が/あります。

‹#›

分割規則江原氏、武石氏の手法を参考に・分割規則の一部に節境界情報を用いた。節境界情報とは、、→連用節、連体節、並列節などの文節の種類を表す名称。今回は、節境界解析ツールCBAPを用いた。

‹#›

分割規則・規則の拡張のために作成した規則を訓練用のデータ200文に適用し、誤った箇所に規則の追加、修正を加えた。主語の補完に関する規則:2文末表現の補完に関する規則:23接続詞の補完に関する規則:26

‹#›

分割規則

主語の補完例A(CBAP:主題ハ)B/C。 → AB。AC。

文末表現の補完例~、/~ました。 → ~ました。~ました。~ず、/~ました。 → ~ませんでした。~ました。~ており、/~ました。 → ~ました。~ました。

接続詞の補完例A(CBAP:並列節ガ)/B → A。しかし、BA(CBAP:ナド節)/B → A。このように、BA(CBAP:理由節ノデ)/B → A。このため、B

‹#›

分割規則このつがいは、4個の卵を産んだとみられていましたが、観察のカメラが故障して撮影できなくなり、22日、改めてカメラを設置して映像を確認したところ、ひなの姿が映っているのが確認されました。このつがいは、4個の卵を産んだとみられていました。しかし、観察のカメラが故障して撮影できなくなりました。そして、22日、改めてカメラを設置しました。そして、映像を確認しました。すると、ひなの姿が映っているのが確認されました。

‹#›

最適分割点

・CaboChaを用いて抽出した分割候補点の中から、最適な分割点を求める。文書中の単語数Wと分数Sを用いて文書全体の難易度を次式で表す。v = αW + βS (1)ここでαとβは、難易度が付与された正解データを使い、線形回帰を用いて求める。

‹#›

最適分割点max : ∑ij(αΔwij + βΔsij)aij

(2)subj.to aij ∈ {0, 1}

(3)∑nij=0aij = 1, ∀i ≧ 1

(4)

‹#›

分割に使う特徴1.難易度を表す特徴・単語数の変化ΔWと分数ΔSの変化・係り受け間の距離Δdの変化

例 g1.g2 …….giにおいてgiとg1の距離はgi - g12.やさしい日本語ニュースに近づけるための特徴・1文の平均長との差の変化(Δp = |l - 35|)

1文の文字数lと1次編集ニュース(NWEニュース)30記事の1文の平均長35文字との差の絶対値

‹#›

分割に使う特徴

・節境界の相対頻度(c = nr/Nr)元ニュースとNWEニュースの30対のデータを対象に、元ニュース中の分割候補点に節境界rが現れる頻度N rとNWEニュースで分割されている頻度n rの相対頻度を調べたところ、節境界の種類によってこの値に大きな差があったため、この値を特徴に用いた。

並列節ガ 連用節 並列節デ テ節 ナド節

‹#›

整数計画法の利用・De Belderの(1)式を拡張したもの文章の難易度を表す式

vn = β1W + β2S + β3D・・・(5)

やさしい日本語ニュースに近づけるための特徴P、Cを加えた式vl = γ1W + γ2S + γ3D + γ4P + γ5C

・・・(6)文書中の単語数W、分数S、全単語の係り受け間の距離の合計値DΔPの合計値P、全分割候補点におけるcの合計値Cβ1~β3、γ1~γ5はNWEニュースの30対のデータから、線形回帰を使って求めた

‹#›

整数計画法の利用

max : ∑ij(γ1ΔWij + γ2ΔSij + γ3Δdij + γ4Δpij + γ5cij) aij・・・(7)

式(6)の変化を表す式(7)が最大となる分割点を求める。このときに次の制約条件を使った。

‹#›

整数計画法の利用

subj.to aij ∈ {0,1}・・・(8)

∑nij=0aij = 1, ∀ i ≥ 1・・・(9)

(3),(4)と同様に分割点の決定を表す。Δdij ≥ 1, ∀ i ≥ 1, ∀ j ≥ 1

・・・(10)各分割点の係り受け間の距離が1以上あることを表している。「歩いて/帰る」など係り受け間の距離が0の場合「歩いて」は除外

‹#›

整数計画法の利用

(β1ΔWij + β2ΔSij + β3Δdij)aij ≤ max_d・・・(11)

-∑ij aij Δ Sij ≤ max_s・・・(12)

・(11)式は(5)式の難易度を下げすぎないための条件式難易度の変化がmax_d(元ニュースとNWEニュースの30対のデータを用いて式(5)の難易度を計算した際の上限値)以下であることを表す・(12)式は過度に文分割が行われないための条件式文分割後の分数の増加がmax_s(元ニュースとNWEニュースの30対のデータを用いて文数の増加を計算した際の上限値)以下であることを表す

‹#›

評価実験 実験概要

NHKニュースからランダムに抽出した450文を用いて、分割規則の評価を行った。

1. 1文ごとに文中の全ての分割候補点に分割規則を適用し、文分割処理を行う

2. 分割した箇所1つごとに「分割点」「主語の補完」「文末の補完」「接続詞の補完」の4つの評価項目に関して、適切か不適切かの2値で評価した。

‹#›

分割規則の実験結果

評価項目 評価数 適切 不適切

分割点 325 237 (72.9%) 88(27.1%)

主語の補完 64 47 (73.4%) 17(26.6%)

文末の補完 237 156 (65.8%) 81(34.2%)

接続詞の補完 237 118 (49.8%) 119(50.2%)

‹#›

不適切評価の考察分割点で不適切と評価されたもので係り受け解析誤りを除いて以下の場合がほとんどであった。・混乱の収拾に向け、(分割点)/与野党が支持した。・ダルビッシュ投手はユニフォームを着て、(分割点)/チームメートと2時間練習を行いました。これらは分割点の用言が副詞的や役割をもつため、分割すると不適切になったと考えられる。

‹#›

分割規則の実験結果

‹#›

評価項目 評価数 適切 不適切

分割点 325 237 (72.9%) 88(27.1%)

主語の補完 64 47 (73.4%) 17(26.6%)

文末の補完 237 156 (65.8%) 81(34.2%)

接続詞の補完 237 118 (49.8%) 119(50.2%)これらは係り受け解析誤りによるものがほとんどであった。

分割規則の実験結果

‹#›

評価項目 評価数 適切 不適切

分割点 325 237 (72.9%) 88(27.1%)

主語の補完 64 47 (73.4%) 17(26.6%)

文末の補完 237 156 (65.8%) 81(34.2%)

接続詞の補完 237 118 (49.8%) 119(50.2%)この結果は、適切な規則がないために不適切となったものが多かった。20種類の節境界情報を用いて作成した26の規則で適切な接続詞を付与するには限界がある。解決するためには、節境界情報の細分化をして規則を追加する必要がある。

最適分割点の判定方法

1. 元ニュースに最適分割点を入れる2. NWEニュースで分割されている箇所を最適な分割点

として1.で求めた分割点と比較を行い、その結果を用いて分割精度、分割再現率、全体精度式を求める。

‹#›

分割精度 A / (A + C)分割再現率 A / (A + B)全体精度 A + D / (A + B + C + D)

‹#›

提案手法適用結果分割した 分割しなかった

正解:分割する A B

最適分割点の判定方法

分割精度 分割再現率 全体精度

ベースライン 0.33 1.00 0.33

De Belder 0.28 0.24 0.55

提案手法 0.37 0.64 0.52

‹#›

分割精度、分割再現率ともに提案手法がDe Belderの手法を上回った。一方で、全体精度はDe Belderの手法が上回った。これは、全ての分割候補点を分割しない場合の全体精度が0.67(1 - 0.33(ベースラインの全体精度))と高い値であること、De Belderの手法の分割再現率が低いことが原因であると思われる。

まとめ・提案手法がやさしい日本語ニュースのための最適分割点の判定に有効に働いている。・しかし、分割精度、全体精度ともに十分ではなく、難易度や、やさしい日本語ニュースの特徴をさらに増やしていく必要がある。・今回は1人の作業者が書き換えたNWEニュースを用いた。複数の作業者が書き換えたニュースを用意して、作業者間の分割点の一致を調べる必要がある。

‹#›