hangyo emnlp paperreading2016

13
Distinguishing Past, On-going, and Future Events: The EventStatus Corpus Ruihong Huang, Ignacio Cases, Dan Jurafsky, Cleo Condoravdi and Ellen Riloff 紹紹紹紹紹 : 紹紹 紹紹 (2014 紹紹 ) 紹紹紹紹紹紹紹紹 EMNLP2016 紹紹紹 @ 紹紹

Upload: hangyo-masatsugu

Post on 13-Apr-2017

86 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: Hangyo emnlp paperreading2016

Distinguishing Past, On-going,

and Future Events: The EventStatus Corpus

Ruihong Huang, Ignacio Cases, Dan Jurafsky, Cleo Condoravdi and Ellen Riloff

紹介する人 : 萩行 正嗣 (2014 年卒 )ウェザーニューズ

EMNLP2016 読み会 @ 京大

Page 2: Hangyo emnlp paperreading2016

Introduction•Event に対する新しい時間アノテーションを提案• Past 、 On-Going 、 Future• Event が終わったのか、まだ続いているのかが重要• Social event や自然災害は「これから起こりそう」という記述が多い

•Civil unrest の event だけを対象にアノテーション•既存の event コーパスに比べ non-finite form(e.g.,

“the strike”, “to protest”) が多い•英語とスペイン語でコーパスを作成•この資料内で説明なく数字を出した場合は英語の数字

•Future oriented verb を heuristic でコーパスから獲得•SVM と CNN の 2 つのモデルで分類実験

EMNLP2016 読み会 @ 京大

Page 3: Hangyo emnlp paperreading2016

Outline of EventStatus Corpus (in Section 2)•文中の Event( 今回は civil unrest のみ ) に対して、

Past 、 On-Going 、 Future (Planned 、 Alert 、 Possible) をアノテーション• Past: Today’s demonstration ended without violence.• On-Going: Negotiations continue with no end in sight for

the 2 week old strike.• Future Planned: 77 percent of German steelworkers voted

to strike to raise their wages.• Future Alert: Farmers have threatened to hold

demonstrations on Monday.• Future Possible: The military is preparing for possible

protests at the G8 summit.

EMNLP2016 読み会 @ 京大

Page 4: Hangyo emnlp paperreading2016

Annotation Scheme (in Section 2.1)1. civil unrest に関する keyword を含む new storyを抽出• 2954 stories, 5085 sentences2. 各文が specific event を指す mention を含むかをアノテーション• keyword マッチでは語義曖昧性や generic descriptionで、 specific event 以外も入る (e.g., “Protests are often

facilitated by ...)• 2492 sentences (49%) が specific event あり (κ = 0.84)3. 文中の各 keyword に event status ラベルをアノテーション (5 種の時間ラベル + Not Eventラベル )• κ=0.78• 3 人ともバラバラは 83 個 (2.9%) あったEMNLP2016 読み会 @ 京大

Page 5: Hangyo emnlp paperreading2016

Corpus Properties (in Section 2.1 and 2.2)

EMNLP2016 読み会 @ 京大

Non-finite form

tense や aspect の情報が使えないので、時間情報のラベル付けが難しい

Page 6: Hangyo emnlp paperreading2016

Future Oriented Verbs (in Section 2.3) (1)• “threatened” や” fear” のように、 future event を想定した動詞を future oriented verbs と定義•Mental activity (“anticipate”, “expect”)

Affective (“fear”, “worry”), planning(“plan”, “prepare”),...•2 つの heuristic で future oriented verbs を集める

1. matrix verb( 母型動詞 ) が past tense + complement event( 補語 ) が未来の時間表現で修飾されている• The union planned to strike next week.2. 条件節で修飾された matrix verb• The union threatened to strike if their appeal was

rejected• 双方で出現した matrix verb を future oriented verbsとする

EMNLP2016 読み会 @ 京大

Page 7: Hangyo emnlp paperreading2016

Future Oriented Verbs (in Section 2.3) (2)•Gigaword corpus から 411 個の future oriented

verbs を集めた•Framenet に対応付けしたあと 102 個にクラスタリング ( 理解のためにやっていて、実験では使わない ( 多分 ))

EMNLP2016 読み会 @ 京大

Page 8: Hangyo emnlp paperreading2016

SVM Model (in Section 3)•Past, On-Going, Future の 3 値分類 (Future の

subcategory は無視 )• Linear SVM で one vs. rest (polynominal は悪かった )•Features• Bag-Of-Words: 前後 7 単語• Tens, Aspect: TIPSem で判定 + 係り受けを元にルール

( 英のみ )• Time Expression: DCT と event の日時 (TIPSem で判定、無い場合は一番近い時間表現 ) の比較• Governing Words: event word 係り受け関係にある語• Future Oriented Lexicon: Feature としての入れ方に言及なし

EMNLP2016 読み会 @ 京大

Page 9: Hangyo emnlp paperreading2016

CNN Model (In Section 4)•One convolution layer + one max pooling layer

(Kim, 2014; Collobert et al., 2011)

EMNLP2016 読み会 @ 京大

Convolutional Neural Networks for Sentence Classification (Kim, EMNLP2014) から引用この論文中にネットワークの図とかはなかったので、少し差異があるかもフィルタ幅は 5 に固定

word2vec 300 次元を初期値backpropagation で tune

隠れ層は 300 units

static channel は使ってないので後ろのレイヤーは無視

Page 10: Hangyo emnlp paperreading2016

Evaluations (in Section 5)

EMNLP2016 読み会 @ 京大

先行研究 (TimeBank を CRF で学習 )with transitivity は rule base で label を水増し

Event mention は TIPSem で判定(gold event mention の 72%)全体的に先行研究より高精度Gold event mention を使っている上の 3 つと単純に比較できないRow 3 と 7 は同じ設定だが精度が違う

recall が低い。DCT との link が少ないため。

Future Oriented Lexicon でFuture がよくなる

やっぱり、 Deep Learning には勝てなかったよ…

Page 11: Hangyo emnlp paperreading2016

CNN’s Improvement Cases (in Section 6)•Raising the possibility of a strike on New Year’s Eve,

the president of New York City’s largest union is calling for a 30 percent raise over three years. (FU)•The lockout was announced in the wake of a go-

slow and partial strike by the union since July 12 after management turned down its demand. (OG)

CNN は周辺の手掛りとの構成性をうまく捉えられている? (“possibility” 、” since”)

EMNLP2016 読み会 @ 京大

Page 12: Hangyo emnlp paperreading2016

Error Analysis (in Section 6)•discourse の情報が必要 (26/50)• Chavez also said he discussed the strike with UN Secretary

General Kofi Annan and told him the strike organizers were “terrorists.” (OG) (“double access” ambiguity)• Students and teachers protest over education budget (PA)

•時間の手掛りが構成的かつ離れている (9/50)• Protesters on Saturday also occupied two gymnastics halls

near Gorleben which are to be used as accommodation for police. They were later forcibly dispersed by policemen. (PA)

•ローカルな情報で解けるはずだが誤答 (15/50)• Eastern leaders have grown weary of the protest

movement led mostly by Aymara. (OG)

EMNLP2016 読み会 @ 京大

赤字は手がかり( 論文に明記されていないため、萩行による推測 )

Page 13: Hangyo emnlp paperreading2016

Conclusion (in Section 6) ( と個人的な感想 )•Event status(past 、 on-going 、 future) を英西の

2 言語でアノテーション•CNN のシステムが良い精度を出した•もっと複雑にすればよくなるかも

•時間関係は複雑で、 discourse を見る必要がある感想

実用的にはアノテーションが単純で嬉しい他の event に拡張してどの程度精度が変化するかBoW の SVM もそれなりに精度があるので使えそう実は似た研究をやっていて、 Coling併設の WNUT という WS で発表予定

EMNLP2016 読み会 @ 京大