hangyo emnlp paperreading2016
TRANSCRIPT
Distinguishing Past, On-going,
and Future Events: The EventStatus Corpus
Ruihong Huang, Ignacio Cases, Dan Jurafsky, Cleo Condoravdi and Ellen Riloff
紹介する人 : 萩行 正嗣 (2014 年卒 )ウェザーニューズ
EMNLP2016 読み会 @ 京大
Introduction•Event に対する新しい時間アノテーションを提案• Past 、 On-Going 、 Future• Event が終わったのか、まだ続いているのかが重要• Social event や自然災害は「これから起こりそう」という記述が多い
•Civil unrest の event だけを対象にアノテーション•既存の event コーパスに比べ non-finite form(e.g.,
“the strike”, “to protest”) が多い•英語とスペイン語でコーパスを作成•この資料内で説明なく数字を出した場合は英語の数字
•Future oriented verb を heuristic でコーパスから獲得•SVM と CNN の 2 つのモデルで分類実験
EMNLP2016 読み会 @ 京大
Outline of EventStatus Corpus (in Section 2)•文中の Event( 今回は civil unrest のみ ) に対して、
Past 、 On-Going 、 Future (Planned 、 Alert 、 Possible) をアノテーション• Past: Today’s demonstration ended without violence.• On-Going: Negotiations continue with no end in sight for
the 2 week old strike.• Future Planned: 77 percent of German steelworkers voted
to strike to raise their wages.• Future Alert: Farmers have threatened to hold
demonstrations on Monday.• Future Possible: The military is preparing for possible
protests at the G8 summit.
EMNLP2016 読み会 @ 京大
Annotation Scheme (in Section 2.1)1. civil unrest に関する keyword を含む new storyを抽出• 2954 stories, 5085 sentences2. 各文が specific event を指す mention を含むかをアノテーション• keyword マッチでは語義曖昧性や generic descriptionで、 specific event 以外も入る (e.g., “Protests are often
facilitated by ...)• 2492 sentences (49%) が specific event あり (κ = 0.84)3. 文中の各 keyword に event status ラベルをアノテーション (5 種の時間ラベル + Not Eventラベル )• κ=0.78• 3 人ともバラバラは 83 個 (2.9%) あったEMNLP2016 読み会 @ 京大
Corpus Properties (in Section 2.1 and 2.2)
EMNLP2016 読み会 @ 京大
Non-finite form
tense や aspect の情報が使えないので、時間情報のラベル付けが難しい
Future Oriented Verbs (in Section 2.3) (1)• “threatened” や” fear” のように、 future event を想定した動詞を future oriented verbs と定義•Mental activity (“anticipate”, “expect”)
Affective (“fear”, “worry”), planning(“plan”, “prepare”),...•2 つの heuristic で future oriented verbs を集める
1. matrix verb( 母型動詞 ) が past tense + complement event( 補語 ) が未来の時間表現で修飾されている• The union planned to strike next week.2. 条件節で修飾された matrix verb• The union threatened to strike if their appeal was
rejected• 双方で出現した matrix verb を future oriented verbsとする
EMNLP2016 読み会 @ 京大
Future Oriented Verbs (in Section 2.3) (2)•Gigaword corpus から 411 個の future oriented
verbs を集めた•Framenet に対応付けしたあと 102 個にクラスタリング ( 理解のためにやっていて、実験では使わない ( 多分 ))
EMNLP2016 読み会 @ 京大
SVM Model (in Section 3)•Past, On-Going, Future の 3 値分類 (Future の
subcategory は無視 )• Linear SVM で one vs. rest (polynominal は悪かった )•Features• Bag-Of-Words: 前後 7 単語• Tens, Aspect: TIPSem で判定 + 係り受けを元にルール
( 英のみ )• Time Expression: DCT と event の日時 (TIPSem で判定、無い場合は一番近い時間表現 ) の比較• Governing Words: event word 係り受け関係にある語• Future Oriented Lexicon: Feature としての入れ方に言及なし
EMNLP2016 読み会 @ 京大
CNN Model (In Section 4)•One convolution layer + one max pooling layer
(Kim, 2014; Collobert et al., 2011)
EMNLP2016 読み会 @ 京大
Convolutional Neural Networks for Sentence Classification (Kim, EMNLP2014) から引用この論文中にネットワークの図とかはなかったので、少し差異があるかもフィルタ幅は 5 に固定
word2vec 300 次元を初期値backpropagation で tune
隠れ層は 300 units
static channel は使ってないので後ろのレイヤーは無視
Evaluations (in Section 5)
EMNLP2016 読み会 @ 京大
先行研究 (TimeBank を CRF で学習 )with transitivity は rule base で label を水増し
Event mention は TIPSem で判定(gold event mention の 72%)全体的に先行研究より高精度Gold event mention を使っている上の 3 つと単純に比較できないRow 3 と 7 は同じ設定だが精度が違う
recall が低い。DCT との link が少ないため。
Future Oriented Lexicon でFuture がよくなる
やっぱり、 Deep Learning には勝てなかったよ…
CNN’s Improvement Cases (in Section 6)•Raising the possibility of a strike on New Year’s Eve,
the president of New York City’s largest union is calling for a 30 percent raise over three years. (FU)•The lockout was announced in the wake of a go-
slow and partial strike by the union since July 12 after management turned down its demand. (OG)
CNN は周辺の手掛りとの構成性をうまく捉えられている? (“possibility” 、” since”)
EMNLP2016 読み会 @ 京大
Error Analysis (in Section 6)•discourse の情報が必要 (26/50)• Chavez also said he discussed the strike with UN Secretary
General Kofi Annan and told him the strike organizers were “terrorists.” (OG) (“double access” ambiguity)• Students and teachers protest over education budget (PA)
•時間の手掛りが構成的かつ離れている (9/50)• Protesters on Saturday also occupied two gymnastics halls
near Gorleben which are to be used as accommodation for police. They were later forcibly dispersed by policemen. (PA)
•ローカルな情報で解けるはずだが誤答 (15/50)• Eastern leaders have grown weary of the protest
movement led mostly by Aymara. (OG)
EMNLP2016 読み会 @ 京大
赤字は手がかり( 論文に明記されていないため、萩行による推測 )
Conclusion (in Section 6) ( と個人的な感想 )•Event status(past 、 on-going 、 future) を英西の
2 言語でアノテーション•CNN のシステムが良い精度を出した•もっと複雑にすればよくなるかも
•時間関係は複雑で、 discourse を見る必要がある感想
実用的にはアノテーションが単純で嬉しい他の event に拡張してどの程度精度が変化するかBoW の SVM もそれなりに精度があるので使えそう実は似た研究をやっていて、 Coling併設の WNUT という WS で発表予定
EMNLP2016 読み会 @ 京大