shin acl参加報告2015
TRANSCRIPT
ACL参加報告 @ yans2015
首都大学東京 小町研究室 M1
叶内 晨 @shin_kan0
1 2015/09/05 yans2015
自己紹介
• 名前:叶内 晨(かのうち しん) • 所属:首都大 小町研 M1 • 研究: – B4:NLPのweb応用分野
• Tweetにおける罹患の検出 – M1:機械翻訳
• 並び替えモデルの改善
• 趣味 – サッカー – アニメ
@shin_kan0 ↑
ゼロ
2 2015/09/05 yans2015
内容
• ACL2015の参加報告(5分)
• 論文を通すまでにしたこと(5分)
• 自分の研究について(5分) – 風邪を保有する主体の認識
OUTLINE
3 2015/09/05 yans2015
ACLに参加してきました!
4 2015/09/05 yans2015
In 北京
5 2015/09/05 yans2015
到着
6 2015/09/05 yans2015
会場 寄り駅: オリンピック公園
7 2015/09/05 yans2015
会場 寄り駅: オリンピック公園
8 2015/09/05 yans2015
にぎやかな入り口
9 2015/09/05 yans2015
にぎやかな入り口
10 2015/09/05 yans2015
すごい数の人
11 2015/09/05 yans2015
!?!?
12 2015/09/05 yans2015
ACLの会場は隣でした…
13 2015/09/05 yans2015
学会の1日の流れ
• 9:00 -‐ 招待講演とか
• 10:00 -‐ 午前の口頭発表
• 12:00 -‐ お昼
• 13:30 -‐ 午後の口頭発表
• 17:30 -‐ ポスター発表 & ディナー
• 21:00 -‐ ソーシャルイベント
14 2015/09/05 yans2015
大きい方の口頭発表の部屋
15 2015/09/05 yans2015
小さい方の口頭発表の部屋
16 2015/09/05 yans2015
私自身の発表
私自身も発表
17 2015/09/05 yans2015
コーヒーブレイク
18 2015/09/05 yans2015
ポスター発表
19 2015/09/05 yans2015
食べながらのポスター発表
20 2015/09/05 yans2015
ソーシャルイベント
21 2015/09/05 yans2015
ソーシャルイベント
22 2015/09/05 yans2015
会場からの帰り道
23 2015/09/05 yans2015
以下,完全に観光
24 2015/09/05 yans2015
北京ダック
25 2015/09/05 yans2015
調理後の北京ダック
26 2015/09/05 yans2015
天安門
27 2015/09/05 yans2015
天安門の手前の緑
28 2015/09/05 yans2015
天壇
29 2015/09/05 yans2015
チャイニーズなスタバ
2015/09/05 yans2015 30
万里の長城
31 2015/09/05 yans2015
ACLのまとめ
• 研究のブーム – 深層学習・分散表現を使ったものがかなり多かった
• 英語 – 勉強していない人は今からやるべき
• 参加することで得られる知見: 大
• 勉強と観光の両方が楽しめる J
32 2015/09/05 yans2015
• ACLの参加報告(5分)
• 論文を通すまでにしたこと (5分)
• 自分の研究について(5分) – 風邪を保有する主体の認識
OUTLINE
33 2015/09/05 yans2015
私の Accept までの流れ
• 9/2 Project Next NLP に参加 – Web 応用チーム に入る – Tweetのデータを頂く
• 11/2 テーマ決定 – 風邪を保有する主体の推定
• 1/21 言語処理年次大会 提出
• 2/28 ACL long paper 提出
• 4/25 Accept !!
2014
2015
• エラー分析 • テーマの模索 (2ヶ月)
• 実験 • 論文執筆 (2ヶ月)
• 論文の英訳 (1ヶ月)
• 落ちたとき用に,他の会議の準備
34 2015/09/05 yans2015
私の Accept までの流れ
• 9/2 Project Next NLP に参加 – Web 応用チーム に入る – Tweetのデータを頂く
• 11/2 テーマ決定 – 風邪を保有する主体の推定
• 1/21 言語処理年次大会 提出
• 2/28 ACL long paper 提出
• 4/25 Accept !!
2014
2015
• エラー分析 • テーマの模索 (2ヶ月)
• 実験 • 論文執筆 (2ヶ月)
• 論文の英訳 (1ヶ月)
• 落ちたとき用に,他の会議の準備
35 2015/09/05 yans2015
研究とテーマ選びで思ったこと
• 結果が良ければ論文を書く • 結果が悪ければサーベイに戻る • (B4,M1的には,)わからないとこ
ろは,うまく頼りつつ成功したい
OK NG
サーベイ エラー分析
実験
テーマ決定 手法提案
論文執筆 投稿
36 2015/09/05 yans2015
研究とテーマ選びで思ったこと
• 結果が良ければ論文を書く • 結果が悪ければサーベイに戻る • (B4,M1的には,)わからないとこ
ろは,うまく頼りつつ成功したい
OK NG
サーベイ エラー分析
実験
テーマ決定 手法提案
論文執筆 投稿
ここで(嫌われない程度に) • 分野に詳しい人の意見を
聞きまくる
• まずは自分の教授へ • お金を払ってその権利を買っている?
37 2015/09/05 yans2015
多くの人を巻き込む
• Project Next NLP に参加 (9/1~9/3) – 岡崎先生(東北大),荒牧先生(もと京大) と出会う – その後共同研究となり,結局ここをベースに論文
執筆
• Yans2014 に参加 (9/21 ~ 9/23)
• DSIRNLP に参加 (10/11) – LT枠を頂いて自分の研究について発表 • 西川大先生や,Lineの佐藤さんなどからアドバイス
38 2015/09/05 yans2015
論文を通すまでにしたこと の まとめ
• サーベイとエラー分析はできるところまでやる
• わからないときは迷わず,周りの力を利用
• そのためにいろいろな人と関わる – 来年もyansに来る
39 2015/09/05 yans2015
内容
• ACLの参加報告(5分)
• 論文を通すまでにしたこと(5分)
• 自分の研究について(5分) – 風邪を保有する主体の推定
OUTLINE
40 2015/09/05 yans2015
疾患の流行 → 現代の大きな心配事
41 2015/09/05 yans2015
罹患検出
• 役割 – 早期対策が可能 – 状況を知ることで,正しい判断ができる
• 一般的な検出方法 – 病院に罹った患者の数から流行を予測 – BUT: 1~2週間のタイムラグ & HIGH コスト
42 2015/09/05 yans2015
ツイートを利用した罹患検出 Broniatowski+ (2013). Na`onal and Local Influenza Surveillance through Twifer: An Analysis of the
2012-‐2013 Influenza Epidemic. PLoS ONE 8(12): e83672.
単なるツイート数
罹患検出アルゴリズムを適用
43 2015/09/05 yans2015
なぜ罹患検出アルゴリズム が必要なのか
• メディアが発言を助長(Broniatowski+ 13)
• キーワードが発言者の体験・状態を反映せず
AKB48まゆゆ(渡辺麻友)がインフルエンザでダウン。4日からの握手会を欠席に AKB48まゆゆ(渡辺麻友)がインフルエンザでダウン。4日からの握手会を欠席に AKB48まゆゆ(渡辺麻友)がインフルエンザでダウン。4日からの握手会を欠席に AKB48まゆゆ(渡辺麻友)がインフルエンザでダウン。4日からの握手会を欠席に AKB48まゆゆ(渡辺麻友)がインフルエンザでダウン。4日からの握手会を欠席に AKB48まゆゆ(渡辺麻友)がインフルエンザでダウン。4日からの握手会を欠席に AKB48まゆゆ(渡辺麻友)がインフルエンザでダウン。4日からの握手会を欠席に
インフルエンザに罹る人を一人でも減らせるようにと思って,ワクチン打ってきた.
44 2015/09/05 yans2015
罹患検出 ≒ エラーの削減
• エラーの原因は様々だが,できるだけ他のタスクにも通用するエラーを改善したい
45 2015/09/05 yans2015
今回の取り組み: 疾患・症状を保有する主体の推定
• 「非当事者」ツイートをフィルタリング
• 手法 – 誰が風邪に罹っているかという主体の情報を付与 – 付与したデータを使い,主体の自動推定器を訓練
• 貢献 – 主体を推定することで罹患検出の性能が改善
46 2015/09/05 yans2015
どんなことをするのか?
荒牧ら(2011)が作成 本研究でラベル付け
※文内に主体が出現する場合のみ,その表現の出現箇所を記録 疾患: 風邪,咳,頭痛,寒気,鼻水,熱・喉の痛み 各疾患に対し,500ツイートを手作業でラベル付
47 2015/09/05 yans2015
主体ラベルの種類
ラベル 意味 発言例
一人称 発言した話者が疾患に関与 風邪引いてひきこもりたい
周辺人物 話者が直接見聞きできる範
囲の人物が疾患に関与 弟がめっちゃ咳してて怖い
その他 人物
それ以外の人物が疾患に
関与 大島優子が風邪らしい…
物体 人間以外の生物・物体が状
態の主体 また PC が発熱
主体なし 主体が存在せず,疾患のイ
ベントが発生していない 風邪薬買って帰る~
48 2015/09/05 yans2015
主体ラベル推定器の素性
Bag-‐of-‐Words (BoW) : 疾患クエリの前後9形態素
疾患クエリ : 疾患クエリが何か (例 : 風邪,発熱)
2,3gram : 疾患クエリの前後6文字の2gram,3gram
URL : 発言内に URL があるかどうか
RP, RT : 発言内にリプライ・リツイートがあるかどうか
周辺人物辞書 : 周辺人物の主体として適切な単語を人手で集め,発言内にある場合に発火 (例 : 彼女,妹,嫁)
その他人物辞書 : 周辺人物辞書と同様にして,その他人物辞書を作成し使用 (例 : 幼児,学生,日本人)
人名 : 「さん・君・ちゃん」の正規表現と一致,もしくはmecabの解析結果で人名が発言にある場合に発火
Tweetサイズ : 発言の形態素の数に合わせて発火
疾患クエリが主辞 : 疾患クエリの次の形態素が名詞以外の場合に疾患クエリが主辞であるとして発火
49 2015/09/05 yans2015
主体推定器の精度 (4値分類)
素性 Micro F1 Macro F1
BoW(ベースライン) 77.2 42.2 BoW + 疾患クエリ 81.9 53.6 BoW + RT & reply 80.0 47.1 BoW + 周辺人物辞書 77.6 46.8 全ての素性 84.0 61.8
50 2015/09/05 yans2015
罹患検出における貢献
風邪
咳 頭痛
寒気
鼻水
熱 F1
ベースライン(BL) 84.4 88.5 90.8 75.9 89.2 78.1 84.5 BL + 推定した主体 85.0 88.3 90.7 81.4 89.4 80.2 85.8 BL + ゴールドデータの主体 87.7 92.6 93.5 88.5 91.4 88.6 90.4
• 主体の自動推定により罹患検出が改善(+1.3poit)
• 主体の正解データを使えばF値が大幅上昇(+5.9point )
• 頭痛と鼻水のF値が変わりづらいのは,他人の頭痛・
鼻水に言及しにくいから?
51 2015/09/05 yans2015
主体推定のエラー
• 現状は「一人称」を予測しすぎ – 鼻水のお薬は効きすぎる – 風邪なのに仕事とかなんなの?移すの?
• 人間が見ても主体が不明 – 春の鼻水祭り – 鼻水爆発しろ!
• 「寒気」の曖昧性 – シベリアから降りてくる寒気は針葉樹の匂いがする
52 2015/09/05 yans2015
まとめ
ある程度努力して, バットを振ると,
ACLに通ることがある
53 2015/09/05 yans2015