実況ツイートからの感情抽出手法の提案 sentiment …...the same program on tv by...

甲南大学大学院自然科学研究科知能情報学専攻修士論文 No. 161

実況ツイートからの感情抽出手法の提案

Sentiment Extraction from Live Tweets

2014年 3月若井祐樹

甲南大学大学院自然科学研究科

要旨

近年，Twitterなどのマイクロブログが普及しており，自分の身近で起こったことを気軽にツイートすることができる．実際に Twitterを用いて，スポーツやドラマ，映画などのテレビ番組を視聴しながら実況ツイートをするユーザが増加している．ユーザ自身がその時視聴しているシーンに対して，興味を持ったことやどのように感じたのかツイートすることによって，同じ番組を見ている他ユーザと共有することができる．また，１つの番組に対して，盛り上がるシーンや見所があるが，時系列によってユーザが感じた感情が異なっていると考えられる．そこで，本論文では，テレビで放送されている映画に焦点を当て，ツイートの感情を時系列に抽出する手法を提案する．この時ツイートには，顔文字や特有な表現が多く含まれている．これらは感情をよりわかりやすく表現するために用いられているものと考えられる．そこで本論文ではツイートの顔文字や特有表現を考慮に入れた感情の抽出を行う．

Summary

Recently, microblogs such as Twitter become popular, and we can tweet about our own dailylife easily. The user who tweets during watching sports programs. dramas, and movies on TVbecomes increase. In this way, users can share their sentiment with other people who watchthe same program on TV by tweeting some scene of the program in real time. Furthermore,user has different sentiment on the timeline based on a scene of a program. In this paper,we propose extracting users sentiment from live tweets. In this time we use the tweets whichtweet about movie programs on the TV. Tweets have emoticon and special words. Usersoften use them to present their sentiment on the tweet. Then we also extract sentiment ofthe emoticon and special words and we include these sentiment to the tweet sentiment.

目次

1 はじめに 1

2 関連研究 3

3 既存辞書を用いた多次元感情軸のツイートに対する適応性 53.1 感情表現語辞書 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3.1.1 Webニュースに関するツイートにおける多次元感情軸の適応性実験 . . . 63.2 感情表現語辞書を用いた感情抽出 . . . . . . . . . . . . . . . . . . . . . . . . . . 63.3 実験結果とその考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

4 顔文字を考慮した感情抽出手法 84.1 予備実験 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84.2 結果と考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134.3 顔文字の役割 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134.4 顔文字の役割毎の感情値 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164.5 評価実験 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

5 繰り返し表現を考慮した感情抽出手法 195.1 感情表現辞典の再構築 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195.2 繰り返し表現を考慮した感情値算出手法の手順 . . . . . . . . . . . . . . . . . . . 225.3 実験方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225.4 実験結果とその考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225.5 繰り返し表現の重みの設定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245.6 繰り返し表現の重みを考慮したときの評価実験 . . . . . . . . . . . . . . . . . . . 24

5.6.1 視聴率の高い番組での評価実験 . . . . . . . . . . . . . . . . . . . . . . . 265.6.2 繰り返し表現を含む映画の実況ツイートに対する評価実験 . . . . . . . . 26

6 映画の実況ツイートの時間軸ごとの分析 286.1 時間軸ごとのツイートの頻度の分析 . . . . . . . . . . . . . . . . . . . . . . . . . 286.2 時間軸ごとのツイートの感情値の分析 . . . . . . . . . . . . . . . . . . . . . . . . 29

7 まとめと今後の課題 30

図目次1 本音をさらせるソーシャルメディア . . . . . . . . . . . . . . . . . . . . . . . . . 12 ニュースに対するツイートの感情値 . . . . . . . . . . . . . . . . . . . . . . . . . 73 感情表現語辞書を用いた感情抽出手法の流れ . . . . . . . . . . . . . . . . . . . . 94 楽しい⇔悲しいの軸の場合の感情値の階級とその頻度 . . . . . . . . . . . . . . . 105 うれしい⇔怒りの軸の場合の感情値の階級とその頻度 . . . . . . . . . . . . . . . 106 のどか⇔緊迫の軸の場合の感情値の階級とその頻度 . . . . . . . . . . . . . . . . 107 顔文字がある場合の感情値と，ない場合の感情値との差 . . . . . . . . . . . . . . 148 図 7の右上部分を拡大したもの . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 図 7の左下部分を拡大したもの . . . . . . . . . . . . . . . . . . . . . . . . . . . 1410 文によって顔文字の使われ方が異なる例 . . . . . . . . . . . . . . . . . . . . . . 1511 感情語毎の 3つの役割のツイート数 . . . . . . . . . . . . . . . . . . . . . . . . . 1712 顔文字を考慮した感情抽出手法の流れ . . . . . . . . . . . . . . . . . . . . . . . . 1813 Jumanによる形態素解析による出力結果 . . . . . . . . . . . . . . . . . . . . . . 2014 繰り返し表現を考慮したときの感情抽出手法の流れ . . . . . . . . . . . . . . . . 2515 時間軸ごとのツイートの頻度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2916 時間軸ごとの感情値 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

表目次1 顔文字に関する研究の分類 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 感情表現語辞書の内容の一部の例 . . . . . . . . . . . . . . . . . . . . . . . . . . 53 実験で用いる映画とそのツイート数 . . . . . . . . . . . . . . . . . . . . . . . . . 64 顔文字に感情語辞書生成のためのユーザ実験例 . . . . . . . . . . . . . . . . . . . 115 顔文字の感情辞書の一部例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 顔文字の機能毎の例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 感情語毎の感情値算出システムの精度 . . . . . . . . . . . . . . . . . . . . . . . . 198 感情表現辞典の感情とその一部の単語例 . . . . . . . . . . . . . . . . . . . . . . 209 新しく構築した感情表現語辞書の一部 . . . . . . . . . . . . . . . . . . . . . . . . 2110 繰り返しによって感情の変化があったときのツイートの割合 . . . . . . . . . . . 2311 感情軸ごとにおける各ユーザが選択した割合 . . . . . . . . . . . . . . . . . . . . 2412 各感情軸の特有表現があるツイートの数と適合率 . . . . . . . . . . . . . . . . . 2613 各感情軸の特有表現の重みを考慮しない場合の評価 . . . . . . . . . . . . . . . . 2714 各感情軸の特有表現の重みを考慮した場合の評価 . . . . . . . . . . . . . . . . . 27

1 はじめに近年，Twitter1などのマイクロブログが普及しており，一般の人々の様々な声をインターネッ

ト上に気軽に発信することができる．Twitterは，140文字以内の文字制限があり，自分の身近に起こったことや感じたことを気軽に発信（ツイート）することで，ツイートをみんなで共有することができるサービスである．実際に，Twitterを用いてスポーツや映画，ドラマ等のテレビ番組を視聴しながら実況ツイートをするユーザが増加している．映画やドラマ等の実況ツイートは，視聴している番組の出演者やキャラクターのセリフをツイートしたり，番組に対する自分の意見や感想をツイートしていることが多い．特に後者の番組に対するツイートの中には，視聴者の感情が含まれていることが考えられる．つまりは，自分が思っていることや感じたことを発していることが推測できる．また，図 1の東京工芸大学の調べ2によると，大学生 1,000人に「本音をさらせるソーシャルメディア」をたずねたところ，その割合が，Facebookは 19.2％，mixiが 19.5％に対し，Twitterが 37.2％と最も高いことがわかった．つまり，他のソーシャルメディアと比べTwitterは，ユーザの本音をさらす可能性が高いため，ニュースに対してもユーザ自身が感じたことを本音で発言することが多いと推測する．そこで本研究では，映画の実況ツイートを焦点に当て，ツイートの感情の抽出を行う手法を

提案する．映画の実況を対象とした理由として，映画は１作品でストーリーで完結している作品が多く，起承転結がはっきりしており，感情の流れが大きく変化するのではないかと考えられる．具体的には，テレビで放送された映画に関する実況ツイートの収集を行い，単語とその

図 1: 本音をさらせるソーシャルメディア

1Twitter． https://twitter.com/2東京工芸大学調べ． http://bit.ly/10e93QN

1

単語の感情の値に構成された感情語辞書から，1つのツイートの感情値を算出し，感情の決定を行う．映画の実況ツイートの感情を抽出することによって，映画に対して，視聴してどういった感情が流れているのかを読み取ることができる．また，場面によって，大きく感情が変化した場合，その場面が映画の見どころだと考えられ，見どころの抽出ができるのでないかと期待できる．また実際に，実況ツイートを見てみると，ユーザが自由にツイートしているため，特有な表

現をする場合が存在する．例えば，「まじですか、うれしいですっ(ôˆ) 」のように文に後ろに付けられる顔文字や，「きたああああ！！」といった，語句の後ろに同じ母音を繰り返すことによって叫んでいるような表現をしているものが存在する．これら顔文字や繰り返し表現は，よりそのツイートの感情を明示的に表現されていると考えられる．そこで本研究では，ツイート特有表現を考慮したときの感情の抽出手法を提案する．それぞ

れの特有表現に対する具体的な抽出手法として，以下に示す．顔文字を考慮した感情抽出手法顔文字には文の関係によって使われ方が異なることが考えられる．例えば，「(ôˆ)」は喜んでいるような顔を表現している顔文字を使った 3つの文を紹介する．・「これは嬉しい (ôˆ)」嬉しいの感情が顔文字が付け足されることによって，より嬉しいことを表現されていることがわかる．・「無理だ (ôˆ)」ある物事に諦めて暗いイメージだが，顔文字が付け足されることで，開き直っているような特徴が見られる．・「まじで腹立つわ (ôˆ)」文のみに注目すれば怒っているようなイメージができるが，顔文字が付け足されることによって，怒りのイメージを和らげていることが見られる．このように，顔文字単体で感情を判断するだけでなく，同時に文に着目する必要があると考えられる．そこで本研究では，「強調」，「自嘲」，「弛緩」の 3つの役割があると定義し，役割ごとに重みの設定を行い，ツイート文の感情値と役割ごとの重みを用いることで感情値を決定する手法を提案する．そのためにはまず，単体の顔文字の感情を付与させるために，ユーザ実験から顔文字単体の感情語辞書を構築する．構築した顔文字の感情語辞書に付与された顔文字の感情と文の感情を比較することで，顔文字の役割を決定し，顔文字を考慮したときの感情値を決定する．繰り返し表現を考慮した感情抽出手法ツイート文中に「きたああああ！」のような語句の後ろに同じ母音の繰り返しが含まれているとき，ツイート文の感情値と感情毎に設定した繰り返し表現の重みを加算することで感情値を決定する．重みは，ユーザ実験から，各感情が繰り返し表現が含まれている場合の変化の検証から重みを決定する．以下，第 2章では関連研究を，第 3章では顔文字を考慮した感情抽出手法について，第 4章

では繰り返し表現表現を考慮したときの感情抽出手法の提案について，第 5章では，映画の実況ツイートの分析ついて，最後に第 6章ではまとめと今後の課題について述べる．

2

2 関連研究感情に関する研究現在，感情表現を抽出する研究が行われている．その中で，感情表現を表す感情モデルが提案されており，多次元の感情モデルが提案されている．代表的な感情モデルとして，Plutchik[1]のモデルがある．人間の感情は「嫌悪⇔信頼」，「悲しみ⇔喜び」，「驚き⇔予測」，「恐れ⇔怒り」の 8つの基本となる感情に分類され 4次元のベクトルで表されている．また，中村 [2]は「喜，好，安，哀，厭，怖，怒，恥，昂，驚」の１０次元のベクトルで表されており，熊本ら [3]は，「楽しい⇔悲しい」，「うれしい⇔怒り」，「面白い⇔つまらない」，「楽観的⇔悲観的」，「のどか⇔緊迫」，「驚き⇔ありふれた」の６次元のベクトルで表されている．高岡ら [4]は中村 [2]の提案する 10次元の感情軸から 6次元の感情軸へ次元削減を行い，この 6次元の感情軸を用いて，名言から感情を表す語 (感情語)を抽出している．そして，これら感情軸と感情語を用いて，ユーザの気分にあった名言を検索するシステムを提案している．本研究では映画の実況ツイートに注目し，そのツイートから感情を抽出する点が異なる．徳久ら [5]は，ユーザの発話内容から感情を推定する手法を提案している．発話内容から感情を生起する要因の文を獲得する (この事態の集合を感情生起要因コーパスと呼ぶ)．感情モデルには，（嬉しい，楽しい，安心，恐い，かなしい，残念，嫌，寂しい，心配，腹立たしい）と（neutral）の 11種類の感情を用いている．宮森ら [6]は，番組実況チャットに基づく視聴者反応を利用したテレビ番組のメタデータ抽出手法を提案している．視聴者の反応を利用することによって，番組の盛り上がり場面や，視聴者の嗜好・興味に沿ったリアクションなどを効率良く抽出できることを示している．佃ら [7]は，ニコニコ動画を対象に，視聴者の動画への反応に基づいた動画の検索や動画の推薦を可能とするシステムを提案している．動画の各場面におけるコメントの数や内容から，動画の各登場人物の活躍シーン及び活躍の大きさを推定している．Twitterに注目した感情に関する研究堀宮ら [8]は，Twitterの特徴である他者との会話機能を用いて，人間と人間に対する推測能力に着目し，ユーザへの発言に対する他者の反応であるリプライを利用して感情推定を行う手法を提案している．堀宮らは，Ekmanが定義した（幸福，驚き，恐れ，悲しみ，怒り，嫌悪）の基本６感情を分類して，ユーザの感情を推定している．本研究では，人間と人間との発言から感情を提示するのではなく，映画の実況ツイートから，感情の提示を行う点が異なる．水岡ら[9]は，同じ感情表現を持つメッセージは時間的近傍に出現しやすいと考え，Twitterのログを利用して感情表現を収集する．感情表現の収集対象をあらかじめ決めておき，時間的に近いつぶやきに似た感情表現をしているものを判定する．感情表現には，(かっこいい，かわいい，泣ける，笑える)の 4種類の感情を用いている．山内ら [10]は，テレビ番組を見ながらツイートをし，他の視聴者と感情を共有する現象を利用し，番組関連のツイートを取得することで，ツイートした時間の番組シーンの視聴者の感情を推定している．感情推定の結果を利用し，シーンにおける視聴者の感情をグラフ化し，提示を行っている．中澤ら [11]はテレビ番組に関連するツイート数の変動から重要シーンを自動的に検出し，ツイート内容から主要人物とイベント内容を推定して，その結果をシーンを表すラベルとして付与する手法を提案している．顔文字に注目した研究顔文字に関する研究は多数存在する．表 1 に顔文字に関する研究の分類を示す．表 1 に示すように，顔文字の感情分析は顔文字のみと顔文字と文を合わせた感情分析に分類される．文献 [20]，[21]，[22]，[24]，[28]，[29]は顔文字のみを対象としている．それに対し我々は，顔文字と文を

3

表 1: 顔文字に関する研究の分類顔文字の感情分析顔文字の

顔文字のみ顔文字+文感情分析ではない[12] ○[13] ○[14] ○[15] ○[16] ○[17] ○[18] ○[19] ○[20] ○[21] ○[22] ○[23] ○[24] ○[25] ○[26] ○[20] ○[28] ○[29] ○[30] ○[31] ○

対象とし感情抽出を行うのでこれらの研究とは異なる．[12]，[13]，[14]，[16]，[30] は顔文字と文を対象としているため，我々の研究と類似している．しかしながら，中丸 [12]は，短文と顔文字 4つずつしか対象としていない．加藤ら [13]は「怒り」，「嬉しさ」そして「悲しみ」の 3つ感情のみを対象としている．篠山ら [30]は，チャットやメール，日常会話の文を 14個の各感情に分類しており，5つの感情を表現している顔文字を対象としている．江村ら [14]は，ツイートに含まれている顔文字も対象としているが，文章の感情にあった顔文字を推薦するシステムを提案している．我々は，ツイートから文のみの感情及び文+顔文字の感情分析を行い，ツイートの感情を分析しているため，先行研究と異なっている．繰り返し表現に注目した研究浅井ら [32]は，マイクロブログ上で使われる突発的な感情の例である，「○○きたあああ」のような語尾の母音の繰り返しが発生する語を「叫喚フレーズ」と定義し，叫喚フレーズの調査と抽出手法の提案をし，評価を行っている．本研究では，浅井らが定義した叫喚フレーズをツイート特有表現に含まれる繰り返し表現と定義し，語句の後ろに母音 (ひらがな・カタカナ・大文字・小文字は区別しない)に 3つ以上続いている表現のことを示し，繰り返し表現を考慮したツイートの感情抽出手法を提案する．

4

3 既存辞書を用いた多次元感情軸のツイートに対する適応性3.1 感情表現語辞書

本研究ではまず，感情抽出の対象とすべき感情の種類（感情軸）を決定する．様々な感情軸がすでに提案されているが，本研究では熊本らが提案している 6本の感情軸 [3][33]で構築されている感情表現語辞書を採用する．各感情軸は，反義語関係にある 2つの感情語から構成されており，「楽しい⇔悲しい」，「うれしい⇔怒り」，「面白い⇔つまらない」，「楽観的⇔悲観的」，「のどか⇔緊迫」，「驚き⇔ありふれた」の 6本が提案されている．これらの感情軸は，新聞記事を読んだ人々がその記事からどのような印象を受けるかをアンケート調査により調べた結果に基づいて提案されており，新聞記事の印象を定量的に捉えるための尺度（スケール）となっている．そのため，これらの感情軸は，実況ツイートに対しても有効と考えられる．なお，熊本らが提案している感情抽出手法では，この 6本の感情軸のうちの「楽しい⇔悲しい，うれしい⇔怒り，のどか⇔緊迫」の 3本しか扱っていない．その理由として，（1）驚きに関する印象は，人によって大きく異なっており，かつ，その異なり具合はいずれの記事においても同程度であるため，その抽出には何らかの個人適応が必要と考えられる点，（2）感情軸の評価のしやすさに関するアンケート調査の結果から，「面白い⇔つまらない」と「楽観的⇔悲観的」という 2つの印象尺度は，ある種の記事（例えば殺人事件や自殺，事故死等に関する記事）に対しては不適切であり，評価しづらい点の 2点が挙げられている．本研究でも，「面白い⇔つまらない」と「楽観的⇔悲観的」，「驚き⇔ありふれた」の 3軸に関しては採用しないこととする．熊本らが提案している感情抽出手法では，3本の感情軸のそれぞれに対し，新聞記事データ

ベースに現れる任意の単語とあらかじめ定義してある感情語群との（記事内）共起関係を調べ，その結果に基づいて感情辞書（各単語の記事印象への影響力を数値化したもの）を構築している．各記事の感情値は，この感情辞書を用いて算出されており，例えば「楽しい」⇔「悲しい」という感情軸に着目すると，感情値が-3に近いほど悲しいという感情が強く 3に近いほど楽しいという感情が強いことを示している．感情表現語辞書の一部の例を表 2に示す．

表 2: 感情表現語辞書の内容の一部の例

5

3.1.1 Webニュースに関するツイートにおける多次元感情軸の適応性実験

ここで，熊本らが提案した新聞記事の感情表現語辞書が文字数が少なく且つ一般ユーザが自由に記述している Twitterにも有効なのか予備実験を行う．予備実験条件予備実験に用いたデータは，100件のWebニュースに対するツイートで，各々のWebニュースのURLを用いてツイート検索を行った結果のツイートをニュースに対するツイートとして扱う．ツイートは合計約 4万ツイート収集した．そのツイートを用いて感情表現語辞書から，ニュースに対するツイートの感情値を算出する．この予備実験では，熊本らが使用した「楽しい」⇔「悲しい」，「うれしい」⇔「怒り」，「のどか」⇔「緊迫」の感情軸を使用する．予備実験結果実験で得られた，それぞれの感情軸に対するニュースに対するツイートの感情値を図 2 に示す．結果より，すべての軸において，散布図の両端に丸で囲んだように大きな空白領域があることがわかる．つまりは，各軸の対局を顕著に表すデータが得られなかった．しかしながら，実際のツイートを見てみると，明らかに悲しんだり，喜んだりしているツイートが多数存在した．これにより，今回の予備実験で用いた熊本らの感情辞書だけではツイートの感情分析を行うのは不十分であることがわかった．さらに，ツイートを見てみると，ツイートには顔文字が多く存在し，これらが感情を左右している事がわかった．そこで本研究では，さらに顔文字に注目し，顔文字の感情辞書を構築することを行う．

3.2 感情表現語辞書を用いた感情抽出

ここで，熊本ら [3]が構築した感情表現語辞書を用いて，映画の実況ツイートの感情の抽出を行う．抽出する手法の流れを図 3に示す．対象映画はテレビで放送された５つの映画「天空の城ラピュタ」，「るろうに剣心」，「猫の恩返し」，「耳をすませば」，「紅の豚」である．感情分析を行う実況ツイートはこれら各々の映画のテレビ放映時にこれら映画のハッシュタグがついたツイートを収集した．プログラミング言語は PHPを使用し，Twitter Search APIを用いて，ツイートの内容とツイートされた時間を収集した．各々の映画の実況ツイートの数を表 3に示す．

表 3: 実験で用いる映画とそのツイート数映画名ツイート数

天空の城ラピュタ 8124るろうに剣心 2616猫の恩返し 1666耳をすませば 2742紅の豚 1084

これらツイートから感情を推定する手法は以下に示すように熊本らの提案する手法を用いる．

1. 収集したツイートからリプライ（＠ユーザ名）・リツイート (RT)をしているツイートを削除.

2. のこりのツイートからハッシュタグ（#）とURLを削除．

6

図 2: ニュースに対するツイートの感情値

7

3. 熊本らが構築した感情値算出プログラムを用いて，ツイートを形態素解析し，その形態素群の内，感情辞書に含まれる形態素を感情値を求める単語とする．

4. (3)で求めた単語が持つ感情値がその単語を示す感情軸の感情値とする．

5. (1)から (4)をすべてのツイートに対して行う．

3.3 実験結果とその考察

５作品の実況ツイートによる実験で得られたそれぞれの感情軸に対する感情値の分布と頻度を求めたグラフを図 4，図 5，図 6に示す．それぞれのグラフの横軸は，感情の値を示しており，-3.0に近いほど，感情軸における左の感情を示し，3.0に近いほど，右の感情を示す．縦軸はツイート数を示す．結果より，それぞれの感情軸を見ると，-1.0～1.0付近の値に密集していることが多く，両端

の値が少ないことがわかる．つまり，感情値を顕著に表すデータが得ることができなかったことがわかった．また，グラフには示していないが，1つのツイートに対して感情値が算出されなかったものが多数存在する．これは，そもそもツイート内に感情表現語辞書に収録されている単語が付与されていなかったためだと考えられる．しかし少数だが，-3.0や 3.0付近の値が存在している．これは，文字数の少ない実況ツイートが，感情表現語辞書に収録されている単語１つのみを感情値として示いていると考えられる．つまり，本研究で着目している映画の実況ツイートでは，感情表現語辞書の感情軸では不十分であることがわかった．

4 顔文字を考慮した感情抽出手法Twitterといったソーシャルネットワークでは，顔文字とは，文字・記号で顔表情（例えば

喜びを表す「(ˆoˆ)」など）や体表現（例えば打ちひしがれた様子を表す「orz」など）を表し，ユーザの感情を容易に表現するためのコミュニケーション技法と言える．Twitterでは 140文字の制限があるため，短く，簡単に自分の感情を伝えるための技法として顔文字が使われていることが多い．よって，ツイートから感情を抽出するためには，顔文字に着目することは不可欠であると考えられるため，本研究では，普通の文章だけでなく，顔文字に着目して感情の抽出を行っていく．

4.1 予備実験

顔文字の感情語辞書に関する予備実験顔文字の感情語辞書を生成するため，被験者 5名に顔文字のみを見てもらい 6つの感情語と「その他」からどれに当てはまるか選んでもらった．実験例を表 4に示す．最も当てはまると判断された感情を１とし，最大 3つまで選んでもらう．今回辞書に登録する顔文字については，実際にツイートに使われている顔文字の出現頻度の高い顔文字を使った．実験の結果，174個の顔文字感情語辞書を作成した．顔文字感情辞書の一例を表 5に示す．顔文字の有無による検証のための予備実験ここで，顔文字がある場合とない場合でどれくらい差が存在するのか検証するために予備実験

8

図 3: 感情表現語辞書を用いた感情抽出手法の流れ

9

図 4: 楽しい⇔悲しいの軸の場合の感情値の階級とその頻度

図 5: うれしい⇔怒りの軸の場合の感情値の階級とその頻度

図 6: のどか⇔緊迫の軸の場合の感情値の階級とその頻度

10

表 4: 顔文字に感情語辞書生成のためのユーザ実験例

を行った．被験者は 5名で，顔文字が 1つのみ含まれている顔文字付きツイート 270ツイートを実験データとする．ユーザ実験では，まず顔文字付きツイートから顔文字を削除したツイートを提示し，テキストのみでツイートの感情を「楽しい」「悲しい」，「うれしい」，「怒り」，「のどか」，「緊迫」の中から判断してもらう．その後，顔文字付きツイートの感情を同様に判断する，実験結果は，被験者 5人中 2人以上が選んだ感情をその感情に関するツイートとする．

11

表 5: 顔文字の感情辞書の一部例

12

4.2 結果と考察

図 7に，ユーザ実験の結果から顔文字がある場合とない場合の感情値の差を評価しやすくするためにソートしたものを示す．横軸がツイートで，縦軸は，「楽しい，悲しい，うれしい，怒り，のどか，緊迫」の感情について顔文字がある場合とない場合の差分であると示す．また，図7の右上部分と左下部分を拡大したものをそれぞれ図 8，図 9に示す．図 7より，各感情において差がプラスになる場合と，マイナスの場合があることがわかる．つ

まりプラスの場合は，顔文字があることによって，文の感情をより強めている．それに対してマイナスの場合は，文の感情を和らげているといえる．例えば，「豊スタいきたい (T-T)」のツイートの「悲しい」の感情値に着目した場合，顔文字なしの感情値は 0，顔文字ありの感情値0.92と，より悲しいが強調されているといえる．また，「サマウォいい映画 (;o;)」のツイートの「うれしい」の感情値に着目した場合では，顔文字なしの感情値は 0.62，顔文字ありの感情値は0.25となり，「うれしい」の感情が顔文字があることによって和らげられていることがわかる．次に顔文字に注目してみると，同じ顔文字でも同様のことがいえることがわかった．「怒り」

で「はーサマウォはしょられすぎて辛い！！(・∀・)」のツイートは，0.4だけ「怒り」の感情を和らげていることがわかった．反対に「嬉しい」では「山中教授，いける・・・(・∀・)」のツイートは，0.5だけ「嬉しい」の感情を強めている．つまり，同じ顔文字でも文との関係によって感情値が変わるので，顔文字だけで感情を決定するのは不十分であることがわかる．以上のことから，文と顔文字との関係性から感情値を考える必要があると考えられる．

4.3 顔文字の役割

顔文字について分析をした結果，顔文字にはそれぞれ役割が存在し，文に何らかの影響があることがわかった．例えば，「(ôˆ)」を例にあげ，図 10に示す．顔文字単体で考えると，喜んでいるような印象を感じ取ることができるが，「きたああああ！(ôˆ)」ではより強く喜んでいることが感じ取れ，「無理だ (ôˆ)」ではあきらめているように感じ取れ，そして「ふざけんな (ôˆ)」では文では怒っている印象を感じるが，顔文字があることによって，和らげていることを感じ取ることができる．つまり，顔文字は文によって，感情・役割が異なってくることが考えられる．村上ら [34]は，顔文字の機能は「強調」と「配慮（弛緩）」に分類できると述べている．そこで，我々はこれらを考慮して顔文字を含むツイートを分析した結果，顔文字を以下の 3つの機能に分類する．

強調顔文字が文の意味 (良い意味，悪い意味含め)をより強めている．

自嘲顔文字があることで，自分に呆れて笑うさま，自分で自分をつまらぬものとして軽蔑すること · · · といったニュアンスを感じる．

弛緩顔文字が文の意味を少しでも弱めている，和らげている．

顔文字を用いたツイートの感情は，顔文字の感情だけでなくその役割によって変わっていると考え，本研究では，顔文字感情辞書は感情語毎にその感情を示す顔文字とその役割で構成することとする．顔文字の役割に関する予備実験上記で定義した顔文字の役割の特徴の発見，役割と感情との関係性を検証するために予備実験を行った．被験者は 5名で，顔文字を含んだ 270ツイートを見てもらい，ツイートの感情を判

13

図 7: 顔文字がある場合の感情値と，ない場合の感情値との差

図 8: 図 7の右上部分を拡大したもの

図 9: 図 7の左下部分を拡大したもの

14

図 10: 文によって顔文字の使われ方が異なる例

断してもらう．この時，ツイート内の顔文字に「強調」「自嘲」「弛緩」「該当なし」の中でどの役割が適しているのか分類してもらう．それぞれの感情語毎に対して 3つの役割の分布を図 11に示す．図 11より，全体的にどの感情

語に関しても強調を示す顔文字が多いことがわかる．例えば，「きりたんぽ美味しかった (*ˆˆ*)」や「コナンめっちゃ怖い ((((;゜Д゜))))))」といった，文の感情を強めた顔文字が多く使われていることがわかった．強調に関しては，顔文字の使い方が様々にあるため，さらに細かい分類をする必要がある．また，「のどか」が他の感情語に比べ，ツイート数が少ないことがわかる．これは，実験に使用するツイートのデータを収集する際に「のどか」に関するツイート数が他の感情語に比べて少ないこと，ユーザ実験の段階で「のどか」の分類が難しかったことがあげられる．「怒り」に関しては，他の感情語に比べ，弛緩の値が突出していることがわかる．「怒り」での弛緩の例として，「やっぱ態度違うやつ腹立つわ (´ˆωˆ｀)」のように「腹立つ」といったきつい言い回しを和らげるために (´ˆωˆ｀)」のような顔文字を使っていると考えられる．しかし，「のどか」で弛緩のツイート例を見てみると，「ウィッチズガーデンの全体的な雰囲気いいなあ～ほわほわ幸せ空間って感じ (*´ω` *)」や「昔は犯人の真っ黒い人が怖くてコナン見れなかったっけなぁ(‾∀‾)」，「ルパンに石田彰とか時代は変わったなー ( ´ω` )」「今日は平和でした (T T)逆に怖いけど (爆)」といったように文全体がきつい言い回しではないにも関わらず，弛緩に分類されている．これは上記の 4つのツイートを正解にした人数がどれも 2人のみであった事から，顔文字を使う人側が間違って顔文字を使用している可能性があると推測する．最後に自嘲は，「次、土曜日かよ。おれの休みマジなくなってばっかじゃん。もうやだー働きたくないー＼ (ˆoˆ)／」や「ムードメーカーキャラ受け継ぎます!! カレー屋までは無理ですよ (笑)」といった否定的な文面に対して，笑ったり喜んでいたりする顔文字を組み合わせることで「自

15

嘲」のニュアンスを出していると推測する．さらに，ネガティブな感情語に自嘲が多く出ているが「サマーウォーズ見たことないから全くわからない (´▽` )」のように自嘲の特徴である，否定的な文面であるが顔文字があることで楽観的な感情に変化した．以上の予備実験の結果から，表 6に各役割ごとの特徴例を示す．

4.4 顔文字の役割毎の感情値

図 11より，感情語が「楽しい」「嬉しい」の場合，「自嘲」「弛緩」がほとんど見られず，「強調」が多いことが分かる．よって，本研究ではツイート本文の感情が「楽しい」「嬉しい」の場合，ツイートに含まれる顔文字の役割は「強調」とみなすこととする．また役割ごとの特徴例より，ツイートの文の感情語と顔文字の感情語が同じならば，「強調」と判断し，ツイート文の感情語と顔文字の感情語が対の関係となっていれば「弛緩」と判断する．又ツイートの文が「～ない」と否定形であり，且つ顔文字の感情語が「楽しい」・「嬉しい」・「のどか」であれば「自嘲」と判断することとする．上記より，本研究ではツイート中の顔文字と文の感情語との関係が以下のようになる場合，顔文字の役割毎に感情の重みを付与することを行う．

TIMe i = DIMi×α (1)

TIMs j = DIMj×β (2)

TIMrk = DIMk×γ (3)

ここで i，j，kは各々ある１ツイートを示し，TIMe i は顔文字が強調の役割であるツイート iにおける感情値を，TIMs j は顔文字が自嘲の役割であるツイート jにおける感情値を，TIMrk は顔文字が弛緩の役割であるツイート kにおける感情値を示す．DIMi は iにおける文のみの感情値を，DIMj は jにおける文のみの感情値を，DIMk は kにおける文のみの感情値を示す．また，α, β, γ各々の役割の重みを示し予備実験より，α>γ>βとする．図 12に顔文字を考慮した場合の感情抽出手法を示す．文と顔文字それぞれの感情の抽出を行い，それぞれの関係から，役割の決定，最後に，役割ごとの重みを文の感情値に付与することによって，1ツイート全体の感情値とする．

4.5 評価実験

提案手法の有用性を測るために，4.3章の予備実験の結果の上位 3位を正解データとして，顔文字を考慮しないで感情値を算出した場合と，顔文字を考慮して感情値を算出した場合の，各々に対する適合率，再現率，F値を求めた．結果を表 7に示す．ここで，各々の役割の重みは実験より α = 2.0，β = 0.2，γ = 0.3とする．顔文字を考慮しない場合の平均の F値が 33% であるのに対して，顔文字を考慮した場合は

35% であったことから，顔文字を考慮した方が良い結果となった．しかし感情語によっては F値が下がっているものがあった．特に，「怒り」は顔文字を考慮しない方が F値が高くなっている．考えられる原因として，「弛緩」の重み付けが文の感情値を大きく下げてしまったため，適合率，再現率が共に下がったと考えられる．これにより「怒り」の場合には「弛緩」の文の感情値に対する重み付けの影響の大きさを他の感情語に比べて弱めた方が良いことがわかった．「のどか」について着目すると，適合率がほかの感情と比べ，極めて小さくなっていることがわかる．これは，「のどか」の判断が曖昧になってしまっていることが考えられる．よって実験の際に感情毎に細かく定義した方が良い結果が得られるのではないかと考えられる．

16

図 11: 感情語毎の 3つの役割のツイート数

　

表 6: 顔文字の機能毎の例機能特徴の例ツイートの例

同じ表現を繰り返すものきたあああ＼ (ˆOˆ)/強調文の意味=顔文字の意味好きだな (*´∇`*)　

強調記号+顔文字観る♪ (´ε` )文の意味⇔顔文字の意味かわいいわぁヽ(;▽;)ノ

自嘲否定形+(笑) できてない (笑)弛緩命令形+やわらかめな顔文字飲み会来るなよ（ˆˆ）

17

図 12: 顔文字を考慮した感情抽出手法の流れ

18

表 7: 感情語毎の感情値算出システムの精度楽しい悲しい嬉しい怒りのどか緊迫平均

適合率 33% 46% 40% 38% 11% 25% 32%顔文字考慮なし再現率 47% 20% 43% 34% 53% 53% 42%

F値 39% 28% 42% 36% 18% 34% 33%適合率 38% 64% 44% 36% 13% 25% 37%

顔文字考慮あり再現率 63% 22% 58% 21% 56% 47% 45%F値 48% 33% 50% 27% 21% 32% 35%

5 繰り返し表現を考慮した感情抽出手法本章では，繰り返し表現を考慮したときの感情抽出手法について述べる．また，本章から，「感

情表現語辞書」でなく，中村の「感情表現辞典」を用いる

5.1 感情表現辞典の再構築

熊本ら [3]が構築した感情表現語辞書の感情軸では，ユーザが自由に発しているツイートの感情を抽出していくには不十分であることが考えられる．また，Twitterでは，様々な感情を持つツイートをすることが多く，3つの感情軸で感情を表現することが困難であることが考えられる．さらに，ユーザ自身が自由にツイートしている点で，感情表現語辞書に含まれていない単語がツイート内に多く含まれていることが問題点である．そこで本研究では，感情軸を中村 [2]の感情表現辞典を用いて，辞書の構築を行う．手法は，

熊本らが感情の辞書を構築した手法を用いる．前準備として，辞書を構築するためのデータは，Yahoo!映画3のレビューデータ 74,000文書を用い，感情軸を構築するための感情語を中村の感情表現辞典の語句を用いる．映画のレビューデータを用いた理由として，ツイートより文章がしっかりしており，見た映画に対して，どのように感じたのかを伝えるためにレビューを書いたユーザが多いため，辞書を構築するためのデータに最適であると考えれられる．感情表現辞典を選んだ理由として，感情表現辞典では表 8のように，10個の感情から分類されており，ツイートに含まれる様々な感情に対応できると考えたからである．また，1つの感情語辞書に対する 2つの対極の感情の決定に関しては，Plutchikの感情の輪 [1]で向かい合っている感情は対極関係であることを参考にして，「哀⇔喜」，「厭⇔好」，「恥⇔安」，「怖⇔怒」，「驚⇔昂」で構成した．定量化した値（感情値）は，構築した辞書の中の 1つの単語に軸毎の感情値が-1.0から 1.0の間で付与されており，-1.0に近いほど「哀」などの左側の感情が，1.0に近いほど「喜」などの右側の感情が強いことを示している．構築した新しい感情表現語辞書の一部を表 9に示す．また，ツイートするユーザは，自由にツイートするため，様々な表現方法がされる場合があ

る．例えば，「可愛い」という単語は，「かわいい」というように漢字・ひらがなで表現する人で異なってしまうことがある．そこで本研究では，このような表記ゆれに対応するために，形態素解析器 Jumanの「代表表記」に着目した．Jumanには図 13 で示してあるように，「楽しい/たのしい」のように，様々な表記方法がある単語に対しては，「代表表記」という項目が存在し，統一することができる．そこで，ツイートを形態素解析を行う際，代表表記に着目して，感情値の算出を行うことによって，表記ゆれに対応できるのではないかと考えられる．

3Yahoo!映画． http://movies.yahoo.co.jp/

19

　

表 8: 感情表現辞典の感情とその一部の単語例感情単語喜楽しい，面白い，嬉しい，笑い，心が引かれる，肩身が広い哀悲しい，痛い，孤独，寂しい，じいんと来る，しゃくりなき好恋しい，愛しい，好き，恋しい，敬意を表する，思い巡らす厭暗い，憎い，辛い，不愉快，せせら笑う，愛想をつかす安のんびり，すっきり，安らぎ，弛緩，気を鎮める，打ち解けやすい恥恥ずかしい，もじもじ，照れる，ハニカム，顔を隠す，穴に入りたい怒　怒る，腹ただしい，憤怒，腹立ち，堪忍袋の緒が切れる，むっとする怖怖い，不安，震える，気味悪い，気を飲まれる，色を失う昂苛立つ，感動，動揺，やきもき，心が張り詰める，体を固くする驚ぼんやり，歓喜，慌てる，思いがけない，目を丸くする

図 13: Jumanによる形態素解析による出力結果

20

　

表 9: 新しく構築した感情表現語辞書の一部哀⇔喜厭⇔好恥⇔安怖⇔怒驚⇔昂

爆笑できる 0.9266 0.0142 0 0.3717 0.500喜んでいます 0.9091 0.609 0 0.1341 0.500楽しい 0.9086 0.6669 0.3142 0.0614 0.3976

嘆かわしい -0.9498 -0.4169 -0.4684 0.4789 0.2922涙ながらだ -0.9433 -0.0428 -0.7228 -0.3922 0.5964切腹 -0.9421 -0.179 0.183 0.7351 0

自殺してしまう -0.9297 -0.6949 0 -0.1439 -0.2434泣き崩れる -0.9171 0.2987 0.3142 -0.073 0.792恋する 0.1267 0.8927 -0.0176 -0.1385 0.0561可愛い -0.2594 0.8809 0.0507 -0.2463 0.2473惚れる 0.2212 0.8796 0.2179 -0.1072 -0.0617不景気だ -0.1873 -0.9868 0.3695 -0.2085 0.0979蔑む -0.506 -0.9648 0 -0.6922 -0.4651

嫌らしい -0.2417 -0.9616 0 0.0424 -0.0938安全だ -0.1591 0.0414 0.9713 -0.1843 0.1148明快だ 0.3598 -0.0033 0.7422 0.2494 0.0339温かさ -0.1431 0.112 0.7055 -0.2193 -0.1221

恥ずかしい 0.0488 -0.0319 -0.9926 -0.1072 0.3976真っ赤だ -0.3879 0.1115 -0.9926 -0.0089 0.2922煽られる 0.1349 -0.2027 -0.9227 -0.4284 -0.1041不満だ -0.0696 -0.8497 0.2735 0.9426 -0.3096悔しい 0.0284 0.1238 -0.1801 0.9403 0.1148腹立つ -0.3405 0.1049 0.0937 0.9051 -0.1221卑怯だ 0.0395 -0.9047 0.4141 -0.9899 0.6284臆病だ -0.3423 0.4486 0.1794 -0.9663 0.0294恐ろしい -0.2891 -0.2304 0.0375 -0.9662 0.14熱心だ -0.0481 0.1551 0.183 0.231 0.9697

感動したい -0.1472 0.4496 0 -0.7872 0.8327騒いでる -0.5429 -0.3513 0 0 0.783意外だ -0.0081 0.1663 0.207 0.003 -0.9906戸惑う -0.227 0.2675 -0.2057 0.004 -0.99

唖然とする -0.527 -0.1674 0.2563 0.2164 -0.8981

21

5.2 繰り返し表現を考慮した感情値算出手法の手順

もう１つの特有表現である繰り返し表現を用いているツイート特有表現を考慮に入れて感情の分析を行う．ここでいう繰り返し表現は浅井ら [32] が提案した「叫喚フレーズ」のことであり，「きたああああ！」のように崩れた表記をして，母音を繰り返す表現である．繰り返し表現の定義は，同じ母音が３つ以上付加されており，大文字・小文字を区別しないものとしている．ツイートの感情分析において，崩れた表記に対応することは不可欠であるため，本研究では繰り返し表現を考慮した感情分析を行う．ツイートから感情を抽出するために，構築した感情表現語辞書を用いて，繰り返し表現を考慮したツイート毎の感情値算出手法を提案する．以下に手順を示す．

1. 大量のテキストデータを用いて，新しい感情表現語辞書を構築し，単語毎の定量化を行う．

2. 実況ツイートに含まれる単語の内，構築した感情表現語辞書に含まれる単語の感情値を用いて求める．

3. 抽出した単語の感情値の合計を単語数で割った値をそのツイートの感情値とする．

4. 実況ツイート内に繰り返し表現が含まれている場合，設定した繰り返し表現の感情値の重みをツイートの感情値に加算する．

5. 算出された感情値のうち，最も大きい値の感情軸をそのツイートの感情とする．

5.3 実験方法

繰り返し表現を使われることで，どのように感情の変化があるのか分析するため，ユーザ実験を行った．データセットは，3.2章と同様，映画の実況ツイートの中から，母音が 3つ以上繰り返しており，「！」が付与されているツイートを無作為に 50抽出し，それを実験データとし，ユーザ実験を行った．被験者は 20代男性 11名である．算出する具体的な手法は以下の手順で以下に実験手順を示す．

1. ユーザは抽出した 50のツイートから繰り返し部分と「！」を含むツイート特有単語を削除したツイートを見て，感情表現辞典の 10軸の感情の中からそのツイートの感情に適した感情軸を最大 3軸選び，選択した感情軸に対して 10点満点にて評価した．

2. (1)と同じツイートからツイート特有の単語を削除せず，ユーザはツイートそのまま見て，(1)と同様の評価をした．

5.4 実験結果とその考察

以下の式を用いて，ユーザ実験を評価をする．

TWi,j =1h

h∑

i=1

(R − NR)10

(4)

TWi,j はある感情軸 iにおけるあるツイート jの評価値を示す．hは被験者の人数を示し，Rはある被験者があるツイート j における繰り返し表現がある場合の，ある感情軸 iにおけるその

22

　

表 10: 繰り返しによって感情の変化があったときのツイートの割合感情感情（強）感情 (弱) 感情変化なし喜 67% 2% 31%哀 35% 10% 55%怒 27% 2% 71%怖 29% 10% 61%好 80% 2% 18%厭 33% 14% 53%昂 100% 0% 0%驚 84% 4% 12%安 8% 41% 51%恥 14% 0% 86%

ツイートを評価した点数を示し，NRは同じの被験者があるツイート jにおける繰り返し表現がない場合の，ある感情軸 iにおけるそのツイートを評価した点数を示す．ここで，TWi,j が正の場合，繰り返し表現はそのツイート jの感情をより強めているといい，TWi,j が負の場合，その繰り返し表現はそのツイート jの感情を弱めているという．そして，すべてのTwitter各々について，すべての感情軸（10軸）における TWi,j を求め，感情軸毎にその総和を求める．そして各々の軸において，感情が強くなったときのツイートと，弱くなったときのツイートの割合，変化なしの時の割合を表 10に示す．表 10の結果より，「昂」，「驚」，「好」，「喜」の 4つの感情は，繰り返し表現を用いることで，感情が強まったことがわかる．例えば，「かっけええええ！」というように繰り返し表現を用いることで気持ちが高揚していることを表現するために，使われることが多いためだと考えられる．また，「怒」の感情は例えば，「動けってんだよお」から「動けってんだよおおおお！」というように，繰り返し表現と「！」の付与によって，文の感情を強調している作用があると思われる．それに対して，「安」の感情は，繰り返し表現を用いることで，感情が弱まったことがわかる．例えば，「ありがとお」から「ありがとおおおおおお！」のように，「安」の感情が，繰り返し表現を用いたことにより，安の感情が弱めてしまったと考えられる．次に実験結果に個人差があるのかどうかを分析をするために，感情軸における各ユーザが選

択した割合を表 11に示す．11人中 7人以上いた場合を多人数と判別し，2人以下の場合を少人数と判別した．表 11の結果より，「喜」，「昂」の場合 70% 以上が，１つのツイートに対して，多人数が感情有りと判別している．これはこの 2つの感情におけるツイートが，繰り返し表現があることで感情値が強くなることが明確であると考えられる．小人数で一番大きかった 88.9%の「恥」の感情は，そもそも，「恥」を示すツイートが少なかったことから，このような結果と考えられる．

23

　

表 11: 感情軸ごとにおける各ユーザが選択した割合感情 7人以上 3人～6人 2人以下喜 72.9% 14.3% 12.9%哀 45.5% 27.2% 27.3%怒 23.5% 20.6% 55.9%怖 27.0% 29.7% 43.2%好 49.4% 31.6% 19.0%厭 20.8% 37.5% 41.2%昂 71.4% 24.5% 4.1%驚 20.5% 31.3% 48.2%安 4.3% 26.1% 69.6%恥 0% 11.1% 88.9%

5.5 繰り返し表現の重みの設定

表 10の結果から，ある感情 iの繰り返し表現の重み TWiを以下の式で求める．

TWi = (SSi − SWi)/ max(SSi, SWi) (5)

式 (5)において SSiは，実験結果の感情 iの感情 (強)の値を示し，SWiは，実験結果の感情 i

の感情 (弱)の値を示す．上記の式で求めた重み TWiは，喜：0.97，哀：0.71，好：0.98，厭：0.58，安：-0.80，恥：1.00，怒：0.93，怖：0.66，昂：1.00，驚：0.95 である．求めた繰り返し表現の値の重みを用いたときの感情値算出手法の流れを以下と図 14に示す．

1. 映画の実況ツイートを形態素解析を用いて，単語に分割する

2. 分割された単語の内，構築した感情表現語辞書に含まれる単語とその感情値を取得する．

3. 取得した単語の感情値の合計を単語数で割った値をそのツイートの感情値とする．

4. 実況ツイート内に繰り返し表現が含まれている場合，設定した繰り返し表現の感情値の重みをツイートの感情値に加算する．

5.6 繰り返し表現の重みを考慮したときの評価実験

繰り返し表現の重みの有用性を示す為に，2種類のデータを用いて評価実験を行った．

24

図 14: 繰り返し表現を考慮したときの感情抽出手法の流れ

25

5.6.1 視聴率の高い番組での評価実験

多人数が視聴している視聴率の高い番組を対象として，繰り返し表現を用いた感情抽出手法の有用性を示す実験を行った．実験で使用したデータは「紅白歌合戦」に関するハッシュタグが付与されている，2013年 12月 31日の 19時 30分から 20時までのツイート 1,032ツイートのうち，繰り返し表現を用いている 103ツイートを用いた．5つのそれぞれの感情軸に対して，提案手法を用いた結果を表 12に示す．

表 12: 各感情軸の特有表現があるツイートの数と適合率

感情ツイート数適合率喜 3 100.0%哀 17 0%好 18 77.8%厭 2 0%安 4 0%恥 16 0%怒 6 0%怖 14 0%昂 18 94.9%驚 2 50.0%

結果より，繰り返し表現に対する適合率を見ると，「喜」，「好」，「昂」に対して精度が良いことがわかった．精度が良い全ての感情は繰り返し表現の感情値の重みを大きく設定している感情であることから，重み付けに有用性があることが考えられる．また，3つの感情の共通点として，ポジティブな感情で気持ちが高揚しているさまを表現する時に，繰り返し表現が使われていることが多いと考えられる．しかし，「哀」や「恥」，「怖」の 3つの感情は，提案手法によって抽出されたツイート数が多かったが，精度が良くなかった．これは対象としているツイートが，「紅白歌合戦」に関するツイートに絞っていることから，ネガティブな感情が含まれる表現が少なかったことが考えられる．今後は，異なったジャンルのテレビ番組に関する実況ツイートを収集し，ジャンルによって感情の変化が異なるのか検証を行っていくことが課題であることがあげられる．

5.6.2 繰り返し表現を含む映画の実況ツイートに対する評価実験

実際に，繰り返し表現が含まれる映画の実況ツイートの評価実験を行う．被験者は 8人で，実験データは繰り返し表現が含まれるツイートと繰り返し表現の部分を削除したツイートの合計54ツイートを用いる．実験方法は以下に示す．

1. ユーザは感情表現辞典の 10軸の感情の中からツイートの感情に適した感情軸を最大 3つまで選び，選択した感情軸に対して 10点満点にて評価した．

26

2. 提案した感情値算出手法を用いて，繰り返し表現の感情値の重みを考慮した場合としない場合のツイートの感情値を算出して感情の出力を行う．なお，算出された値が閾値以上だった場合のみ，そのツイートに関する感情と判別するものとする．

3. ユーザによる実験結果を正解データとし，感情値算出手法から得られた出力結果と比較し，再現率・適合率・F値を求め，分析を行う．

実験結果と考察繰り返し表現を考慮した場合と，しなかった場合の結果を表 13，表 14に示す．

表 13: 各感情軸の特有表現の重みを考慮しない場合の評価

再現率適合率 F値喜 0.000 0.000 0.000哀 0.400 0.111 0.174好 0.417 0.139 0.208厭 0.308 0.333 0.320安 0.286 0.067 0.108恥 0.000 0.000 0.000怒 0.333 0.111 0.167怖 0.222 0.063 0.098昂 0.261 0.231 0.245驚 0.133 0.091 0.108

表 14: 各感情軸の特有表現の重みを考慮した場合の評価

再現率適合率 F値喜 0.172 0.357 0.233哀 0.636 0.389 0.483好 0.654 0.472 0.548厭 0.370 0.833 0.513安 0.167 0.133 0.148恥 0.429 0.091 0.150怒 0.417 0.278 0.333怖 0.444 0.250 0.320昂 0.451 0.885 0.597驚 0.313 0.455 0.370

表 13，表 14の結果から，「哀」，「好」，「厭」，「昂」の感情が特に繰り返し表現に関する重みつけを行うことによって，重みつけをしない場合より F値が良いことがわかる．これは，重みつけを文の感情値に加算することによって，感情をより強調する効果が見られたため，良い結果

27

となったと考えられる．しかしながら，「喜」，「怒」，「怖」，「驚」の感情は，重みつけを考慮したほうが F値が大きくなっているが，F値は良いとはいえないことがわかる．これは「驚」の場合，「昂」のような対となっている感情が多く判断されたため，F値が低くなってしまったことが考えられる．また，感情の区別が困難であることがわかった．例えば「喜」の感情は「好」の感情と類似していることが考えられる．このため，「好」の感情が多く判断されたため，「喜」の F値が低くなってしまったことが考えられる．また，重みを-0.80と負の値に設定してあった「安」の感情に関してもF値が良くなっていることがわかる．文のみで感情値を算出したときに「安」と判断されていたが，重みつけをすることによって，「安」の感情を弱めることができたためであると考えられる．「安」と加えて「恥」の感情はユーザ実験で両者とも，感情であると判断された数が少なかったことも問題点であると考えられる．今後は，さらに実験データを増やして，検証を行っていくことが課題である．解決策として，類似していると見られる感情を合わせることで，感情を判別しやすくすれば，対応できることがあげられる．また，感情によって判断された頻度が大きく異なることがあるため，感情による重み付けをすることがあげられる．

6 映画の実況ツイートの時間軸ごとの分析実際にテレビで放送された，映画の実況ツイートから感情値を抽出する．本研究で使用した

映画の実況ツイートは「ONE PIECE FILM Z」に関する実況ツイート 5549ツイートを用いた．ツイートと同時に，ツイートされた時間も抽出し，抽出した時間を用いて，時系列の変化の分析を行う．分析するにあたって，本研究では，ツイートの頻度にも着目し，ツイートの感情によってどのような変化があるのかを分析を行う．

6.1 時間軸ごとのツイートの頻度の分析

時間ごとの実況ツイートの頻度によって，映画との関連性があるか分析を行う．具体的な分析手法を以下に示す．

1. 映画の実況ツイート群から，ツイートされた時間を抽出する．

2. 1分ごとのツイートされた頻度を求める．

3. 実際にテレビで放送されている映画を視聴しながら，比較を行う．

1分ごとのツイートの頻度を図 15に示す．横軸は時間，縦軸はツイートの頻度を示す．図 15で，頻度が大きくなっている部分が特に終盤に多く見られることがわかる．これは，ス

トーリーもクライマックスに近づいてきたことによって，ユーザ自身が盛り上がってツイートしたことが考えられる．また，終盤以外にもツイートされている頻度が高い時間帯を見てみると，この映画を見るにあたって，重要なシーンが含まれていたことがわかった．また，テレビで放送されている映画と比較したところ，コマーシャルに切り替わった時間帯になったときにツイートの頻度が大きく下がっていることがわかった．これにより，映画が放送されているのか，コマーシャルが放送されているのか区別しやすくなることが期待できる．

28

図 15: 時間軸ごとのツイートの頻度

6.2 時間軸ごとのツイートの感情値の分析

時間軸ごとのツイートの感情値から，感情の変化の分析を行う．具体的な分析手法を以下に示す．

1. 映画の実況ツイートの感情値を算出を行い，ツイートされた時間と算出された感情軸ごとの感情値を出力させる．

2. 1分ごとに分割し，感情値と 1分ごとにツイートされた頻度で平均をとる．

3. 時間軸の可視化をするため，グラフを生成し，分析を行う．

図 16に，時間軸ごとのツイートの感情値を示す．横軸はツイートされた時間で，縦軸は感情値を示す．5つの折れ線グラフは各々の感情軸に関する感情値である．図 16の結果より，「驚⇔昂」の軸に注目すると，全体的に，「昂」が高いことがわかる．また，

個人で映画の見どころだと判断したシーンが「驚⇔昂」の感情値が大きく変化していることがわかった．例えば，主人公が初登場した場面や戦闘シーンでは，「昂」に大きく振れており，主人公が敵に敗れてしまった場面では，「驚」に大きく振れていることがわかった．また，このことから，「驚⇔昂」の軸は実況ツイートの感情を抽出する際に，適していると考えられる．次に，「厭⇔好」の軸に注目すると，「好」の感情に振れていることがわかる．しかし，「哀⇔喜」の軸では哀の感情に振れてしまっている．これは繰り返し表現を考慮した場合の実験結果同様，2つの軸が類似しているからであることが考えられる．実況ツイートに対しも同様，感情を合わせることによって，値が分裂しないのではと考えられる．「怖⇔怒」，「恥⇔安」の 2つの感情軸では，映画を視聴しながら比較したところ，感情軸自体が合っていないことが推測される．これは，対象とした映画が戦闘がある場面が多く，映画を視聴した際に「怖⇔怒」，「恥⇔安」の軸の判断が困難であることが考えられる．解決策として，ジャンルによって感情の重み付けが考え

29

図 16: 時間軸ごとの感情値

られる．例えば，今回用いた戦闘する場面が多い映画では，「昂」に重みを大きく付けたり，ホラー関連の映画では，「怖」に重みを大きく付けたりすることによって，あるゆるジャンルに適応できることが考えられる．

7 まとめと今後の課題本研究では，テレビで放送されている番組を見ながらツイートをする，実況ツイートから感

情を抽出するため，顔文字や繰り返し表現を考慮した感情抽出手法を提案した．実況ツイートを映画に絞り，時間軸も考慮に入れて感情の変化を分析した．具体的にはまず，ツイート文の感情を抽出するために，単語に各感情の値が付与されている感情辞書を用いてツイート文単体の感情値を決定した．そのために，映画のレビューデータから新しい感情辞書を構築し，実験を行った．顔文字では，文によって使い方が異なることが考えられ，「強調」，「自嘲」，「弛緩」の3つ役割があると推測した．この定義した 3つの役割の特徴を検証し，役割ごとの重みを設定し，評価実験を行った．繰り返し表現では，繰り返し表現がある場合とない場合との比較を行い，これより繰り返し表現に感情値の重みを決定し，重みに有用性があるのか評価実験を行った．実際に，映画の実況ツイートから感情値を算出し，対象とした映画を視聴しながら，比較を行った．今後の課題について以下に述べる．

感情辞書を用いた感情抽出

• 感情軸の設定本提案手法で用いた感情辞書は，感情表現辞典の 10感情を用いたが，軸によっては正しく判定されなかったことがわかった．その理由として，「喜」，「好」のように，感情が類似

30

していることが考えられる．この問題を解決するには，感情を合わせることで，感情の判別を容易に行うことができることが考えられる．

• 感情表現語辞書の拡張本提案手法では，ユーザが自由に記述して点で類似している，Yahoo!の映画のレビューデータを用いて，辞書の構築を行った．今後は映画のレビューデータだけでなく，様々なジャンルに関するレビューデータを用いることによって，感情表現語辞書の拡張を検討している．

顔文字を考慮した感情抽出

• 顔文字の感情辞書拡張顔文字は年々，新しいものが増加している傾向がある．新しい顔文字にも対応するため，顔文字の辞書を拡張したり，Twitterなどのマイクロブログなどから顔文字の自動抽出を行うことによって，効率よく辞書の拡張が可能であると考えられる．

• 顔文字の役割ごとの重み本提案手法では，文によって顔文字の使われ方が異なることに着目し，「強調」，「自嘲」，「弛緩」の 3つの役割に対する重みを設定した．しかし，重みの設定方法が不十分なため，重みの再設定を行うため，さらなるユーザ実験を行うことを考えている．

繰り返し表現を考慮した感情抽出

• 繰り返し表現の重み繰り返し表現を考慮に入れるために，重みつけの設定を行った．繰り返し表現が含まれることによって，ツイートに影響されるようにするため，重みを再度，検討していきたい．

実況ツイートの感情抽出

• 感情軸ごとの重みつけ実況ツイートの対象になっている番組によって，感情が変化することが考えられる．そこで，ジャンルごとに大きくなる感情に重みをつけることによって，番組の特徴が出やすくなるのではないかと考えられる．そのためには，被験者に，あらゆるジャンルがどういった感情を持つのか検証するためのユーザ実験を検討している．

• 他の実況ツールとの比較テレビ番組を見ながら実況するツールは Twitterだけでなく，掲示板やチャットなど様々な存在する．今後は，Twitterと他の実況ツールとの相違が存在するのか比較を検討している．

謝辞本論文は，平成 24年 4月から平成 26年 3月までの間，甲南大学大学院自然科学研究科修士

課程知能情報学専攻に在学中，同専攻灘本研究室で行った研究の成果をまとめたものである．

31

本研究に進めるにあたり，たいへん多くの方々に御世話になりました．ここに深く感謝の意を表します．研究に際して，2年間という期間にわたりご指導を頂きました恩師，灘本明代先生に心より深く感謝を申し上げます．そして本論文にまとめるにあたり，有益な御助言とご教示を賜りました甲南大学新田直也先生，甲南大学小出武先生に心より謝意を申し上げます．また日頃の研究会において多くのご指摘を下さいました灘本研究室の先輩方，実験の際に被験者を快く引き受けてくださった後輩の皆様に深く感謝致します．さらに，千葉工業大学　熊本忠彦先生，兵庫県立大学　角谷和俊先生，湯本高行先生，同志社大学　波多野賢治先生，研究を通して大変御世話になり，また貴重なアドバイスも頂きました事，感謝申し上げます．加えて兵庫県立大学の角谷研究室，湯本研究室の皆様，ならびに同志社大学の波多野研究室の皆様には合同研究会や学会発表等，多くの場面でとても御世話になりました．ここに感謝の意を表します．最後になりましたが，大学院に進学するという決断に背中を押してくださり，ありとあらゆる場面で私を温かく見守り続けてくれた父　若井正浩，母　若井成江に深く感謝を致します．

研究業績国内会議

• 若井祐樹，熊本忠彦，灘本明代，“ニュースに対するつぶやきの感情分析”平成 24年度情報処理学会関西支部大会大阪大学中之島センター，2012.

• 若井祐樹，田中美羽，熊本忠彦，灘本明代，“顔文字を考慮したニュースに対するツイートの感情抽出手法の提案”第 5回データ工学と情報マネジメントに関するフォーラム (DEIM2013)福島県郡山市磐梯熱海ホテル華の湯, 2013.

• 若井祐樹，熊本忠彦，灘本明代，“ツイートの感情抽出の為の顔文字の役割分類”ARG Webインテリジェンスとインタラクション研究会 (ARG SIG-WI2)大阪大学豊中キャンパス，2013.

• 若井祐樹，熊本忠彦，灘本明代，“映画に対する実況ツイートの感情抽出手法の提案”第 158回データベースシステム研究発表会京都大学百周年時計台記念館，2013.

• 若井祐樹，山本湧輝，熊本忠彦，灘本明代，“映画の実況ツイートにおける時系列毎の感情抽出手法の提案”第 6回データ工学と情報マネジメントに関するフォーラム (DEIM2014)淡路夢舞台＆ウェスティン淡路, 2014(to appear).

• 若井祐樹，熊本忠彦，灘本明代，“多次元感情軸に基づくツイートの感情抽出手法の提案”2014年電子情報通信学会総合大会新潟大学，2014(to appear).

ポスター発表

32

• 若井祐樹，田中美羽，熊本忠彦，灘本明代，“顔文字を考慮したニュースに対するツイートの感情抽出手法の提案”第 5回データ工学と情報マネジメントに関するフォーラム (DEIM2013)福島県郡山市磐梯熱海ホテル華の湯, 2013.

• 若井祐樹，山本湧輝，熊本忠彦，灘本明代，“映画の実況ツイートにおける時系列毎の感情抽出手法の提案”第 6回データ工学と情報マネジメントに関するフォーラム (DEIM2014)淡路夢舞台＆ウェスティン淡路, 2014(to appear).

参考文献[1] R.Plutchik．“The nature of emotions”．American Scentist，Vol.89，pp．344–355，2011．

[2] 中村明：「感情表現辞典」．東京堂出版，1993．

[3] 熊本忠彦，河合由起子，田中克己．“新聞記事を対象とするテキスト印象マイニング手法の設計と評価”，信学論，Vol. J94-D，No.3，pp．540–548，2011．

[4] 高岡幸一，灘本明代．“名言のための多次元感情ベクトルの生成”，第４回Webとデータベースに関するフォーラム (WebDB2011)，9 pages，2011年 11月.

[5] 徳久良子，乾健太郎，松本裕治．“Webから獲得した感情生起要因コーパスに基づく感情推定”,情報処理学会論文誌，Vol.50，pp．1365–1374，2009．

[6] 宮森恒，中村聡史，田中克己．“番組実況チャットを利用したテレビ番組のメタデータ自動抽出方式”，情報処理学会論文誌：データベース (TOD)，Vol.46，No.SIG10(TOD28)，pp.59–71，2005．

[7] 佃洸摂，中村聡史，田中克己．“視聴者の反応に基づく動画検索および推薦システムの提案”，第 19回インタラクティブシステムとソフトウェアに関するワークショップ (WISS2011)，2011．

[8] 堀宮ありさ，坂野遼平，佐藤晴彦，小山聡，栗原正二，沼澤政信．“ Twitterにおける発話者のリプライを用いたユーザの感情推定手法”，第４回データ工学と情報マネジメントに関するフォーラム，2012．

[9] 水岡良彰，鈴木優．“マイクロブログを用いた感情表現収集”，情報科学技術フォーラム，FIT 2011，pp．291–294，2011．

[10] 山内崇資，中野有紀子．“Twitterの感情分析に基づくTV番組シーン探索システム”，第26回人工知能学会全国大会，IC-R-5-3，2012．

[11] 中澤昌美，帆足啓一郎，小野智弘，“ Twitterによるテレビ番組重要シーン検出及びラベル付与手法”，第 3回データ工学と情報マネジメントに関するフォーラム (DEIM Forum2011)，F5-6，2011．

33

[12] 中丸茂．“顔文字が文章の信頼度に及ぼす影響”，言語・音声理解と対話処理研究会 37,pp．173–176, 2003．

[13] 加藤由樹 ,加藤尚吾 ,赤堀侃司．“携帯メールを使用したコミュニケーションにおける怒りの感情の喚起に関する調査”，教育情報研究 : 日本教育情報学会学会誌 22(2), pp．35–43,2006．

[14] 江村優花 ,関洋平．“テキストに現れる感情，コミュニケーション，動作タイプの推定に基づく顔文字の推薦”，情報処理学会研究報告. DD, [デジタル・ドキュメント] 2012-DD-85(1),7 pages, 2012．

[15] 荒川歩, 鈴木直人．“謝罪文に付与された顔文字が受け手の感情に与える効果”，対人社会心理学研究 (4), pp．135–140, 2004．

[16] 荒川歩, 竹原卓真, 鈴木直人．“受信者が感じている感情が送信者の顔文字使用に与えている影響”，感情心理学研究, 13, pp．49–55，2006．

[17] 香川健太郎 , 伊藤淳子 , 宗森純．“動画共有システムに与える直感的絵文字コメント投稿機能と感情共有機能の効果”，情報処理学会論文誌 51(3), pp．770–783, 2010．

[18] 吉田壱 , 伊藤淳子 , 宗森純．“触覚情報を使った顔文字入力システムの放送コンテンツ評価システムへの適用性の検証”，情報処理学会研究報告. データベース・システム研究会報告 2007(6), pp．13–18, 2007．

[19] 伊藤一成, 橋田浩一．“絵文字の作成と理解を促進するためのオントロジーマッピング”，電子情報通信学会技術研究報告. DE, データ工学 106(150), pp．145–150, 2006．

[20] 中村純平, 池田剛 , 乾伸雄 , 小谷善行．“対話システムにおける顔文字の学習”，情報処理学会研究報告. 自然言語処理研究会報告 2003(23), pp．169–176, 2003．

[21] M.Ptaszynski．“顔文字処理-取るに足らない表現をコンピュータに理解させるには-”，情報処理 53(3), pp．204–210, 2012．

[22] CHO HEERYON , 稲葉利江子 , 石田亨 , 高崎俊之 , 森由美子．“絵文字コミュニケーションにおけるセマンティクス”，情報処理学会研究報告. ICS, [知能と複雑系] 2006(110), pp．1–8, 2006．

[23] 宗森純 , 福田太郎 , ムンヤティヤティド , 橋崎裕人 , 山下裕孝 , 伊藤淳子．“絵文字チャットコミュニケータ II ”，情報処理学会研究報告. GN, [グループウェアとネットワークサービス] 2008(31), pp．97–102, 2008．

[24] 川上正浩．“顔文字が表す感情と強調に関するデータベース”，大阪樟蔭女子大学人間科学研究紀要 7, pp．67–82, 2008．

[25] 山口和宏 , 杉山歩 , 鈴木健之 , 藤田哲也 , Ho,Tu Bao , Dam,Hieu Chi．“データマイニングを用いた顔文字表現の定量的評価による感情分析”，言語処理学会第 18回年次大会(NLP2012),pp．1204–1207,2012．

34

[26] 虎谷安孝 , 平山亮．“携帯電話における顔文字の印象評価”，全国大会講演論文集 2011(1),pp．265–267, 2011．

[27] 中丸茂．“平均表情筋筋電図を用いた顔文字刺激の提示による表情変化”，駒澤大学心理学論集 : KARP 6, pp．29–46, 2004．

[28] 伊藤淳子 , 宗森純．“擬人化エージェントを介したチャットにおける顔文字と対話雰囲気の関連性の分析”，情報処理学会研究報告. GN, [グループウェアとネットワークサービス]2008(31), pp．127–132, 2008．

[29] 加藤尚吾 , 加藤由樹 , 小林まゆ , 柳沢昌義．“電子メールで使用される顔文字から解釈される感情の種類に関する分析”，教育情報研究 : 日本教育情報学会学会誌 22(4), pp．31–39, 2007．

[30] 篠山学 , 松尾朋子．“顔文字を考慮した対話テキストの感情推定に関する研究”，香川高等専門学校研究紀要 1, pp．151–153, 2010．

[31] 山下諒 , 谷謙治 , 高見一正．“携帯メールの絵文字・顔文字解析による気分推定法と楽曲推薦法”，情報処理学会研究報告. [オーディオビジュアル複合情報処理] 2008(69), pp．51–56, 2008．

[32] 浅井洋樹，秋岡明香，山名早人．“きたああああああああああああああああ！！！！！１１：マイクロブログを用いたことにより教師なし叫喚フレーズ抽出”，第 5回データ工学と情報マネジメントに関するフォーラム (DEIM Forum 2013)，A4-4，2013．

[33] 熊本忠彦，河合由起子，田中克己．“新聞記事を対象とするテキスト印象マイニング手法の設計と評価”，電子情報通信学会論文誌，No.3，pp．540–548，2011．

[34] 村上浩司，山田薫，萩原正人．“顔文字情報と文の評価表現の関連性についての一考察”，第 17回言語処理学会発表論文集，pp．1155–1158，2012．

35

実況ツイートからの感情抽出手法の提案 sentiment …...the same program on tv by...

Documents