大学や研究所の研究活動がひと目で分る研究活動マップ生成~だれが,どこで,どんな活動をしてるの?~...

17
~ だれが,どこで,どんな活動をしてるの? ~ 大学や研究所の研究活動がひと目で分る 研究活動マップ生成 キュープラス (馬場謙介,廣川佐千男,伊東栄典,馬場隆寛,村上直至)

Upload: analytics2014

Post on 16-Jul-2015

2.521 views

Category:

Data & Analytics


1 download

TRANSCRIPT

Page 1: 大学や研究所の研究活動がひと目で分る研究活動マップ生成~だれが,どこで,どんな活動をしてるの?~

~ だれが,どこで,どんな活動をしてるの? ~

大学や研究所の研究活動がひと目で分る研究活動マップ生成

キュープラス(馬場謙介,廣川佐千男,伊東栄典,馬場隆寛,村上直至)

Page 2: 大学や研究所の研究活動がひと目で分る研究活動マップ生成~だれが,どこで,どんな活動をしてるの?~

はじめに(研究成果の社会還元の使命)

婦人A:「奥さん,最近の野菜は工場で作りようとですよ」

婦人B:「まあ,そげなこつして安全性は大丈夫やろか」

婦人A:「そりゃ企業やら大学の人達が研究ばしとうくさ」

婦人B:「あんた、そげなこと、ど~してしっと~と?」

2

Page 3: 大学や研究所の研究活動がひと目で分る研究活動マップ生成~だれが,どこで,どんな活動をしてるの?~

はじめに(専門家でない人の研究サーベイ)

• 「野菜」だけから研究サーベイができる?

• こんなことがわかれば研究サーベイの支援になる

• 専門用語

• 研究者

• 学会,論文誌

• 研究組織,研究グループ

これらがやる前からわかる人は専門家

3

Page 4: 大学や研究所の研究活動がひと目で分る研究活動マップ生成~だれが,どこで,どんな活動をしてるの?~

関連語マップの例

4

題目内の単語

所属機関名

著者名

JST定義の分類語

入力語

Page 5: 大学や研究所の研究活動がひと目で分る研究活動マップ生成~だれが,どこで,どんな活動をしてるの?~

関連語マップの解釈

5

野菜の専門用語:生産,効果,栽培について研究者:米盛重保先生が研究組織:佐賀大,農研機構で

研究を行っている

Page 6: 大学や研究所の研究活動がひと目で分る研究活動マップ生成~だれが,どこで,どんな活動をしてるの?~

あらためて,研究サーベイの方法

• 最初の手掛り語を検索語にして,

– 論文検索 → 用語や著者

– 著者検索 → 論文

– 主要な学会,研究会,論文誌を調査

• どんどん知識が増える。

• ある段階で,調べた論文をまとめる → サーベイ

• 関連語マップだと手掛り語の入力のみ6

研究用語 論文

著者学会

論文誌

Page 7: 大学や研究所の研究活動がひと目で分る研究活動マップ生成~だれが,どこで,どんな活動をしてるの?~

関連語マップ形成システム

関連語マップ

– 文書集合から,関連語を抽出。

– 出現頻度で,関連語の上位語・下位語を決定

– 関連度が閾値以上の単語を連結。

• ただし,木(Tree)構造になるように制限。

– 検索語と関連度の高い単語を表示

• 属性で制限可能

• 属性:著者名,所属組織

7

Mind Map System

Page 8: 大学や研究所の研究活動がひと目で分る研究活動マップ生成~だれが,どこで,どんな活動をしてるの?~

分析手法

• 利用データ

– Type B「1-1科学技術文献データ」

– 抄録付きの科学技術分析データ 約160万件

• データ前処理

– 自作プログラム(Python言語)

– 形態素解析エンジン MeCab

• 検索エンジン

– 汎用連想検索エンジンGETA

• 関連語MAP生成

– 自作プログラム (Perl言語)

– グラフ生成 Graphviz

• インターフェイス

– 自作Web CGI (Perl言語)8

https://code.google.com/p/mecab/

http://geta.ex.nii.ac.jp/geta.html

http://www.graphviz.org/

Page 9: 大学や研究所の研究活動がひと目で分る研究活動マップ生成~だれが,どこで,どんな活動をしてるの?~

前処理

• プログラムで「単語ー頻度」ファイルを作成

– 「抄録」の文章を形態素解析して単語を抽出

– 他のデータ(タイトル,キーワード,著者,発行年,など)は識別用の文字(英字一文字とセミコロン)を付けた単語として抽出

• 汎用連想検索エンジンGETA に読み込ませて索引(INDEX)作成

9

JST Data

Filter Program(Python)

FrequencyFile

Mecab形態素解析

INDEX

Page 10: 大学や研究所の研究活動がひと目で分る研究活動マップ生成~だれが,どこで,どんな活動をしてるの?~

Web Server(Apache)

CGIU/IProg.

Web UIと,関連語マップ生成

• インターフェイスはWebブラウザ

• CGIプログラムで稼働

• 2つのプログラム

– 関連語抽出

– 関連語マップ生成

10

User

Query

(words) SimilarWord

selection

関連語

MAP生成

Similarwords data

Dot file

Graph Image(PNG)

Graphviz(グラフ生成)

HTML,

Graph(PNG)

INDEX

九州大学附属図書館の検索システム

の機能として公開予定

Page 11: 大学や研究所の研究活動がひと目で分る研究活動マップ生成~だれが,どこで,どんな活動をしてるの?~

Web User Interface

11

Query

関連語MAP

関連語

Page 12: 大学や研究所の研究活動がひと目で分る研究活動マップ生成~だれが,どこで,どんな活動をしてるの?~

関連MAP生成アルゴリズム

12

上位語 u ,下位語 v

If ( df(u, q) > df(v, q) ) and ( ),

Then u は v の上位語( v は u の下位語).

df (u,v,q)

df (v,q)> a

df(u) : 単語 u の文書頻度.

uv

検索語 qからの関連MAP生成

• D を全文書集合,W を D に含まれる全単語集合とする.

• 検索語 q と他の単語で,関連度の高い単語の集合 Wq を選出.• ただし,Wqの単語は,検索時の制約条件を満たすものに限定する.

• 検索語 q を木 T の根ノードにする.T = <N, E>, N は節点集合(単語),E は辺の集合.

• 既出でない単語のうち,最も上位の単語 v を選ぶ。

• 既出の単語のうち,最も v と関連度が高い単語 u に接続.

• v ∈ N ∧ v ∈ Wq , 単語 v を E に追加,かつ,辺 <u, v> を N に追加。

u∧v

Page 13: 大学や研究所の研究活動がひと目で分る研究活動マップ生成~だれが,どこで,どんな活動をしてるの?~

考察

• ノードを指定することで,対応する語を入力とする新たな関連語マップを生成

→従来のサーベイプロセス

• 検索の精度・確度は?

すべての語に対する共起を考慮しているので,検索というよりは,対象データのある性質を表示している

• 抄録有りのデータを大量に集めるのは困難

13

Page 14: 大学や研究所の研究活動がひと目で分る研究活動マップ生成~だれが,どこで,どんな活動をしてるの?~

おわりに

研究サーベイの煩雑な作業を軽減するためのシステムを開発

– 入力は研究を直接的に表す語だけ

– 対象データでの共起を基に,専門用語,研究者,研究組織等の関係をグラフで表示

– 支給データにより,システムの有用性を裏付ける例を得た(ありがとうございました!)

新しい研究に挑戦する時は素人

14

Page 15: 大学や研究所の研究活動がひと目で分る研究活動マップ生成~だれが,どこで,どんな活動をしてるの?~

アドベンチャー杯にかける意気込み

• 研究開発している手法・ツールの,独自性と有効性を世に知らしめたい。

• 研究者の関連研究調査・サーベイの労力を減らして行きたい。

• 学術文献を対象に分析することで,分野として認識されているけど,成果(論文)の少ない分野を可視化出来る。

• 研究活動のチャンスを可視化

• 日本の研究活動を活性化!

15

(本項目については、本選でのプレゼンテーション発表での説明を省略可とします。)

Page 16: 大学や研究所の研究活動がひと目で分る研究活動マップ生成~だれが,どこで,どんな活動をしてるの?~

関連語マップの例(農業)

16

題目内の単語

所属機関名

著者名

JST定義の分類語

入力語

Page 17: 大学や研究所の研究活動がひと目で分る研究活動マップ生成~だれが,どこで,どんな活動をしてるの?~

関連語マップの例(稲作)

17

題目内の単語

所属機関名

著者名

JST定義の分類語

入力語