大学や研究所の研究活動がひと目で分る研究活動マップ生成～だれが，どこで，どんな活動をしてるの？～...

～だれが，どこで，どんな活動をしてるの？～

大学や研究所の研究活動がひと目で分る研究活動マップ生成

キュープラス（馬場謙介，廣川佐千男，伊東栄典，馬場隆寛，村上直至）

はじめに（研究成果の社会還元の使命）

婦人A：「奥さん，最近の野菜は工場で作りようとですよ」

婦人B：「まあ，そげなこつして安全性は大丈夫やろか」

婦人A：「そりゃ企業やら大学の人達が研究ばしとうくさ」

婦人B：「あんた、そげなこと、ど～してしっと～と？」

2

はじめに（専門家でない人の研究サーベイ）

• 「野菜」だけから研究サーベイができる？

• こんなことがわかれば研究サーベイの支援になる

• 専門用語

• 研究者

• 学会，論文誌

• 研究組織，研究グループ

これらがやる前からわかる人は専門家

3

関連語マップの例

4

題目内の単語

所属機関名

著者名

JST定義の分類語

入力語

関連語マップの解釈

5

野菜の専門用語：生産，効果，栽培について研究者：米盛重保先生が研究組織：佐賀大，農研機構で

研究を行っている

あらためて，研究サーベイの方法

• 最初の手掛り語を検索語にして，

– 論文検索 → 用語や著者

– 著者検索 → 論文

– 主要な学会，研究会，論文誌を調査

• どんどん知識が増える。

• ある段階で，調べた論文をまとめる → サーベイ

• 関連語マップだと手掛り語の入力のみ6

研究用語論文

著者学会

論文誌

関連語マップ形成システム

関連語マップ

– 文書集合から，関連語を抽出。

– 出現頻度で，関連語の上位語・下位語を決定

– 関連度が閾値以上の単語を連結。

• ただし，木（Tree）構造になるように制限。

– 検索語と関連度の高い単語を表示

• 属性で制限可能

• 属性：著者名，所属組織

7

Mind Map System

分析手法

• 利用データ

– Type B「1-1科学技術文献データ」

– 抄録付きの科学技術分析データ約160万件

• データ前処理

– 自作プログラム（Python言語）

– 形態素解析エンジン MeCab

• 検索エンジン

– 汎用連想検索エンジンGETA

• 関連語MAP生成

– 自作プログラム (Perl言語）

– グラフ生成 Graphviz

• インターフェイス

– 自作Web CGI (Perl言語）8

https://code.google.com/p/mecab/

http://geta.ex.nii.ac.jp/geta.html

http://www.graphviz.org/

前処理

• プログラムで「単語ー頻度」ファイルを作成

– 「抄録」の文章を形態素解析して単語を抽出

– 他のデータ（タイトル，キーワード，著者，発行年，など）は識別用の文字（英字一文字とセミコロン）を付けた単語として抽出

• 汎用連想検索エンジンGETA に読み込ませて索引（INDEX）作成

9

JST Data

Filter Program(Python)

FrequencyFile

Mecab形態素解析

INDEX

Web Server(Apache)

CGIU/IProg.

Web UIと，関連語マップ生成

• インターフェイスはWebブラウザ

• CGIプログラムで稼働

• ２つのプログラム

– 関連語抽出

– 関連語マップ生成

10

User

Query

(words) SimilarWord

selection

関連語

MAP生成

Similarwords data

Dot file

Graph Image(PNG)

Graphviz（グラフ生成）

HTML,

Graph(PNG)

INDEX

九州大学附属図書館の検索システム

の機能として公開予定

Web User Interface

11

Query

関連語MAP

関連語

関連MAP生成アルゴリズム

12

上位語 u ,下位語 v

If ( df(u, q) > df(v, q) ) and ( ),

Then u は v の上位語（ v は u の下位語）．

df (u,v,q)

df (v,q)> a

df(u) : 単語 u の文書頻度.

uv

検索語 qからの関連MAP生成

• D を全文書集合，W を D に含まれる全単語集合とする.

• 検索語 q と他の単語で，関連度の高い単語の集合 Wq を選出．• ただし，Wqの単語は，検索時の制約条件を満たすものに限定する．

• 検索語 q を木 T の根ノードにする．T = <N, E>, N は節点集合（単語），E は辺の集合．

• 既出でない単語のうち，最も上位の単語 v を選ぶ。

• 既出の単語のうち，最も v と関連度が高い単語 u に接続．

• v ∈ N ∧ v ∈ Wq , 単語 v を E に追加，かつ，辺 <u, v> を N に追加。

u∧v

考察

• ノードを指定することで，対応する語を入力とする新たな関連語マップを生成

→従来のサーベイプロセス

• 検索の精度・確度は？

すべての語に対する共起を考慮しているので，検索というよりは，対象データのある性質を表示している

• 抄録有りのデータを大量に集めるのは困難

13

おわりに

研究サーベイの煩雑な作業を軽減するためのシステムを開発

– 入力は研究を直接的に表す語だけ

– 対象データでの共起を基に，専門用語，研究者，研究組織等の関係をグラフで表示

– 支給データにより，システムの有用性を裏付ける例を得た（ありがとうございました！）

新しい研究に挑戦する時は素人

14

アドベンチャー杯にかける意気込み

• 研究開発している手法・ツールの，独自性と有効性を世に知らしめたい。

• 研究者の関連研究調査・サーベイの労力を減らして行きたい。

• 学術文献を対象に分析することで，分野として認識されているけど，成果（論文）の少ない分野を可視化出来る。

• 研究活動のチャンスを可視化

• 日本の研究活動を活性化！

15

（本項目については、本選でのプレゼンテーション発表での説明を省略可とします。）

関連語マップの例（農業）

16

題目内の単語

所属機関名

著者名


入力語

関連語マップの例（稲作）

17

題目内の単語

所属機関名

著者名


入力語

大学や研究所の研究活動がひと目で分る研究活動マップ生成～だれが，どこで，どんな活動をしてるの？～...

Data & Analytics