「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域...

36
「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動・評価報告書 -平成29年度終了研究課題- 研究総括 喜連川 優 副研究総括 柴山 悦哉 1. 研究領域の概要 ICT の社会浸透や、実世界から情報収集するセンサーや計測・観測機器の高度化と普及に伴い、様々な分 野で得られるデータは指数関数的に増大し、多様化し続けています。これらのビッグデータの高度な統合利活 用により、新しい科学的発見による知的価値の創造や、それらの知識の発展による社会的・経済的価値の創造 やサービスの向上・最適化などにつながる科学技術イノベーションが期待されています。 本研究領域では、ビッグデータの複数ドメインに共通する本質的課題を解決し、様々な分野のビッグデータの 統合解析を可能にする次世代基盤技術の創出・高度化・体系化を目指します。 具体的には、大規模データを圧縮・転送・保管する大規模管理システムの安定的運用技術や、多種多様な情 報を横断して検索・比較・可視化して真に必要となる知識を効率的に取り出す技術、これらを可能にする数理的 手法やアルゴリズムなどの開発を推進します。これらの研究の推進にあたり、ビッグデータから社会における価 値創造に至るシステム全体の設計を視野に入れ、ICT 以外の分野との積極的な連携・融合によって社会受容性 の高い次世代共通基盤技術の創出・高度化・体系化に取り組みます。 また、本研究領域では、関連領域の「科学的発見・社会的課題解決に向けた各分野のビッグデータ利活用推 進のための次世代アプリケーション技術の創出・高度化」で得られる次世代アプリケーション基盤技術やデータ を共有・活用するなどの連携を推進します。 2. 事後評価対象の研究課題・研究者名 件数: 4件 ※研究課題名、研究者名は別紙一覧表参照 3. 事前評価の選考方針 選考の基本的な考えは下記の通り。 1) 選考は、「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」領域に設けた選考委員(領域 アドバイザ)14 名の協力を得て、研究総括が行う。 2) 選考方法は、書類選考、面接選考及び総合選考とする。 3) 選考に当たっては、さきがけ共通の選考基準(URL:http://www.jst.go.jp/pr/info/info825/besshi4.html)の 他、以下の点を重視した。本研究領域では、今後大きく展開することが予想されるビッグデータ時代の基盤 的な研究開発を対象とした。基盤技術とは言え、応用を想定しない技術開発は、その評価軸の設定が必ず しも容易ではないため、ある程度の応用を想定した提案を重視した。 4. 事前評価の選考の経緯 応募があった選考対象件数は 35 件あった。一応募課題につき領域アドバイザー12 名が分担して各申請の 書類査読(書類審査)を行い、査読結果(評点、コメント)を提出した。次に、書類選考会議においてアドバイザ ー全員が一堂に会して査読結果を元に議論を行い、14 件を面接対象とした。書類選考会では、査読結果に大 きな評価差があったものについては、評価要因を全員で共有して集中的に審議した。その後、面接および総合 選考の結果、最終的に採択候補課題 4 件を選定した。 選 考 書類選考 面接選考 採択数 対象数 35件 14件 4件 ※本領域においては、5年型、大挑戦型を公募しなかった。 5. 研究実施期間 平成 26 年 10 月~平成 30 年 3 月(3年型)

Upload: others

Post on 28-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域

領域活動・評価報告書 -平成29年度終了研究課題-

研究総括 喜連川 優

副研究総括 柴山 悦哉

1. 研究領域の概要

ICT の社会浸透や、実世界から情報収集するセンサーや計測・観測機器の高度化と普及に伴い、様々な分

野で得られるデータは指数関数的に増大し、多様化し続けています。これらのビッグデータの高度な統合利活

用により、新しい科学的発見による知的価値の創造や、それらの知識の発展による社会的・経済的価値の創造

やサービスの向上・最適化などにつながる科学技術イノベーションが期待されています。

本研究領域では、ビッグデータの複数ドメインに共通する本質的課題を解決し、様々な分野のビッグデータの

統合解析を可能にする次世代基盤技術の創出・高度化・体系化を目指します。

具体的には、大規模データを圧縮・転送・保管する大規模管理システムの安定的運用技術や、多種多様な情

報を横断して検索・比較・可視化して真に必要となる知識を効率的に取り出す技術、これらを可能にする数理的

手法やアルゴリズムなどの開発を推進します。これらの研究の推進にあたり、ビッグデータから社会における価

値創造に至るシステム全体の設計を視野に入れ、ICT以外の分野との積極的な連携・融合によって社会受容性

の高い次世代共通基盤技術の創出・高度化・体系化に取り組みます。

また、本研究領域では、関連領域の「科学的発見・社会的課題解決に向けた各分野のビッグデータ利活用推

進のための次世代アプリケーション技術の創出・高度化」で得られる次世代アプリケーション基盤技術やデータ

を共有・活用するなどの連携を推進します。

2. 事後評価対象の研究課題・研究者名

件数: 4件

※研究課題名、研究者名は別紙一覧表参照

3. 事前評価の選考方針

選考の基本的な考えは下記の通り。

1) 選考は、「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」領域に設けた選考委員(領域

アドバイザ)14名の協力を得て、研究総括が行う。

2) 選考方法は、書類選考、面接選考及び総合選考とする。

3) 選考に当たっては、さきがけ共通の選考基準(URL:http://www.jst.go.jp/pr/info/info825/besshi4.html)の

他、以下の点を重視した。本研究領域では、今後大きく展開することが予想されるビッグデータ時代の基盤

的な研究開発を対象とした。基盤技術とは言え、応用を想定しない技術開発は、その評価軸の設定が必ず

しも容易ではないため、ある程度の応用を想定した提案を重視した。

4. 事前評価の選考の経緯

応募があった選考対象件数は 35 件あった。一応募課題につき領域アドバイザー12 名が分担して各申請の

書類査読(書類審査)を行い、査読結果(評点、コメント)を提出した。次に、書類選考会議においてアドバイザ

ー全員が一堂に会して査読結果を元に議論を行い、14 件を面接対象とした。書類選考会では、査読結果に大

きな評価差があったものについては、評価要因を全員で共有して集中的に審議した。その後、面接および総合

選考の結果、最終的に採択候補課題 4 件を選定した。

選 考 書類選考 面接選考 採択数

対象数 35件 14件 4件

※本領域においては、5年型、大挑戦型を公募しなかった。

5. 研究実施期間

平成 26年 10月~平成 30年 3月(3年型)

Page 2: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

6. 領域の活動状況

1) CREST/さきがけ2領域合同領域会議 5回

2) さきがけ合宿領域会議

・平成 29年 10月 16日~17日 さきがけ合宿領域会議(JSL本社、整備場見学) 東京ガーデンパレス

3) 公開シンポジウム

・平成 27年 3月 19日 第 77回情報処理学会イベント企画 京都大学百周年時計台記念館

・平成 28年 2月 4日 情報処理学会ソフトウェアジャパン 2016 一橋講堂

4) JST/NSF合同国際シンポジウム/NSF PI ミーティング

・平成 28年 4月 20日~22日 NSF PI ミーティング 米国 ワシントン DC ジョージタウン大学

・平成 28年 5月 11日~12日 合同国際シンポジウム アキバホール & 伊藤国際学術研究センター

・平成 28年 11月 28日~30日 合同国際シンポジウム ベルサール六本木

・平成 29年 3月 15日~17日 NSF PI ミーティング 米国 ワシントン DC バージニア工科大学

・平成 29年 12月 20日 JST-NSF連携、AIPネットワークラボ合同シンポジウム コクヨホール

5)研究総括(または副研究総括)、領域担当、事務参事の研究実施場所訪問(サイトビジット):全研究者の

研究室訪問と研究者上司への挨拶を実施した。

・大竹 義人 研究者: 奈良先端大学院大学 佐藤嘉伸教授 訪問 H28/1/5

・河原 大輔 研究者: 京都大学 黒橋禎夫教授 訪問 H28/2/2

・杉山 麿人 研究者: 大阪大学 鷲尾隆教授 訪問 H28/2/2

・山本 泰生 研究者: 山梨大学 岩沼宏治教授 訪問 H28/7/13

7. 事後評価の手続き

年2回程度開催した領域会議、公開シンポジウムなどにおいて、研究者が口頭発表やポスター展示を実施

し、その場で研究総括、アドバイザーなどから適時・適切なアドバイスを行った。また、半期毎に研究者が作成

した研究報告書を研究総括、副総括が確認し、アドバイスやコメントを研究者にフィードバックした。最終年度

には、事後評価会を実施し、研究者からの成果発表と総括、アドバイザーによる議論を行った。最後に、研

究総括、副研究総括が研究者の終了研究報告書およびこれまでの進捗状況を総合的に判断し、最終的

な事後評価結果を作成した。

(事後評価の流れ)

平成 29年 10月 5日~6日 事後評価会実施

平成 30年 1月 研究報告書提出

平成 30年 2月 研究総括による事後評価

平成 30年 2月 被評価者への結果通知

8. 事後評価項目

(1)研究課題の目標に対する達成度

(2)研究成果(論文、発表、特許など)

(3)研究成果の基礎研究・科学技術イノベーション及び社会・経済への波及効果(今後の見込みを含む)

(4)研究の進め方(他研究者との連携、国内外研究者・産業界等との連携、研究費執行状況など)

9. 評価結果

「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」領域を今回終了した 4 名の研究者は、

各々独創的なアイデアに基づき、ビッグデータ統合利活用という大きな目標に対して様々な角度から挑戦した。

杉山氏と山本氏は数理的な方向からアルゴリズムや解析手法に関する研究を実施し、大竹氏と河原氏は、そ

れぞれ、医療応用と自然言語解析に関する研究を実施した。

中でも杉山氏は、統計的に有意に頻出するパターンの高速列挙、情報幾何の概念を用いたパターン空間

の定式化とその結果を用いた高速アルゴリズムの開発、グラフ構造データの解析などの研究を行い、当初の

計画を大きく超える成果をあげた。また、大竹氏は、股関節疾患に関する世界最大規模の症例データの収集

とそれを用いた骨格動態の解析や筋骨格モデルの構築に関する研究を行った。この成果は、手術計画の策

定や予後予測に資するものであり、大きな社会的インパクトが期待できる。

本領域は、ビッグデータ 2領域のCRESTと合同で領域会議を開催し、シンポジウム等ではAIPネットワーク

ラボの他領域や NSF のプログラムとの連携も進めている。さらに、さきがけ研究者のための合宿型領域会議

Page 3: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

や非公式なミーティングも行っている。これらは、さきがけ研究者が異分野の研究者と知り合い、将来に渡っ

て長く続く関係を築く場としても活用されている。今回終了した4名の中にも、CRESTチームとの共同研究やさ

きがけネットワークへの参画を果たした研究者がおり、このような関係の構築もさきがけ研究の成果と言える

であろう。

1.大竹 義人 研究者 「統計学習と生体シミュレーションを融合した循環型手術支援」

ビッグデータ解析の重要な応用分野の1つに医療がある。CT、MRI などの医用画像を含む医療ビッグデー

タを統合解析することで、個々の患者のデータをその担当医が利用するレベルを超えた展開が期待できる。

本研究では、まず、医療機関と連携して 1000 症例を超える医用画像と手術の計画データや操作記録を含

むデータベースの構築を行った。股関節疾患に関しては世界最大規模のものである。そして、このデータベー

スを活用し、統計解析や機械学習の手法を用いることで、患者が撮影台に寝た状態で撮影した CT 画像と立

位や座位で撮影した 2 次元 X 線画像からの高精度な骨格動態の自動解析、さらに CT 画像からの筋骨格モ

デルの自動構築の方式を開発した。前者は手術計画の策定や術後の長期的予後予測、後者は筋萎縮の評

価やリハビリメニューの作成への応用が期待できる。論文は、医用画像解析分野のトップカンファレンス、臨

床分野の学術雑誌などで多数発表されており、学術的にも優れた成果をあげている。

患者のデータは簡単に公開できるものではないため、制度的にも壁がある感は否めないが、今後も医療関

係者との連携を通して、より多くのデータの収集・整備とより多くの関係者間でのデータ共有の可能性を探る

とともに、本研究成果の実用化を進めることを期待したい。

2.河原 大輔 研究者 「計算機・人の知を統合したビッグテキスト解析基盤」

現在までに人類が生み出した知識の多くは、自然言語のテキストの形で流通し、また蓄積されている。一方、

テキストが表す知識や意味を、機械的かつ完全に読み取ることは容易ではない。本質的に難しい問題ではあ

るが、機械的な解析の精度を向上することで、さまざまな応用が生まれる可能性がある。

本研究では、100億文の大規模テキストデータから大規模格フレームを構築し、個々の格フレームから代表

文を生成してクラウドソーシングによる人手での処理を行い、その結果を集約することで、コンピュータと人間

が力を合わせた知識獲得の試みを行った。クラウドソーシングの対象としたのは、格フレームが表す事態の

前後での、事態参与者の感情を含む素性変化等である。テキストを機械的に解析するだけでは読み取ること

が難しい人間の常識的な解釈の情報を加えることで、従来手法より高い精度での解析が可能なことを 3 種類

のタスクで示した。国際会議等で優れた学術的成果を発表しており、その中にはトップカンファレンスでのチュ

ートリアル論文も含まれる。

今後、クラウドソーシングの可能性のさらなる追求、感情分析を含む意味解釈の深化などの学術的な活動

と具体的な応用分野の開拓を進めることを期待したい。

3.杉山 麿人 研究者 「統計的有意性を担保する超高速パターン発見技術の創出」

ビッグデータ解析技術を用いて、科学の世界で認められる発見を行うためには、その解析結果が統計的に

有意でなければならない。本研究の第一の成果は、偽陽性の割合を制御して統計的に有意な頻出パターン

を見出す方式の確立と高速で省メモリなアルゴリズムの提案である。第二の成果は、パターンの空間に自然

な半順序構造を導入し、その統計的構造を理論的に深く分析することで、情報幾何の概念との関連性を見出

したことである。さらに、この関連性を活用して、行列バランス化に関しては既存のものをはるかに凌ぐ高速化

を達成し、その一般化であるテンソルバランス化に関しては世界で初めて解法を提案した。そして、第三の成

果としては、標準的なグラフカーネルの分析を行うとともに、RとPythonから利用可能なグラフカーネルのパッ

ケージを公開した。

それぞれの成果がトップカンファレンスなどで発表されており、優れた学術的成果をあげている。当初の構

想にほぼ対応するのは第一の成果であり、第二、第三の成果を得たことで、新たな視界が開けている。今後、

情報幾何を用いた理論的な分析をさらに深めるとともに、インパクトのある応用につなげることを期待したい。

4.山本 泰生 研究者 「高次知識を獲得するリソース指向型オンラインマイニング法の開発」

ビッグデータとともに IoT が注目を集め、大量のセンサーから生成されるストリームデータのリアルタイム解

析が、さまざまな応用分野で重要な課題と認識される時代となった。高速、省メモリ、高精度のオンライン解析

技術が求められている。

本研究では、ストリームデータに対する効率的なオンライン頻出パターンマイニングのために、非可逆圧縮

を用いる方式を提案した。圧縮結果から頻出パターンを復元する際に、頻度の誤差を一定値まで許容するこ

Page 4: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

とで、従来法の 100倍の高速化とバスケット長 10,000に対応できるスケーラビリティという目標を達成している。

さらに、許容誤差とメモリ使用量のトレードオフを考えて 2種類のポリシーを動的に切り替える方式、非可逆圧

縮の手法を拡張して集合系列パターンの抽出や系列予測にも適用可能な方式を考案した。論文は国際会議

などで多数発表しており、学術的には十分なレベルに達している。

さきがけ研究期間中には、コア技術の基本性能や表現力を大きく進歩させることができた。今後は、この成

果を使いやすい形で提供し、インパクトのある応用分野を切り拓いていくことを期待したい。

10. 評価者

研究総括 喜連川 優 国立情報学研究所 所長/東京大学生産技術研究所 教授

副研究総括 柴山 悦哉 東京大学情報基盤センター 教授

領域アドバイザー(五十音順。所属、役職は平成 30年 3月末現在)

荒川 薫 明治大学総合数理学部 学部長・教授

石塚 満 東京大学 名誉教授

上田 修功 NTT コミュニケーション科学基礎研究所 上田特別研究室長(NTT フェロー)/機械学

習・データ科学センタ 代表/理化学研究所革新知能統合研究センター 副センター長

田中 英彦 東京大学 名誉教授

辻井 潤一 産業技術総合研究所人工知能研究センター センター長

徳田 英幸 情報通信研究機構 理事長

徳山 豪 東北大学大学院情報科学研究科 教授

堀 浩一 東京大学大学院工学研究科 教授

東野 輝夫 大阪大学大学院情報科学研究科 教授

北川 博之 筑波大学計算科学研究センター 教授

山西 健司 東京大学大学院情報理工学系研究科 教授

Calton Pu Professor, Georgia Institute of Technology

Nozha Boujemaa Director of Research, Inria

(参考)

件数はいずれも、平成 30年 3月末現在。

(1)外部発表件数

国 内 国 際 計

論 文 9 20 29

口 頭 55 24 79

その他 6 1 7

合 計 70 45 115

(2)特許出願件数

国 内 国 際 計

0 0 0

(3)受賞等

・大竹 義人

・20th International Conference on Medical Image Computing and Computer Assisted Intervention

(MICCAI) Best Paper Award (H29.9)

・河原 大輔

・言語処理学会 20 周年記念論文賞 「格フレーム辞書の漸次的自動構築」 (河原大輔, 黒橋禎夫),

(H26.10)

・科学技術分野の文部科学大臣表彰 (科学技術賞・研究部門) 「日本語テキスト解析のための統合的

言語資源構築に関する研究」 (受賞者:黒橋禎夫, 河原大輔),(H29.4)

・杉山 麿人

Page 5: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

・IBISML 研究会賞ファイナリスト, ランダムウォークグラフカーネルの停止に関する解析, 杉山 麿人,

Karsten Borgwardt, (H27)

・山本 泰生

・人工知能学会研究会 優秀賞 (H27.3)

・山梨大学 優秀教員奨励制度特別表彰 (H28.6)

・山梨科学アカデミー奨励賞 (H29.5)

(4)招待講演

国際 3件

国内 18件

Page 6: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

別紙

「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」領域

事後評価実施 研究課題名および研究者氏名

(3年型)

研究者氏名

(参加形態)

研 究 課 題 名

(研究実施場所)

現 職(平成 30年 3 月末現在)

(応募時所属)

研究費

(百万円)

大竹 義人

(兼任)

統計学習と生体シミュレーションを融

合した循環型手術支援

(奈良先端科学技術大学院大学)

奈良先端科学技術大学院大学情報

科学研究科 准教授

(同上)

40

河原 大輔

(兼任)

計算機・人の知を統合したビッグテキ

スト解析基盤

(京都大学)

京都大学大学院情報科学研究科

准教授

(同上)

37

杉山 麿人

(兼任)

統計的有意性を担保する超高速パタ

ーン発見技術の創出

(国立情報学研究所)

国立情報学研究所情報学プリンシ

プル研究科 准教授

(大阪大学産業科学研究所 助教)

41

山本 泰生

(兼任)

高次知識を獲得するリソース指向型オ

ンラインマイニング法の開発

(山梨大学)

山梨大学大学院総合研究部 助教

(山梨大学医学工学総合研究部

助教)

28

Page 7: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

研 究 報 告 書

「統計学習と生体シミュレーションを融合した循環型手術支援」

研究タイプ:通常型

研究期間: 平成26年10月~平成30年3月 研 究 者: 大竹 義人

1. 研究のねらい

本研究のねらいは、治療後に活用されることのほとんどない、多くの病院に眠っている膨大な

量の医用画像を中心とするビッグデータを有効に活用する事である。

臨床的に有用なキラーアプリケーションとして、治療の低侵襲化と高精度化を実現する手術支

援システムを開発することで、医用画像ビッグデータの社会的受容性が高まり、より多くの医療

施設からの協力を得る事でデータベースを更に拡充し、これにより学習データが増加する事でア

プリケーションの性能が向上する、という循環型手術支援フレームワークの構築を目指した。ここ

では、提案する循環型フレームワークの一つのコアアプリケーションとして整形外科手術に着目

し、診断・手術計画・術後予測を多面的に支援するシステムを構築するとともに、そこで必要とな

る大規模なデータベースの構築を行った。

整形外科をはじめとする多くの臨床領域では、CT や MRI など詳細な三次元情報を得られる一

方で侵襲や計測コストの高いモダリティと共に、二次元X線投影像や超音波、内視鏡などの低侵

襲であるが情報量の少ないモダリティが併用される。特に毎年行われるスクリーニング検査や、

静止状態だけでなく動的なモニタリングが必要な場合などには後者のモダリティが用いられる。

しかし、二次元投影像やノイズの多い超音波画像から患者の三次元的な解剖構造を推定する

事は容易ではなく、熟練した専門医の経験と知識に頼っているのが現状である。整形外科では

専門医が患者ごとに時間をかけて X 線投影像から骨格の形状や関節角度あるいは筋肉の付き

方を計測・推定し、患者が動いた時に力のかかる方向を想像しながら適切な人工関節の種類や

位置、骨接合の位置や術式を決定している。

本さきがけプロジェクトでは、このような低侵襲モダリティからの三次元解剖構造推定の全自

動化により、解析の高精度化および飛躍的な高速化を実現し、これまで現実的な時間では不可

能であった1000症例を超える大規模症例での解析を実現した。また、CT画像に含まれる微小な

輝度値変化のパターンを解析する事で、従来の方法では不可能であった下肢の大きな筋肉全

体の筋線維構造推定を可能とし、患者個別の筋骨格動態シミュレーションに利用可能なモデル

の構築を可能とすると共に、医用画像ビッグデータと生体シミュレーションの融合(データ同化)

の可能性に迫った。

2. 研究成果

(1)概要

本プロジェクトの研究成果は、大きく2つに分けられる。大規模な医用画像・手術記録のデー

タベース構築(研究テーマ A)およびそれを活用したアプリケーション開発(研究テーマ B・C)で

ある。特に、大規模なコホートを対象とした医用画像解析研究では、データ収集の困難さと共

に解析の自動化が一つの大きなカギである。これらの制約から、従来の統計的臓器形状モデ

Page 8: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

ルや生体シミュレーションモデルの構築に関する研究では、数十例から百症例程度の小さなデ

ータベースが用いられてきた。本研究では、大阪大学病院整形外科をはじめとする先端病院

の医師たちのデータベース構築における全面的なバックアップと、工学研究者による解析シス

テムの全自動化の実現、の二つの相乗効果により、1000 症例を超える大規模データベースの

収集およびそれを活用した高精度な手術支援システムの構築が可能となった。

本プロジェクトで構築したデータベースの一つは、股関節疾患患者を対象としたもので、CT

や MRI、X 線投影像、といった画像データに加えて、手術の計画データ(専門医が患者ごとに作

成した人工股関節の種類と設置位置の計画)および実際に行われた手術の操作記録(手術ナ

ビゲーションシステムによって記録された実際の設置位置)が含まれており、全てのデータは患

者 ID によって紐づけられている。このため、一人の患者の術前・術中の状態に加え、この手術

によって術後どのように変化していったかを知ることもできる貴重なデータベースである。

また、アプリケーション開発においては、特に筋骨格系の解析に焦点を当てた。整形外科に

おける手術計画は、従来主に CT 画像のみを用いて行われてきた。CT 画像では撮影台に寝た

状態での骨格筋の形態は得られるが、立位や座位など日常生活動作を行う際には関節や筋

肉の状況が変化する。CT で撮影できない立位や座位、あるいは動作などは、低侵襲かつ撮影

姿勢が限られない X 線投影像を用いて計測されるが、二次元画像から三次元的な形態の変化

を推定する事は熟練した医師にとっても容易ではない。本プロジェクトでは、人工関節手術計

画の高精度化により術後の脱臼やゆるみを防止する事を目的とし、CT と X 線画像から機能時

の骨格筋の形態を全自動で、かつ定量的に解析可能なアプリケーションの開発を行った。

(2)詳細

研究テーマ A 「大規模医用画像データベースの構築」

大規模データベースの構築においては、複数の医療機関と連携し、各機関での倫理審査を

経た後、全てのデータに対して連結可能匿名化を行い、複数のモダリティ間での患者IDでの紐

づけは保ちつつ、患者の個人情報は削除した。画像の匿名化は北米放射線会議(RSNA)推奨

の国際標準(DICOM Supplement 142)に準拠したソフトウェアを用いた。患者 ID と個人情報と

の対応表はパスワードを設定した後、各担当医師が所有する外部と接続できないパソコンで管

理している。本研究で構築したデータベースとその内容を表 1 に示す。これらのデータベース

は、研究テーマ B・C で述べるアプリケーション開発の基盤となったと同時に、まだ十分に活用

できていない部分もあり、今後の本研究分野の発展に資する財産の一つであると考える。

表 1 本研究で構築したデータベースの一覧

Target anatomy Institution Modality # of cases Lower extremity Osaka University

Johns Hopkins University (USA)

CT >3000 X-ray projection >1000

Surgical log >1000 MRI > 700 Micro CT ~40 Cadaver measurements ~20

Upper abdomen Osaka University CT >3000

Page 9: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

MRI ~40 Chest Kanazawa University CT ~40

X-ray video ~40

研究テーマ B 「低侵襲計測画像(X 線投影像)を用いた骨格動態の全自動解析システム」

医用画像ビッグデータに埋もれている人体の筋骨格動態に関する知識を活用する一つのア

プリケーションとして、筋骨格治療において術前診断・手術計画・術後の予後評価に広く用いら

れている X 線投影像の解析システムを構築した。特に、人工股関節手術においては、立位や

座位で撮影した個々の患者のX線画像から、骨盤や大腿骨の位置関係をより高精度に推定す

る事が手術の成否のカギとなるが、従来の診断・治療においては医師が手作業で二次元投影

像上での作図計測を行い、一般的な人体の骨格形態から角度を推定する手法が用いられてき

たが、精度や計測に時間がかかるといった問題があった。

そこで、本研究では図 1 に示すように、患者の CT 画像と X 線投影像から、全自動で骨盤・

大腿骨の三次元的な位置関係を推定するシステムを構築した。これにより、1 症例につき数分

程度で高精度な骨格動態の解析が可能となったため、過去に撮影したたくさんの患者で、立位

や座位などの機能時の骨格の状況を統計的に解析し、一人の患者の疾患進行による動きの

変化や年齢別の変化、疾患グループによる変化などが解析可能となった。これらの情報は、術

前の診断や手術計画に役に立つだけでなく、術後の長期的な予後予測を行うためのシミュレ

ーションシステムの構築にも非常に有用である。

本研究成果の、基盤技術については報告者が主著者の論文発表 1(Physics in Medicine &

Biology, 2016 年 IF: 2.742)に、また一つの臨床応用例として骨盤と大腿骨について、大規模デ

ータベースでの解析を行った結果を論文発表 3,4(Journal of Arthroplasty, 2016 年 IF: 3.055)に

て発表した。本システムは、股関節だけでなく、他の筋骨格動態解析にも応用が可能であり、

膝関節(主要な学会発表 6)や肋骨動態(主要な学会発表 4)にも適用し、臨床的に有用な成果

を得た。

図 1 X 線投影像から全自動で立位時の骨盤・大腿骨の三次元位置を推定するシステム

Page 10: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

研究テーマ C: 「被験者個別の筋骨格機能シミュレーションのための筋骨格モデリング」

診断および治療計画において、治療後の患者の予後を予測するシミュレーション技術は近年

ますます重要性が増している。計算機の小型高速化により、近い将来臨床現場でも精密な筋

骨格動態シミュレーションが利用可能なレベルになると考えられる。しかし、現状では、シミュレ

ーションに用いるモデルの構築に問題がある。患者自身の解剖構造を精密に再現する事が困

難であるため、患者個別の治療計画などに直接応用する事はできない。

本研究では、下肢の筋骨格シミュレーションに対象を絞り、患者個別の精密な予測シミュレー

ションを可能とするための筋骨格モデルを患者自身の CT 画像から全自動で構築するシステム

を構築した。図 2 に、構築したシステムにより作成した筋骨格モデルの例を示す。本システムで

は CT 画像(図 2a)から、深層学習によるセマンティックセグメンテーションを用いて下肢の 19

の筋肉それぞれの三次元形状をモデル化する(図 2b)。さらに、各筋肉の内部の筋肉組織と周

辺の結合組織のわずかな密度の違い(CT 画像における輝度値の違い)から、筋線維走行を推

定するアルゴリズムを構築する事で、図 2c のような患者個別の筋形状および筋線維走行モデ

ルを作成した。本システムは CT 画像から全自動で、1 症例につき数分で解析が実行可能であ

るため、図 2d に示すような大規模データベースを用いた解析も可能となった。患者個別の筋肉

の付き方や、疾患状況の変化に伴う筋肉の状態の変化が解析可能となる事で、本システムは

生体シミュレーションのためのモデル構築だけでなく、筋委縮の定量評価や患者個別のリハビ

リテーションメニューの作成などにも応用可能である。

患者個別の筋線維モデル構築に関しては主要な学会発表 1,2(本研究分野のトップカンファレ

ンスである MICCAI, 2 は Best Paper Award 受賞)、本モデル構築のための要素技術となる筋付

着部位の推定アルゴリズムに関して論文発表 2(International Journal of Computer Assisted

Radiology, 2016 年 IF: 1.863)、予備実験としてデータ収集のために行った遺体実験の成果を論

文発表 5(Journal of Arthroplasty, 2016 年 IF: 3.055)にそれぞれ発表した。

図 2 被験者個別の三次元的な骨格・筋肉形状・筋線維走行を CT 画像からモデル化した結果

Page 11: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

3. 今後の展開

本プロジェクトで構築した大規模医用画像・手術記録データベースのデータ公開に関しては、

研究開始当初より検討を続けていた。研究期間中に個人情報保護に関してより厳しい方向の法

改正もあり、まだ実現できていないが、オプトアウトなどの適切なメカニズムを整備する事で社会

的受容性をさらに高め、個人の利益目的でなく、適正な利用を目的とした研究者たちとは広く共

有できるシステムを作りたいと考えている。また、研究テーマ C で開発した、深層学習による CT

画像からの筋肉の三次元モデリングシステムに関しては、学習済みのモデルのみからは患者デ

ータ(学習データ)を復元する事はできないので、これに関しては一般公開する予定である。

本研究では、整形外科医の中でも特に股関節手術における高い専門性を有する専門医が過

去に作成した手術計画、および実際に行った手術操作の記録(手術ナビゲーションシステムのロ

グ)も、それぞれの手術に関連する医用画像と共に収集し、データベース化した。本研究期間で

は、これらの情報の全てを十分に活用する事ができなかったが、今後、このデータベースから

expert knowledge を抽出し、専門医でない医師でも自動的に患者個別に最適化された計画を作

成できるようにするシステムが構築可能と考える。また、本データベースに含まれる過去の患者

データと少量の(低侵襲な)計測データと、研究テーマ C で構築した患者個別のバイオメカニクス

シミュレーションとのデータ同化を行う事で、術後の予後予測の精度を飛躍的に向上させることも

可能となると考える。

また、研究テーマ B で構築したシステムは筋骨格や X 線投影像に限らず他の臨床領域・モダ

リティにも応用可能である。具体的には小児患者など被曝量の問題からこれまで三次元診断が

行えなかった症例での高精度な術前計画や、拍動する心臓内部の微細組織への高精度なカテ

ーテル焼灼術(生体組織を小さく焼き切る手術)など従来の二次元モニタリングでは技術的に不

可能であった術式など、新しい概念の治療プロセスを開拓する可能性を持っている。さらに、数

万、数十万というオーダーの症例数の医療ビッグデータ構築が実現すれば、3000 件に 1 件の脊

椎手術で起きていると言われる部位取り違い手術など、非常に稀にしか起こらない医療事故や

症例のロングテールの解析も可能になると考える。

4. 評価

(1)自己評価

医師・臨床検査技師・歯科医師をはじめとする医療分野の専門家との密接な連携を積極的

に行うことで、整形外科、腹部外科、呼吸器外科、歯科、などのいくつかの臨床領域で、大規

模な医用画像および手術記録のデータベースを構築する事ができた。特定の疾患を対象とし

た画像解析研究は、これまでデータ収集・解析にかかる時間と労力の限界から、数十症例程

度を対象とした研究にとどまっていたが、本研究では特に大阪大学医学部整形外科の医師た

ちの全面的なバックアップと、報告者を中心としたグループで開発した画像の自動解析アルゴ

リズムにより、1000 症例を超える股関節疾患患者を対象とした大規模なデータ収集および解

析を可能とした。股関節疾患に特化したデータベースとしては、世界的にも最大規模のサイズ

と言える。

3 件の臨床論文(Journal of Arthroplasty, 2016 年 IF: 3.055)を含む外部発表を通じて、大規

模データベースが医療の現場で、手術計画の作成および高精度化に寄与する具体例を示す

ことができ、他の臨床領域への今後の波及効果も大きいと考える。また、報告者自身にとって

Page 12: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

は、本さきがけ事業のおかげで多くの特に同世代の医療分野の専門家たちと新しい研究プロ

ジェクトを立ち上げることができ、密接な共同研究体制を確立する事ができた。これにより、今

後の後輩研究者たちの人材交流をはじめ、大学規模での共同研究プロジェクトなど今後の医

工連携を加速する、という波及効果も考えられる。

CT 画像からの患者個別の筋線維構造解析については、医用画像解析分野のトップカンフ

ァレンスである MICCAI の本会議に 1 本、ワークショップに 1 本採択され、ワークショップの論文

については Best Paper Award を受賞した。本研究成果が国際的にも高く評価された結果であ

ると考える。

研究費執行については、初年度に大規模計算サーバを購入して運用を開始し、予備的な

比較的小規模データベースを用いたアルゴリズム開発を開始し、二年度目にデータベースの

大規模化に伴い、大容量データ管理用ファイルサーバを購入した。また、初年度から一貫して、

単発的に必要となる大規模演算に関してはパブリッククラウドを活用するように努める事で、

効率的な予算執行ができたと考える。

(2)研究総括評価(本研究課題について、研究期間中に実施された、年2回の領域会議での

評価フィードバックを踏まえつつ、以下の通り、事後評価を行った)。

ビッグデータ解析の重要な応用分野の1つに医療がある。CT、MRI などの医用画像を

含む医療ビッグデータを統合解析することで、個々の患者のデータをその担当医が利用

するレベルを超えた展開が期待できる。

本研究では、まず、医療機関と連携して 1000 症例を超える医用画像と手術の計画デー

タや操作記録を含むデータベースの構築を行った。股関節疾患に関しては世界最大規模

のものである。そして、このデータベースを活用し、統計解析や機械学習の手法を用いる

ことで、患者が撮影台に寝た状態で撮影した CT 画像と立位や座位で撮影した 2 次元 X

線画像からの高精度な骨格動態の自動解析、さらに CT 画像からの筋骨格モデルの自動

構築の方式を開発した。前者は手術計画の策定や術後の長期的予後予測、後者は筋萎

縮の評価やリハビリメニューの作成への応用が期待できる。論文は、医用画像解析分野

のトップカンファレンス、臨床分野の学術雑誌などで多数発表されており、学術的にも優れ

た成果をあげている。

患者のデータは簡単に公開できるものではないため、制度的にも壁がある感は否めな

いが、今後も医療関係者との連携を通して、より多くのデータの収集・整備とより多くの関

係者間でのデータ共有の可能性を探るとともに、本研究成果の実用化を進めることを期

待したい。

5. 主な研究成果リスト

(1) 論文(原著論文)発表

1. Yoshito Otake, A.S.Wang, A.Uneri, G.Kleinszig, S.Vogt, N.Aygun, S.-f. L. Lo, J.-P. Wolinsky, Z.L.Gokaslan, J.H.Siewerdsen, 3D–2D registration in mobile radiographs: algorithm development and preliminary clinical evaluation., Physics in Medicine and Biology, 60(5), 2075-2090, 2015.

Page 13: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

2. Norio Fukuda, Yoshito Otake, Masaki Takao, Futoshi Yokota, Takeshi Ogawa, Keisuke Uemura, Ryosuke Nakaya, Tamura K, Robert Grupp, Farvardin A, Mehran Armand, Nobuhiko Sugano, Yoshinobu Sato, Estimation of attachment regions of hip muscles in CT image using muscle attachment probabilistic atlas constructed from measurements in eight cadavers., Int J Comput Assist Radiol Surg., 12(5), 733-742, 2017. 3. Keisuke Uemura, Masaki Takao, Yoshito Otake, Koki Koyama, Futoshi Yokota, Hidetoshi Hamada, Takashi Sakai, Yoshinobu Sato, Nobuhiko Sugano, Change in pelvic sagittal inclination from supine to standing position before hip arthroplasty. , J Arthroplasty, 32(8), 2568-2573, 2017. 4. Keisuke Uemura, Masaki Takao, Yoshito Otake, Koki Koyama, Futoshi Yokota, Hidetoshi Hamada, Takashi Sakai, Yoshinobu Sato, Nobuhiko Sugano, Can Anatomical Measurements of Stem Anteversion Angle be considered as the Functional Anteversion Angle?, J Arthroplasty, in press. 5. Masaki Takao, Yoshito Otake, Norio Fukuda, Yoshinobu Sato, Mehran Armand, Nobuhiko Sugano, The Posterior Capsular Ligamentous Complex Contributes to Hip Joint Stability in Distraction. J Arthroplasty, in press.

(2)特許出願

なし

(3)その他の成果(主要な学会発表、受賞、著作物、プレスリリース等)

【主要な学会発表】

1. Yoshito Otake, Futoshi Yokota, Norio Fukuda, Masaki Takao, Shu Takagi, Naoto Yamamura, Lauren J. O'Donnell, Carl-Fredrik Westin, Nobuhiko Sugano, Sato Yoshinobu, Patient-specific skeletal muscle fiber modeling from structure tensor field of clinical CT images, 20th International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI), 2017 年 9 月.

2. Yoshito Otake, Kohei Miyamoto, Axel Olliver, Futoshi Yokota, Norio Fukuda, Lauren J.

O’Donnell, Carl-Fredric Westin, Masaki Takao, Nobuhiko Sugano, Beom Sun Chung, Jin Seo Park, Reconstruction of 3D muscle fiber structure using high resolution cryosectioned volume, 20th International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI), MSKI workshop (Computational Methods and Clinical Applications in Musculoskeletal Imaging), 2017 年 9 月. [Best Paper Award]

3. Yoshito Otake, Futoshi Yokota, Norio Fukuda, Masaki Takao, Shu Takagi, Naoto Yamamura,

Lauren J. O’Donnell, Carl-Fredrik Westin, Min Suk Chung, Nobuhiko Sugano, Sato Yoshinobu, Reconstruction of patient-specific fiber arrangement of skeletal muscles from clinical CT, CARS 2017 – Computer Assisted Radiology and Surgery, 2017 年 6 月.

Page 14: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

【受賞】

International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI), MSKI workshop (Computational Methods and Clinical Applications in Musculoskeletal Imaging), Best Paper Award. (2017)

【著作物】

(総説) 大竹 義人, 医用画像解析・手術支援システムにおけるレジストレーション, Medical

Imaging Technology, 35(1), 11-17, 2017.

Page 15: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

研 究 報 告 書

「計算機・人の知を統合したビッグテキスト解析基盤」

研究タイプ:通常型

研究期間: 平成 26 年 10 月~平成 30 年 3 月 研 究 者: 河原 大輔

1. 研究のねらい

言語およびその記述であるテキストは人類の知の源泉である。現代において、人々はテキ

ストからさまざまな情報を取得するとともに、テキストとして記述、情報を発信し、テキスト情報

を利活用している。このように、人々は膨大なテキスト情報にアクセスできるようになったが、

逆に自分にとって役に立つ情報を選別することに時間がかかることが問題になっている。この

ため、計算機によるテキスト情報の検索、抽出、分析の支援が非常に重要になりつつある。こ

れらの処理を高精度に実現するためには、自然言語解析および理解が重要な役割を担う。

新聞記事、ブログ、ツイートなど、さまざまな種類の大規模テキスト集合(本稿においては「ビ

ッグテキスト」と呼ぶ)が検索、分析の対象となりうる。しかし、これまでの自然言語解析・理解

技術は主に新聞記事テキストに最適化されており、新聞記事以外のテキストに対しては高精

度な解析や理解を行うことができない。その原因の一つとして、新聞記事以外のテキストには、

感情や情動などによって事態に関する言外の意味(connotation)を伝えるものが多いことが挙

げられる。

人々がビッグテキストを効果的、効率的に利活用することを計算機によって支援するために

は、言内・言外の意味の両方について解析・分析できる基盤を構築することが必要である。本

研究では、次の二つの方法を組み合わせることによって、この問題を解決することを狙う。

1. クラウド(cloud)コンピューティングによるビッグテキストからの大規模事態知識獲得

2. クラウド(crowd)ソーシングによる事態知識アノテーション

方法 1 を用いてビッグテキストから事態知識を自動獲得することによって、カバレッジの高い

事態知識を得ることが可能である。言内の意味については、この方法である程度抽出すること

ができるが、言外の意味については、テキスト中にほとんど記述されないため獲得できないと

いう問題がある。

方法 2 は、クラウドソーシングすなわち人の集合知によって、方法 1 で得た事態知識にアノ

テーションを行い、修正や制約を記述することによって行う。ここで行うアノテーションは、再利

用可能なものにするために、メタレベルの知識として設計する。

本研究は、大規模な言語使用から計算機的並列高速処理によって導出される知と、高度に

アブストラクトされた人間の知を、相補的に統合することによって、ビッグテキストに対する自

然言語解析・理解を実用的なレベルに昇華させることを狙う。

2. 研究成果

(1)概要

本研究では、まず、テキストからの自動獲得とクラウドソーシングを統合した知識獲得手法

を考案し、文・文章の意味の基本的な単位である事態(「誰がどこで何をする」のような述語を

Page 16: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

中心とした事柄)に関する知識の獲得を行った。事態知識として、事態の前後における事態参

与者の素性変化と定義し、大規模テキスト集合から自動獲得した格フレームに対して、クラウ

ドソーシングによって素性変化に関する知識を付与した。

次に、獲得した事態知識に基づく三つのアプリケーションを構築した。一つ目は日本語

Winograd Schema Challenge 解析であり、これは日本語テキスト中の照応現象の解析である。

二つ目は、対話応答判定であり、あるユーザー発話に対して適切な応答を候補から選択する

タスクである。三つ目は、Facebook リアクション推定であり、短い文・文章に対するリアクション

を推定するタスクである。いずれのタスクにおいても、獲得した事態知識を用いることによっ

て、有意に精度向上を達成しており、獲得した事態知識が有効に働いていることを示してい

る。これらのアプリケーションは今後、SNS の社会問題対策や、雑談・対話ロボットなどのコア

技術として利用されていくと考えられる。

これまでの自然言語解析研究は、述語項構造解析のような言内の意味理解に関するもの

がほとんどであったが、本研究では、言外の意味理解に向けて事態に関する知識を獲得し、

その有効性を三つのアプリケーションで示した。チャレンジングな研究課題であるが、良質な

事態知識が獲得できたこと、事態知識に基づくテキストからの感情推定が可能になったことが

研究成果である。

(2)詳細

本研究は、研究テーマ A 「テキストからの自動獲得とクラウドソーシングを統合した事態知

識獲得」、研究テーマ B 「獲得した事態知識に基づくアプリケーション」の二つからなる。以下

では、この二つのテーマについて詳細に説明する。

研究テーマ A 「テキストからの自動獲得とクラウドソーシングを統合した事態知識獲得」

文・文章の意味理解を実現するには、まず基本的単位となる事態を理解する必要がある。

事態とは、「誰がどこで何をする」のような述語を中心とした事柄を意味する。本研究では、事

態の意味理解を行うために、テキストからの自動獲得とクラウドソーシングを統合することによ

って、カバレッジが高く、かつ高品質な事態知識を獲得する手法を考案した。本手法では、ま

ず大規模テキスト集合から格フレームを自動獲得する。格フレームとは、事態を表現した言語

使用を集約し、用法ごとに整理したもので、言語理解のための基本的な辞書である。次に、獲

得した格フレームに対して、クラウドソーシングを用いて事態知識を付与する。このような手法

をとることによって、大規模な格フレームについて事態知識に関する情報を付与することがで

き、その結果、カバレッジが高く、また高品質な事態知識を獲得することができる。

事態知識として、事態の前後における事態参与者の素性変化と定義した。これは、言語理

解において、事態が起こることによる効果や影響を把握することが必要条件の一つとなるから

である。また、事態の事態参与者の素性変化は、後続する事態が起こる動機となりうるため、

文章や対話を理解する上で重要となる事態連鎖の理解につながる。素性変化として、図 1 に

示す分類をデザインした [論文 2]。本研究では、言外の意味の中心的な役割を担うと考えら

れる感情素性と感覚素性を対象とする。従来の多くの研究は、言内の意味を捉えることを目

標に行われており、このような言外の意味を捉える研究はチャレンジングである。また、感

Page 17: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

図 1 素性変化の体系

情や感覚のように人の主観に依存しやすい素性は、専門家がアノテーションするよりも、クラ

ウドソーシングによって多人数から常識的な知識を分散とともに獲得する方が良いと考えられ

る。

具体的な事態知識獲得手法は次のとおりである。

1. ビッグテキストから格フレームを自動獲得する。

2. それぞれの格フレームから代表文を生成する。

3. 代表文中の事態参与者のそれぞれについて、素性変化をクラウドソーシングで取得す

る。

ステップ 1 では、Kawahara らが 2014 年に提案した手法に基づいて、日本語 100 億文から大

規模格フレームを自動構築した [論文 1, 3]。ステップ 2 では、それぞれの格フレームを構成す

るガ格・ヲ格・ニ格から代表文を生成した。ステップ 3 では、Yahoo!クラウドソーシングを用いて

事態参与者および聞き手の素性変化を収集した。クラウドソーシングにおける問題提示の例

を図 2 に示す。1 つの問題について 10 人のクラウドワーカーから回答を収集した。可能なか

ぎり高品質な回答を得るため、チェック問題および品質管理手法を利用した。チェック問題と

は、あらかじめ正解を付与した簡単な問題であり、これに正解しなかったワーカーの回答は質

が悪いと考えられるため、それらを削除した。また、各ワーカーの能力と各問題の難しさを考

慮した品質管理手法を利用して、10 人の回答を集約して確率化した。

上記の事態知識獲得手法のポイントは二つある。一つは、格フレームを構成するすべての

言語表現に対して、代表文について獲得した素性変化が成り立つことを仮定しているため、

獲得した事態知識は高いカバレッジをもつようになることである。この仮定は多くの場合に成り

立つことを確認している。もう一つのポイントは、格フレーム自体ではなく、格フレームから生

Page 18: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

図 2 「妻が文句を親に言う」における「親」の喜びの変化を問う質問

成した代表文を介して事態知識を付与することである。このようにすることによって、格フレー

ムの改良のために再構築を行っても、クラウドソーシングによって獲得した事態知識を適用す

ることができるようになる。 高頻度な約 1,000 動詞・形容詞を対象として上記の手法を適用し、合計約 27 万個の素性に

関して知識を獲得した。「妻が文句を親に言う」に対して獲得した素性変化を図 3 に示す。獲

得した事態知識をサンプリングして主観評価したところ、おおむね良好な結果が得られた。

研究テーマ B 「獲得した事態知識に基づくアプリケーション」

本研究テーマの目的は、獲得した事態知識の有効性を示すこと、および獲得した事態知識

に基づくアプリケーションを構築することである。(1)日本語 Winograd Schema Challenge 解析、

(2) 対話応答判定、(3) Facebook リアクション推定の三つのアプリケーションを構築した。

(1) 日本語 Winograd Schema Challenge 解析

日本語 Winograd Schema Challenge は、Winograd Schema Challenge という英語の照応解析

データセットを日本語に翻訳したものである。たとえば、「赤チームは青チームを負かした。彼

らが最後のペナルティキックを成功させたからだ。」という文章において、照応詞「彼ら」の先行

詞が「赤チーム」「青チーム」のどちらであるかを選択するタスクであり、この場合の正解は「赤

チーム」である。「負かす」のガ格である「赤チーム」と「成功させた」のガ格である「彼ら」の感

情変化が一致すると考えられるため、事態知識を利用することによって精度向上が見られる

と考える。

SVM を用いて本タスクの解析器を構築した。ベースラインとして、照応詞と先行詞候補に関

するベクトル表現などを素性とした。提案モデルとしては、照応詞・先行詞が係る述語につい

ての事態知識を用いた。その結果、ベースラインの 49.9%の精度に対して、提案モデルは

52.3%の精度を達成した [論文 4]。本タスクは意味理解を必要とする本質的に難しいチャレン

ジであるが、有意な精度向上を達成することができた。さらに精度を向上させるためには、本

研究で対象とする事態知識だけでなく、他の常識的な知識を統合していく必要があると考えて

いる。

Page 19: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

図 3 「妻が文句を親に言う」に対する素性変化

(2) 対話応答判定

獲得した事態知識を用いて、対話応答判定タスクを解くシステムを開発した。このタスクは、

たとえば「選手がゴールを決めたよ」という発話に対して、応答候補 1「やったね」、応答候補 2

「可哀相ですね」から、より適切な応答候補 1 を選択するタスクである。このタスクを高精度に

解くことができるようになると、別途生成した応答候補をランキングして、より適切な対話応答

ができるようになると考えられる。

学習に用いる対話データとして、感情変化をもつ事態文約 2,500 文に対する自然な応答をク

ラウドソーシングを用いて獲得した。まず、1 つの事態文に対する自然な応答の記述を 10 人

のワーカーに依頼し、次に、それらの文ペアが自然かどうかを 10 人に判定してもらうという二

段階の手法をとった。その結果、約 22,400 ペアの自然な対話応答を獲得した。

ニューラルネットワークを用いて本タスクの判定器を構築した。正例は上記の自然な対話応

答ペアの応答文、負例はランダムサンプリングして抽出した。ベースラインとして BiLSTM

(Bidirectional Long Short-Term Memory)によるモデルを構築し、提案モデルはベースラインに

事態知識を統合した。ベースラインの精度が 64.2%のところ、事態知識を用いることによって、

精度が 71.0%に向上することを確認した [論文 5]。

(3) Facebook リアクション推定

獲得した事態知識を用いて、短い文・文章に対するリアクションを推定するシステムを開発

した。リアクションは、Facebook におけるリアクションである「いいね」「超いいね」「うけるね」

「すごいね」「悲しいね」「ひどいね」の 6 つに、「リアクションしない」という選択肢を加えた計 7

つであり、この中から適切なリアクションを選択する。たとえば「娘が高熱を出した」という文に

対しては「悲しいね」を選択するのが適切である。

クラウドソーシングを用いて、感情変化をもつ事態文約 2,500 文に対するリアクションを収集

し、文・リアクションのペアを獲得した。1 つの文に対するリアクションは 10 人のクラウドワーカ

Page 20: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

ーから収集し、研究テーマ A と同じ品質管理手法を用いて確率化した。確率値がもっとも高い

リアクションをその文に対する正解リアクションとして採用した。

ニューラルネットワークを用いて本タスクの推定器を構築した。BiLSTM を用いたベースライ

ンモデルの精度が 66.5%のところ、事態知識を用いることによって、精度が 75.7%に大きく向上

することを確認した。事態知識を用いた推定結果を詳細に分析したところ、感情に強く関係す

る「悲しいね」「ひどいね」についてはほとんど正答しており、事態知識が有効に機能している

ことを確認した。判定が難しかったのは、「いいね」と「すごいね」の区別、また「いいね」と「リア

クションしない」の区別であった。さらなる精度向上には、学習データを増やすこと、リアクショ

ンしやすいシステムかどうかのパラメータ化が必要と考えられる。学習データの増加について

は、Facebook API を用いたリアクションデータの収集を始めており、今後このデータを利用し

て改良していく予定である。

3. 今後の展開

本研究で獲得した事態知識およびそのアプリケーションは、今後、社会に展開して行くこと

ができる。たとえば、Facebook リアクション推定を発展させることによって、LINE などの SNS 上

で適切なレスポンスを生成するとともに、LINE いじめのような社会問題を検知・アラートすること

ができる。これによって、SNS の社会問題を軽減し、コミュニケーションの好循環をうながすこと

を目指す。さらには、対話応答判定を発展させることによって、感情を理解することができる雑

談ロボットや対話ロボットを開発することができる。ただし、対話履歴の利用や音声、画像、映

像などのマルチモーダル情報の利用が必須となるため、それらの領域の研究者と協働していく

必要があると考える。

また、本研究によって、テキストからの感情推定に端緒が開けたと考える。今後は、問題を

明確化し、応用の幅を広げつつ、新たな研究分野として体系化していきたい。

4. 評価

(1)自己評価

チャレンジングな研究課題であったが、テキストからの自動獲得とクラウドソーシングを統合

することによる事態知識の獲得、また事態知識に基づくアプリケーションを開発し、研究目的を

達成することができたと考えている。これまで、言内の意味理解を中心に取り組んでいたが、

本さきがけ研究において言外の意味理解にも着手することができた。今後、本さきがけ研究の

経験を生かして、言内・言外の両面から、より深化した言語理解研究を進めていく予定であ

る。

本研究成果は、SNS の社会問題への対策や雑談・対話ロボットなど、幅広い応用に利活用

できると考える。2017 年現在、チャットボットやスマートスピーカーの普及が急激に進んでいる

が、決められたタスクの実行や質問応答はできても、感情のような言外の意味をとらえること

はほとんどできていない。今後、事態知識を強化するとともに、関連領域の研究者と連携しつ

つ、研究成果の社会実装を進めていきたい。

(2)研究総括評価(本研究課題について、研究期間中に実施された、年2回の領域会議での

評価フィードバックを踏まえつつ、以下の通り、事後評価を行った)。

Page 21: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

現在までに人類が生み出した知識の多くは、自然言語のテキストの形で流通し、また蓄

積されている。一方、テキストが表す知識や意味を、機械的かつ完全に読み取ることは容

易ではない。本質的に難しい問題ではあるが、機械的な解析の精度を向上することで、さ

まざまな応用が生まれる可能性がある。

本研究では、100 億文の大規模テキストデータから大規模格フレームを構築し、個々の

格フレームから代表文を生成してクラウドソーシングによる人手での処理を行い、その結

果を集約することで、コンピュータと人間が力を合わせた知識獲得の試みを行った。クラウ

ドソーシングの対象としたのは、格フレームが表す事態の前後での、事態参与者の感情を

含む素性変化等である。テキストを機械的に解析するだけでは読み取ることが難しい人間

の常識的な解釈の情報を加えることで、従来手法より高い精度での解析が可能なことを 3

種類のタスクで示した。国際会議等で優れた学術的成果を発表しており、その中にはトッ

プカンファレンスでのチュートリアル論文も含まれる。

今後、クラウドソーシングの可能性のさらなる追求、感情分析を含む意味解釈の深化な

どの学術的な活動と具体的な応用分野の開拓を進めることを期待したい。

5. 主な研究成果リスト

(1) 論文(原著論文)発表

1. Patrick Hanks, Elisabetta Jezek, Daisuke Kawahara and Octavian Popescu. Corpus

Patterns for Semantic Processing. In Proceedings of the 53rd Annual Meeting of the

Association for Computational Linguistics and the 7th International Joint Conference on

Natural Language Processing (ACL-IJCNLP2015) (Tutorials), pp.12-15, 2015.

2. Tetsuaki Nakamura and Daisuke Kawahara. Constructing a Dictionary Describing Feature

Changes of Arguments in Event Sentences. In Proceedings of the 4th Workshop on EVENTS:

Definition, Detection, Coreference, and Representation, pp.46-50, 2016.

3. Daniel Peterson, Jordan Boyd-Graber, Martha Palmer and Daisuke Kawahara. Leveraging

VerbNet to Build Corpus-Specific Verb Clusters. In Proceedings of *SEM 2016: The Fifth

Joint Conference on Lexical and Computational Semantics, pp.102-107, 2016.

4. Tetsuaki Nakamura and Daisuke Kawahara. JFCKB: Japanese Feature Change Knowledge

Base. In Proceedings of the 11th International Conference on Language Resources and

Evaluation (LREC2018), 2018 (to appear).

5. Tetsuaki Nakamura and Daisuke Kawahara. JDCFC: A Japanese Dialogue Corpus with

Feature Changes. In Proceedings of the 11th International Conference on Language

Resources and Evaluation (LREC2018), 2018 (to appear).

(2)特許出願

なし

(3)その他の成果(主要な学会発表、受賞、著作物、プレスリリース等)

学会発表

1. 仲村哲明, 河原大輔. 集合知を用いた事態参与者の特徴変化に関する知識の獲得. 言

Page 22: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

語処理学会第 22 回年次大会, pp.901-904, 2016.

招待講演

1. 河原大輔. 超大規模テキスト集合からの知識獲得とそれを用いた言語理解. 東京大学

大学院情報理工学系研究科コンピュータ科学専攻講演会, 2016.

受賞

1. 言語処理学会 20 周年記念論文賞 「格フレーム辞書の漸次的自動構築」 (河原大輔,

黒橋禎夫), 2014.

2. 平成 29 年度 科学技術分野の文部科学大臣表彰 (科学技術賞・研究部門) 「日本語テ

キスト解析のための統合的言語資源構築に関する研究」 (受賞者:黒橋禎夫, 河原大

輔), 2017.

著作物

1. 李在鎬, 石黒圭, 伊集院郁子, 河原大輔, 久保圭, 小林雄一郎, 長谷部陽一郎, 樋口

耕一. 文章を科学する. ひつじ書房, 2017.

Page 23: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

研 究 報 告 書

「統計的有意性を担保する超高速パターン発見技術の創出」

研究タイプ:通常型

研究期間: 平成 26 年 10 月~平成 30 年 3 月 研 究 者: 杉山 麿人

1. 研究のねらい

ビッグデータからの知識発見を目的とするデータマイニングは,化学や生物学などの基礎

科学から経営やマーケティングへの応用に至るまで,幅広い分野で活用されている.特に,デ

ータベースからの頻出パターン発見は,データマイニングにおける最も基本的な問題の一つで

あり,データに隠れた有益な規則を見つけるための手法として盛んに研究されてきた.パター

ンとは,同時に出現する対象の組合せであり,例えば,一緒に売れた商品や,文書中で共起

して現れる単語(アイテム集合),特定の機能をもつ化合物が共有している構造(部分グラフ)

などが,解析の対象となる.

しかし,多くの応用分野において求められているのは,単に頻出しているパターンではなく,

統計的に有意に頻出しているパターン,すなわち,偶然に発生すると期待されるよりも高い頻

度で出現するパターンである.このようなパターンを発見することで,例えば創薬において,化

合物データベースから目的の活性に統計的に有意に関連している化合物の部分構造を見つ

けることができ,遺伝学においては,ゲノムデータベースから対象の疾患に統計的に有意に関

連している遺伝子変異の組み合わせを発見することができる.さらに,統計的有意性を用いる

ことで,偽陽性パターンの割合,すなわち,関連があるとして発見されてしまったが実際には関

連がないパターンの割合を,任意の値に制御することができる.

統計的有意性を担保したパターンの発見は,応用分野において必須の要請があり,かつ数

理的にも基礎的な問題であるにも関わらず,研究が進んでいなかった.そこで本研究では,こ

の問題を解決し,大規模データベースから統計的に有意に頻出しているパターンを直接,高

速に列挙する統計的パターンマイニング(significant pattern mining)のアルゴリズム群を構築

し,その妥当性を担保するための統計理論を整備し体系化することをねらいとした.

2. 研究成果

(1)概要

本研究では,一貫してデータからの統計的データマイニング・機械学習技術の開発に関して

研究を進め,主に 3 つの研究テーマに関して,それぞれ成果を挙げた.

研究テーマA 「統計的パターンマイニング技術の確立」では,統計的に有意に出現するパタ

ーンを発見する統計的パターンマイニングの技術を確立した.特に,グラフ構造をもつデータ

から,統計的に有意に現れる部分グラフを発見しつつ,全候補グラフにわたって偽陽性の割

合を制御することができる手法を初めて構築することに成功した.さらに,この手法を含むより

一般的な統計的パターンマイニング技術の高速化・省メモリ化を実現し,state-of-the-art を

確立した.構築した手法を遺伝子データへ適用することによって,これまで知られていなかっ

た新たなパターン(塩基対の組合せ)が発見できることを報告した.

Page 24: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

研究テーマB「情報幾何を用いた階層的な確率モデルの解析」では,統計的パターンマイニン

グで扱う階層的な空間を対数線形モデルによって確率モデル化し,統計的及び情報理論的

構造を詳細に解析することで,情報幾何とパターンマイニングの密接な関係を理論的に明ら

かにした.その得られた結果を応用することで,行列バランシングという行列の一種の正規化

が高速に解けることを示し,その一般化であるテンソルバランシングの実現に成功した.既存

の行列バランシング手法と比較して,10,000 倍以上の高速化を実現した.

研究テーマC「グラフ構造データに対する機械学習技術の開発」では,グラフ構造を持つデー

タに対する機械学習手法の解析及び構築をおこなった.特に,グラフ間の類似度を測るグラ

フカーネル手法の解析をおこない,既存のベースライン手法として知られている幾何ランダム

ウォークが適切な手法ではないことを明らかにした.さらに,グラフカーネル手法を網羅した R

及び Python で利用可能なパッケージ graphkernels を公開した.

(2)詳細

研究テーマA「統計的パターンマイニング技術の確立」

統計的パターンマイニング(significant pattern mining)と呼ばれる,データベースから統計的

に有意に出現するパターンを発見する技術の確立を目的とし,研究を進めた.この技術を達

成するためには,以下の 2 つの課題を解決する必要がある.

計算論的な課題(計算量の爆発):データベースのサイズが大きくなると,パターンの

探索空間が組合せ爆発を起こし,パターンの探索・列挙が困難になる.

統計的な課題(多重検定に起因する偽陽性の増加):パターン総数が指数関数的に

増大するため,各パターンの検定において多重検定補正を行わないと,偶然有意と

判定される(偽陽性となる)確率が増大し,大量の偽陽性パターンが発生してしまう.

これら 2 つの課題を,Tarone の検定可能性と Apriori 法を組み合わせることで解決した.

Tarone の検定可能性によって確実に有意ならない不必要なパターンを同定し,Apriori 法によ

ってそれら不必要なパターンを効率的に枝刈りすることで,2 つの課題を同時に解決した.

本研究では,まず統計的部分グラフマイニング(図 1)を達成した.ラベル付けされたグラフ

のデータベースから,特定のクラスにおいて他のクラスと比べて統計的に有意に頻出している

部分グラフを全て発見し,かつ全体における偽陽性の割合を適切に制御することに成功し

た.Tarone の検定可能性を導入して検定可能でない部分グラフを同定し,Apriori 法と組み合

わせることでそれらを効率的に除去する手法を構築し,計算機上で実装した.実データを用い

た検証の結果,既存手法とくらべて 1000 倍程度の高速化を達成しつつ,偽陽性の割合を適

切に制御できることを示した[論文 1].

さらに,ランダム置換を用いた統計的多重検定法を組み込むことで,より正確に偽陽性の割

合を制御できる手法 Westfall-Young light の構築に成功した[論文 2].部分グラフや組合せ集

合など様々な対象に適用可能なパターン列挙アルゴリズムの構築・実装をおこない,実世界

でのベンチマークデータによる性能の検証によって,既存手法よりも高速かつ省メモリで統計

的パターンマイニングが達成できることを示した.この手法は,現在でも統計的パターンマイ

ニングの state-of-the-art である.

Page 25: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

図1:統計的部分グラフマイニング.P 値が多重検定補正されたしきい値より小さい部分グラフ

パターンをすべて見つける.

研究テーマB「情報幾何を用いた階層的な確率モデルの解析」

パターンマイニングで現れるパターンの集合がなす空間は,半順序構造と呼ばれる階層的

な構造を必ず持つ.半順序構造とは,有向非巡回グラフ(DAG)と等価な構造であり,集合の

包含関係をはじめとして幅広い対象が半順序構造を保有しており,計算機科学における本質

的な離散構造・階層構造である.そこで,半順序構造に対する確率モデル(対数線形モデル)

を導入することで,パターン空間が持つ統計的性質や情報理論的性質をより詳細に解析する

ことを目的として,研究を進めた.

結果として,この半順序構造上の対数線形モデルによって生成される確率分布族が,情報

幾何で知られている双対平坦多様体となることを発見した.これは,パターン空間の確率分布

が指数型分布族に含まれることを意味し,パターンの頻度は十分統計量に対応する.さらに,

確率モデルの学習が最尤法に代表される部分多様体への射影として実現できる(図 2).これ

らの強力な性質は,本研究によって初めて明らかになった.

さらに,この多様体の構造を利用した数値計算アルゴリズムを設計し,行列やテンソルのバ

ランス化に適用することで,従来法よりも高速にバランス化を達成するアルゴリズムを構築し

た.行列のバランス化とは,各列,各行に対する定数倍のみを用いて各列,各行の和がどれ

も 1 となるようにする操作であり,経済学における産業連関表の解析や,生物学での Hi-C デ

ータ解析において標準的処理として用いられている.提案手法は,初めて行列バランス化の

一般化であるテンソルバランス化を達成し,また行列バランシングにおいては既存手法より

10,000 倍程度の高速化を達成した(論文 3).

Page 26: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

図 2: パターン空間の対数線形モデルによって定まる双対平坦多様体.θは対数線形モデル

の係数,ηはパターンの頻度に対応し,これらは必ず直交する.

研究テーマC「グラフ構造データに対する機械学習技術の開発」

グラフ構造を持つデータを解析するための機械学習技術の研究をおこなった.特に,グラフ

カーネルと呼ばれる,グラフ間の類似度を測る手法を解析し,標準的なベースライン手法とし

て知られている幾何ランダムウォークカーネルがベースラインとして適切ではなく,k ステップ

ランダムウォークカーネルが適していることを,理論と実験両面から明らかにした[論文 4].

さらに,グラフカーネルの主要な手法を網羅した R 及び Python で利用可能なパッケージ

graphkernels を公開した(図 3)[論文 5].本報告書執筆時点で,既に 10,000 回以上のダウンロ

ードがあり,グラフカーネルを利用したデータ解析をおこなう際の標準的パッケージとして定着

しつつある.

図 3: パッケージ graphkernels の概要.グラフの集合を入力とし,カーネル行列を出力する.

3. 今後の展開

主に以下の 2 つの研究トピックに関して,研究を展開する.

研究トピックA「階層的構造に対する対数線形モデルを用いた機械学習の理論的解析」

深層学習で用いられている階層的なモデルを,本研究で提案した階層的構造に対する対数線形

モデルと,その情報幾何的性質を用いて解析する.特に,ボルツマンマシンなどの生成モデルを

対象とする.

研究トピックB「統計的パターンマイニングなどを用いた応用研究」

統計的パターンマイニングには幅広い応用があるが,それらは未だ発展途上である.そこで,脳

活動データや医療データなどに適用することで,新規の科学的発見を目指す.さらに,本研究で

Page 27: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

提案した対数線形モデルを用いることで,変数間の高次相関が持つ情報量を分解し,取り出す

ことができる.そこで,上記データへの適用可能性を探る.

4. 評価

(1)自己評価

研究目的の達成状況

申請時に掲げた統計的パターンマイニング技術の確立,という研究目的を,計画通り達成するこ

とができた.さらに,この研究を進めることで,申請時にはまったく無かった,情報幾何を用いた

階層的な確率モデルの解析及び,グラフ構造データに対する機械学習技術の開発という新たな

2 つの研究テーマについて研究を進めて,それぞれ成果を挙げることができた.したがって,本

研究の研究目的は,十分に達成できた.

研究の進め方(研究実施体制及び研究費執行状況)

予定通り研究を進め,各年度で研究費を計画通り執行することができた.

研究成果の科学技術及び社会・経済への波及効果(今後の見込みを含む)

現時点では学術的な貢献に留まっているが,本研究で達成した研究成果は,独創的かつインパ

クトのある内容であると自負している.したがって,今後応用研究に取り組むことで,よりインパク

トの大きい社会実装へと繋げることができると考えている.

申請時の目的をすべて達成した.さらに,申請時には明らかでなった課題を解決した.

(2)研究総括評価(本研究課題について、研究期間中に実施された、年2回の領域会議での

評価フィードバックを踏まえつつ、以下の通り、事後評価を行った)。

ビッグデータ解析技術を用いて、科学の世界で認められる発見を行うためには、その解

析結果が統計的に有意でなければならない。本研究の第一の成果は、偽陽性の割合を

制御して統計的に有意な頻出パターンを見出す方式の確立と高速で省メモリなアルゴリ

ズムの提案である。第二の成果は、パターンの空間に自然な半順序構造を導入し、その

統計的構造を理論的に深く分析することで、情報幾何の概念との関連性を見出したことで

ある。さらに、この関連性を活用して、行列バランス化に関しては既存のものをはるかに凌

ぐ高速化を達成し、その一般化であるテンソルバランス化に関しては世界で初めて解法を

提案した。そして、第三の成果としては、標準的なグラフカーネルの分析を行うとともに、R

と Python から利用可能なグラフカーネルのパッケージを公開した。

それぞれの成果がトップカンファレンスなどで発表されており、優れた学術的成果をあ

げている。当初の構想にほぼ対応するのは第一の成果であり、第二、第三の成果を得た

ことで、新たな視界が開けている。今後、情報幾何を用いた理論的な分析をさらに深める

とともに、インパクトのある応用につなげることを期待したい。

5. 主な研究成果リスト

(1) 論文(原著論文)発表

1. Sugiyama, M., Llinares-López, F., Kasenburg, N., Borgwardt, K.M.: Significant Subgraph

Page 28: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

Mining with Multiple Testing Correction, Proceedings of the 2015 SIAM International

Conference on Data Mining (SDM2015), 37-45, 2015

2. Llinares-López, F., Sugiyama, M., Papaxanthos, L., Borgwardt, K.M. Fast and

Memory-Efficient Significant Pattern Mining via Permutation Testing, Proceedings of the

21st ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD2015),

725-734, 2015 3. Sugiyama, M., Nakahara, H., Tsuda, K.: Tensor Balancing on Statistical Manifold,

Proceedings of the 34th International Conference on Machine Learning (ICML2017), 70,

3270-3279, 2017

4. Sugiyama, M., Borgwardt, K.M.: Halting in Random Walk Kernels, Advances in Neural

Information Processing Systems (NIPS2015), 28, 1630—1638, 2015

5. Sugiyama, M., Ghisu, E., Llinares-López, F., Borgwardt, K.M.: graphkernels: R and Python

Packages for Graph Comparison, Bioinformatics, btx602, 2017

(2)特許出願

なし

(3)その他の成果(主要な学会発表、受賞、著作物、プレスリリース等)

論文・学会発表

1. Llinares-López, F., Grimm, D.G., Bodenham, D.A., Gieraths, U., Sugiyama, M., Rowan, B.,

Borgwardt, K.M.: Genome-Wide Detection of Intervals of Genetic Heterogeneity Associated with

Complex Traits, Bioinformatics, 31(12), i240—i249, 2015 (Proceedings of ISMB/ECCB 2015)

2. Sugiyama, M., Nakahara, H., Tsuda, K.: Information Decomposition on Structured Space,

Proceedings of 2016 IEEE International Symposium on Information Theory (ISIT), 575-579, 2016

3. Sugiyama, M.: Significant Pattern Mining on Graphs, 10th International Conference on

Multiple Comparison Procedures, 2017

4. 杉山 麿人: 統計的有意性を担保するパターンマイニング技術, オペレーションズ・リサーチ

誌, 62(4), 2017

受賞

IBISML 研究会賞ファイナリスト, ランダムウォークグラフカーネルの停止に関する解析, 杉山 麿

人, Karsten Borgwardt, 2015

Page 29: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

研 究 報 告 書

「高次知識を獲得するリソース指向型オンラインマイニング法の開発」

研究タイプ: 通常型

研究期間: 平成26年10月~平成30年3月 研 究 者: 山本 泰生

1. 研究のねらい

本研究の目的は、ストリーム型ビッグデータの利活用に資するデータマイニング法の基盤技術

開発である。ストリームデータとは、観測系から生成され続ける無限長のデータ系列のことである。

近年のクラウドサービスやIoT の発展に伴い、気象、小売、製造、インフラ、観光、医療、スポーツ

などの多岐にわたる分野において,多種多様なストリームデータが生み出されている。

ストリームデータの特徴は、時間経過とともに蓄積されるデータ総量が急速に増加する点にある。

よって、ストリームデータを扱う計算タスクでは、ボトルネックとなるデータ全体のスキャンを極力避

けながら、新規データを逐次的にインメモリ処理することが求められる。このような“On-the-fly”な

オンライン処理はビッグデータの管理・運用技術における重要な研究課題と位置づけられている。

ストリームデータの社会的インパクトは観測系に対するリアルタイム分析にある。特に、科学的

発見のような観測系の「理解」やマーケットバスケット分析 (MBA) にみられる観測系の「改善」を

目的とする分析タスクでは、生成モデルだけでなく、再現性を担保する解釈可能な形式表現を獲

得することが不可欠である。このような、人の認知が介在するデータ活用をリアルタイム分析のコ

ンテキストで実現することをねらい、そのために不可欠なオンライン処理技術を開発する。

本研究では、形式知として、観測系を特徴づける説明変数間の関係表現 (パターン) を扱う。観

測系や分析タスクにより、説明変数とパターンはそれぞれ異なるが、他方、パターンの組み合わ

せ爆発現象を抱える点は共通する。計算科学としてのパターン抽出の本質的課題は、この組み

合わせ爆発にある。特にアイテムの出現分布が常に変化していくストリームデータにおいては、こ

れに立ち向かうコア技術が十分確立されているとは言い難い現状であった。

そこで本研究では、近似・圧縮・並列化の 3 つの要素技術を導入し精錬することで、ストリームデ

ータからパターンを抽出するスケーラブルなオンライン計算法を確立する。具体的には従来法に

比べ 100 倍の高速化とスケーラビリティの改善を計り、バスケット長 (バスケットに含まれる説明

変数の数) 10,000 のデータの実時間処理を目指す。また開発したコア技術を利用し、より複雑な

高次のパターン (集合系列等) 抽出にチャレンジする。さらに、ストリーム型ビッグデータの省スペ

ース管理のための新しいオンライン計算法の開発にも取り組む。

Page 30: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

2. 研究成果

(1)概要

本研究では、(A) オンライン型パターンマイニング法について、Δ-圧縮法と呼ぶ非可逆圧

縮表現に基づく新たなソリューションを提案し、目標としたスケーラビリティの改善を実現した

[主な業績 1,3,4][論文 1,2][受賞 1,3]。また (B) Δ-圧縮法を拡張し、集合系列を扱うオンラ

イン型パターンマイニング法を開発した [主な業績 2][論文 12]。また負の相関ルール抽出

のためのフレームワークを整備し、アルゴリズムの効率化を進めた [論文 11]。さらに (C)

順序関係に基づくストリームデータのサマリ計算法を検討し、時系列データのオンライン符

号化への応用可能性を示した [論文 8]。主な研究成果を以下の 3 項目にまとめる。

(A) オンライン型パターンマイニング法のスケーラビリティ向上

アイテム集合を抽出対象とするデータマイニング分野の代表的問題に対し、従来法の性能

を大きく上回るオンライン計算法を開発した。従来法は、各パターンの頻度情報に誤差Δを

許容するオンライン近似計算をベースとしている。これに対し、提案法では、Δを利用した非

可逆圧縮を新たに導入し、管理すべきパターンを大幅に削減している。また近似計算の従

来アプローチを統合した新たな近似法を考案した。これにより、任意の長さ L のバスケットデ

ータを計算時間 O(k×L) (ただし k は消費メモリの上限を示すサイズ定数) によりオンライン

処理することを可能とした。実証実験の結果、従来法に比べ、平均して 200 倍の高速化、20

分の1の省メモリ化、85%の誤差Δの軽減に成功している。

(B) 高次パターンへの拡張: 集合系列パターンのオンラインマイニング

(1) のコア技術をもとに集合系列のΔ-圧縮表現を抽出するオンラインマイニング法を開発

した。集合系列は関係表現の中でも最も複雑なパターンであり、従来のオンライン計算の枠

組みでは実問題へ適用することは原理的に困難とされてきた。この問題に対するソリューシ

ョンを世界に先駆けて提案している。また本手法を系列予測問題に適用し可用性を検証し

た。Yahoo! Hadoop Grid のログデータを用いた実験において、Variable-order Markov Model

(VMM) の既存手法を上回る予測性能を確認した。

(C) ストリームデータのサマリ構築

順序関係に基づくストリームデータの要約表現 (サマリ) に注目し、半順序及び全順序を満

たすストリームデータのε劣サマリを求める決定論的オンラインアルゴリズムを開発した。ま

た本手法を、事前分布仮定を必要としないデータ符号化に適用し可用性を検証した。ブラッ

クスワンを含む高感度地震観測網 (Hi-net) の地震計データを用いた予備実験において、

既存法に比べ符号化誤差を 30 分の 1 まで削減できることを確認している。

(2)詳細

Page 31: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

(A) オンライン型パターンマイニング法のスケーラビリティ向上

オンライン計算の枠組みで組み合わせ爆発問題に対処するコア技術を開発した。

1. 軽量なオンライン処理により実現可能な非可逆圧縮法の開発

アイテム集合を対象とするマイニングでは、飽和性に基づくパターンの可逆圧縮がよく利用

される。しかし一方、データによっては可逆圧縮の効果が限定的となる場合がある。

例えば、機械学習で対象となる稠密なデータでは、飽和圧縮は有効に働かないことが多い。

本研究では、Δカバーと呼ぶ飽和性の拡張概念に着目し、元のソリューションである全頻出

アイテム集合族の非可逆圧縮表現を求めるオンライン計算法を提案している。この圧縮表

現から任意の頻出アイテム集合と頻度を誤差Δの範囲内に復元することが可能である。Δ

カバーの概念自体は、パターンのクラスタリングや素性選択の指標としてすでに有用性は確

認されていた。他方、オンライン計算の枠組みにて、Δカバーに基づく圧縮表現をいかに求

められるかわかっていなかった。本研究では、この有用な圧縮表現が、集合積演算と近似

削除と呼ばれる逐次処理により獲得できることを理論的に明らかにしている [主な業績

1,4][受賞 1,3]。

2. オンライン近似計算の新たなパラダイム構築

近似削除は、許容誤差Δ以下の低頻度パターンを削除する操作である。パターン抽出を

扱うオンライン近似計算の代表的な省スペース技術であるが、普通、ユーザーが事前に設

定する誤差パラメータ ε (0 ≦ ε < 1) をもとに、ε× i (i は任意の時刻) 以下のパタ

ーンを削除していく。このアプローチをパラメータ指向 (PO) 型近似と呼ぶと、PO 削除法で

は、常に頻度誤差は ε× i 以下となる。この手法とは別に、研究代表者らが提案したリソ

ース指向 (RO) 型の近似アプローチでは、ε の代わりにサイズ定数 k を利用する。RO 削

除法では、頻度 top-k のパターンのみを管理し、それ以外を削除する。PO 削除と RO 削除

はそれぞれ長所と短所を持つ。すなわち、PO 削除では許容誤差Δをεにより直接コントロ

ールできる反面、突発的な候補パターンの増加に応じて性能が著しく低下する。他方、RO

削除では k によりメモリ消費の上限を直接コントロールできる反面、最終的な誤差計数は

不明であり出力の品質を事前に担保することができない。

そこで本研究では、PO 型と RO 型を統合した新

しい近似アプローチを提案している。提案法では、

各時刻における誤差率と登録パターン数に応じ

て、動的に PO 削除と RO 削除をスイッチする。図

1は、あるベンチマーク問題における提案法の誤

差率と登録パターン数の時間推移を表している。

サイズ定数 k = 10,000、誤差パラメータ ε =

0.015 と設定している。

図1をみると、最初の段階では、top-k 以外のパ

ターンが削除されており (RO 削除)、結果として誤

差率がεを超える。ところが一定時間が過ぎた段

階で、許容誤差の値 (ε× i ) が大きくなり PO 削除

が適用されている。その結果、最終的な誤差率はε以内に保たれるようになる。このような

図1: PO 型と RO 型削除の動的スイッチ

Page 32: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

誤差率の自律的な回復現象は、PO 型と RO 型を統合することで生じた新しい知見であり、

既存法への波及効果も期待できる [論文投稿中]。

本研究では上記のコア技術を導入した新しいオンライン型パターンマイニング法を実装し、

様々な実データと合成データを用いて性能評価を

行なった。実験の結果、速度・使用メモリ・誤差計

数 (すなわち解の品質) の観点から、既存法の

性能を大幅に改善していることを確認した。結果

として当初目標とした 100 倍の高速化とスケーラ

ビリティ改善に成功している。図2は、バスケット

長 L の変化に対する速度と誤差率の推移を表

している。図2より、L に対して速度と誤差率が線

形に推移することがわかる。

提案法のオンライン処理は、各登録パターンと新規データとの共通部分を求める集合積演

算と近似削除の2操作により実現されるが、これらの操作は各パターンに対して独立して実

行することができる。また登録パターン数の上限はサイズ定数 k により固定されるため、並

列分散化が適用できることができる。そこで本研究では、OpenMP によるマルチスレッド処理

により提案法のオンライン計算を実現した [主な業績 4]。また Xeon E5-2698v3 (32 コア) マ

シンを用いた実験の結果、16 倍の速度改善の効果を確認している。

(B) 高次パターンへの拡張: 集合系列パターンのオンラインマイニング

(A) で開発したコア技術を用いて、複雑な関係表現を扱うパターンマイニング法を開発した。

1. 集合系列パターンの抽出と系列予測への応用

対象パターンは、図3のように、ストリーム上に出現する説明変数 (アルファベットに相当)

の集合列である。図の例のように、パターンを構成する変数の出現は不連続でも構わない

が、最大系列幅 W 以内に必ず出現するものとする。よって、バスケット長を L とすると 2W×L 個もの集合系列パターンが候補となる。集合パターンの場合に比べ、さらに多くのパ

ターンを管理する必要がある。このため、オンライン計算の枠組みでは集合系列を抽

出することは困難と考えられてきた。本研究では、Δ-圧縮法と PO-RO 近似法を用いる

ことで、従来困難とされたこの問題に対する新しいソリューションを与えている。

系列特有の難しさは、系列間の(極大)共通部分がユニークに定まらない点にある(例

えば(a)->(b)->(c)と(a)->(c)->(b)

の極大共通部分は (a)->(b) と

(a)->(c) の 2つ存在する)。Δ-圧縮

法におけるオンライン処理には、登

録パターンと新規データの共通部分

を求める積演算が必要である。この

ため、集合から系列へΔ-圧縮法を拡

張するには、系列間の極大共通部分を列挙すること が求めら

れた。本研究では、この列挙問題を効率的に解くアルゴリズムを考案し、Δ-圧縮法に

図2: 提案法のスケーラビリティ

axf

dbe

xfc

gh

axf

bkxc

abc

cd

L

LengthWWidth (a,1x,1f)1→ (b)1→ (x,1c)

図3: 集合系列の例

Page 33: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

組み込むことで、集合系列族の非可逆圧縮表現を高速・省スペースに求めるオンライ

ン計算法を実現した[主な業績 2]。

提案法により求められる圧縮表現は、任意の集合系列の頻度情報を誤差Δの範囲内で

復元することができる。すなわち、これをストリームデータの解釈可能な生成モデルの一つと

みることができる。そこで本研究では提案法の可用性を検証するため、提案法を系列のオン

ライン予測に適用する実証実験を行なった。系列予測器としての特徴は 3 つある。第 1 に

RNN とは異なり、予測結果に対する説明を与えることができる。第 2 に HMM とは異なり、事

前に適切なモデルの構造を与える必要がない。これらの特徴を持つ代表的な生成モデルに

VMM があるが、第 3 の特徴として VMM とも異なり「飛び飛び」の不連続なコンテキストを考

慮した予測が可能である。

これらの特徴が活用される場面として、多様なコンテキストがごった煮となって入れ混じる

データのオンライン予測が考えられる。ケーススタディとして、Yahoo! Research が提供する

Hadoop Grid Log データを用いた実証実験を

行った。このデータは 5,000 を超えるクライア

ントユーザーによる HDFS サーバのアクセス

ログ記録 (Audit) が保存されている。同時多

発的に書き込まれるため、ユーザーの一連

の操作はデータ上不連続でだが、代表的な

パターンが存在する (例えば、listStatus ->

mkdir -> rename -> remove)。このようなパタ

ーンを抽出し利用することで精度の高い予測と説明を与えることができる。

図4は 20 個のサンプル (訓練イベント 199,000 個とテストイベント 1,000 個のセット) での

提案法と VMM の代表的な既存法との予測精度の比較結果である。全体的に提案法が良好

な結果を得ていることがわかる。また各予測の説明するパターンを検証したところ、実際ユ

ーザーの飛び飛びの操作列を意味しているものを確認している [論文投稿中]。またVMMよ

り高い精度を得る本実験結果は、算術符号としての応用可能性を示唆しており、今後の波

及効果も期待できる。

図4: 系列予測の精度 (20 サンプル)

Page 34: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

3. 今後の展開

本研究では、ストリームデータから解釈可能な形式知を獲得する効率的なオンライン処理技術

を開発している。形式知として、データを特徴づける説明変数上の関係表現 (パターン) に着目

し、複雑なパターンにも拡張可能なオンライン計算のスキームを提案している。Δ-圧縮法と

PO-RO 統合型近似法を用いて、従来困難とされてきた集合系列パターンのオンライン抽出を実

現している。これにより、既存法より優れた予測精度と説明を与えうる解釈可能な生成モデルを

新たに提供することが可能となっている。

オンライン型パターンマイニングの本質的な難しさは、管理すべきパターンの組み合わせ爆発

にある。本研究で提案したオンライン計算のスキームでは、ソリューションとして、元の抽出対象

パターンではなく、その非可逆圧縮表現を求める。誤差計数を許容した非可逆圧縮を導入する

ことで、目標とした 100 倍の高速化とスケーラビリティの改善を達成している。

今後これらの新技術をもとに、人の認知が介在するリアルタイム分析の実応用に繋げていく。

4. 評価

(1)自己評価

本研究には 2 つの目標があった。すなわち第 1 の目標は、オンライン型パターンマイニングの高

速化とスケーラビリティの大幅な改善であり、第 2 の目標は、オンライン型パターンマイニングの新

しい応用可能性を示すことであった。第 1 の目標については、上述した通り、目標を上回る成果を

得ることができている。また集合系列に拡張可能なオンラインパターンマイニングのソフトウェアは

世界的にもユニークなものであり、公開後、ストリーム型ビッグデータを扱うリアルタイム分析への

応用展開が見込まれる。第 2 の目標について、系列予測器としての応用可能性を実証的に示し

ている。VMM は算術符号によく利用される代表的な生成モデルであり、ベンチマークによるさらな

る比較実験を通して、解釈可能な新しい生成モデルとして発展することが期待できる。他方、デー

タ駆動科学であるビッグデータ分野を新しく切り開くという点では、本研究期間内に十分な成果を

示すことができなかった。今後、災害・セキュリティ等の人の認知が介在するリアルタイム分析の

分野において本研究で培った知見を活かし、社会に資する研究成果を出していきたい。

(2)研究総括評価(本研究課題について、研究期間中に実施された、年2回の領域会議での評

価フィードバックを踏まえつつ、以下の通り、事後評価を行った)。

ビッグデータとともに IoT が注目を集め、大量のセンサーから生成されるストリームデー

タのリアルタイム解析が、さまざまな応用分野で重要な課題と認識される時代となった。高

速、省メモリ、高精度のオンライン解析技術が求められている。

本研究では、ストリームデータに対する効率的なオンライン頻出パターンマイニングのた

めに、非可逆圧縮を用いる方式を提案した。圧縮結果から頻出パターンを復元する際に、

頻度の誤差を一定値まで許容することで、従来法の 100 倍の高速化とバスケット長 10,000

に対応できるスケーラビリティという目標を達成している。さらに、許容誤差とメモリ使用量

のトレードオフを考えて 2 種類のポリシーを動的に切り替える方式、非可逆圧縮の手法を拡

張して集合系列パターンの抽出や系列予測にも適用可能な方式を考案した。論文は国際

会議などで多数発表しており、学術的には十分なレベルに達している。

Page 35: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

さきがけ研究期間中には、コア技術の基本性能や表現力を大きく進歩させることができ

た。今後は、この成果を使いやすい形で提供し、インパクトのある応用分野を切り拓いてい

くことを期待したい。

5. 主な研究成果リスト

(1) 論文(原著論文)発表

1. Yoshitaka Yamamoto and Koji Iwanuma: Online pattern mining for high-dimensional data

streams, Proceedings of the 2015 IEEE International Conference on Big Data, pp. 2880-

2882 (2015.11)

2. 山本泰生, 山内夏美, 岩沼宏治: Incremental intersection for frequent sequential pattern

mining, 第 100 回人工知能基本問題研究会 Vol. B05-03. pp.80-85 (2016.3)

3. 山本泰生, 岩沼宏治: オンライン頻出パターンマイニングの並列分散化に向けて, 第 30

回人工知能学会全国大会 Vol. 3K4-1in1, pp.1-4 (2016.5)

4. 岩沼宏治, 山本泰生, 福田翔士: ストリーム中の頻出飽和集合を抽出するオンライン型

ε-近似アルゴリズムの完全性, 人工知能学会論文誌 Vol. 31, pp. 1-10 (2016.8)

5. 山本泰生: 高次知識を獲得するリソース指向型オンラインマイニング法の開発, 日本オペ

レーションズ・リサーチ学会 Vol. 62, pp. 246-252 (2017.3)

(2)特許出願

なし

(3)その他の成果(主要な学会発表、受賞、著作物、プレスリリース等)

学会発表

1. 山本泰生, 岩沼宏治: リソース指向近似計算に基づくオンライン頻出アイテム集合マイニン

グ, 情報処理学会第 77 回全国大会, pp. 443-444 (2015.3)

2. 山本泰生, 福田翔士, 岩沼宏治: トランザクションストリーム上のオンライン型頻出飽和集

合マイニング, 人工知能学会合同研究会優秀賞記念講演 (2015.11)

3. Yoshitaka Yamamoto: Approximation and compression in streaming data mining, 23rd

International Symposium on String Processing and Information Retrieval (2016.9) [Invited

talk]

4. 山本泰生: リソース指向型ストリームデータマイニング法の高度化に向けて, 第 15 回自動

チューニング研究会 (2016.10) [招待講演]

5. 山本泰生: リソース指向型計算に基づくストリームデータマイニングの研究, 人工知能合同

研究会 2017 知識ベースシステム研究会 招待講演 (2017.11)

受賞

1. 2014 年度人工知能学会研究会優秀賞 (2015.3)

2. 山梨大学優秀教員奨励制度特別表彰 (2016.6)

3. 山梨科学アカデミー奨励賞 (2017.5)

Page 36: 「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」研究領域 領域活動 … · 平成29 年10 月5 日~6 日 後 評価会実施 平成30

著作物

1. データ構造とアルゴリズム (電子情報通信レクチャーシリーズ) 7 章及び 8 章担当(印刷中)