[dl輪読会]a simple neural network module for relational reasoning

A simple neural network module for

relational reasoning

DL輪読会

06/16/2017

松尾研究室 D1 保住純

1

書誌情報

・論文名 : A simple neural network module for relationalreasoning

・著者: Adam Santoro∗ , David Raposo∗ , David G.T. Barrett,Mateusz Malinowski, Razvan Pascanu, Peter Battaglia andTimothy Lillicrap (DeepMind)

・公開日: 5 Jun 2017 (on arXiv)

・概要

関係推論(Relational Reasoning)タスクの精度を大幅に向上させるRelational Networkという枠組みを提案

※論文内の図表は、特別に記述のない限り、すべて元論文より引用

2

Relational Questionとは

・Non-relational Questionでは、特定のオブジェクトの属性(Attributes)に関する推論を行えばよい

・Relational Questionでは、各オブジェクト間の関係(Relations)の明示的な推論(Relational Reasoning)が必要になる

3

背景

・エンティティとその特性の関係について推論することは、人間の知的活動の中心である

- Ex.ミステリー小説の犯人推理（それぞれの証拠を広い意味で考えながら、説得力のあるストーリーを構築する）

・人工知能の記号論的アプローチは、本質的に関係的(Relational)

-だが、シンボルグラウンディング問題を抱えている

・統計的学習に基づく他のアプローチは生データから表現を構築し、多様かつノイズを含む環境下で一般化する

- 深層学習などこれらのアプローチの多くは、下層構造がスパースで複雑な関係によって特徴づけられるデータ不足問題に苦労するケースが多い

- CNNやMLPといった強力なNNでも単純な関係推論は非常に困難

4

目的

・関係推論に焦点を当てたRelational Networkを提案する

-シンプルなプラグアンドプレイ方式(自動的に協調する)

-柔軟的な関係推論のみに焦点を当てている

【成果】

・最近苦戦を強いられている関係推論タスクCLEVRに適用

→人間を超える精度を達成

・異なるタスクドメイン(文章、物理システムなど)でも成功

→関係推論への一般的な有用性があると言える

5

Relational Networkとは

・設計哲学:構造を制約して、関係推論の核となる特徴を捉える

O:オブジェクトの集合{o1, o2, o3, …, on }、 f,g:関数

・gを関係(relation)とする（2オブジェクトの関係を推論する）

・本研究では、fとgはMLP(多層パーセプトロン)としている

6

Relational Networkの特長

・関係推論を学習する(Learn to infer relations)

-すべてのオブジェクト間の関係を学習

・データ効率が良い(Data efficient)

-各関係を単一の関数gで計算→汎化が促進される

-学習する関係はn^2 → (MLPで)一度に学習させる

・一連のオブジェクトに作用する(Operate on a set of Objects)

-オブジェクトの順序に対して不変

→アウトプットはオブジェクト集合内の関係の一般的な表現を含む

7

今回取り組むタスク

1. CLEVR:関係推論向けビジュアルQAデータセット

-「画像」と「(行列による)状態記述」の２パターンで実験

2. Sort-of-CLEVR: 筆者らが作成したデータセット (10000枚*20問)

- CLEVRよりも画像と文書(単語)を単純化

- 1つの画像からRelationalとNon-Relationalの質問をそれぞれ10問用意

8

(既に提示済)

今回取り組むタスク

3. bAbI:テキストベースのQAデータセット(20問)

- Ex. “Sandra picked up the football”, “Sandra went to the office”

→ “Where is the football?”

4. Dynamic physical systems: テーブル上を動くボール（画像×時刻）

- Mujoco物理エンジンで作成→ぶつかると物体のように跳ね返る

-いくつかのボール対は見えないバネでつながっている

- 各ボールの連続時間における座標から、オブジェクト間のバネ接続の有無」と「連続フレームでの座標」を推論する

9

認識させる画像 (裏の)バネ接続関係

RNを用いた関係推論モデルの例

・RNにはCNNやLSTMなどをオブジェクトとして埋め込める柔軟性がある

-入力はオブジェクトが求められるが、そのセマンティクスの指定はない

10

提案手法のCLEVRタスク向けの実装

本論文で提案しているRN

CLEVR用の実装

タスク(CLEVR)

モデルの構成要素(1/2)

・ピクセル(画像)の取扱い - CNN

- 128×128で画像を取り込み、4つの畳み込みレイヤーを介して、d×dのk個の特徴マップに畳み込む (kは最後の畳み込みレイヤーのカーネル数)

- d×dのk次元の各セルに、その相対的な空間的位置を示す任意の座標でタグ付けしたものを、RNのオブジェクトとしてとして扱う(前ページ図参照)

- このオブジェクトには背景、特定の物理オブジェクト、テクスチャ、物理的オブジェクトの結合などを含むことができるので、学習プロセスに大きな柔軟性を与える

・状態の記述の取扱い (状態記述によるCLEVRなど)

-状態を記述した行列をそのままオブジェクトとしてRNに与えることができる

11

モデルの構成要素(2/2)

・質問文の埋め込みによる条件付きRN - LSTM

- 質問内容に応じて処理を変えられるようgを変更する（Ex.球について質問されているとき、立方体間の関係性は無意味）

- aのqにはLSTMの最終状態を採用

-質問内の各単語に整数を割り当ててルックアップテーブルを作成

・自然言語文の取扱い (bAbIの場合など)

- 対象の質問の直前のサポートセットとして最大20センテンスを指定し、これらのセンテンスにサポートセット内の相対的な位置を示すラベルでタグ付けし、各センテンスをLSTM（各センテンスに同じLSTMを独立に作用させる）で単語ごとに処理する

→全ての質問文を参照しないことで、事前知識を最小限に抑える

- LSTMの最終状態をRNへの入力オブジェクトとみなす

12

変更後のRN

(CLEVRでの)モデル設定の詳細

13

・ピクセル:それぞれ24のカーネルを持つ4つの畳み込み層、ReLU、BatchNorm

・質問処理: 128ユニットのLSTMと、32ユニットの単語ルックアップ埋込み

・g:各層256ユニットの4層MLP、ReLU

・f: 256、256(50％Dropout)、29ユニットの3層MLP、ReLU

-最終層は回答語彙数のユニットを持つソフトマックスで、学習率2.5e-4のクロスエントロピー損失関数で最適化

・学習:バッチサイズ64のミニバッチ、10台で分散処理

従来のCLEVRタスク用のアーキテクチャと比べてシンプルな構造

※その他のタスクにおけるモデル詳細は、本論文のAppendixを参照のこと

実験結果: CLEVR(画像)

・従来手法を27％更新し、人間の成績を超えた

14

SA: Stacked Attention(Zichao Yang, Xiaodong He, Jianfeng Gao, Li Deng, and Alex Smola.

Stacked attention networks for image question answering. In CVPR, 2016.)

実験結果: CLEVR(画像)

CountやCompareといった、関係推論が求められるタスクで大きく上回る

15

参考: RNが間違えたCLEVRの質問例

・オブジェクトが詰まっている場合、高精度な画像認識が求められる問題を間違える傾向がある

・人間でも注意しないと普通に間違えるレベル

16

実験結果: その他のタスク

・CLEVR (行列による状態記述): 96.4%

・Sort-of-CLEVR: 94％以上

- RNを用いない場合はRelational Questionでの正答率が大きく下がる(63%)

- 特に“closest-to”や“furthest-from”が苦手(52.3%)

・bAbI: 18/20

・Dynamic physical systems: 93％ (各ボールの接続関係の推論)

17

考察と結論

・RNの導入により、関係推論タスクのパフォーマンスが大幅に向上した

・RNが推論することで、CNNが(局所構造空間の)処理に集中できた？

- ResNetなどは処理が得意でも推論は苦手かもしれない

・RNが上流の処理を誘導したことで、有用な表現を獲得できた？

-非構造化された入出力でも、RNは構造化推論ができそう

・事前知識を与えれば、計算効率はさらに向上できるかもしれない

・今後の課題として、様々なドメインのタスクに適用したい

・"Relation Networks are a simple and powerful approach for learning toperform rich, structured reasoning in complex, real-world domains."

18

おまけ: DeepMindと関係推論

・現在DeepMindは関係推論に注目しているらしく、この論文の公開日と同日に、関係推論の論文をもう1本公開した

- Nicholas Watters, Andrea Tacchetti, Theophane Weber, Razvan Pascanu, PeterBattaglia and Daniel Zoran. Visual Interaction Networks. In arXiv 2017.

・"A key challenge in developing artificial intelligence systems with theflexibility and efficiency of human cognition is giving them a similar ability -to reason about entities and their relations from unstructured data. "

19

https://deepmind.com/blog/neural-approach-relational-reasoning/

https://deepmind.com/blog/neural-approach-relational-reasoning/

[dl輪読会]a simple neural network module for relational reasoning

Technology