[dl輪読会]opening the black box of deep neural networks via information

DEEP LEARNING JP [DL Papers]

Opening the Black Box of Deep Neural Networks via Information

Hiromu Yokokura, Computer Science department

http://deeplearning.jp/

書誌情報• 著者: Ravid Shwartz-Ziv, Naftali Tishby

• arXiv (last revised 29 Apr 2017)

2

DNN• 各レイヤを1つの高次元の確率変数として見る

• TはエンコーダP(T|X)とデコーダP(Y|T)で特徴付けられる→定量化したい

• トレーニングデータとしてXとYの同時分布が与えられる

• 隠れ層の列はMalkov連鎖を形成する

3

相互情報量• 確率変数XとYの相互情報量

• 性質1: 可逆変換に対する不変性

• 性質2: Data Processing Inequality (DPI)

• 確率変数変数X, Y, ZがMalkov連鎖 X→Y→Zを形成する時、

4

Xの曖昧さ Yを知っても残るXの曖昧さ

「入力XがラベルYに関して持っている平均の情報量」

Information Plane• 座標系• 入力Xの(確率的な)写像である確率変数Tは、エンコーダ/デコーダの確率分布で特徴付けられる

• 同時分布P(X,Y)が与えられればTはinformation planeのある1点にマッピングされる• K層DNNのMalkov連鎖を考えると、次のDPI順序を満たすInformation Pathを形成する

• 可逆変換に不変であったから、異なるDNNが同じInformation Pathを形成し得る

5

最小十分統計量• Yに関して、Xの最適な表現とはどのように特徴付けられるか？

• 例えば、最小十分統計量• 十分統計量S(X)

• (Fisher情報量の意味で)情報の損失のない統計量• ラベルYについてXが持っている情報を全て捕らえるような統計量

• 入力空間の分割として見ることもできる• 最小十分統計量T(X)

• 最も簡単な十分統計量、最も粗い分割をする十分統計量• 任意の他の十分統計量の関数となっているような十分統計量

6

Information Bottleneck• 最小十分統計量を見つける問題は次の最適化問題と考えらえる

• 効率的なXの表現とは？→近似的な最小十分統計量

7

緩和確率的なマッピングを許す(P(T|X))I(X;Y)の全てではなく、可能な限り捕らえるということを許す

information bottleneck(IB) tradeoff近似的な最小十分統計量を見つけるための計算的な枠組みYの予測とXの圧縮の最適なトレードオフを見つける

Information Bottleneck• IB tradeoffは次の最適化問題

• これの解は次の方程式を満たす

8

ラングランジュ乗数 :Tによって捕らえる情報の度合い

SGDによる学習の遷移• Error Minimization (ERM)フェーズ: DPIを保ちながら、ラベルに関する情報Iyが上昇（数百エポック)

• representation-compression フェーズ: Ixが減少（いらない情報が減っていく）

9

トレーニングデータの量による違い• ERMフェーズはどの場合も似たような感じ• compressionフェーズでの動作が大き違う

• データが少ないとIyが一気に下がる→overfitting• Ixも減るが必要な情報も捨ててしまう

10

5% 45% 85%

SGDの振る舞い

11

SGDの振る舞い• driftフェーズ

• 勾配の平均＞標準偏差• 勾配の確率性が低い(Hihg SNR)

• 誤差が急激に減少して、Iyが上昇する• diffusion（拡散）フェーズ

• 勾配の標準偏差＞平均• 経験誤差がサチってバッチ間の変動が支配的になる• 勾配が平均の小さいガウシアンノイズのように振る舞う(Low SNR)

• 重みの分布が拡散過程になる→　　　　　が増大していく(stochastic relaxation)

12このフェーズ移行が学習のフェーズ移行と対応しているが小さくなる

SGDの振る舞い• https://goo.gl/rygyIT

13

隠れ層の数による違い

14

隠れ層の意味• 隠れ層を増やすことで良い汎化性能に至るまでのエポック数が減少する• 前段の圧縮されたレイヤーから始めることで、各層のcompressionフェーズが短くなる

• 深い層ほどcompressionフェーズが速い• 幅の広いレイヤーでも最終的に圧縮する。幅を増やすのはあまり意味がない。

15

レイヤー化することの計算的利点• 拡散過程によるエントロピーの増大

• エントロピーの増大はタイムステップの対数オーダー• タイムステップ数はエントロピーの増大の指数オーダー

• IB tradeoffの方程式を満たすような分布に収束する• compression 　　は　　　　　　　　　　　　のオーダーになる

• 全体の圧縮をKステップに分割すると• 　　　　　　　　　　　　　なのでK層にすることで指数関数的にエポック数が減少する

16

レイヤーの最適性• 収束したレイヤーがIB tradeoffの方程式を満たしているか？

17

つまり近似的な最小十分統計量になっている

トレーニングデータサイズの効果• データサイズが大きくなると

Iyが押し上げられてIB boundに近づく

• 低い層はほとんど変わらない

18

まとめ• SGDによる最適化には2つのフェーズがある

• ERMフェーズ、representation compressionフェーズ• compressionフェーズはstochastic relaxationによるもので、Ixが減少して圧縮が起きている。(誤差最小化の制限があるのでIB boundに収束する)

• 隠れ層の最も大きい利点は、stochastic relaxation time （圧縮が収束するまでの時間）が急激に減少すること

• 隠れ層はIB boundのcritical pointに収束する（？）

19

[dl輪読会]opening the black box of deep neural networks via information

Technology