[dl輪読会]energy-based generative adversarial networks

DEEP LEARNING JP [DL Papers]

“Energy-based generative adversarial networks” (ICLR2017)”

Haruka Murakami, Matsuo Lab

http://deeplearning.jp/

書誌情報

• Junbo Zhao, Michael Mathieu and Yann LeCun • Department of Computer Science, New York University Facebook

Artificial Intelligence Research • Published as a conference paper at ICLR 2017 • Citation: 118

• GANのバリエーションかつEnergy-based model(LeCun 2006)の進歩版• “A Tutorial on Energy-based learning(59ページ！)↑”と”Semi-

Supervised Learning with Ladder Networks”を理解しないと分からない2

• Discriminator　→　energy function high energy

• Generator → low energy

• Energy-based model(LeCun 2006)

• 一つのエネルギースカラーに写像する関数を見つける• 正解→低エネルギー、誤り→高エネルギー• 教師なし学習は低エネルギーになりがち

3

論文概要• EBGAN（エネルギーベースのGAN)

• GANの目的関数を変えたもの• 識別器をエネルギー関数と見なす• 確率的GANと同様、生成器はエネルギーが最小となるサンプルを生成するように訓練されていると見なされ、識別器は、生成されたサンプルに高エネルギーを割り当てるように訓練される。

• 識別器をエネルギー関数と見なすことで、ロジスティック出力を備えた通常のバイナリ分類器に加えて、多種多様なアーキテクチャと損失関数を使うことができる。

• オートエンコーダを構成したEBGANは学習中に通常のGANよりも安定した動作を示した

• 高解像度の画像を生成するために、単一スケールアーキテクチャを訓練できる可能性 4

Energy-based modelとは• LeCunが2006年に発表• 入力のそれぞれをエネルギーと呼ばれる１つのスカラーに写像する関数を組み上げる

• →変数間の依存関係を取得できる• 目的のもの（観測された変数）が得られたら低エネルギー、それ以外の時（観測されていない変数）には高エネルギーとなるようなエネルギー面を形成する

• 教師あり学習では(X:入力,Y:ラベル)としてYが正解ラベルの場合、教師なし学習ではデータ多様体に低エネルギーが割り当てられる

• 適切な正規化をする必要がないため、確率的アプローチよりも柔軟な設計ができる• “contrastive sample”という用語はエネルギープルアップを引き起こしている点の参照として使われている 5

EBGAN概要• 識別器を明確な確率解釈なしでエネルギー関数と見なす• エネルギー関数は生成器のための訓練可能な目的関数として見られる• データ密度が高い領域には低エネルギー値を、それ以外には高エネルギーを割り当てる

• →生成器は低エネルギーが割り当てられた領域にサンプルを生成する関数と見なせる

• EBGANに正規化を行わなければ識別器の構造と訓練手順の選択肢が広まる

• 識別器がオートエンコーダーの構造を持ち、エネルギーが再構成誤差であるとして概念を実験的に実証 6

EBGANの貢献• GANをエネルギーベースにした際の定式化• 単純なヒンジ損失の下で、システムが収束に達すると、EBGANの生成器は、基礎となるデータ分布に従うポイントを生成することを証明。

• エネルギーが再構成誤差であるオートエンコーダアーキテクチャを使用する識別器を備えたEBGANフレームワーク。

• EBGANと確率的GAN両方で良い結果を出すハイパーパラメータとアーキテクチャの探索実験を行なったこと

• マルチスケールを使わずに256×256ピクセルのImageNetデータセットからそれっぽい高解像画像を生成した

7

GAN(Goodfellow et al.(2014))について• 識別器は生成器が生み出した偽のサンプルを本物と見分けるように訓練され、生成器はランダム値を用いて識別器に見破られないようにサンプルを生成する

• 識別器は　D(x)=1（D(G(z))=0）となるように学習する（x～pdata(x)）• 生成器は　D(G(z))=1となるように学習する　(z~pz)• 生成器は識別器の出力の勾配を受け取る• 生成器の作製した分布が実データの分布に一致すると収束（ナッシュへい均衡）

8

pdata: データセットを形成する確率分布

pz: 事前分布（ガウス分布など）

EBGANのモデリング• 実データ→低エネルギー、生成データ→高エネルギーとするために• 目的関数を以下で定義する

• と定義したとき、• Vを最小化させるためにDを訓練し、• Uを最小化させるためにGを訓練する 9

　　　　　　　　LGの最小化と同義

G(z): 生成されたサンプル、pG: G(z)の密度分布 (z~pz)

EBGANの目的関数

• Vを最小化させるためには• pdataがpGと一致する必要がある• （通常のGANではpzが一致）

10

オートエンコーダーを利用

• ゼロエネルギーを空間全体に渡って配分しやすい• 従来は潜在表現を正則化することによって対処（Vincent 2010など）

• →オートエンコーダの再構成力を制限• 本論文では生成器がcontrastive samplesを吐くことによって識別器は正規化されているものと考えることにより、より柔軟なモデル選択を可能にする

• 1)正規化器である生成器が訓練可能　2)対照サンプル生成とエネルギー関数の学習に相互作用を持たせる11

オートエンコーダー識別器を使ったEBGAN

小技：Repelling Regularizer• pdataの外れ値をはじく• Pulling-away Term(PT)

• 生成器の損失では利用されるが、識別器損失では使わない• 以降、これを利用したEBGANをEBGAN-PTとする

12

S: エンコーダの出力層から取られたサンプル表現のバッチ

実験：MNISTでの徹底的なグリッドサーチ• MNISTで学習の安定性を測る• グリッドサーチ：ハイパーパラメータの探索空間を格子状に区切り、交点の全組み合わせを調べる方法。ハイパーパラメータの全組み合わせでモデルを作り、最も良いものを選択する。

13

性能評価はinception score↓（Salimans et al. 2016）

I’ =ExKL(p(y)||p(y|x))2 x: 生成されたサンプル、y:MNIST分類器に予測されたラベル

MNIST結果• EBGANの方がinception scoreが高い分布にある

14

EBGANとGANの比較 nLayer<=4で制限された場合 nLayer<=3で制限された場合

MNIST結果詳細

15

Ir1.00e-03

Ir1.00e-04

Ir1.00e-02

optimD-adam_optimG-adam

optimD-sgd_optimG-adam

optimD-adam_optimG-sgd

optimD-sgd_optimG-sgd

半教師あり学習MNISTでの性能評価• 順列不動のMNISTで100,200,1000ラベルを用いて半教師あり学習

• mの値を徐々に減衰させるのが肝• pGがデータ多様体に近づいた時に識別器にペナルティを与える

16

GANの最良モデルnLayerG=5, nLayerD=2, sizeG=1600,

sizeD=1024, dropoutD=0,

optimD=SGD, optimG=SGD, lr=0.01.

EBGANの最良モデルnLayerG=5, nLayerD=2, sizeG=800,

sizeD=1024, dropoutD=0, optimD=ADAM,

optimG=ADAM, lr=0.001, margin=10.

EBGAN-PTの最良モデル左に同じ＋　with P T = 0.1.

LSUNとCelebAでの生成結果

17

右：EBGAN-PT左：DCGAN

LSUN

CelebA

EBGAN-PTでのImageNetからの生成結果

18

128×128

256×256

[dl輪読会]energy-based generative adversarial networks

Technology