wasserstein gan 수학 이해하기 i

97
Wasserstein GAN

Upload: sungbin-lim

Post on 21-Jan-2018

8.418 views

Category:

Science


29 download

TRANSCRIPT

Page 1: Wasserstein GAN 수학 이해하기 I

Wasserstein GAN 수학 이해하기

임성빈

Page 2: Wasserstein GAN 수학 이해하기 I

이 슬라이드는 Martin Arjovsky, Soumith Chintala, Léon Bottou 의Wasserstein GAN 논문 중 Example 1 을 해설하는 자료입니다

Page 3: Wasserstein GAN 수학 이해하기 I

참고사항

이 자료는 수학 전공자를 위해 작성한 자료가 아닙니다. 논문에 기재된 증명의 해설은 이 자료에 없습니다

보다 자세한 설명을 바라는 분들을 위해 용어들을 위키에 링크시켰습니다

수학적인 부분이 더 궁금하신 분은 아래 메일로 자유롭게 질문주세요!

e‑mail : [email protected]

Page 4: Wasserstein GAN 수학 이해하기 I

1. 기호 (Notation)

Page 5: Wasserstein GAN 수학 이해하기 I

X : compact metric set

Metric 은 위상수학(topology)에서 에서 나오는 용어입니다. Distance 라고도 불리는데요. 다음 성질들을 만족하는 거리함수 d 가 존재하는걸 말합니다.

1. d(x, y) ≥ 0 : 거리함수니까 당연히 0보다 크거나 같겠죠?

2. d(x, y) = 0 이면 x = y 이다

3. 역으로 x = y 이면 d(x, y) = 0 이다

4. d(x, y) = d(y,x) : �칭 이다!

5. d(x, y) ≤ d(x, z) + d(z, y) : 삼각부등식 이 성립한다!

Page 6: Wasserstein GAN 수학 이해하기 I

실수(R)나 복소공간(C) 에서는 절�값 ∣ ⋅ ∣이 metric 입니다

d(x, y) = ∣x− y∣

Page 7: Wasserstein GAN 수학 이해하기 I

유클리드 공간(R ) 에선 유클리드 거리가 metric 입니다n

Page 8: Wasserstein GAN 수학 이해하기 I

힐베르트 공간(Hilbert space)( ) 에선 내적(inner product) 으로 metric을 정의합니다

d(u,v) = (u− v) ⋅ (u− v)

: 내적이 정의된 완비벡터공간(Complete vector space)

유클리드 공간이 �표적인 힐베르트 공간입니다

함수들의 집합인 L ‑공간 도 �표적이죠

머신러닝에선 Reproducing Kernel Hilbert Space 도 많이 쓰입니다

자세한 부분은 Wiki 를 참조하세요

( )1/2

2

Page 9: Wasserstein GAN 수학 이해하기 I

어떤 공간에 metric 개념이 중요한 이유는 수렴(convergence) 이란 개념을정의내릴 수 있기 때문입니다

x   →  x ⇔ d(x ,x) = 0

... 수학에선 위상(topology)을 유도하다(induce)는 어려운 표현을 �니다

nn→∞lim n

Page 10: Wasserstein GAN 수학 이해하기 I

그런데...

한 공간에 정의내릴 수 있는 metric 은 한 가지 만 있는게 아닙니다!

Page 11: Wasserstein GAN 수학 이해하기 I

예를 들어 유클리드 공간에서는 유클리드 거리 말고 맨해튼 거리 같은 다른metric 으로 거리를 정의할 수 있습니다

Page 12: Wasserstein GAN 수학 이해하기 I

함수 공간에서는 더욱 다양하게 정의내릴 수 있습니다

L 거리

d (f , g) = ∥f − g∥ = ∣f(x) − g(x)∣dx

L 거리

d (f , g) = ∥f − g∥ = ∣f(x) − g(x)∣ dx

1

1 1 ∫X

2

2 2 (∫X

2 )1/2

Page 13: Wasserstein GAN 수학 이해하기 I

여러분의 상상보다 훨씬 많습니다!

L 거리

d (f , g) = ∥f − g∥ = ∣f(x) − g(x)∣

W 거리 (Sobolev norm)

∥f − g∥ = ∥∂ (f − g)∥

∞ ∞x∈Xsup

2k

Wpk

n=0

∑k

xn

2

Page 14: Wasserstein GAN 수학 이해하기 I

f 과 f 의 차이를 제곱해서 적분한 값이 0 으로 수렴하게 만들 수 있으면 L ‑수렴 한다고 합니다

∥f − f∥ = ∣f − f ∣ dx → 0

n

2

n 2 (∫a

b

n2 )1/2

Page 15: Wasserstein GAN 수학 이해하기 I

f 이 f 로 모든 x 에 �해서 ϵ 범위 안에 들어오면서 수렴하게 만들 수 있으면 L ‑수렴 또는 균등수렴(uniformly converge)한다고 합니다

∥f − f∥ = ∣f(x) − f (x)∣ → 0

(전문가의 딴지) 수렴 안 하는 정의역의 measure 가 0 이면 됩니다

n

n ∞x∈[a,b]sup n

Page 16: Wasserstein GAN 수학 이해하기 I

f 과 f 의 차이가 ϵ 보다 큰 Ý역이 0으로 수렴하면 측도수렴(converge inmeasure)한다고 합니다

ℓ = x : ∣f (x) − f(x)∣ > ϵ → 0

n

i

∑ i ∣{ n }∣

Page 17: Wasserstein GAN 수학 이해하기 I

그래서...?

요컨데 거리함수가 바뀌면 수렴의 방식이 바뀔 수 있다 는 겁니다!

Page 18: Wasserstein GAN 수학 이해하기 I

참고로 각 수렴간에는 비교가 가능합니다

d ‑수렴이 d ‑수렴보다 강하다 (d is stronger than d )

d (x ,x) → 0 ⟹ d (x ,x) → 0

거꾸로 성립하면 약하다 고 합니다 (d is weaker than d )

둘 다 성립하면 동등하다 고 합니다 (d and d are equivalent)

공간에 따라 차이가 있어서 비교가 항상 가능하진 않습니다

그래서 수학자가 필요합ㄴ... 읍읍

1 2 1 2

1 n 2 n

1 2

1 2

Page 19: Wasserstein GAN 수학 이해하기 I

일례로 유클리드와 맨해튼 거리는 동등한 관계입니다

d (x, y) → 0 ⟺ d (x, y) → 0

한 줄 증명 :

n d (x,y) ≤ d (x,y) ≤ n d (x,y)

Euclid Manhattan

−1/2Euclid Manhattan Euclid

Page 20: Wasserstein GAN 수학 이해하기 I

하지만 동등하지 않은 경우가 �부분입니다

수렴시킬 �상이 함수 이거나 확률분포 인 경우 큰 문제가 되죠

그래서 어떤 수렴인지 정확하게 명시해야 합니다

Page 21: Wasserstein GAN 수학 이해하기 I

유한 측도(finite measure) 를 가진 공간에선 다음 관계가 성립합니다. 하지만 역은 성립하지 않아 동등한 관계가 아닙니다

L ⇒ L ⇒  converge in measure

한 줄 증명 :

∣{x : ∣f(x) − g(x)∣ > ϵ}∣ ≤ ∥f − g∥ ≤ ∥f − g∥

∞ 2

ϵ21

22

ϵ2μ(X )

∞2

Page 22: Wasserstein GAN 수학 이해하기 I

참고로 확률론 에서 다루는 수렴은 여러가지 종류가 있습니다

균등수렴, 확률수렴, L ‑수렴, Weak‑* convergence ...

참고로 WGAN 논문은 분포수렴 와 동등한 Wasserstein distance 를다룹니다. 이 metric 은 확률분포들의 공간 에서 정의됩니다!

2

Page 23: Wasserstein GAN 수학 이해하기 I

X : compact metric set

Definition.A topological space X is called compact if each of its open covershas a finite subcover.

(해석) : 위상공간 X 를 덮는 임의의 열린덮개들이 있을 때, 그 중 유한개의 부분덮개들을 뽑아서 X 를 항상 덮을 수 있으면 compact 라 부른다

참고로 compact set 은 수학을 전공한 학생들도 가장 헷갈려하는 개념입니다. 머리가아프다면 잠깐 세수를 하고 휴식을 취하세요. 갈 길은 머니... 그냥 모르고 싶다면 넘어가도 크게 상관은 없어요. 아마도...?

Page 24: Wasserstein GAN 수학 이해하기 I

도�체 무슨 말이냐고요?

저 의미를 보통 Heine‑Borel 정리를 이용해 간접적으로 설명합니다.

Page 25: Wasserstein GAN 수학 이해하기 I

Heine‑Borel property.

If X is compact, then it is closed and bounded

Heine‑Borel 정리를 통해 해석하면 X 가 compact 란건 경계가 있고(bounded) 동시에 경계를 포함한다(closed) 는 집합이란 겁니다

수학에서 정식 용어는 유계(bounded), 닫힌(closed) 입니다

Page 26: Wasserstein GAN 수학 이해하기 I

경계?

경계가 있다? 경계를 포함한다? 무슨 말일까요?

Page 27: Wasserstein GAN 수학 이해하기 I

경계가 있다 (Bounded)

경계가 있다는 건 무한�로 뻗지 않는다 는 걸 의미합니다. 집합 안의 아무 점에서나 적당한 거리 안에 X 의 모든 원소가 들어오면 됩니다

참고로 위 그림에서 N (x) 를 x 의 근방 (Neighborhood)이라 부릅니다δ

Page 28: Wasserstein GAN 수학 이해하기 I

반면 bounded 가 아닌 집합을 unbounded 라 부르는데 아무리 큰 거리를 잡아도 X 의 모든 원소를 포함할 수 없을 때를 말합니다.

Page 29: Wasserstein GAN 수학 이해하기 I

다시 말해 compact 집합은 이런 일이 일어나지 않습니다 (데이터가 unbounded 라면 컴퓨터로 어떻게 표현할 수 있죠? )

Page 30: Wasserstein GAN 수학 이해하기 I

경계를 포함한다 (Closed)

어떤 집합의 경계를 포함한다는 건 풀어서 표현하면 극한점(limit point)을 모두 포함한다 라고 설명합니다

Page 31: Wasserstein GAN 수학 이해하기 I

즉 경계를 포함 한다는건 아래 x 같은 극한점들이 X 의 원소라는 겁니다∞

Page 32: Wasserstein GAN 수학 이해하기 I

참고로 경계는 바깥 방향만 말하는 건 아닙니다

Page 33: Wasserstein GAN 수학 이해하기 I

아래 그림처럼 x ∉ X 이면 X 는 경계를 포함하지 못한 겁니다.∞

Page 34: Wasserstein GAN 수학 이해하기 I

복잡해요...

정리하자면 Compact 집합은 두 가지 성질을 만족해야 합니다

경계가 있고!

경계를 포함한다!

Page 35: Wasserstein GAN 수학 이해하기 I

우리가 잘 아는 닫힌구간(closed interval)이나 닫힌 박스(closed box), 3차원 큐브(cube) 등 compact 집합은 다양한 예가 있습니다.

경계를 잘 포함한다면 사실 어떤 모양도 가능합니다

Page 36: Wasserstein GAN 수학 이해하기 I

저자들이 compact 집합을 가져온 건 수학적인 이유 때문입니다

최� ・ 최소의 정리 : 연속함수들이 항상 최�값, 최소값을 가진다

모든 확률변수 X에 �해 조건부 확률분포가 잘 정의된다

완비공간(complete space)이다

... 증명은 주변 수학과 친구를 붙잡고 물어봅시다

Page 37: Wasserstein GAN 수학 이해하기 I

Σ : set of all the Borel subsets of X

Borel 집합은 X 내에서 측정가능(measurable) 한 집합들을 말합니다.

여기서 측정가능 의 의미는 P , P 같은 확률분포로 확률값이 계산될 수있는 집합을 말합니다

연속함수 의 기�값을 계산하기 위한 수학적인 최소 조건 이 됩니다

(전문가의 딴지) X 위에 정의된 닫힌(closed) 집합들을 포함하는 가장 작은 σ‑�수를Borel �수라고 합니다. Borel 집합은 이 Borel �수의 원소입니다.

r g

Page 38: Wasserstein GAN 수학 이해하기 I

사실 눈으로 관찰할 수 있는 집합들은 �게 측정가능한 집합들이랍니다. 측정불가능한(Non‑measurable) 집합들은 컴퓨터로 나타내는게 불가능해요

Page 39: Wasserstein GAN 수학 이해하기 I

"If you can write it down, it's measurable!"

S.R.S. Varahdan, 2009년 아벨상 수상자

Page 40: Wasserstein GAN 수학 이해하기 I

... 그러므로 여러분도 Borel set 이 아닌 것들은 무시하도록 합시다

Page 41: Wasserstein GAN 수학 이해하기 I

Prob(X ) denote the space of probability measures on X

확률측도(Probability measure) 란 우리가 소위 확률분포(Probabilitydistribution) 라 불러온 P 를 말합니다

Page 42: Wasserstein GAN 수학 이해하기 I

확률측도? 확률분포? 차이가 뭐죠?

두 개의 Definition 은 다르지만 실상 같은 용어 입니다

Page 43: Wasserstein GAN 수학 이해하기 I

확률측도 P 는 표본공간(sample space) Ω 위에 정의된 측도입니다

(Ω,P)

Page 44: Wasserstein GAN 수학 이해하기 I

확률변수 X 는 ω 를 X 상의 원소 x 로 사상(mapping) 하는 함수입니다

X : ω ↦ x ∈ X

Page 45: Wasserstein GAN 수학 이해하기 I

확률분포는 X 가 어떻게 mapping 되는지 보여주는 X 상의 측도입니다

P(X (A)) = P(X ∈ A)−1

Page 46: Wasserstein GAN 수학 이해하기 I

... 당최 뭔 소리인지 모르겠으니 예를 들어보죠

동전 던지기를 해보겠습니다. 앞이 나오는 경우 H, 뒤가 나오는 경우엔 T 라하겠습니다.

Ω = {H,T}

이 경우 확률측도 P 는 Ω 위에서 다음과 같이 이항분포로 정의됩니다

P(H) = p, P(T) = 1 − p

Page 47: Wasserstein GAN 수학 이해하기 I

그리고 확률변수 X 는 H 와 T 를 각각 1 과 0 으로 보내는 걸로 정의합니다

X(H) = 1, X(T) = 0

이 때 확률분포는 다음과 같이 X = {0, 1} 위에 똑같이 정의됩니다

P(X = 1) = p, P(X = 0) = 1 − p

Page 48: Wasserstein GAN 수학 이해하기 I

고로 확률측도는 사실 확률분포와 전혀 다르지 않습니다

P(H) = P(X = 1), P(T) = P(X = 0)

확률분포를 다른 용어로 X 의 법(law of X) 이라고도 부릅니다

단지 확률값의 측정을 어떤 공간에서 하는지, 그리고 확률변수가 묵시적으로 정의되어있다는 점에서 차이가 있을 뿐입니다. 앞으로는 두 용어를 혼용해서 쓰겠습니다.

Page 49: Wasserstein GAN 수학 이해하기 I

우리가  seed  함수로 샘플링을 고정하는 건 ω ∈ Ω 를 하나 뽑는 것이고 numpy.random  의 특정 분포로 값을 추출하는 건 X(ω) 를 뽑는 것입니다

import numpy as np

np.random.seed(10) # w 를 고정np.random.normal(mu,sigma) # X(w) 를 샘플링

Page 50: Wasserstein GAN 수학 이해하기 I

헉헉... 이제 네 줄 설명했네요. 그런데 왜 이리 많이 설명한 것 같지...?

Page 51: Wasserstein GAN 수학 이해하기 I

참고로 논문을 읽다보면 inf 와 sup 이라는 용어들이 튀어나오는데 잠시 설명하겠습니다

inf A = max{lower bound of A}

Infimum 은 the greatest lower bound 라고 부릅니다. 해석하자면 하한(lower bound) 중 가장 큰 값(maximum) 입니다

Page 52: Wasserstein GAN 수학 이해하기 I

supA = min{upper bound of A}

Supremum 은 the least upper bound 라고 부릅니다. 해석하자면 상한(upper bound)에서 가장 작은 값(minimum) 입니다.

Page 53: Wasserstein GAN 수학 이해하기 I

이 개념들이 필요한 이유는 모든 집합이 최소값 (혹은 최�값)을 가지지 않지만sup 과 inf 는 항상 존재하기 때문 이죠

A = 1, , ,…

inf A = 0, minA =?

{2131 }

Page 54: Wasserstein GAN 수학 이해하기 I

... 뭐 이런것까지 머리아프게 정의했나 싶지만 수학 전공자들이 그래요...

Page 55: Wasserstein GAN 수학 이해하기 I

아무튼 이제 필요한 용어 설명을 끝냈으니 본격적으로 논문에서 다루는 네 개의 distance 를 설명하겠습니다

Page 56: Wasserstein GAN 수학 이해하기 I

2. Different Distances

Page 57: Wasserstein GAN 수학 이해하기 I

Total Variation (TV)

δ(P ,P ) = ∣P (A) −P (A)∣

Total Variation 은 두 확률측도의 측정값이 벌어질 수 있는 값 중 가장 큰 값(또는 앞에서 설명한 supremum) 을 말합니다

r gA∈Σsup r g

Page 58: Wasserstein GAN 수학 이해하기 I

같은 집합 A 라 하더라도 두 확률분포가 측정하는 값은 다를 수 있습니다. 이때 TV 는 모든 A ∈ Σ 에 �해 가장 큰 값을 거리로 정의한 겁니다

δ(P ,P ) = ∣P (A) −P (A)∣r gA∈Σsup r g

Page 59: Wasserstein GAN 수학 이해하기 I

만약 두 확률분포의 확률Â도함수가 서로 겹치지 않는다면, 다시 말해 확률분포의 support 의 교집합이 공집합이라면 TV 는 무조건 1입니다!

δ(P ,P ) = ∣0 − 1∣ = 1r g

Page 60: Wasserstein GAN 수학 이해하기 I

그러므로 Example 1 에서 θ ≠ 0 인 경우엔 P 와 P 는 서로 겹치지 않은확률분포이므로 TV 가 1이 되는 것입니다

0 θ

Page 61: Wasserstein GAN 수학 이해하기 I

Kullback‑Leibler & Jensen‑Shannon divergence

KL(P ∥P ) = log P (x)μ(dx)

JS(P ,P ) = KL P ∥ + KL P ∥

KL 과 JS 는 워낙 익숙한 애들이죠?

r g ∫ (P (x)g

P (x)r ) r

r g 21 ( r 2

P +Pr g )21 ( g 2

P +Pr g )

Page 62: Wasserstein GAN 수학 이해하기 I

그런데 많이들 헷갈려 합니다만 사실 KL 은 metric 은 아닙니다. �칭성 과 삼각부등식 이 깨지기 때문이지요.

1. d(x, y) ≥ 0

2. d(x, y) = 0 ⇔ x = y

3. d(x, y) ≠ d(y,x)

4. d(x, y) ≰ d(x, z) + d(z, y)

... 하지만 Premetric 이라서 괜찮은 성질들을 보유하고 있습니다!

Page 63: Wasserstein GAN 수학 이해하기 I

그런데 KL 은 TV 보다 strong 합니다!

KL(P ∥P) → 0  or  KL(P∥P ) → 0 ⇒ δ(P ,P) → 0

심지어 JS 는 TV 랑 equivalent 합니다!

JS(P ∥P) → 0 ⇔ δ(P ,P) → 0

... 사실 오래전부터 알려진 것들입니다 (Rényi 의 1961년도 페이퍼 참조)

n n n

n n

Page 64: Wasserstein GAN 수학 이해하기 I

그 말은 역으로 TV 에서 수렴하지 않으면 KL 이나 JS 에서도 수렴하지 않는다는 얘기입니다

δ(P ,P)↛ 0 ⇒ KL(P ∥P)↛ 0

이 사실은 Example 1 에서도 볼 수 있습니다

n n

Page 65: Wasserstein GAN 수학 이해하기 I

위에서도 설명드렸지만 P 과 P 은 겹치지 않습니다. 즉, θ ≠ 0 인 경우r g

⎩⎪⎨⎪⎧P (x) ≠ 0 ⇒ P (x) = 00 θ

P (x) ≠ 0 ⇒ P (x) = 0θ 0

Page 66: Wasserstein GAN 수학 이해하기 I

따라서 P > 0 인 곳에서 log 값은 ∞ 가 됩니다

log = ∞

그러므로

θ

(P (x)0

P (x)θ )

KL(P ∥P )θ 0 = log P (x)μ(dx)∫{x:P (x)≠0}θ

(P (x)0

P (x)θ ) θ

= ∞ ⋅ P (x)μ(dx) = ∞∫ θ

Page 67: Wasserstein GAN 수학 이해하기 I

그래서 θ = 0 이 되지 않는 한 KL 값은 무한�입니다. TV 에서와 마찬가지로θ 가 0 에 가까워진다고 해서 상황이 나아지지 않습니다

KL(P ∥P ) = KL(P ∥P ) =θ 0 0 ∞ {∞0

: θ ≠ 0: θ = 0

Page 68: Wasserstein GAN 수학 이해하기 I

이 상황은 JS 에서도 똑같습니다. 다만, P = 에서 분자에 있는 P와 P 둘 중 하나만 0 이 되겠지요?

m 2P +Pθ 0

θ

0

⎩⎪⎪⎪⎨⎪⎪⎪⎧P (x) ≠ 0 ⇒ P (x) = 0 ⇒ P =0 θ m 2

P0

P (x) ≠ 0 ⇒ P (x) = 0 ⇒ P =θ 0 m 2Pθ

Page 69: Wasserstein GAN 수학 이해하기 I

KL P ∥P = log P (x)μ(dx) = log 2

KL P ∥P = log P (x)μ(dx) = log 2

그러므로 θ ≠ 0 이면 JS 는 log 2 가 됩니다. 따라서

JS(P ,P ) =

( 0 m) ∫P ≠00

(P (x)/20

P (x)0 ) 0

( θ m) ∫P ≠0θ

(P (x)/20

P (x)θ ) θ

θ 0 {log 20

: θ ≠ 0: θ = 0

Page 70: Wasserstein GAN 수학 이해하기 I

결론적으로 JS 는 KL 처럼 무한�가 되지는 않습니다만 TV 처럼 θ ≠ 0 일땐 log 2 로 일정한 값만 가지게 됩니다

Page 71: Wasserstein GAN 수학 이해하기 I

이런 일이 일어나는 이유는 TV 나 KL 이나 JS 는 두 확률분포 P , P 가 서로다른 Ý역에서 측정된 경우 완전히 다르다 고 판단을 내리게끔 metric 이 계산되기 때문입니다.

즉 두 확률분포의 차이를 명탐정처럼 깐깐하게(harsh) 본다는 것이죠

r g

Page 72: Wasserstein GAN 수학 이해하기 I

이게 상황에 따라 유리할 때도 있겠지만, GAN 에서의 경우 discriminator 의학습이 잘 죽는 원인이 됩니다

이 현상은 Martin 에 의해 수학적으로 증명되었습니다

Page 73: Wasserstein GAN 수학 이해하기 I

그래서 GAN 의 학습에 맞게 조금 유연하면서도 수렴 에 포커스를 맞춘 다른metric 이 필요한 것입니다

Page 74: Wasserstein GAN 수학 이해하기 I

이제 WGAN 의 주인공인 Wasserstein distance 를 소개하겠습니다

믿기 힘들겠지만 이제부터 진짜에요 (...)

Page 75: Wasserstein GAN 수학 이해하기 I

Wasserstein distance 는 러시아 수학자 Leonid Vaseršteĭn 의 이름을 딴것으로 Roland Dobrushin 교수가 1970년에 확률론에 도입했습니다

Page 76: Wasserstein GAN 수학 이해하기 I

Wasserstein distance 의 정의는 이렇습니다

여기서 Π(P,Q) 는 두 확률분포 P,Q 의 결합확률분포(joint distribution)들을 모은 집합이고 γ 는 그 중 하나입니다. 즉 모든 결합확률분포 Π(P,Q)중에서 d(X,Y ) 의 기�값을 가장 작게 추정한 값 을 의미합니다

W (P,Q) = d(x, y)γ(dxdy)γ∈Π(P,Q)inf ∫

= E [d(X,Y )]γ∈Π(P,Q)inf γ

Page 77: Wasserstein GAN 수학 이해하기 I

... 당최 무슨말인지 못 알아듣겠어요(2)

그림을 그려보죠. ω 를 하나 샘플링하면 X(ω) 와 Y (ω) 를 뽑을 수 있습니다. 이 때 두 점 간의 거리 d(X(ω),Y (ω)) 역시 계산할 수 있죠

Page 78: Wasserstein GAN 수학 이해하기 I

샘플링을 계속 할수록 (X,Y ) 의 결합확률분포 γ 의 윤곽이 나오게 됩니다.더불어서 (P,Q) 는 γ 의 주변확률분포(marginal distribution) 가 됩니다

Page 79: Wasserstein GAN 수학 이해하기 I

이 때 γ 가 두 확률변수 X,Y 의 연관성(dependency)을 어떻게 측정하느냐에 따라 d(X,Y ) 의 분포가 달라지게 됩니다

Page 80: Wasserstein GAN 수학 이해하기 I

주의할 점은 P 와 Q 는 바뀌지 않기 때문에 각 X 와 Y 가 분포하는 모양은변하지 않습니다. 다만 ω 에 따라 뽑히는 경향 이 달라질 뿐이지요

Page 81: Wasserstein GAN 수학 이해하기 I

Wasserstein distance 는 이렇게 여러가지 γ 중에서 d(X,Y ) 의 기�값이가장 작게 나오는 확률분포를 취합니다!

Page 82: Wasserstein GAN 수학 이해하기 I

이제 Example 1 로 돌아옵시다. 거의 다 왔으니 조금만 힘내세요

Page 83: Wasserstein GAN 수학 이해하기 I

두 확률변수 (X,Y ) 가 각각 X ∼P , Y ∼P 라고 합시다. 각 ω 에 �해서 X 와 Y 는 다음과 같이 2차원 공간으로 매핑됩니다

X(ω) = (0,Z (ω)), Y (ω) = (θ,Z (ω))

0 θ

1 2

Page 84: Wasserstein GAN 수학 이해하기 I

이 때 두 점 사이의 거리는 다음과 같이 계산됩니다

d(X,Y ) = ∣θ − 0∣ + ∣Z (ω) − Z (ω)∣ ≥ ∣θ∣( 21 2 )1/2

Page 85: Wasserstein GAN 수학 이해하기 I

즉 d(X,Y ) 의 기�값은 어떤 결합확률분포 γ 를 사용하든 항상 ∣θ∣ 보다 크거나 같습니다

E [d(X,Y )] ≥E [∣θ∣] = ∣θ∣

음... 그런데 기�값이 ∣θ∣ 인 상황이 있을까요?

γ γ

Page 86: Wasserstein GAN 수학 이해하기 I

네 있습니다! 항상 Z = Z 인 분포를 따른다면요

d(X,Y ) = ∣θ − 0∣ + ∣Z(ω) − Z(ω)∣ = ∣θ∣

1 2

( 2 )1/2

Page 87: Wasserstein GAN 수학 이해하기 I

그래서 우리는 원하는 결론을 얻습니다

∴ W (P ,P ) = ∣θ∣0 θ

Page 88: Wasserstein GAN 수학 이해하기 I

정리

TV, KL, JS 는 (P ,P ) 가 서로 겹치지 않는 상황에선 불연속이 됩니다

EM(Wasserstein distance) 은 TV, KL, JS 보다 약한(weak) metric으로 수렴을 판정하는데 무른(soft) 성질을 가집니다

EM 은 분포수렴 과 동등합니다!

r g

Page 89: Wasserstein GAN 수학 이해하기 I

그나저나 분포수렴이 뭔가요?

분포수렴은 확률분포 수렴 종류 중 하나로서 제일 약한 수렴 입니다

확률분포의 개별적인 특징보다 전체적인 모양을 중시하는 수렴입니다

중심극한정리(Central Limit Theorem) 에서 표본평균이 정규분포로 수렴하는 종류가 바로 분포수렴입니다

X 의 모든 모멘트 가 X 의 모멘트로 수렴하면 분포수렴합니다

X 의 누적확률Â도함수 가 X 의 누적확률Â도함수 중 연속인 모든 점에서 수렴하면 분포수렴합니다

X 의 Fourier transform 이 수렴하면 분포수렴합니다!

n

n

n

Page 90: Wasserstein GAN 수학 이해하기 I

참고로 Wasserstein distance 는 Optimal transport 분야에서 아주 중요하게 다뤄지는 개념으로 transport cost minimization 문제와 관련있습니다.

쉽게 말하면 두 공간을 어떻게 연결(coupling)시켰을 때 가장 최적인 경로(geodesic) 를 찾을 수 있는지 결정하는 수학 문제입니다.

Ý상에서 이 분야가 어떻게 쓰이는 지 관심있는 분은 Gabriel Peyré 의 슬라이드를 추천합니다

Page 91: Wasserstein GAN 수학 이해하기 I

수학에 관심있는 사람은 Cédric Villani 의 책 을 봅시다!

나 필즈메달 받음! (2010년도 수상)

주의 : �략 998페이지(!)에 육박하는 분량

Page 92: Wasserstein GAN 수학 이해하기 I

(부록) 논문에 이상한 주석이 달려있어요

만약 확률분포 P 에 �응하는, X 위에 정의된 확률Â도함수(Probabilitydensity function) P 가 존재한다면 다음과 같이 쓸 수 있습니다

P(A) = P (x)μ(dx)

여기서 μ 는 X 상에 존재하는 레퍼런스 측도입니다

∫A

Page 93: Wasserstein GAN 수학 이해하기 I

보통 아래와 같은 Radon‑Nikodym 도함수 로 표현하기도 합니다

P (x) =

참고로 P (x) 가 존재하기 위한 필요충분조건은 확률분포 P 가 레퍼런스 측도 μ 에 �해 절�연속(absolute continuous)일 때입니다

dP

Page 94: Wasserstein GAN 수학 이해하기 I

절�연속?

μ(A) = 0 ⇒ P(A) = 0

μ 에서 측정했을 때 0 이면 확률분포 P 에서 측정해도 0 인 성질을 말합니다

P 가 μ 의 Negligible set 를 유지한다고도 표현합니다

확률Â도함수 나 확률질량함수 를 가지는 분포는 항상 성립합니다!

확률질량함수는 셈측도(Counting measure), 확률Â도함수는 르베그 측도(Lebesgue measure)를 레퍼런스 측도로 가집니다

Page 95: Wasserstein GAN 수학 이해하기 I

응? 확률Â도함수나 질량함수를 가지지 않는 확률분포도 있나요?

그럼요! 하지만 몰라도 논문을 읽는데 전혀 지장 없습니다!

Page 96: Wasserstein GAN 수학 이해하기 I

길고 긴 내용 읽느라 고생하셨습니다

후속편에선 Martin 의 다른 논문 과 WGAN 논문을 함께 설명하겠습니다!

Page 97: Wasserstein GAN 수학 이해하기 I

to be continued...