5.最优化方法-对偶 1 - southeast university · 2 对偶 lagrange对偶问题...

1

东南⼤学计算机&⼈⼯智能学院

宋沫飞 [email protected]

最优化⽅法

2

对偶

❑ Lagrange对偶问题 ❑ 弱对偶和强对偶 ❑ ⼏何解释 ❑ 最优性条件 ❑ 扰动和灵敏度分析 ❑ 例⼦ ❑ ⼴义不等式

3

Lagrangian

3

Lagrangian❑ 标准形式问题（不需要为凸优化）

3


其中，优化变量，定义域为，最优值为

3


其中，优化变量，定义域为，最优值为❑ Lagrangian：

3



其定义域为

3



其定义域为⽬标函数和约束函数的加权和

3



其定义域为⽬标函数和约束函数的加权和为第i个不等式约束的Lagrange乘⼦

3



其定义域为⽬标函数和约束函数的加权和为第i个不等式约束的Lagrange乘⼦为第i个等式约束的Lagrange乘⼦

4

Lagrange对偶函数

4

Lagrange对偶函数❑ Lagrange对偶函数：

4


❑ 函数g为凹函数

4


❑ 函数g为凹函数为凸函数sup L(x, λ, v)

4


❑ 函数g为凹函数为凸函数sup L(x, λ, v)

对某些可为

5


5


❑ 最优值下界：若λ ≥ 0，则g(λ, v) ≤ p*

5


❑ 最优值下界：若λ ≥ 0，则g(λ, v) ≤ p*❑ 证明：若x*为原问题的最优解，则必可⾏，则有

5


❑ 最优值下界：若λ ≥ 0，则g(λ, v) ≤ p*❑ 证明：若x*为原问题的最优解，则必可⾏，则有❑ fi(x*) ≤ 0，hi(x*) = 0

5


❑ 最优值下界：若λ ≥ 0，则g(λ, v) ≤ p*❑ 证明：若x*为原问题的最优解，则必可⾏，则有❑ fi(x*) ≤ 0，hi(x*) = 0❑ 因此，若λ ≥ 0，有

5



❑

m

∑i=1

λi fi(x*) +p

∑i=1

vihi(x*) ≤ 0

5



❑

m

∑i=1

λi fi(x*) +p

∑i=1

vihi(x*) ≤ 0

❑L(x*, λ, v) = f0(x*) +

m

∑i=1

λi fi(x*) +p

∑i=1

vihi(x*)

5



❑

m

∑i=1

λi fi(x*) +p

∑i=1

vihi(x*) ≤ 0

❑L(x*, λ, v) = f0(x*) +

m

∑i=1

λi fi(x*) +p

∑i=1

vihi(x*)

❑ ≤ p*

5


❑ 最优值下界：若，则λ ≥ 0 g(λ, v) ≤ p*❑ 证明：若为原问题的最优解，则必可⾏，则有x*❑ ，fi(x*) ≤ 0 hi(x*) = 0❑ 因此，若，有λ ≥ 0

❑

m

∑i=1

λi fi(x*) +p

∑i=1

vihi(x*) ≤ 0

❑L(x*, λ, v) = f0(x*) +

m

∑i=1

λi fi(x*) +p

∑i=1

vihi(x*)

❑ ≤ p*❑ g(λ, v) ≤ p*

6

线性⽅程组的最⼩⼆乘解

6


❑ Lagrangian是

6


❑ Lagrangian是❑ 对偶函数

6


❑ Lagrangian是❑ 对偶函数❑ 为最⼩化关于x的L，令梯度为0:

6



❑ 代⼊L得g：

6



❑ 代⼊L得g：

❑ 为关于的凹函数

6



❑ 代⼊L得g：

❑ 为关于的凹函数❑ 下界性质：

7

标准形式的线性规划

7


❑ Lagrangian为

7


❑ Lagrangian为

❑ 函数L是仿射函数，因此

7


❑ Lagrangian为


❑ 函数g是线性的，为仿射定义域上的凹函数

7


❑ Lagrangian为


❑ 函数g是线性的，为仿射定义域上的凹函数

❑ 下界的性质：

8

双向划分问题

8

双向划分问题

❑ ⾮凸优化问题，可⾏集包含个离散点2n

8

双向划分问题

❑ ⾮凸优化问题，可⾏集包含个离散点2n❑ 对偶函数

8

双向划分问题



8

双向划分问题



❑ 例如：

8

双向划分问题



❑ 例如：❑❑

9

Lagrange对偶和共轭函数

9


❑共轭函数：

10


10


❑ 对偶函数

10


❑ 对偶函数

❑ 若已知共轭函数，可简化对偶函数的表达

10


❑ 对偶函数

❑ 若已知共轭函数，可简化对偶函数的表达❑ 如：熵的最⼤化

11

对偶问题

11

对偶问题

❑ Lagrange对偶问题

11

对偶问题


❑ 通过Lagrange对偶函数获取的最佳下界

11

对偶问题


❑ 通过Lagrange对偶函数获取的最佳下界❑ 凸优化问题，最优值表⽰为

11

对偶问题



❑ 对偶可⾏：和

11

对偶问题



❑ 对偶可⾏：和❑ 最优Lagrange乘⼦：

12

对偶问题

13

对偶问题

13

对偶问题

❑ L(x, λ) = cT x + λT(Ax − b)

13

对偶问题

❑ L(x, λ) = cT x + λT(Ax − b)❑ = (c + ATλ)T x − bTλ

13

对偶问题

❑ L(x, λ) = cT x + λT(Ax − b)❑ = (c + ATλ)T x − bTλ❑ g(λ) = inf

xL(x, λ)

13

对偶问题

❑ ❑

❑

❑

L(x, λ) = cT x + λT(Ax − b)= (c + ATλ)T x − bTλ

g(λ) = infx

L(x, λ)

= {−bTλ if ATλ + c = 0−∞ otherwise

13

对偶问题

14

弱对偶和强对偶

14


❑ 弱对偶：

14


❑ 弱对偶：

对于凸优化和⾮凸优化问题总是满⾜

14


❑ 弱对偶：


可以⽤来寻找困难问题的⾮平凡下界

14


❑ 弱对偶：


可以⽤来寻找困难问题的⾮平凡下界❑ 例：

14


❑ 弱对偶：



求解半定规划问题

14


❑ 弱对偶：



求解半定规划问题

为双向划分问题给出了下界

15


15


❑ 强对偶

15


❑ 强对偶

并⾮总是满⾜

15


❑ 强对偶

并⾮总是满⾜

通常在凸优化问题中满⾜

15


❑ 强对偶

并⾮总是满⾜

通常在凸优化问题中满⾜❑ 对偶间隙：p* − d*

15


❑ 强对偶

并⾮总是满⾜

通常在凸优化问题中满⾜❑ 对偶间隙：p* − d*❑ 在凸优化问题中保证强对偶的条件称为约束准则

15


❑ 强对偶

并⾮总是满⾜

通常在凸优化问题中满⾜❑ 对偶间隙：p* − d*❑ 在凸优化问题中保证强对偶的条件称为约束准则❑D的相对内部：

15


❑ 强对偶

并⾮总是满⾜

通常在凸优化问题中满⾜❑ 对偶间隙：p* − d*❑ 在凸优化问题中保证强对偶的条件称为约束准则❑D的相对内部：

Rel int D = {x ∈ D |B(x, r) ∩ aff D ⊂ D, ∃r > 0}

16

Slater约束准则

16

Slater约束准则

❑ 若某凸优化问题

16

Slater约束准则


当该问题是严格可⾏的，即

16

Slater约束准则



则为强对偶，即满⾜

16

Slater约束准则



则为强对偶，即满⾜❑ 弱化：

16

Slater约束准则



则为强对偶，即满⾜❑ 弱化：

若不等式约束为仿射时，只要可⾏域⾮空，必有

17

线性规划的不等式形式

17


❑ 原问题

17


❑ 原问题

❑ 对偶函数

17


❑ 原问题

❑ 对偶函数

❑ 对偶问题

17


❑ 原问题

❑ 对偶函数

❑ 对偶问题

❑ 根据Slater条件：若对某些有，则

17


❑ 原问题

❑ 对偶函数

❑ 对偶问题

❑ 根据Slater条件：若对某些有，则❑ 根据弱化条件，只要原问题和对偶问题可⾏

17


❑ 原问题

❑ 对偶函数

❑ 对偶问题

❑ 根据Slater条件：若对某些有，则❑ 根据弱化条件，只要原问题和对偶问题可⾏

必有

18


18


❑对偶问题：

18


❑对偶问题：

❑强对偶成⽴

19

QCQP⼆次约束⼆次规划

19


❑ Lagrangian:

19


❑ Lagrangian:

L(x, λ) =12

xTP0x + qT0 x + r0 +m

∑i=1

(12

λixTPix + λiqTi x + λiri)

19


❑ Lagrangian:

L(x, λ) =12


∑i=1

(12


=12

xT(P0 +m

∑i=1

λiPi)x + (q0 +m

∑i=1

λiqi)T x + (r0 +m

∑i=1

λiri)

19


❑ Lagrangian:

L(x, λ) =12


∑i=1

(12


=12

xT(P0 +m

∑i=1

λiPi)x + (q0 +m

∑i=1

λiqi)T x + (r0 +m

∑i=1

λiri)

P(λ) q(λ) r(λ)

20


20


❑对偶函数：

20


❑对偶函数：

❑对偶问题：

20


❑对偶函数：

❑对偶问题：

❑存在x，满⾜

21

⼏何解释

21

⼏何解释

❑ 考虑只含⼀个约束的问题

21

⼏何解释

❑ 考虑只含⼀个约束的问题❑ 定义集合G = {( f0(x), f1(x)) |x ∈ D}

21

⼏何解释

❑ 考虑只含⼀个约束的问题❑ 定义集合G = {( f0(x), f1(x)) |x ∈ D}❑ p* = inf{t | (u, t) ∈ G, u ≤ 0}

21

⼏何解释

❑ 考虑只含⼀个约束的问题❑ 定义集合G = {( f0(x), f1(x)) |x ∈ D}❑ p* = inf{t | (u, t) ∈ G, u ≤ 0}❑ g(λ) = inf{λu + t | (u, t) ∈ G}

21

⼏何解释


u

t

G

21

⼏何解释


u

t

G

21

⼏何解释


u

t

p*

G

21

⼏何解释


u

t

p*

g(λ) λ ≥ 0

G

21

⼏何解释


u

t

p*

g(λ) λ ≥ 0 λu + t = 0

G

21

⼏何解释


u

t

p*

g(λ) λ ≥ 0 λu + t = 0

g(λ)

G

21

⼏何解释


u

t

p*

g(λ) λ ≥ 0 λu + t = 0

g(λ) d*

22

⼏何解释

22

⼏何解释

u

t

G

22

⼏何解释

u

t

G

22

⼏何解释

u

t

p*

G

22

⼏何解释

u

t

p* d*

23

经济学解释

23

经济学解释

x：产品数量

23

经济学解释

x：产品数量fi(x) ≤ 0：原材料

23

经济学解释

x：产品数量fi(x) ≤ 0：原材料−f0(x)：利润

23

经济学解释

x：产品数量fi(x) ≤ 0：原材料−f0(x)：利润f0(x)：损失

23

经济学解释

x：产品数量fi(x) ≤ 0：原材料−f0(x)：利润f0(x)：损失p*：最优损失

23

经济学解释


❑假设原材料可买可卖，第i种原材料价格为λi(λi ≥ 0)

23

经济学解释


❑假设原材料可买可卖，第i种原材料价格为λi(λi ≥ 0)

minx

f0(x) +m

∑i=1

λi fi(x) = g(λ)

23

经济学解释

：产品数量x：原材料fi(x) ≤ 0：利润−f0(x)：损失f0(x)：最优损失p*

❑假设原材料可买可卖，第种原材料价格为i λi(λi ≥ 0)

minx

f0(x) +m

∑i=1

λi fi(x) = g(λ)

d* = maxλ≥0

g(λ) ≤ p*

23

经济学解释



minx

f0(x) +m

∑i=1

λi fi(x) = g(λ)

d* = maxλ≥0

g(λ) ≤ p*

❑何时 ?d* = p*

23

经济学解释



minx

f0(x) +m

∑i=1

λi fi(x) = g(λ)

d* = maxλ≥0

g(λ) ≤ p*

❑何时 ?d* = p*❑若，fi(x*) < 0

23

经济学解释



minx

f0(x) +m

∑i=1

λi fi(x) = g(λ)

d* = maxλ≥0

g(λ) ≤ p*

❑何时 ?d* = p*❑若，fi(x*) < 0

❑则λi = 0

23

经济学解释



minx

f0(x) +m

∑i=1

λi fi(x) = g(λ)

d* = maxλ≥0

g(λ) ≤ p*

❑何时 ?d* = p*❑若，fi(x*) < 0

❑则λi = 0❑若 ,λ*i > 0

23

经济学解释



minx

f0(x) +m

∑i=1

λi fi(x) = g(λ)

d* = maxλ≥0

g(λ) ≤ p*

❑何时 ?d* = p*❑若，fi(x*) < 0

❑则λi = 0❑若 ,λ*i > 0

❑则fi(x*) = 0

24

鞍点解释

24

鞍点解释

❑极⼤极⼩不等式：

24

鞍点解释


❑若等式成⽴：

24

鞍点解释



argz,w supz∈Z

infw∈W

f(w, z) = argw,z infw∈W

supz∈Z

f(w, z)

24

鞍点解释



argz,w supz∈Z

infw∈W


supz∈Z

f(w, z)

鞍点：(w̃, z̃) f(w̃, z) ≤ f(w̃, z̃) ≤ f(w, z̃)

24

鞍点解释



argz,w supz∈Z

infw∈W


supz∈Z

f(w, z)

鞍点：(w̃, z̃) f(w̃, z) ≤ f(w̃, z̃) ≤ f(w, z̃)，f(w̃, z̃) = inf

w∈Wf(w, z̃) f(w̃, z̃) = sup

z∈Zf(w̃, z)

25

鞍点解释

25

鞍点解释

❑ d* = supλ≥0

infx

L(x, λ)

25

鞍点解释

❑ d* = supλ≥0

infx

L(x, λ)

❑ p* = infx

{f0(x) | fi(x) ≤ 0,i = 1,...,m}

25

鞍点解释

❑ d* = supλ≥0

infx

L(x, λ)

❑ p* = infx

{f0(x) | fi(x) ≤ 0,i = 1,...,m}

❑ = infx {f0(x) fi(x) ≤ 0, i = 1,...,m∞ otherwise

25

鞍点解释

❑ d* = supλ≥0

infx

L(x, λ)

❑ p* = infx

{f0(x) | fi(x) ≤ 0,i = 1,...,m}

❑ = infx {f0(x) fi(x) ≤ 0, i = 1,...,m∞ otherwise❑

= infx

supλ≥0

( f0(x) +m

∑i=1

λi fi(x)) = infx

supλ≥0

L(x, λ)

25

鞍点解释

❑ d* = supλ≥0

infx

L(x, λ)

❑ p* = infx

{f0(x) | fi(x) ≤ 0,i = 1,...,m}


= infx

supλ≥0

( f0(x) +m

∑i=1

λi fi(x)) = infx

supλ≥0

L(x, λ)

❑ ，何时 ?p* ≤ d* p* = d*

25

鞍点解释

❑ d* = supλ≥0

infx

L(x, λ)

❑ p* = infx

{f0(x) | fi(x) ≤ 0,i = 1,...,m}


= infx

supλ≥0

( f0(x) +m

∑i=1

λi fi(x)) = infx

supλ≥0

L(x, λ)

❑ ，何时 ?p* ≤ d* p* = d*存在鞍点：L(x, λ) (x*, λ*) inf

xsupλ≥0

L(x, λ) = supλ≥0

infx

L(x, λ)

26

鞍点定理

26

鞍点定理

❑若为的鞍点，等价于(x̃, λ̃) L(x, λ)

26

鞍点定理

❑若为的鞍点，等价于(x̃, λ̃) L(x, λ)强对偶存在，为原问题和对偶问题最优解x̃, λ̃

26

鞍点定理


❑ 证明：→

26

鞍点定理


❑ 证明：→存在鞍点，则对偶间隙为零inf

xsupλ≥0


infx

L(x, λ)

26

鞍点定理



xsupλ≥0


infx

L(x, λ)

(x̃, λ̃) = argx,λ infx

supλ≥0

L(x, λ) = argx,λ supλ≥0

infx

L(x, λ)

26

鞍点定理



xsupλ≥0


infx

L(x, λ)


supλ≥0


infx

L(x, λ)

x̃ = argx infx

supλ≥0

L(x, λ)

26

鞍点定理



xsupλ≥0


infx

L(x, λ)


supλ≥0


infx

L(x, λ)

x̃ = argx infx

supλ≥0

L(x, λ)

λ̃ = argλ supλ≥0

infx

L(x, λ)

27

鞍点定理

27

鞍点定理

❑ 证明：←

27

鞍点定理

❑ 证明：←fi(x̃) ≤ 0, λ̃ ≥ 0

27

鞍点定理

❑ 证明：←fi(x̃) ≤ 0, λ̃ ≥ 0

f0(x̃) = g(λ̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)}

27

鞍点定理

❑ 证明：←fi(x̃) ≤ 0, λ̃ ≥ 0

f0(x̃) = g(λ̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)}

≤ f0(x̃) +m

∑i=1

λ̃i fi(x̃) ≤ f0(x̃)

27

鞍点定理

❑ 证明：←fi(x̃) ≤ 0, λ̃ ≥ 0

f0(x̃) = g(λ̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)}

≤ f0(x̃) +m

∑i=1

λ̃i fi(x̃) ≤ f0(x̃)

❑f0(x̃) = f0(x̃) +

m

∑i=1

λ̃i fi(x̃) = L(x̃, λ̃)

27

鞍点定理

❑ 证明：←fi(x̃) ≤ 0, λ̃ ≥ 0

f0(x̃) = g(λ̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)}

≤ f0(x̃) +m

∑i=1

λ̃i fi(x̃) ≤ f0(x̃)

❑f0(x̃) = f0(x̃) +

m

∑i=1

λ̃i fi(x̃) = L(x̃, λ̃)

❑ f0(x̃) = inf

x{f0(x) +

m

∑i=1

λ̃i fi(x)} fi(x̃) ≤ 0, λ̃ ≥ 0

28

鞍点定理

❑

❑

f0(x̃) = f0(x̃) +m

∑i=1

λ̃i fi(x̃) = L(x̃, λ̃)

f0(x̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)} fi(x̃) ≤ 0, λ̃ ≥ 0

28

鞍点定理

❑inf

xL(x, λ̃) = inf

x{f0(x) +

m

∑i=1

λ̃i fi(x)} = f0(x̃) = L(x̃, λ̃)

❑

❑

f0(x̃) = f0(x̃) +m

∑i=1

λ̃i fi(x̃) = L(x̃, λ̃)

f0(x̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)} fi(x̃) ≤ 0, λ̃ ≥ 0

28

鞍点定理

❑inf

xL(x, λ̃) = inf

x{f0(x) +

m

∑i=1

λ̃i fi(x)} = f0(x̃) = L(x̃, λ̃)

❑supλ≥0

L(x̃, λ) = supλ≥0

{f0(x̃) +m

∑i=1

λi fi(x̃)} ≤ f0(x̃) = L(x̃, λ̃)

❑

❑

f0(x̃) = f0(x̃) +m

∑i=1

λ̃i fi(x̃) = L(x̃, λ̃)

f0(x̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)} fi(x̃) ≤ 0, λ̃ ≥ 0

28

鞍点定理

❑inf

xL(x, λ̃) = inf

x{f0(x) +

m

∑i=1

λ̃i fi(x)} = f0(x̃) = L(x̃, λ̃)

❑supλ≥0


{f0(x̃) +m

∑i=1

λi fi(x̃)} ≤ f0(x̃) = L(x̃, λ̃)

❑ supλ≥0

L(x̃, λ) ≥ L(x̃, λ̃)

❑

❑

f0(x̃) = f0(x̃) +m

∑i=1

λ̃i fi(x̃) = L(x̃, λ̃)

f0(x̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)} fi(x̃) ≤ 0, λ̃ ≥ 0

28

鞍点定理

❑

❑

❑

❑

infx

L(x, λ̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)} = f0(x̃) = L(x̃, λ̃)

supλ≥0


{f0(x̃) +m

∑i=1

λi fi(x̃)} ≤ f0(x̃) = L(x̃, λ̃)

supλ≥0

L(x̃, λ) ≥ L(x̃, λ̃)

supλ≥0

L(x̃, λ) = L(x̃, λ̃)

❑

❑

f0(x̃) = f0(x̃) +m

∑i=1

λ̃i fi(x̃) = L(x̃, λ̃)

f0(x̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)} fi(x̃) ≤ 0, λ̃ ≥ 0

28

鞍点定理

❑

❑

f0(x̃) = f0(x̃) +m

∑i=1

λ̃i fi(x̃) = L(x̃, λ̃)

f0(x̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)} fi(x̃) ≤ 0, λ̃ ≥ 0

28

鞍点定理

❑

❑

f0(x̃) = f0(x̃) +m

∑i=1

λ̃i fi(x̃) = L(x̃, λ̃)

f0(x̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)} fi(x̃) ≤ 0, λ̃ ≥ 0

❑ λ̃i fi(x̃) = 0

28

鞍点定理

❑

❑

f0(x̃) = f0(x̃) +m

∑i=1

λ̃i fi(x̃) = L(x̃, λ̃)

f0(x̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)} fi(x̃) ≤ 0, λ̃ ≥ 0

❑ λ̃i fi(x̃) = 0❑ 若，fi(x̃) < 0

28

鞍点定理

❑

❑

f0(x̃) = f0(x̃) +m

∑i=1

λ̃i fi(x̃) = L(x̃, λ̃)

f0(x̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)} fi(x̃) ≤ 0, λ̃ ≥ 0

❑ λ̃i fi(x̃) = 0❑ 若，fi(x̃) < 0

则λ̃i = 0

28

鞍点定理

❑

❑

f0(x̃) = f0(x̃) +m

∑i=1

λ̃i fi(x̃) = L(x̃, λ̃)

f0(x̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)} fi(x̃) ≤ 0, λ̃ ≥ 0

❑ λ̃i fi(x̃) = 0❑ 若，fi(x̃) < 0

则λ̃i = 0❑ 若 ,λ̃i > 0

28

鞍点定理

❑

❑

f0(x̃) = f0(x̃) +m

∑i=1

λ̃i fi(x̃) = L(x̃, λ̃)

f0(x̃) = infx

{f0(x) +m

∑i=1

λ̃i fi(x)} fi(x̃) ≤ 0, λ̃ ≥ 0

❑ λ̃i fi(x̃) = 0❑ 若，fi(x̃) < 0

则λ̃i = 0❑ 若 ,λ̃i > 0

则fi(x̃) = 0

29

互补松弛性

29

互补松弛性

❑对偶函数：g(λ, v) = inf

x{f0(x) +

m

∑i=1

λi fi(x) +p

∑i=1

vihi(x)}

29

互补松弛性


x{f0(x) +

m

∑i=1

λi fi(x) +p

∑i=1

vihi(x)}

❑ 对偶问题：max g(λ, v) s.t. λ ≥ 0

29

互补松弛性


x{f0(x) +

m

∑i=1

λi fi(x) +p

∑i=1

vihi(x)}

❑ 对偶问题：max g(λ, v) s.t. λ ≥ 0❑ 若且所有函数均可微，则最优解须满⾜p* = d* x*, λ*, v*

29

互补松弛性


x{f0(x) +

m

∑i=1

λi fi(x) +p

∑i=1

vihi(x)}


fi(x*) ≤ 0, hi(x*) = 0, λ* ≥ 0

29

互补松弛性


x{f0(x) +

m

∑i=1

λi fi(x) +p

∑i=1

vihi(x)}


fi(x*) ≤ 0, hi(x*) = 0, λ* ≥ 0

f0(x*) = g(λ*, v*) = infx

{f0(x) +m

∑i=1

λ*i fi(x) +p

∑i=1

v*i hi(x)}

29

互补松弛性


x{f0(x) +

m

∑i=1

λi fi(x) +p

∑i=1

vihi(x)}


fi(x*) ≤ 0, hi(x*) = 0, λ* ≥ 0

f0(x*) = g(λ*, v*) = infx

{f0(x) +m

∑i=1

λ*i fi(x) +p

∑i=1

v*i hi(x)}

≤ f0(x*) +m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*) ≤ f0(x*)

29

互补松弛性


x{f0(x) +

m

∑i=1

λi fi(x) +p

∑i=1

vihi(x)}


fi(x*) ≤ 0, hi(x*) = 0, λ* ≥ 0

f0(x*) = g(λ*, v*) = infx

{f0(x) +m

∑i=1

λ*i fi(x) +p

∑i=1

v*i hi(x)}

≤ f0(x*) +m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*) ≤ f0(x*)

m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*) = 0

30

互补松弛性m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*) = 0

30

互补松弛性

❑

m

∑i=1

λ*i fi(x*) = 0

m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*) = 0

30

互补松弛性

❑

m

∑i=1

λ*i fi(x*) = 0

❑ λ*i fi(x*) ≤ 0 → λ*i fi(x*) = 0,i = 1,...,m

m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*) = 0

30

互补松弛性

❑

m

∑i=1

λ*i fi(x*) = 0

❑ λ*i fi(x*) ≤ 0 → λ*i fi(x*) = 0,i = 1,...,m

❑ λ*i > 0 → fi(x*) = 0

m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*) = 0

30

互补松弛性

❑

m

∑i=1

λ*i fi(x*) = 0

❑ λ*i fi(x*) ≤ 0 → λ*i fi(x*) = 0,i = 1,...,m

❑ λ*i > 0 → fi(x*) = 0❑ fi(x*) > 0 → λi = 0

m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*) = 0

30

互补松弛性

❑

m

∑i=1

λ*i fi(x*) = 0

❑ λ*i fi(x*) ≤ 0 → λ*i fi(x*) = 0,i = 1,...,m

❑ λ*i > 0 → fi(x*) = 0❑ fi(x*) > 0 → λi = 0

❑互补松弛

m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*) = 0

31

互补松弛性

❑对偶函数：

❑ 对偶问题： ❑ 若且所有函数均可微，则最优解须满⾜

g(λ, v) = infx

{f0(x) +m

∑i=1

λi fi(x) +p

∑i=1

vihi(x)}

max g(λ, v) s.t. λ ≥ 0p* = d* x*, λ*, v*fi(x*) ≤ 0, hi(x*) = 0, λ* ≥ 0

f0(x*) = g(λ*, v*) = infx

{f0(x) +m

∑i=1

λ*i fi(x) +p

∑i=1

v*i hi(x)}

≤ f0(x*) +m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*) ≤ f0(x*)

31

互补松弛性

❑对偶函数：

❑ 对偶问题： ❑ 若且所有函数均可微，则最优解须满⾜

g(λ, v) = infx

{f0(x) +m

∑i=1

λi fi(x) +p

∑i=1

vihi(x)}

max g(λ, v) s.t. λ ≥ 0p* = d* x*, λ*, v*fi(x*) ≤ 0, hi(x*) = 0, λ* ≥ 0

f0(x*) = g(λ*, v*) = infx

{f0(x) +m

∑i=1

λ*i fi(x) +p

∑i=1

v*i hi(x)}

≤ f0(x*) +m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*) ≤ f0(x*)

❑

❑

infx

{f0(x) +m

∑i=1

λ*i fi(x) +p

∑i=1

v*i hi(x)}

= f0(x*) +m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*)

32

稳定性

❑

❑

infx

{f0(x) +m

∑i=1

λ*i fi(x) +p

∑i=1

v*i hi(x)}

= f0(x*) +m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*)

32

稳定性

❑ L(x*, λ*, v*) = infx

L(x, λ*, v*)

❑

❑

infx

{f0(x) +m

∑i=1

λ*i fi(x) +p

∑i=1

v*i hi(x)}

= f0(x*) +m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*)

32

稳定性

❑ L(x*, λ*, v*) = infx

L(x, λ*, v*)

❑ 则∂L(x, λ*, v*)

∂x|x=x* = 0

❑

❑

infx

{f0(x) +m

∑i=1

λ*i fi(x) +p

∑i=1

v*i hi(x)}

= f0(x*) +m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*)

32

稳定性

❑ L(x*, λ*, v*) = infx

L(x, λ*, v*)

❑ 则∂L(x, λ*, v*)

∂x|x=x* = 0

即∇f0(x*) +m

∑i=1

λ*i ∇fi(x*) +p

∑i=1

v*i ∇hi(x*) = 0

❑

❑

infx

{f0(x) +m

∑i=1

λ*i fi(x) +p

∑i=1

v*i hi(x)}

= f0(x*) +m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*)

32

稳定性

❑ L(x*, λ*, v*) = infx

L(x, λ*, v*)

❑ 则∂L(x, λ*, v*)

∂x|x=x* = 0

即∇f0(x*) +m

∑i=1

λ*i ∇fi(x*) +p

∑i=1

v*i ∇hi(x*) = 0

❑ 稳定性条件

❑

❑

infx

{f0(x) +m

∑i=1

λ*i fi(x) +p

∑i=1

v*i hi(x)}

= f0(x*) +m

∑i=1

λ*i fi(x*) +p

∑i=1

v*i hi(x*)

33

KKT条件

33

KKT条件❑ ⼀般可微优化问题，对偶间隙为0须满⾜KKT条件

33

KKT条件❑ ⼀般可微优化问题，对偶间隙为0须满⾜KKT条件❑ Karush-Kuhn-Tucker（KKT）条件包含如下四个条件：

33


原始可⾏性：

33


原始可⾏性：

对偶可⾏性：

33


原始可⾏性：

对偶可⾏性：

互补松弛性：

33


原始可⾏性：

对偶可⾏性：

互补松弛性：

Lagrangian梯度的定常⽅程式（稳定性条件）：

34

凸问题的KKT条件

34


❑ 若满⾜凸问题的KKT条件，则是最优解x̃, λ̃, ṽ

34


❑ 若满⾜凸问题的KKT条件，则是最优解x̃, λ̃, ṽKKT条件为可微凸问题对偶间隙为0的充要条件

34



❑ 证明：

34



❑ 证明：fi(x̃) ≤ 0, hi(x̃) = 0, λ̃ ≥ 0

34



❑ 证明：fi(x̃) ≤ 0, hi(x̃) = 0, λ̃ ≥ 0

为凸函数L(x, λ̃, ṽ) = f0(x) +m

∑i=1

λ̃i fi(x) +p

∑i=1

ṽhi(x)

34



❑ 证明：fi(x̃) ≤ 0, hi(x̃) = 0, λ̃ ≥ 0


∑i=1

λ̃i fi(x) +p

∑i=1

ṽhi(x)

，则为极⼩值点∂L(x, λ̃, ṽ)

∂x|x=x̃ = 0 x̃

34



❑ 证明：fi(x̃) ≤ 0, hi(x̃) = 0, λ̃ ≥ 0


∑i=1

λ̃i fi(x) +p

∑i=1

ṽhi(x)


∂x|x=x̃ = 0 x̃

g(λ̃, ṽ) = infx

L(x, λ̃, ṽ) = L(x̃, λ̃, ṽ)

34



❑ 证明：fi(x̃) ≤ 0, hi(x̃) = 0, λ̃ ≥ 0


∑i=1

λ̃i fi(x) +p

∑i=1

ṽhi(x)


∂x|x=x̃ = 0 x̃

g(λ̃, ṽ) = infx

L(x, λ̃, ṽ) = L(x̃, λ̃, ṽ)

= f0(x̃) +m

∑i=1

λ̃i fi(x̃) +p

∑i=1

ṽihi(x̃) = f0(x̃)

35

例

35

例

❑min

12

xTPx + qT x + r, P ∈ Sn+

s.t. Ax = b

35

例

❑min

12


s.t. Ax = b❑ KKT条件：

35

例

❑min

12



Ax* = b

35

例

❑min

12



Ax* = b∂∂x

{12

xTPx + qT x + r + (Ax − b)Tv*} |x=x* = 0

⟺ Px* + q + ATv* = 0

35

例

❑min

12



Ax* = b∂∂x

{12

xTPx + qT x + r + (Ax − b)Tv*} |x=x* = 0

⟺ Px* + q + ATv* = 0

❑ [P ATA 0 ] [x*v*] = [−qb ]

36

例：注⽔

36

例：注⽔

❑ KKT条件

36

例：注⽔

❑ KKT条件x* ≥ 0, 1T x* = 1

36

例：注⽔

❑ KKT条件x* ≥ 0, 1T x* = 1λ* ≥ 0

36

例：注⽔

❑ KKT条件x* ≥ 0, 1T x* = 1λ* ≥ 0λ*i x*i = 0, i = 1,...,n

36

例：注⽔

❑ KKT条件x* ≥ 0, 1T x* = 1λ* ≥ 0λ*i x*i = 0, i = 1,...,n

−1

αi + x*i− λ*i + v* = 0

36

例：注⽔

❑ KKT条件

❑ 则

x* ≥ 0, 1T x* = 1λ* ≥ 0λ*i x*i = 0, i = 1,...,n

−1

αi + x*i− λ*i + v* = 0

λ*i = v* −1

αi + x*i

36

例：注⽔

❑ KKT条件

❑ 则

x* ≥ 0, 1T x* = 1λ* ≥ 0λ*i x*i = 0, i = 1,...,n

−1

αi + x*i− λ*i + v* = 0

λ*i = v* −1

αi + x*i

❑

x*i (v* −1

αi + x*i) = 0

v* ≥ 1αi + x*i

❑ KKT条件

❑ 则

x* ≥ 0, 1T x* = 1λ* ≥ 0λ*i x*i = 0, i = 1,...,n

−1

αi + x*i− λ*i + v* = 0

λ*i = v* −1

αi + x*i

36

例：注⽔

❑ KKT条件

❑ 则

x* ≥ 0, 1T x* = 1λ* ≥ 0λ*i x*i = 0, i = 1,...,n

−1

αi + x*i− λ*i + v* = 0

λ*i = v* −1

αi + x*i

❑

x*i (v* −1

αi + x*i) = 0

v* ≥ 1αi + x*i

❑

v* ≥ 1/αi → x*i = 0v* < 1/αi → x*i > 0

x*i = 1/v * −α

❑ KKT条件

❑ 则

x* ≥ 0, 1T x* = 1λ* ≥ 0λ*i x*i = 0, i = 1,...,n

−1

αi + x*i− λ*i + v* = 0

λ*i = v* −1

αi + x*i

36

例：注⽔

❑

x*i (v* −1

αi + x*i) = 0

v* ≥ 1αi + x*i

❑

v* ≥ 1/αi → x*i = 0v* < 1/αi → x*i > 0

x*i = 1/v * −α

❑ KKT条件

❑ 则

x* ≥ 0, 1T x* = 1λ* ≥ 0λ*i x*i = 0, i = 1,...,n

−1

αi + x*i− λ*i + v* = 0

λ*i = v* −1

αi + x*i

36

例：注⽔

❑

x*i (v* −1

αi + x*i) = 0

v* ≥ 1αi + x*i

❑

v* ≥ 1/αi → x*i = 0v* < 1/αi → x*i > 0

x*i = 1/v * −α

x* ≥ 0, 1T x* = 1

37

例

37

例

❑ min f0(x) s.t. x ≥ 0

37

例

❑ min f0(x) s.t. x ≥ 0x ≥ 0

∇f0(x) ≥ 0xi(∇f0(x))i = 0

37

例

❑ min f0(x) s.t. x ≥ 0x ≥ 0

∇f0(x) ≥ 0xi(∇f0(x))i = 0

❑ KKT条件

37

例

❑ min f0(x) s.t. x ≥ 0x ≥ 0

∇f0(x) ≥ 0xi(∇f0(x))i = 0

❑ KKT条件

❑

x* ≥ 0λ* ≥ 0

λ*i (−x*i ) = 0∇f0(x*) + (−λ*) = 0

38

对偶及问题重形式化

38


❑ 某⼀问题的等价形式可产⽣⾮常不同的对偶

38


❑ 某⼀问题的等价形式可产⽣⾮常不同的对偶❑ 当对偶问题很难求解，重形式化原问题是⼀种

有效的办法

38



有效的办法❑ 常⽤的形式化

38




引⼊新的变量以及相应的等式约束

38





将显式约束隐式表达，反之亦然

38





将显式约束隐式表达，反之亦然

变换⽬标或约束函数变换

39

引⼊新变量和等式约束

39


❑ 对偶函数为常函数：

39


❑ 对偶函数为常函数：❑ 对偶问题：max p*

39



有对偶性，但⽆意义

39



有对偶性，但⽆意义❑ 重形式化问题和对偶

39



有对偶性，但⽆意义❑ 重形式化问题和对偶

❑ 对偶函数

40

范数逼近问题

40

范数逼近问题

❑ 对偶问题为

40

范数逼近问题

❑ 对偶问题为

❑ 范数逼近问题的对偶：

41

隐式约束

41

隐式约束

❑ 带框约束的线性规划

41

隐式约束


❑ 将框约束隐式表达

41

隐式约束


❑ 将框约束隐式表达

❑ 对偶函数及对偶问题：

42

扰动及灵敏度分析

42


❑ 优化问题及其对偶问题

42



❑ 扰动问题及其对偶

42




❑ x是原问题优化变量，u，v为参数

42




❑ x是原问题优化变量，u，v为参数❑ 为最优值，为u和v的函数

43

扰动问题的性质

43


❑若原问题为凸，则为的凸函数p*(u, v) (u, v)

43


❑若原问题为凸，则为的凸函数p*(u, v) (u, v)❑证明：

43



❑ p*(u, v) = infx

{f0(x) | fi(x) ≤ 0, hi(x) = 0}

43



❑ p*(u, v) = infx

{f0(x) | fi(x) ≤ 0, hi(x) = 0}

❑ = infx

g(x, u, v)

43



❑ p*(u, v) = infx

{f0(x) | fi(x) ≤ 0, hi(x) = 0}

❑ = infx

g(x, u, v)

❑ g(x, u, v) = f0(x), dom g = dom f0 ∩ D

43



❑ p*(u, v) = infx

{f0(x) | fi(x) ≤ 0, hi(x) = 0}

❑ = infx

g(x, u, v)

❑ g(x, u, v) = f0(x), dom g = dom f0 ∩ DD = {x | fi(x) ≤ 0,hi(x) = 0}

43



❑ p*(u, v) = infx

{f0(x) | fi(x) ≤ 0, hi(x) = 0}

❑ = infx

g(x, u, v)


为凸集dom g

43



❑ p*(u, v) = infx

{f0(x) | fi(x) ≤ 0, hi(x) = 0}

❑ = infx

g(x, u, v)


为凸集dom g为的凸函数(x, u, v)

44


44


❑若原问题为凸，且对偶间隙为零，λ*, w*为原问题对偶最优解，则

44



p*(u, v) ≥ p*(0,0) − λ*Tu − w*Tv

44



p*(u, v) ≥ p*(0,0) − λ*Tu − w*Tv❑ 证：设x̃为⼲扰问题的最优解

44



p*(u, v) ≥ p*(0,0) − λ*Tu − w*Tv❑ 证：设x̃为⼲扰问题的最优解❑ 则fi(x̃) ≤ ui, hi(x̃) = vi

44



p*(u, v) ≥ p*(0,0) − λ*Tu − w*Tv❑ 证：设x̃为⼲扰问题的最优解❑ 则fi(x̃) ≤ ui, hi(x̃) = vi❑ p*(0,0) = g(λ*, w*)

44




❑≤ f0(x̃) +

m

∑i=1

λ*Ti fi(x̃) +n

∑i=1

w*Ti hi(x̃)

44




❑≤ f0(x̃) +

m

∑i=1

λ*Ti fi(x̃) +n

∑i=1

w*Ti hi(x̃)

❑ ≤ f0(x̃) + λ*Tu + w*Tv

44


❑若原问题为凸，且对偶间隙为零，为原问题对偶最优解，则

λ*, w*

p*(u, v) ≥ p*(0,0) − λ*Tu − w*Tv❑ 证：设为⼲扰问题的最优解x̃❑ 则fi(x̃) ≤ ui, hi(x̃) = vi❑ p*(0,0) = g(λ*, w*)

❑ ≤ f0(x̃) +

m

∑i=1

λ*Ti fi(x̃) +n

∑i=1

w*Ti hi(x̃)

❑ ≤ f0(x̃) + λ*Tu + w*Tv❑ = p*(u, v) + λ*Tu + w*Tv

45

灵敏度分析

45

灵敏度分析

❑p*(u, v) ≥ p*(0,0) − λ*Tu − w*Tv

45

灵敏度分析

❑p*(u, v) ≥ p*(0,0) − λ*Tu − w*Tv

❑若⽐较⼤：若我们加强约束，最优值⼤幅增加λ*i i{ui < 0} p*

45

灵敏度分析

❑p*(u, v) ≥ p*(0,0) − λ*Tu − w*Tv


❑若⽐较⼩：若我们放松约束，最优值不会减⼩

太多

λ*i i{ui > 0} p*

45

灵敏度分析

❑p*(u, v) ≥ p*(0,0) − λ*Tu − w*Tv



太多

λ*i i{ui > 0} p*

❑若较⼤且为正，我们选择，最优值必然⼤幅增加w*i vi < 0 p*

45

灵敏度分析

❑p*(u, v) ≥ p*(0,0) − λ*Tu − w*Tv



太多

λ*i i{ui > 0} p*


❑若较⼤且为负，我们选择，最优值必然⼤幅增加w*i vi > 0 p*

45

灵敏度分析

❑p*(u, v) ≥ p*(0,0) − λ*Tu − w*Tv



太多

λ*i i{ui > 0} p*



❑若较⼩且为正，我们选择，最优值不会减⼩太多w*i vi > 0 p*

45

灵敏度分析

❑p*(u, v) ≥ p*(0,0) − λ*Tu − w*Tv



太多

λ*i i{ui > 0} p*



❑若较⼩且为正，我们选择，最优值不会减⼩太多w*i vi > 0 p*

❑若较⼩且为负，我们选择，最优值不会减⼩太多 w*i vi < 0 p*

46

局部灵敏度分析

46


❑ 若原问题为凸且强对偶，在在可微，则有p*(u, v) (0,0)

46



❑ 证明：根据全局灵敏度分析结果

46




❑ 若仅有⼀个不等式约束，

46




❑ 若仅有⼀个不等式约束，❑ 最优值的图像：p*(u)

47

基于⼴义不等式的问题

47


❑ 定义和标量形式是⼀致的

47


❑ 定义和标量形式是⼀致的❑ 的Lagrange乘⼦为向量

47


❑ 定义和标量形式是⼀致的❑ 的Lagrange乘⼦为向量❑ Lagrangian函数

为

47


❑ 定义和标量形式是⼀致的❑ 的Lagrange乘⼦为向量❑ Lagrangian函数

为

❑ 对偶函数

48

下界性质

48

下界性质

❑ 若，则

48

下界性质

❑ 若，则❑ 证明：若为可⾏的，且，则有

48

下界性质


❑ 对所有可⾏解，为最优值，有

48

下界性质


❑ 对所有可⾏解，为最优值，有❑ 对偶问题

48

下界性质


❑ 对所有可⾏解，为最优值，有❑ 对偶问题

❑ 弱对偶：，强对偶：

49

半定规划

49

半定规划

❑ 原问题

49

半定规划

❑ 原问题

❑ Lagrange乘⼦为矩阵

49

半定规划

❑ 原问题

❑ Lagrange乘⼦为矩阵❑ Lagrangian函数

49

半定规划

❑ 原问题


❑ 对偶函数

49

半定规划

❑ 原问题


❑ 对偶函数

❑ 半定规划的对偶

49

半定规划

❑ 原问题


❑ 对偶函数

❑ 半定规划的对偶

❑ 若半定规划是严格可⾏的，则

5.最优化方法-对偶 1 - southeast university · 2 对偶 lagrange对偶问题...

Documents