ばらつき抑制のための確率最適制御 .. . 藤本健治...

. . . . . .

.

.

. ..

.

.

ばらつき抑制のための確率最適制御

藤本健治 (名古屋大学)

http://www.haya.nuem.nagoya-u.ac.jp/˜fujimoto/

2011年 3月 9–11日力学系の応用研究集会

藤本健治 (名古屋大学) ばらつき抑制のための確率最適制御 2011/03/09-11力学系研究会 1 / 46

. . . . . .

Outline

.. .1 背景と目的

.. .2 ベイズ推定

.. .3 状態空間モデルの変分ベイズ推定

.. .4 確率最適制御

.. .5 おわりに


. . . . . .

Outline





.. .5 おわりに


. . . . . .

フィードバック制御 (1/2)

フィードバック制御

PlantController+

-

u yr

目的与えられた Plantに対して Controllerを設計して

limt→∞∥y(t) − r(t)∥ = 0

を達成するPlant: 状態空間モデル

非線形の微分方程式

dxdt= f (x(t), u(t))

y(t) = h(x(t), u(t))

線形の漸化式

x(t + 1) = A x(t) + B u(t)y(t) = C x(t) + D u(t)


. . . . . .

フィードバック制御 (2/2)

フィードバック制御

PlantController+

-

u yr

制御するためには...モデルの同定・推定

x(t + 1) = A x(t) + B u(t)y(t) = C x(t) + D u(t)

モデルに基づく制御 (内部状態 x(t)の推定は別途)

u(t) = K x(t)


. . . . . .

確定 vs確率

最尤推定 (確定) vs ベイズ推定 (確率)

x

y

ox

y

o


. . . . . .

確定 vs確率

最尤推定 (確定)○ もっともあり得そうな値 (最尤値)を推定するが，推定値の確からしさは不明

○ 計算量は多くない× 自由度は少ない

ベイズ推定 (確率)◎ 最尤値だけでなく確率密度関数が推定できる× 計算量は多い (積分計算は近似するか数値計算)○ 自由度が高い○ 確定データ以外の事前情報を用いることができる


. . . . . .

確定 vs確率

制御工学では確定的な推定値を求める推定法が主流カルマンフィルタ (⇐最尤推定)最小二乗法 (⇐最尤推定)部分空間法 (⇐特異値分解・主成分分析)

機械学習の分野では両方の研究があるEMアルゴリズム (⇐最尤推定+近似+ダイナミックモデル)モンテカルロ法 (⇐ベイズ推定+数値計算)ラプラス近似 (⇐ベイズ推定+近似)変分ベイズ法 (⇐ベイズ推定+近似+ダイナミックモデル)


. . . . . .

ばらつき抑制のための最適制御

ベイズ推定された結果をどう制御に活かすか?⇒ばらつき抑制に利用したい!

!"#$%"

&"'()!*)!+!

," !"#$%"

&"'()!*)!+!

,"

-.$/0.-!120/234.!

これまでのロバスト制御は「確定的な」誤差しか扱えなかった


. . . . . .

Outline





.. .5 おわりに


. . . . . .

共役事前分布

事後分布︷︸︸︷p(X|Y) =

尤度 (モデル)︷︸︸︷p(Y|X)

事前分布︷︸︸︷p(X)∫

p(Y|X) p(X) dX

目標: 「事後分布」 p(X|Y)の解析解を求めたい!

å 「事前分布」 p(X)および「尤度 (モデル)」 p(Y|X)をうまく選ぶ必要がある．

å 可解となるいくつかの組み合わせが知られているが，変分ベイズでは「事後分布」と「事前分布」が同様の形になる共役事前分布が良く用いられる．

å この条件を満たすように，「事前分布」p(X)だけでなく制御対象に関連する「尤度 (モデル)」p(Y|X)にも仮定が必要なことに注意する．


. . . . . .

共役事前分布の例

例y = θu + w

ノイズ w ∼ N(0, σw) (正規分布)とすると，尤度関数は...

p(w) = p(y − θu) =1√

2πσw

exp(y − θu)2

2σw

≡ p(u, y|θ)

⇒ 事前分布 p(θ)として正規分布を選べば良い!

p(θ) =1√

2πσθexp

(θ − µθ)2

2σθ

よって

p(u, y|θ)p(θ) = (定数) × exp(θの 2次式)

となり，積分が可能であり，事後分布も正規分布!藤本健治 (名古屋大学) ばらつき抑制のための確率最適制御 2011/03/09-11力学系研究会 13 / 46

. . . . . .

変分ベイズ法の問題設定

状態空間モデルへの適用例

制御対象{xt+1 = Axt + But + wt , wt ∼ N(0,Q), x0 ∼ N(µ0,Σ0)yt = Cxt + Dut + vt , vt ∼ N(0, R)

推定対象

Θ := {A, B,C, D,Q, R} システムパラメータX := {x0, x1, . . . , xt , µ0,Σ0} 状態変数 (隠れ変数)

仮定: Θと X が独立!

p(Θ, X) ≡ p(Θ)p(X)

⇒これにより p(Θ)と p(X)を交互に推定できる．


. . . . . .

変分ベイズ法のアルゴリズム

具体的な更新則は以下のようになるVB-Eステップ

q(X)(new) ∝ p(X) exp Eq(Θ)(old) [log p(X, Y|Θ)]

VB-Mステップ

q(Θ)(new) ∝ p(Θ) exp Eq(X)(old) [log p(Θ, Y|X)]

期待値演算 E(·)が既知の関数となるように各分布 p(·), q(·)の形を仮定する必要がある (共役事前分布)


. . . . . .

変分ベイズ法の特徴

○ 事後分布を解析的に導出するため，計算量が少なく，結果も扱いやすい．

× 解析解を求めるために問題設定自体を工夫 (近似)する必要がある．

× 近似の方法によっては精度が劣化する．


. . . . . .

Outline





.. .5 おわりに


. . . . . .

状態空間モデルの変分ベイズ推定

状態空間の変分ベイズ推定 (提案法)

制御対象{xt+1 = Axt + But + wt , wt ∼ N(0,Q), x0 ∼ N(µ0,Σ0)yt = Cxt + Dut + vt , vt ∼ N(0, R)

推定対象ΘI := {A, B,Q}ΘO := {C, D, R}X := {x0, x1, . . . , xt , µ0,Σ0}

p(ΘI,ΘO, X) ≡ p(ΘI)p(ΘO)p(X)


. . . . . .

共役事前分布

共役事前分布:事後分布と事前分布がほぼ同じ形となる分布族

p(X|Y) =p(Y|X)p(X)∫p(Y|X)p(X)dX

従来法 [Beal’03, Barber & Chiappa’07]状態変数 xt などに 1次元正規分布を仮定提案法Q, Rはウィシャート分布，それ以外の変数は多次元正規分布を仮定(得られた事後分布を再び事前分布として用いる繰り返し学習も可能)

p(vec(A, B)|µAB,Q,G) = N(vec(A, B)|µAB,G ⊗ Q)p(vec(C, D)|µCD, R, H) = N(vec(C, D)|µCD, H ⊗ R)

p(Q|ν, SQ) ∝ |Q−1|(ν−n−1)/2 exp{−1

2tr(Q−1SQ

−1)}

p(R|η, SR) ∝ |R−1|(η−l−1)/2 exp{−1

2tr(R−1SR

−1)}


. . . . . .

状態方程式の同値変換

同値変換によって変換されるシステムは等価のはず{x = Ax + Buy = Cx + Du

座標変換 ⇓ x = Tx

{ ˙x = T AT−1 x + TBuy = CT−1 x + D

変分ベイズ法は同値変換に対して「不変」か?


. . . . . .

不変性

共役事前分布

p(A, B,C, D|Q−1, R−1)

p(A, B, C, D|Q−1, R−1)

変分ベイズ推定事後分布

q(A, B,C, D|Q−1, R−1)

q( A, B, C, D|Q−1, R−1)

fT fT

-

-? ?

?

��

上図の不変性が導ける


. . . . . .

同値変換に対する同時分布の不変性

システムパラメータの同時分布 p(Θ)として任意の分布を許すならば，座標変換 x = Txに対して同時分布は不変．

p(A, B,C, D,Q, R) = p(T AT−1, TB,CT−1, D, TQTT, R)

すなわち同値な状態空間モデルの尤度は等しい!なお，システムパラメータの微小体積も不変．

d(A, B,C, D,Q, R) = d(T AT−1, TB,CT−1, D, TQTT, R)

å 提案法の分布は，上記の関係を満たす!


. . . . . .

同値変換に対する推定アルゴリズムの不変性

内部状態 X の推定アルゴリズムは，カルマンフィルタ・スムーサであり同値変換に対して不変(モデルを座標変換すれば，状態推定値も座標変換される)

システムパラメータ Θの推定アルゴリズムは，同値変換に対して不変か?(状態の初期分布 (事前情報)を座標変換 x = Txした場合に得られる事後分布も同様に座標変換されるか?)

å 一般にどうなるかは不明だが，提案法の分布であれば Yes!


. . . . . .

数値例

同定対象真値

A =(

1 0.3−0.06 0.94

), B =

(0

0.06

), C = ( 1, 0 ) , D = 0

初期推定値

A =(

1 11 1

), B =

(11

), C = ( 1, 1 ) , D = 1

同定入力はインパルス入力を用いた


. . . . . .

数値例 (ℓ2 ノルム出力誤差の推移)

ℓ2 ノルム出力誤差の推移青: 推定の平均値赤: 推定の平均値 ± 2σの変動

0 20 40 60 80 100

0

1

2

3

4

5

x 105


. . . . . .

数値例 (50ステップ学習後の推定値)

ボード線図 (50ステップ学習後の推定値)緑: 真値青: 推定の平均値赤: 推定の平均値 ± 2σの変動

10-1

100

101

-40

-20

0

20

10-1

100

101

-200

0

200


. . . . . .

数値例 (200ステップ学習後の推定値)

ボード線図 (200ステップ学習後の推定値)緑: 真値青: 推定の平均値赤: 推定の平均値 ± 2σの変動

10-1

100

101

-40

-20

0

20

40

10-1

100

101

-300

-200

-100

0


. . . . . .

Outline





.. .5 おわりに


. . . . . .

ばらつき抑制のための最適制御

ベイズ推定された結果をどう制御に活かすか?⇒ばらつき抑制に利用したい!

!"#$%"

&"'()!*)!+!

," !"#$%"

&"'()!*)!+!

,"

-.$/0.-!120/234.!

これまでのロバスト制御モデル化誤差: 確定的に扱うノイズ: 確定的・確率的に扱う


. . . . . .

最適制御

制御対象xt+1 = Axt + But

評価関数

(有限時間): JT(u) =T−1∑t=0

(xT

t Qxt + uTt Rut

)+ xT

T FxT

(無限時間): J∞(u) =∞∑

t=0

(xT

t Qxt + uTt Rut

)⇒ 評価関数 JT, J∞ を最小にする入力

ut = u⋆t (xt , t)

を求める!


. . . . . .

最適性の原理

評価関数の最小値を V(x0)とおくと，次が成立 (最適性の原理)．

V(xt) := minut ,...,uT−1

J(u|xt) = minut

(V(xt+1) + xT

t Qxt + utTRut

)2次形式の V(xt) = xT

t Πt xt を代入すれば行列 Πt に関する漸化式を得る．

xTt Πt xt = min

ut

(xT

t+1Πt+1xt+1 + xTt Qxt + ut

TRut)

= minut

((Axt + But)TΠt+1(Axt + But) + xT

t Qxt + utTRut

)入力 ut は 2次式なので簡単に最小化できる (リッカチ方程式)

u⋆t = − (R + BTΠt+1B)−1(BTΠt+1 A)xt

Πt =Q + ATΠt+1 A − (ATΠt+1B)(R + BTΠt+1B)−1(BTΠt+1 A)

有限時間問題: ΠN = Fとして漸化式を解く無限時間問題: Πt+1 = Πt = ΠとしてΠを求める


. . . . . .

LQG制御

LQG(Linear Quadratic Gaussian)制御問題

xt+1 = Axt + But + Gϵt

変数 ϵt は確率変数

評価関数

(有限時間): JT(u) = E

T−1∑t=0

(xT

t Qxt + uTt Rut

)+ xT

T FxT

∣∣∣∣∣∣∣∣ x0

(無限時間): J∞(u) = E

∞∑t=0

(xT

t Qxt + uTt Rut

)∣∣∣∣∣∣∣ x0


. . . . . .

分散抑制のための制御法

制御対象xt+1 = Axt + But + Gϵt

MCV(Minimum Cost variance)制御問題 [Sain’66]

J(u) =E[J] + λ var[J]

J =T−1∑t=0

(xTt Qxt + uT

t Rut) + xTT FxT

RS(Risk Sensitive)制御問題 [Whittle’81]

J(u) = − 2θ−1 log E[exp(−θ2

J)]

=E[J] − θ4

var[J] + O(θ2)

⇒システムパラメータ A, Bの変動は扱えない


. . . . . .

分散抑制のための確率最適制御

確率変数を含む最適制御問題 [De Koning’82, F’10]

xt+1 = At xt + Btut + Gtϵt

変数 At , Bt , Gt , ϵt は確率変数

評価関数

(有限時間): JT(u) = E

T−1∑t=0

(xT

t Qxt + uTt Rut + tr (S cov[xt+1|xt])

)+ xT

T FxT

(無限時間): J∞(u) = E

∞∑t=0

(xT


)ただし

tr (S cov[xt+1|xt]) = E[xTt+1Sxt+1|xt] − E[xt+1]TSE[xt+1|xt]


. . . . . .

最適性の原理

簡単のため，S = 0とする．評価関数の最小値を V とおくと，次が成立(最適性の原理)．

V(xt) := minut ,...,uT−1

J(u|xt) = minut

(E[V(xt+1)|xt] + xT

t Qxt + uTt Rut

)上式に 2次形式の V を代入すれば行列 Πt に関する漸化式を得る．

V(xt) = xTt Πt xt + βt .


. . . . . .

確率最適制御の解

リッカチ方程式に類する方程式を解くことで得られる

ut = − (R + ΣBB + E[BTΠt+1B])−1(ΣBA + E[BTΠt+1 A])xt

Πt =Q + ΣAA + E[ATΠt+1 A] − (ΣAB + E[ATΠt+1B])

× (R + ΣBB + E[BTΠt+1B])−1(ΣBA + E[BTΠt+1 A])ΠT =F

ただしΣXY := E[XTSY] − E[X]TSE[Y].


. . . . . .

従来の最適制御との比較

従来の最適制御における制御則

ut = − (R + BTΠB)−1BTΠAxt

Π =Q + ATΠA − ATΠB(R + BTΠB)−1BTΠA

リッカチ方程式

提案法における制御則 (S = 0, T = ∞の場合)

ut = − (R + E[BTΠB])−1E[BTΠA]xt

Π =Q + E[ATΠA] − E[ATΠB](R + E[BTΠB])−1E[BTΠA]

2次式にはなるがリッカチ方程式にはならない⇒非線形最適化を用いて求解


. . . . . .

数値例 (1/2)

システムのパラメータ

E[A] =(

1 0.1−0.01 0.99

)E[B] =

(0

0.01

)

cov[vec(A, B)] =

0 0 0 0 0 00 2.5 × 10−5 0 0 0 00 0 0 0 0 00 0 0 0.245 0 00 0 0 0 0 00 0 0 0 0 2.5 × 10−5

設計パラメータ

Q =(10 00 10

), R = 1, F =

(40 00 40

)藤本健治 (名古屋大学) ばらつき抑制のための確率最適制御 2011/03/09-11力学系研究会 39 / 46

. . . . . .

数値例 (2/2)

従来法と提案法 (S = 100)の状態 x1

0 50 100 150 200 250−50

−40

−30

−20

−10

0

10

20

30

40

50

time

sta

te X

1

0 50 100 150 200 250−5

0

5

10

15

20

25

time

sta

te X

1

従来法と提案法 (S = 100)の入力 u

0 50 100 150 200 250−4000

−3000

−2000

−1000

0

1000

2000

3000

0 50 100 150 200 250−250

−200

−150

−100

−50

0

50

100

150


. . . . . .

無限時間の確率制御系の安定性

制御対象 (加法的なノイズのない系)

xk+1 = At xt

平均安定limt→∞

E[xt |x0] = 0

平均二乗安定 [De Koning’82]

limt→∞

E[∥xt∥2|x0] = 0


. . . . . .

確率最適制御系の安定性

.定理..

.

. ..

.

.

制御系xt+1 = At xt + Btut

が平均二乗可安定であるとき，前出の制御則は無限時間確率最適制御問題の解となる．

ut = − (R + ΣBB + E[BTΠB])−1(ΣBA + E[BTΠA])xt

Π =Q + ΣAA + E[ATΠA] − (ΣAB + E[ATΠB])

× (R + ΣBB + E[BTΠB])−1(ΣBA + E[BTΠA])

⇒平均二乗可安定性のもとで，最適性の十分条件も示すことができる!


. . . . . .

証明の概略

評価関数:

JT(u) =E

T−1∑t=0

(xT


)+ xT

T FxT

ここで，BL を次のように定義すると，

BLΠ :=Q + LTRL + E[(A − BL)T(Π + S)(A − BL)]

− E[(A − BL)]TSE[(A − BL)]

BL はフィードバックを ut = −Lxt としたときの評価関数の変化率を表す．

J t(u) := xT0BL

t Fx0

この関数 BL は単調非減少関数であり J の下限を与え、平均二乗可安定性から J の上限が存在し，J は有界の値に収束することが示せる．このことが定理を導く．


. . . . . .

Outline





.. .5 おわりに


. . . . . .

おわりに

本発表では · · ·制御工学的に妥当な問題設定の元で状態空間モデルのベイズ推定法を導出同値変換に対するアルゴリズムの不変性を考察ばらつきを抑制するための確率最適制御数値例による検証

課題推定

扱う分布をどこまで一般化できるか?変分ベイズ以外の近似 or数値的推定法客観確率 vs主観確率?

制御制御性能 (2次モーメント)の評価状態推定を含めた出力フィードバック設計問題設計と推定の一体化


. . . . . .

参考文献

[1] D. Barber and S. Chiappa.Unified inference for variational Bayesian linear Gaussian state-space models.In Advances in Neural Information Processing Systems 19 (NIPS 20), pp. 81–88. The MIT Press, 2007.

[2] M. J. Beal.Variational Algorithms for Approximate Bayesian inference.PhD thesis, University of Londong, London, UK, 2003.

[3] W. L. De Koning.Infinite horizon optimal control of linear discrete time systems with stochastic parameters.Automatica, Vol. 18, No. 4, pp. 443–453, 1982.

[4] K. Fujimoto, S. Ogawa, Y. Ota, and M. Nakayama.Optimal control of linear systems with stochastic parameters for variance suppression: The finite time horizon case.In Proceedings of the 18th IFAC World Congress, 2011.

[5] K. Fujimoto, A. Satoh, and S. Fukunaga.System identification based on variational bayes method and the inavriance under coordinate transformations.Submitted, 2011.

[6] M. K. Sain.Control of linear systems according to the minimal variance criterion: A new approach to the disturbance problem.IEEE Trans. Autom. Contr., Vol. 11, No. 1, pp. 118–122, 1966.

[7] P. Whittle.Risk-sensitive Linear/Quadratic/Gaussian control.Advances in Applied Probability, Vol. 13, pp. 764–777, 1981.

[8] 福永,藤本.状態空間モデルを用いた非線形独立成分分析.システム制御情報学会論文集, Vol. 20, No. 10, pp. 404–412, 2007.

[9] 福永,藤本.H∞ フィルタを用いた非最小位相系の独立成分分析.電子情報通信学会論文誌 D, Vol. J91-D, No. 6, pp. 1648–1655, 2008.


ばらつき抑制のための確率最適制御 .. . 藤本健治...

Documents