2 章 最適制御の理論 - esri.go.jp ·...

35
202 章 最適制御の理論 この章では、制御理論一般について概説する とともに、最適制御理論において用いられる基 本的な概念を解説し、最適制御理論の主な成果 を紹介する。さらに、複数のサブシステムから なる大規模システムの最適制御問題を扱う階 層制御理論の考え方も解説する。 2.1 制御理論とは 2.1.1 制御の考え方 ある対象を制御するということは、所定の目 的に適合するようにその対象に操作を加える ことである。したがって、対象の構造そのもの を変化させてしまうような操作は制御理論で は扱わない。一般に制御の対象(制御対象 controlled object)となるのは入-出力システ ムであり、制御理論でいう操作とはこの入-出 力システムに対する入力の操作を意味する。そ して、目的に合うように対象に操作を加える仕 組を制御系と呼ぶ。 一般に、制御理論で扱う制御対象や制御系全 体のシステムは動的な入-出力システムであ り、入力や出力は明示的に時間の関数として表 現される。したがって、制御理論における制御 の目的もシステムの動的な特性、すなわち時間 とともに変化するシステムの挙動に関して設 定される。つまり制御理論とは、 1)与えられた動的システムの特性を解析す ること 2)システムが目的通りの挙動をするように 制御系を設計すること を目標とする理論である。また設計されるべき 制御系も動的なシステムであるときは、制御対 象や制御系といった区別をせずに、制御理論を 動的なシステムの特性に関する一般的な理論 であるとみなして、システム理論と呼ぶことも ある。 通常、システムの動的な特性は時間を独立変 数とする微分方程式で記述され、実際の挙動は この微分方程式の解で与えられるので、システ ムの特性を解析するということは微分方程式 (系)の解の性質を調べることに他ならない。 そうすると、制御系の設計とは目的の挙動、す なわち所望の解が得られるようなシステムを、 設計条件という制約のもとに構成することで ある。 ある動的な制御対象の入力を操作して、制御 系に目的通りの挙動を行わせるためには、2 の基本的に異なる入力方式がある。まず第 1 に、 開ループ制御(open-loop control)と呼ばれる 方式は、事前に目的通りの挙動を行わせるため の入力を算出しておき、時刻の進行にしたがっ てこれを制御対象に入力して行くというもの である。これに対して、第 2 の閉ループ制御(c- losed-loop control)あるいはフィードバック制 御(feedback control)と呼ばれる方式では、 制御対象への入力は制御対象の各時刻での出 力および状態変数と呼ばれる変数によって記 述される内部状態と、制御系の外部から与えら れる目標値と呼ばれる基準入力の関数(制御規 control rule)として決定される。そして、 このような制御系を閉ループ系または制御則 とよぶ。また、閉ループ制御では、制御規則を 実現し制御対象への入力を決定する部分を 1 の動的なシステムと考え、これを制御装置(調 節計 controller)とよぶこともある。いずれの 手法においても、制御対象の特性が特に悪い場 合には、補償要素(compensating elementとよばれる特別な動的システムを組み込んで、 制御系を設計することもある。 開ループ制御では、事前にすべての入力の時 系列(時間の関数)が与えられ、また制御対象 の状態を観測する必要がないというメリットが

Upload: others

Post on 08-Mar-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-20-

2章 最適制御の理論 この章では、制御理論一般について概説する

とともに、最適制御理論において用いられる基

本的な概念を解説し、最適制御理論の主な成果

を紹介する。さらに、複数のサブシステムから

なる大規模システムの最適制御問題を扱う階

層制御理論の考え方も解説する。 2.1 制御理論とは

2.1.1 制御の考え方

ある対象を制御するということは、所定の目

的に適合するようにその対象に操作を加える

ことである。したがって、対象の構造そのもの

を変化させてしまうような操作は制御理論で

は扱わない。一般に制御の対象(制御対象

controlled object)となるのは入-出力システムであり、制御理論でいう操作とはこの入-出

力システムに対する入力の操作を意味する。そ

して、目的に合うように対象に操作を加える仕

組を制御系と呼ぶ。 一般に、制御理論で扱う制御対象や制御系全

体のシステムは動的な入-出力システムであ

り、入力や出力は明示的に時間の関数として表

現される。したがって、制御理論における制御

の目的もシステムの動的な特性、すなわち時間

とともに変化するシステムの挙動に関して設

定される。つまり制御理論とは、 1)与えられた動的システムの特性を解析す

ること 2)システムが目的通りの挙動をするように

制御系を設計すること を目標とする理論である。また設計されるべき

制御系も動的なシステムであるときは、制御対

象や制御系といった区別をせずに、制御理論を

動的なシステムの特性に関する一般的な理論

であるとみなして、システム理論と呼ぶことも

ある。

通常、システムの動的な特性は時間を独立変

数とする微分方程式で記述され、実際の挙動は

この微分方程式の解で与えられるので、システ

ムの特性を解析するということは微分方程式

(系)の解の性質を調べることに他ならない。

そうすると、制御系の設計とは目的の挙動、す

なわち所望の解が得られるようなシステムを、

設計条件という制約のもとに構成することで

ある。 ある動的な制御対象の入力を操作して、制御

系に目的通りの挙動を行わせるためには、2つの基本的に異なる入力方式がある。まず第1に、開ループ制御(open-loop control)と呼ばれる方式は、事前に目的通りの挙動を行わせるため

の入力を算出しておき、時刻の進行にしたがっ

てこれを制御対象に入力して行くというもの

である。これに対して、第 2の閉ループ制御(c- losed-loop control)あるいはフィードバック制御(feedback control)と呼ばれる方式では、制御対象への入力は制御対象の各時刻での出

力および状態変数と呼ばれる変数によって記

述される内部状態と、制御系の外部から与えら

れる目標値と呼ばれる基準入力の関数(制御規

則 control rule)として決定される。そして、このような制御系を閉ループ系または制御則

とよぶ。また、閉ループ制御では、制御規則を

実現し制御対象への入力を決定する部分を1つの動的なシステムと考え、これを制御装置(調

節計 controller)とよぶこともある。いずれの手法においても、制御対象の特性が特に悪い場

合には、補償要素(compensating element)とよばれる特別な動的システムを組み込んで、

制御系を設計することもある。 開ループ制御では、事前にすべての入力の時

系列(時間の関数)が与えられ、また制御対象

の状態を観測する必要がないというメリットが

Page 2: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-21-

Fig.2.1 開ループ系と閉ループ系

閉ループ制御系

あるものの、実際の制御においては、制御対象

のあらゆる初期状態に対して入力の時系列を

求めておかねばならないという問題がある。さ

らにこの手法のもっとも大きな問題点は、制御

対象の出力に影響を及ぼし、しかも人為的に操

作できないような付随的な入力(外乱 disturb- ance)が存在するときには、事前にこれを予測して入力を決定することができないという点

である。すなわち、外乱がないものとして決定

した入力を制御対象に加えている途中で、制御

対象に外乱が加わると、目的としていた挙動と

はまったく異なる挙動を示す可能性がある。 これに対して後者の閉ループ制御では、制御

対象に外乱が加わっても、入力はその時点での

制御対象の出力や内部状態に基づいて目的に合

うように決定されるので、閉ループ制御は外乱

の影響を受けにくい制御方式といえる。しかし、

不用意に閉ループ系を構成すると、制御系全体

の挙動に不安定性が生じることがある。もとも

と、制御理論はこのような閉ループ制御系の安

定性に関する理論として出発したものであり、

現在の制御理論も、閉ループ制御系の特性に関

する議論が中心となっている。特に、外乱の存

在する状況下で目標として与えられた一定(定

常)の基準入力と制御対象の出力をできるだけ

一致させるように制御を行う定値制御系(レギ

ュレータ regulator)や、外乱があまりない状況で基準入力の変化に対して制御対象の出力

をできるだけ忠実に追従させるような追従制

御系(サーボ系 servo system)は、古典制御理論、現代制御理論を問わず重要な問題として

議論されてきた。 一方、このように制御系の安定性や応答の速

さ、目標値からのずれ(偏差)など、「閉ループ

系の応答特性を制御の目的とする」ような設計

思想に基づいた制御理論に対して、異なる設計

思想に基づく制御理論もある。その代表的なも

のが最適制御(optimal control)という考え方である。そこで次に最適制御について説明する。 制御対象として多変数系や非線形系を扱うよ

うになると、必ずしも安定性や応答の速さなど、

制御系の応答特性という形で制御の目的が設定

できないことがある。そのような場合には、制

御系の挙動そのものの悪さ(あるいは良さ)に

対するなんらかの目的関数を設定し、それを最

適化(すなわち、最小化または最大化)するよ

うな入力によって制御を行うことが考えられる。

これが、最適制御における設計思想である。こ

のような場合、目的関数を決めて最適化を行え

ば、制御系の特性がどうであろうとも求められ

出力 目標

制御入力

目標出力

制御入力

制御装置 I

制御装置 II

制 御 装 置 制 御 対 象

制 御 対 象

開ループ制御系

Page 3: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-22-

た最適入力による制御が良い制御ということ

になる。したがって、最適制御において制御の

良否を決めるもっとも重要な要因は、目的関数

をどのように設定するかということである。 最適制御においても、最適な入力を事前に時

系列として求めた上でそれを制御対象に加え

る開ループ制御方式と、目的関数を最適化する

ような制御規則を求める閉ループ制御が考え

られる。最適制御の場合も外乱の影響を受けに

くく、制御対象のあらゆる初期状態に対応でき

る閉ループ制御の方が、開ループ制御よりも実

用的な制御方式である。 またこれらの制御以外に、多変数系の制御に

おける設計思想としては、閉ループ制御や補償

要素を利用することによって、相互干渉の存在

する多数の入-出力関係を、それぞれが単純で

制御し易い 1入力 1出力のスカラーシステムの集まりに変換(非干渉化)して扱おうとするも

のもある。このような制御は非干渉化制御

(decoupling control)として研究されている。 以上のように、制御理論は制御対象や制御系

の特性の解析とその設計のための理論である。

このような議論が行えるためには、まず対象と

なるシステムが解析できるような形式で与え

られていなければならない。しかし、制御対象

のほとんどは、未知パラメータを含まない微分

方程式のように明確に与えられるものではな

くて、外乱(雑音)などによる誤差を含んだ入

-出力データとして与えられる。したがって、

解析や設計を行う以前に、制御対象のモデルの

構造を決定したりモデル内の未知パラメータ

を同定しなければならない。これを制御対象の

同定問題(identification problem)という。 また、閉ループ制御においては、制御対象の

出力や内部状態に基づいて制御規則が決定さ

れる(状態フィードバック state feedback)が、実際の制御系では内部状態が直接に観測できる

とは限らない。そこで、観測可能な入力や出力

から内部状態を推定しなければならない。これ

を制御対象の状態推定問題(state estimation

problem)という。制御理論では、一般にこのような推定を行うためのシステムを状態観測器

(オブザーバ state observer)とよび、特に対象となるシステムが確率的な外乱の影響を受け

る確率システムとしてモデル化されている場合

の状態観測器をフィルタ(filter)という。 制御系の解析や設計は、このような同定、推

定結果に基づいて行われるので、制御そのもの

の理論と同定、推定の理論は切り離すことがで

きない。つまり、広い意味での制御理論はシス

テムの同定、推定の理論を含んでいる。 この他にも制御理論では、サンプリングによ

って離散化されたシステムの制御を扱うサン

プル値制御(sampled-data control)や、制御対象の特性に関する情報が不十分であったり

特性が変動してしまうような場合に、制御装置

を自動的に調節して常に最良の制御性能を保

持するような適応制御(adaptive control)などに関する議論も展開されている。 2.1.2 システムの表現と特性

システムの特性を解析するためには、システ

ムが解析できるような形式でモデル化されて

いなければならない。いわゆる古典制御理論

(フィードバック制御理論)では、システムの

入力と出力の関係だけに着目して、そのような

モデルの具体的な形としては線形定係数の微

分方程式を採用している。この微分方程式をラ

プラス変換によって複素領域の代数方程式に

変換することによって、システムは伝達関数と

いう形式で表現される。伝達関数は、システム

の入力と出力の関係を直接に表現しているの

で、システムの外部記述ともよばれる。古典制

御理論では、この伝達関数表現によってシステ

ムの特性が解析され、それに基づいて制御系が

設計されている。 多くの実用的なシステムがこのようなモデル

化によって解析、設計できるので、現在でも制

御の技術としては古典制御理論が重要な位置を

占めている。しかし、このようなモデル化には、

Page 4: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-23-

線形定係数近似ができ、しかも 1入力 1出力をもつスカラーシステムにしか適用できないと

いう大きな制約があるために、より広い適用範

囲をもつモデルとその解析のための理論が発

展してきた。これが現代制御理論である。 現代制御理論では、状態空間という概念を導

入して、システムの入力と内部状態の間の動的

な関係を表す状態方程式と、内部状態と出力の

間の動的な関係を表す観測方程式を用いて、シ

ステムを表現する。これをシステムの状態変数

表示という。伝達関数によるシステムの表現が

外部記述とよばれるのに対して、このような状

態変数表示によるシステムの表現を内部記述

ともいう。状態方程式は多くの動的なシステム

を表現しうる汎用的なモデルであるので、現代

制御理論において、はじめて多入力多出力シス

テムや非線形システムなどの一般的なシステ

ムに関する議論が展開できるようになった。し

かし、数学的には線形の場合が扱いやすいこと

や、多くの工学的システムが実用的な範囲内で

線形システムとして扱えることなどから、現代

制御理論においても、線形システムに関する理

論の発展が主である。

Fig.2.2 システムの内部記述と外部記述の例

一般に、m個の独立な入力と p個の出力をもつ線形システムは、

x(t)=A(t)x(t)+B(t)u(t):状態方程式 y(t)=C(t)x(t) :観測方程式

によって表現される。ここで u(t)∈Rm を入力

変数、y(t)∈Rpを出力変数と呼び、x(t)∈Rnを

状態変数とよぶ。また A(t)、B(t)、C(t) は、大きさがそれぞれ n×n、n×m、p×n であるような時間の関数の行列である。 このように、各変数の係数行列を時間の関数

として与えるのが線形システムのもっとも一般

的な状態変数表示であり、これらの行列はシス

テムの構造を表すものである。しかし通常、工

学的な制御の対象となるほとんどの物理システ

ムでは構造が変化しない。そこで、係数行列が

明示的に時間の関数であるシステムを線形時変

(パラメータ)システムとよぶのに対して、係

数行列が時間的に変化しない線形システムを

x(t)=Ax(t)+Bu(t) y(t)=Cx(t)

と表示して、線形時不変(パラメータ)システ

ム(線形定係数システム)とよぶ。線形定係数

システムは、もっとも扱いやすいシステムであ

ること、さらにこのシステムに関する制御の理

論は係数行列が既知であるような線形時変シ

ステムにもほとんどそのまま適用できること

から、現代制御理論の基礎となっている。 線形定係数システムでは、その内部記述と外

部記述はラプラス変換によって直接に関係付け

られる。実際、システムの状態方程式および観

測方程式をラプラス変換して状態変数を消去す

れば、

)(tvC

)(tiC

)(tiL

)(tvL)(tei

R 1 R 2

L

C

Page 5: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-24-

Y(s)=C(sI-A)-1x0+C(sI-A)-1BU(s) ただし Y(s)、U(s)はそれぞれ y(t)、u(t)のラプラス変換、x0は x(t)の初期条件 という関係が得られる。ここで上式において初

期条件を x0 = 0とおいた

Y(s)=C(sI-A)-1BU(s) という関係における行列 C (sI-A)-1B は、こ のシステムの入-出力の動的な挙動を明示的に

表現しているので、このシステムの外部記述(伝

達関数行列)である。もちろん、制御理論にと

って重要であるシステムの安定性や応答の速さ

といった特性もこの行列に依存している。特に

このシステムの挙動がどのような初期値に対し

ても安定的であるためには、det(sI-A)=0、すなわちこのシステムの特性多項式= 0の解つまり特性方程式の根(伝達関数の極)がすべて負

の実数部をもたなければならない。このように、

複素平面における特性方程式の根の配置は、シ

ステムの制御において重要な役割をもつ。 さて、システムの内部記述(すなわち状態変

数表示)においては、状態変数はシステムの物

理的な状態を特徴付けるように選ぶのが一般

的である。しかし入-出力関係だけに着目すれ

ば、同一の関係を表すような状態変数の選び方

は無数に存在する。これは逆に考えれば、異な

る状態変数表示すなわち異なるシステムであ

っても、同一の入-出力関係をもつものが無数

に存在することを意味している。そこで、制御

理論においては、異なるシステムの間に等価性

という概念を定義して、同一の入-出力関係を

もつシステムを分類している。 [定義]システムの等価性 2つのシステム

x(t)=Ax(t)+Bu(t) y(t)=Cx(t)

x ’ (t)=A’x’(t)+B’u(t) y(t)=C’x’(t)

は、ある正則行列 Qが存在して

x ’ (t)=Qx(t) A’=QAQ -1 B’=QB C’=CQ -1

なる関係が存在するとき、等価なシステム

(equivalent system)であるという。 このとき、行列 Qは方程式に現れる変数に関する座標変換を定めるものであり、あるシステ

ムを等価なシステムに変換するための変換行

列と呼ばれる。この等価変換によってシステム

の入-出力関係は保存されるので、等価なシス

テムの伝達関数行列は等しくなることが容易

に証明される。 ところで、システムを状態変数表示を用いて

モデル化すれば、システムの動的な特性を、入

-出力関係だけではなくて、内部状態の変化を

規定する構造にも立ち入ってより詳細に議論

することが可能になる。このようなシステムの

構造に関する性質のうちもっとも重要なもの

が、可制御性と可観測性である。そして、この

可制御性と可観測性は現代制御理論のもっと

も重要な概念である。 システムの可制御性とは、システムの入力と

内部状態の間の関係に関する性質であり、状態

方程式だけによって決まる性質である。すなわ

ち [定義]システムの可制御性(controlability) システムの状態方程式において、任意の初期

条件 x(t0)=x0、および任意の終端条件 x(tf)= xfを満たすような入力の時系列 u(t),t0 ≦ t <

Page 6: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-25-

tfが存在するとき、このシステムは可制御であ

るという。 一方、可観測性はシステムの内部状態と出力

の間の関係に関する性質であって、出力の観測

値から内部状態を決定できるかという問題に

関わっている。 [定義]システムの可観測性(observability) 状態変数表示されたシステムにおいて、t0 ≦

t ≦ t1なる時間区間での入力 u(t) と出力 y(t)を観測することによって、システムのすべての

内部状態 x(t) が決定できるとき、このシステムは可観測であるという。 可制御や可観測という性質は、そのシステム

のメカニズムの特徴を表すものであり、制御理

論において、特に次節に述べる状態フィードバ

ックによる閉ループ制御系の構成に関する理

論において、重要な役割を果たす。そこでは、 『可制御なシステムに状態フィードバックを

施した閉ループシステムの特性方程式の根は

任意に配置できる』 という性質や、 『可観測なシステムでは状態フィードバック

を施すための状態推定を行う観測器を構成で

きる』 という性質を説明したうえで、希望通りの根の

配置をもつようなフィードバック制御系を構

成できることを示す。 一般に、あるシステムの外部記述が与えられ

たとき、そのシステムを内部記述によって表現

する問題を実現問題(realization problem)とよぶ。そして上記のような理由から、システム

は(可能な限り)可制御かつ可観測な内部記述

によって表現するのが望ましい。 2.1.3 状態フィードバック

線形定係数システム x(t)=Ax(t)+Bu(t) y(t)=Cx(t) において、状態フィードバックを施すというこ

とは、システムの入力 u(t) を

u(t)=φ(x(t), r(t)) のように状態変数の関数として与えることで

ある。ここで r(t) は基準入力とよばれ、このシステムの出力 y(t) に関して事前に設定された目標である。入力をこのようなフィードバック

形式で与えることは、システムに外乱が加わる

ような場合に大きな力を発揮する。 たとえば、特定の初期状態から制御を開始し

て、出力をある一定の値になるように制御した

い場合、その入力を開ループ制御の形式で与え

ると、システムに外乱が加わって状態が変化し

ても、もとの状態のときの入力を加え続けるた

めに、出力が目標の値にならないことがある。

これに対して、入力をフィードバック形式で与

えておけば、外乱が加わってもそのときの状態

に対応して適切に変更された入力が行われる

ので、目標の出力を維持することができる。さ

らに、古典制御理論においては、一般にスカラ

ーシステムに対して出力のみを用いたフィー

ドバックを考えて閉ループ制御を行う。これに

対して状態変数表示による状態フィードバッ

クは、内部状態というより多くの情報を用いて

閉ループ制御を行うので、制御系の設計におい

てより詳細な議論ができることになる。 一般に、状態変数の値から入力を決定するよ

うな関数のことを制御規則と呼ぶ。この制御規

則の関数形は必ずしも線形でなくともよい。し

かし、一般に線形システムの制御には

u(t)=Fx(t)+Gr(t) という形の線形状態フィードバックを用いる。 システムの制御系設計において状態フィード

バックを用いることのもっとも大きな利点は、

制御系の安定化ないしは特性方程式の根を任意

に配置できることであろう。先に述べたように、

システムの特性はその特性方程式の根の配置に

大きく左右される。そこで、特性方程式の根が

Page 7: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-26-

希望通りの配置となるような制御系を構成する

ことが、制御系の設計においてもっとも重要で

ある。すなわち、制御系の特性多項式が任意の

多項式となるような状態フィードバックが構成

できるか否かが問題となる。このとき、次の定

理が任意に根を配置できるための必要十分条

件を与える。

Fig.2.3 状態フィードバック系

[定理]あるシステム x(t)=Ax(t)+Bu(t) y(t)=Cx(t) に、状態フィードバック

u(t)=Fx(t)+Gr(t) を施すことによって、閉ループ系 x(t)=(A+BF)x(t)+BGr(t) y(t)=Cx(t) の特性多項式を、任意の多項式と一致させるこ

とができるような F(フィードバックゲイン)が存在するための必要十分条件は、もとのシス

テムが可制御であることである。 この定理から、状態フィードバックを用いた

制御系の構成においては、制御対象となるシス

テムの可制御性という性質が重要であること

がわかる。 与えられた可制御な制御対象に対して、閉ル

ープ系によって希望通りの根配置を与えるよ

うな状態フィードバックすなわち制御規則を

具体的に構成するためには、事前に制御対象の

システムに等価な変換を施して、可制御正準形

(controllable canonical form)とよばれる等価

なシステムに変換しておくと、計算するうえで

有効である。 ところで、状態フィードバックによる制御系

を具体的に構成するには、状態変数が観測され

ていなければならない。しかし、一般に状態変

数は直接観測できるとは限らない。そこで、観

測可能なシステムの入力と出力から状態変数

(つまりシステムの内部状態)を推定する必要

が生じる。このように、システムの入力と出力

から、状態変数の推定値を得るシステムのこと

を観測器(オブザーバ)とよび、特に推定値と

真の内部状態の差として定義される状態推定

誤差が、時刻の進展とともに指数関数的に 0に収束するような観測器を指数関数オブザーバ

と呼ぶ。ある意味で指数関数オブザーバは安定

的なシステムといえる。一般に制御系の設計に

おいてはこのような性質をもつ観測器を構成

することが望ましい。 観測器も一つの動的システムである。そのう

ち特に観測器の状態変数の次元が制御対象シ

ステムの状態変数の次元と等しいものを、完全

次元オブザーバ(full order observer)という。 システム

x(t)=Ax(t)+Bu(t) y(t)=Cx(t)

)(tr + )(tu )(tx )(ty )()()( tButAxtx +=

C

F

G+

Page 8: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-27-

の完全次元オブザーバの状態変数表示は z(t)=Az(t)+Bu(t)+K(Cz(t)-y(t)) で与えられる。ただし z(t)は上のシステムの状

態変数 x(t)の推定値である。 完全次元オブザーバの構成に関しては、次の

定理が成り立つことがわかっている。

Fig.2.4 完全次元オブザーバ

[定理]システム

x(t)=Ax(t)+Bu(t) y(t)=Cx(t)

の完全次元オブザーバ

z(t)=Az(t)+Bu(t)+K(Cz(t)-y(t))

の特性多項式を、任意の多項式と一致

させることができるような K が存在するための必要十分条件は、このシス

テムが可観測であることである。この

とき、この完全次元オブザーバとして

は指数関数オブザーバを取ることが

できる。

Fig.2.5 オブザーバを用いた状態フィードバック系

この定理によって、システムのオブザーバを

構成するには可観測性が重要な条件であること

G B

B

B

A

A

C

C

K

K

MF

L

積分器

積分器

積分器

積分器

A+KC

オブサーバ

)(tx

)(tx

)(tx●

)(tx●

)(tu

)(tu

)(tz●

)(ty

)(ty )(tr

)(tz

)(tz

Page 9: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-28-

がわかる。 実際には、システムの状態変数の中にはすで

に出力 y(t)に変換されていて間接的に観測可能なものも存在するので、観測器の次元は制御対

象システムの次元よりも小さくすることが可

能である。そのうちもっとも次元の小さい観測

器を最小次元オブザーバ(minimum order observer)と呼んで、観測器としてはこの最小次元オブザーバを構成することの方が多い。ま

た、具体的に観測器の特性多項式を希望通りの

多項式と一致させるには、事前に制御対象シス

テムを可観測正準形(observable canonical form)とよばれる等価なシステムに変換しておくと便利である。 一般に、完全次元オブザーバや最小次元オブザ

ーバなどの線形な観測器を用いた線形状態フ

ィードバック制御系では、制御系の伝達関数

行列は、真の状態変数を用いた状態フィード

バック制御系の伝達関数行列と等しくなるの

で、可制御な線形システムに線形オブザーバを

用いて状態フィードバックを施した制御系の

特性多項式は、任意の多項式と一致させること

ができる。 2.1.4 確率線形システム

2.1.2や 2.1.3での議論は、主にシステムの入力、内部状態、出力の関係に関するものであり、

外乱という不規則な挙動を示す変数は暗に考慮

されているに過ぎない。つまり、入力や内部状

態、出力は確定的な値をとるものとして扱われ

ている。このようなシステムを確定システムと

いう。しかし、現実のシステムでは外乱や入力

信号そのものに内在する不規則性のために、シ

ステムの内部状態の変化に撹乱が起きる。確率

システムの理論は、入力自身の不規則性、シス

テムの外乱、出力の観測誤差、内部状態の変化

における撹乱を確率変数とみなすことによって、

これらの不規則性を明示的に取り扱う理論であ

る。そして、このように入力や内部状態、出力

が確率変数として扱われるシステムを確率シス

テムとよぶ。 確率システムもシステムの構造自体は確定

システムであって、確率システムの制御理論の

基本的な展開は、確定システムの制御理論と同

じである。しかし、確率システムでは各変数が

確率的に変動をするため、変数の値そのものが

意味をもたなくなる。確率システム理論のもっ

とも大きな特徴は、各変数を値そのものではな

くて、その期待値や分散などの確率的な量によ

って表現し、これを評価することである。ここ

では、システムの構造が線形であるような、確

率線形システムの制御理論についてその主な

成果を述べる。 次のような確定線形システムを考える。

x(t)=A(t)x(t)+B(t)w(t) y(t)=C(t)x(t) x(t0)=x0

ここで w(t)∈Rm、x(t)∈Rn、y(t)∈Rp とし、

A(t)、B(t)、C(t)を、それぞれ n×n、n×m、 p×n の大きさをもち t に関して連続な関数の行列とする。 このシステムに対する入力 w(t) が確率変数であるとき、状態変数 x(t) と出力 y(t)も確率変数となり、このシステムは確率線形システムと

なる。 ここで、ある時刻 t における w(t)の期待値 を

∫w(t)p(w(t))dw(t) = E {w(t)} = mw(t) (ただし p(w(t)) は w(t) の確率密度関数)

とすると、状態変数 x(t) の期待値 E {x(t)} =mx(t) と出力 y(t) の期待値 E {y(t)} = my(t)は mx(t)=A(t) mx(t)+B(t) mw(t) my(t)=C(t) mx(t) によって決定されることが簡単に示せる。これ

Page 10: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-29-

は、入力の平均的な変化に対する内部状態と出

力の挙動は、確定線形システムとまったく同一

のものになることを意味する。したがって、確

率線形システムの挙動を考えるときに、確率線

形システムの固有の問題としては、入力の確率

的な変動に対する内部状態と出力の変動のみ

を考えればよい。 そこで以下では、入力 w(t)をその確率的な 構造が

E {w(t)} =mw(t)=0 E {w(t)wT (τ) } =W(t)δ(t-τ) (ただしδ(・)はデルタ関数)

で与えられるような白色雑音と仮定する。 またシステムの初期状態は

E {x(t0)} =E {x0} =m0 E {x0wT(t)} =0 E {(x0-m0)(x0-m0)T} =M0 E {xoxo7} =xo

で与えられており、既知であるとする。 このとき、状態変数の期待値の挙動は

mx(t)=A(t)mx(t) mx(t0)=m0

にしたがう。そして 2次の積率

X(t)=E {x(t)x(t)T} および共分散

M(t)=E {(x(t)-mx(t))(x(t)-mx(t))T} は次のような同形の微分方程式にしたがう。

X(t)=A(t)X(t)+X(t)AT(t)+B(t)W(t)B(t)T X(t0)=X0

M(t)=A(t)M(t)+M(t)AT(t)+B(t)W(t)B(t)T M(t0)=M0

これらは積率微分方程式、共分散方程式とよば

れる。また出力 y(t) の 2次の積率は

Y(t)=E {y(t)yT(t)} =C(t)X(t)CT(t) で与えられる。 この 2次の積率や共分散によって、内部状態や出力の確率的な変動の大きさ、および各成分

どうしの確率的な相互依存関係が時間ととも

にどのように変わって行くかを評価できる。 次に、状態変数の時間に関する相関、すなわ

ち自己相関関数

Rxx(t1,t2)=E {x(t1)x(t2)T} を考える。

t1=t2=tのときは明らかに

Rxx(t,t)=E {x(t)x(t)T} =X(t) である。Rxx(t1,t2) は、一般に

Rxx(t1,t2)=Φ(t1,t2)X(t 2) 1 (t1-t2) +X(t2)ΦT(t2,t1) 1 (t2-t1) (ただしΦ(t0,t) は

x(t)=A(t)x(t)x(t0)=x0 の解において x(t)=Φ(t0,t)x0 を満たす関数であり、A(t)の遷移行 列とよばれるものである。また 1 (t)は時刻 tにおける単位ステップ関数である。)

と表わせる。このとき、出力 y(t)の自己相関関数は

Ryy(t1,t2)=E {y(t1)y(t2)T} =C(t1)Rxx(t1,t2)CT(t2)

Page 11: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-30-

となる。

x(t) の自己相関関数を

Rxx(t1,t2)=E {(x(t1)-mx(t1))(x(t2)- mx(t2))T}

と定義した場合には、共分散Mを用いて

Rxx(t1,t2)=Φ(t1,t2)M(t2) 1 (t1-t2) +M(t2)ΦT(t2,t1) 1 (t2-t1)

と表せる。 これらの自己相関関数を知ることによって、

異なる時刻における内部状態や出力の確率的な

変動の相互依存関係を評価することができる。 最適制御理論においては、内部状態の変化の

評価にはしばしば次のような2次形式の評価が用いられる。

dt)t(x)t(Q)t(xTt

t

f

0∫

上述の確率システムに対してもこの2次形式評価を考えることができる。しかし x(t) は確率変数であるのでこのままでは意味をなさない。そ

こで、確率システムの 2次形式評価には、次のような期待値を利用する。

J=E { dt)t(x)t(Q)t(xTt

t

f

0∫ }

このとき,Jは上の入力 w(t) に対して

J=tr[X0P(t0)]+tr[ ∫f

0

t

tB(τ)W(τ)BT(τ)dτ]

(ただし tr[・] は行列のトレースである) で与えられる。ただし P(τ)は

P(τ)= ∫ τ

ftΦT(t,τ)Q(t)Φ(t, τ)dt

で定義され、Riccati 型の微分方程式微分方程式

-P(t)=A(t)TP(t)+P(t)A(t)+Q(t) P(tf)=0

を解くことによって得られる。これを利用すれ

ば、確率線形システムが

x (t)=A(t)x(t)+B(t)u(t)+w(t) y(t)=C(t)x(t) x(t0)=x0

であり、w(t) を上のような白色雑音としたと き、2次形式の目的関数

J=E { ∫f

0

t

t(xT(t)Q(t)x(t)+uT(t)R(t)u(t))dt}

を最小にするような最適制御問題における最

適制御 u*(t) は

u*(t)=-R-1(t)BT(t)P(t)x(t) という制御規則で与えられることがわかる。た

だし P(t) は

-P(t)=A(t)TP(t)+P(t)A(t) -P(t)B(t)R-1(t)BT(t)P(t)+Q(t)

P(tf)=0 を解くことによって得られる。 以上のように、確率システムの制御理論は確

定システムの制御理論において、確率変数の評

価として期待値や分散などを用いたものであ

る。上述以外の確定システムの制御理論も確率

システムの制御理論に導入できる。その中で、

内部状態の観測問題を確率システムおける状

態推定問題として扱ったものがフィルタの理

論である。ここでは、線形状態推定器である

Kalmanフィルタについて述べる。 線形システムを x(t)=A(t)x(t)+B(t)w(t) y(t)=C(t)x(t)+v(t) x(t0)=x0

Page 12: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-31-

とする。v(t)を確率変数とすれば、このシステムは入力に存在する雑音(システム雑音)w(t)と出力の観測における雑音(観測雑音)v(t)の両方が存在するようなシステムである。したが

って、内部状態の観測問題は雑音を含む出力か

らの状態の推定問題になる。ここで入力 u(t)を考えないのは、上に述べてきたように入力が内

部状態および出力におよぼす影響は、確定シス

テムの場合と同じになるからである。ここで

w(t)および v(t)はその確率構造が

E {w(t)} =0 E {w(t)wT(τ)} =W(t)δ(t-τ) E {v(t)} =0 E {V(t)vT(τ)} =V(t)δ(t-τ)

で与えられるような白色雑音であり、w(t)とv(t)は独立であると仮定する。また初期値に関しては

E {x0} =m0 E {(x0-m0)(x0-m0)T} =M0

であり、x0と w(t)および v(t)とは独立であり既知であるとしておく。 さて、この確率システムに対して状態推定を

行うことを考える。このような推定問題におい

ては、推定値が最小分散推定量であることを要

請するのが自然であろう。 一方、一般に線形なフィルタの特性は

z(t) = ∫t

t0

H(t,τ)y(τ)dτ+a(t,t0)

のように表現できる。ここで、H(t,τ) は荷重関数行列(インパルス応答行列)と呼ばれ、線

形システムの遷移行列に相当する。そこで、上

述のシステムの状態推定に線形なフィルタを

用いるとすれば、問題は t0≦τ<tにおける y (τ) を用いて

J=E {|x(t)-z(t)|2} (|・|はノルムを表す)

を最小にするような状態変数の推定値 z(t)を

z(t)=mx(t)+ ∫t

t0

H(t,τ)(y(τ)-my(τ))dτ

(ただし E {x(t)} =mx(t)、 E {y(t)} =my(t))

という形式で求めることである。 このような z(t)が最小分散推定値であるための必要十分条件は、フィルタの荷重関数 H(t,τ)が

E {(x(t)-mx(t))(y(τ)-my(τ))T}

= ∫t

t0H(t,σ)E {(y(σ)-my(σ))(y(τ)-

my(τ))T} dσ (t0≦τ<t) なる積分方程式を満たすことである。この方程

式は Wiener-Hopf の積分方程式と呼ばれている。これを実際に解くことは一般に不可能であ

るとされている。しかし、Kalmanと Bucyはこれを微分方程式に変換して、フィルタの構造

を決定する手法を与えた。この手法によって構

成されるフィルタは Kalman フィルタとよばれている。 結果として得られる Kalmanフィルタを、線形システムの状態変数表示によって与えると、

次のようになる。

z(t)=A(t)z(t)+G(t)(y(t)-C(t)z(t)) z(t0)=m0

ただしフィルタのゲイン G(t)=H(t,t)は G(t)=P(t)CT(t)V-1(t) で与えられ、P(t)は

P(t)=A(t)P(t)+P(t)AT(t) -P(t)CT(t)V-1(t)C(t)P(t) +B(t)W(t)BT(t)

P(t0)=M0 なる Riccati型の微分方程式を解くことによっ

Page 13: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-32-

て得られる。 2.1.5 離散時間システム

本節で述べてきた線形システムの制御理論

は、システムを連続的な時間のシステム(連続

時間システム continuous time system)として扱ってきたが、そのほとんどの成果は離散的な

時間のシステム(離散時間システム descrete time system)の制御にも適用できる。 一般に、制御理論において離散時間システム

を扱う場合、これをディジタル制御という。デ

ィジタル制御においては、対象となる離散時間

システムのとらえ方が 2通りある。第 1のとらえ方は、離散時間システムを連続時間システム

の情報が離散的にサンプリングされた結果で

あると解釈することである。この場合には、も

との連続時間システムとサンプリングによっ

て構成された離散時間システムとの関係がも

っとも重要な問題になる。すなわち、離散時間

システムはサンプル値というもとのシステム

の情報の 1部分を記述するモデルであって、このモデルによってもとの連続時間システムを

制御しなければならないときに生じる問題で

ある。この問題について議論し制御を考える理

論を、特にサンプル値制御とよんでいる。 これに対して第 2のとらえ方は、状態が離散時間毎にしか変わらない、あるいはそう考えて

かまわないようなシステムとして離散時間シ

ステムを解釈することである。このような場合

には、連続時間システムとの関係は問題となら

ないので、いままで扱ってきた連続時間システ

ムに関する議論を、システムの状態変数表示の

形式を離数時間型に換えるだけで適用するこ

とができる。 離散時間の線形システムの状態変数表示は、

一般に

x(t+1)=A(t)x(t)+B(t)u(t) y(t)=C(t)x(t) (t=0,1,・・・,T-1) x(0)=x0

で与えられる。 一般に、連続時間システムは解析的な取り扱

いには便利であるが、具体的なシステムの制御

の場面では、実際には離散化して数値計算を行

うことがほとんどである。そしてこの場合には、

陰に陽に離散時間システムが登場する。そこで、

次節以降では実際の計算方法などをわかりや

すくする意味も含めて、連続時間システムと離

散時間システムの両者を用いて解説する。また、

サンプル値制御の理論そのものについては、本

研究の流れと異なると思われるので、省略する。 2.2 最適制御理論

2.2.1 最適制御問題の定式化

これまでに述べてきたように、線形システム

の安定性や応答の速さなどの特性はシステム

の特性方程式の根の配置によって決まる。した

がって制御系の設計も、根を希望通りの位置に

配置する(あるいは、より直接的には希望通り

の伝達関数を得る)という方針で行われている。

しかし非線形なシステムでは、その挙動が特性

多項式や伝達関数という形式で表現できない

ので、線形システムのような設計方針が適用で

きない。そこで、非線形システムでは特性の良

さ(悪さ)を違う形式で表現し、これに基づい

て制御系を設計する必要がある。最適制御とは、

システムの特性をシステムの動的な挙動に関し

て、それを事前に設定した目的関数によって評

価し、もっとも評価の良い挙動を示す制御系を

求めるという設計手法である。最適制御の考え

方にもとづくと、事前に設定された目的関数に

もとづく最適化問題(optimization problem)を解くということが設計そのものになってい

る。したがって、最適制御によって設計された

制御系の性能は、どのような目的関数を用いる

かに依存している。 最適制御の設計手法は、もちろん線形システ

ムにも適用できるので、線形システムの制御問

題を扱う場合はどのような制御系を構成するの

かという目的によって、設計手法を適切に使い

Page 14: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-33-

分ける必要がある。 一般に、非線形システムを含むシステムの最

適制御系の設計は、目的関数(evaluation functionあるいは損失関数 loss function)を最適化にするようにシステムの入力を決定すると

いう最適制御問題(optimal control problem)として定式化される。 制御対象のシステムを

x (t)=f(x(t),u(t),t) y(t)=g(x(t),u(t),t) x(0)=x0

:状態方程式

:観測方程式

:初期状態

u(t)∈Rm, y(t)∈Rp, x(t)∈Rn とし、目的関数を

J(x(t),y(t),u(t),t) とすれば、最適制御問題は一般に

《制約条件》 x (t)=f(x(t),u(t),t) y(t)=g(x(t),u(t),t) x(t0)=x0 x(tf)∈Ωf u(t)∈Ωu(t0≦t<tf) x(t)∈Ωx(t0≦t<tf)

:状態方程式 :観測方程式 :初期条件 :終端条件 :制御の許容可

能性の条件 :状態の許容可

性の条件 のもとで、

《目的関数》 J(x(t),y(t),u(t),t)

を最小にする u*(t)(t0≦t<tf)を求める という問題となる。このとき、得られる最適入

力 u*(t)を、この最適制御問題における最適制

御(optimal control input)といい、u*(t)に対する内部状態の変化の軌跡 x*(t)(t0≦t≦tf)をこの問題の解あるいは最適経路(optimal traject- ory)という。 システムの出力の観測に誤差はないとすれば、

出力は内部状態によって間接的に評価できるの

で、目的関数は

J(x(t),u(t),t) となり、制約条件中の観測方程式も不要になる。 一般に目的関数は、システムのエネルギー消

費やコスト、目標とする内部状態の変化に対す

る実際の内部状態の変化のずれなど、入力や出

力、内部状態が初期時点からたどって行く経路

に関して設定される。すなわち一般に

J= ∫f

0

t

tJ1(x(t),u(t),t)dt

と表現される。また終端条件は、制御終了時刻

において内部状態を指定された状態にしなけれ

ばならないという制約である。しかしときには、

完全に指定の状態に一致しなくても、その状態

からのずれが小さければ小さいほど良いという

評価でもよいことがある。このような場合は、

制約条件から終端条件をはずして、目的関数を

J= ∫f

0

t

tJ1(x(t),u(t),t)dt+J2(x(tf),tf)

のように定式化するのが一般的である。 ところで上の定式化では、最適制御を特定の

初期条件の下での入力 u(t) の時間的な変化として求めている。これは開ループ制御によって

最適制御を行うことに他ならない。しかし実際

の制御問題においては、特定の初期条件だけを

考慮したような制御は、望ましい制御とはいえ

ない。したがって、最適制御でも閉ループ制御

を考えて、目的関数を最小にする最適制御規則

(optimal control rule)

Page 15: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-34-

u*(t)=φ*(x(t),t) を求めるような問題も考えられる。しかし一般

にこの問題を解くのは特殊な場合を除いて非

常に難しい。 最近のコンピュータの性能の向上には目ざ

ましいものがあり、実際の制御の場面で、ある

初期条件下での開ループ制御の最適解ならば、

かなり高速に求められるものが少なくない。そ

こで、適当な間隔でシステムの状態を観測し、

これを初期条件として毎回最適な開ループ制

御を計算してシステムに入力するという制御

方式も行われており、開ループ制御による最適

制御の意義も改めて見直されている。 最適制御問題は、目的関数の形式によって以

下のように分類される。

a)Bolza型

J= ∫f

0

t

tJ1(x(t),u(t),t)dt+J2(x(tf),tf)

b)Mayer型

J= J2(x(tf),tf) c)Lagrange型

J= ∫f

0

t

tJ1(x(t),u(t),t)dt

しかし、これはあくまで最適制御問題の表現

上の分類であって、同一の制御問題を状態変数

を付け加えるなどの操作を施すことによって、

いずれの型としても定式化することが可能で

ある。 一方、最適制御問題は、終端条件に現れる最

終時刻 tfと最終状態x(tf)に課せられる制約により、次の 4つの型に分類される。

1)固定終端時間・固定終端条件問題 tfが指定されており、Ωfは Rn の真部分集合 2)固定終端時間・自由終端条件問題 tfが指定されており、Ωf =Rn 3)自由終端時間・固定終端条件問題 tfは指定されず、Ωfは Rnの 真部分集合 4)自由終端時間・自由終端条件問題 tfは指定されず、Ωf =Rn

もちろん、1)や 3)の固定終端条件問題では、a)Bolza 型や b)Mayer 型の目的関数に含まれる J2は事実上意味を失う。 上のそれぞれの終端条件の型によって、最適

制御の実際的な意味は異なる。たとえば 1)は決められた時刻にシステムの内部状態を特定

の値にするようなコストを最小にする最適制

御、2)は決められた時刻までにかかるコストを最小にするような最適制御、3)はシステムの内部状態を最短時間で目標値にするような

最適制御の問題である。4)は特殊な最適制御問題であり、J1が特殊な関数であるときに限り

意味のある問題となる。 最適制御理論においてシステムが線形であり、

さらに目的関数 Jが 2次形式(quadratic form)

∫=f

0

t

t21J {|x(t)| +|u(t)| } dt+

21|x(tf)|

で与えられるような問題を線形2次形式問題と呼んで、特別に扱っている。これは、最適制御

問題では以下に述べるように、一般には最適制

御(問題の解)の必要条件しか得られないのに

対して、線形2次形式問題では必要十分条件が、状態フィードバックによる最適制御規則として

得られるからである。特に、線形 2次形式問題

2 2 2Q(t) R(t) F

Page 16: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-35-

の最適解において tf→∞としたときに得られる

フィードバック制御系をレギュレータと呼ぶ。 2.2.2 最大原理と最適制御の必要条件

最適制御問題は、システムヘの入力の時間的

な変化と、それによって生じる内部状態の時間

的な変化の組合せの中で、システムにとって許

容される(admissible)もののうち両者の汎関数(目的関数)を最小にするものを求める問題

である。一般に、ある汎関数の極値を求める問

題は変分問題と呼ばれる。そしてその解法は変

分法(variational calculus)といわれて、主に解析力学などで用いられてきた。したがって、

最適制御問題も変分法によって解くことがで

きる。現在の最適制御理論では、主に現実の制

御問題に適用できるように変分法を一般化し、

それを最大原理(maximum principle)と呼んで、最適制御の条件を求めるのに用いている。 さきに述べたように、最適制御問題にはさま

ざまな定式化があり、それぞれの形式は互いに

変換することができる。したがって、ある 1つの形式に対する最大原理を求めておけば、別の

形式に対する最大原理は形式的に変換するだ

けで得られる。そこで、ここでは基本形として

b)Mayer 型を取り上げ、この型の最適制御問題に対する最大原理を導出する。他の型の最適

制御問題に対する最大原理に関しては、巻末に

あげた最適制御理論に関する参考例を参照さ

れたい。 ところで、一般的な最適制御問題の定式化で

はシステムのとりうる内部状態に制約(状態の

許容可能性の条件)がある。このような制約は

制御問題の理論的解析を非常に困難にする。そ

こで、以下では解析的な扱い易さの点を考慮し

て、システムの入力のみに制約(制御の許容可

能性の条件)がある最適制御問題を考える。 ここで改めて、基本となる固定終端時間・自

由終端条件のMayer型問題を定式化する。

【基本問題】 u(t)∈Rm, x(t)∈Rnとして、

《制約条件》

x (t)=f(x(t),u(t)) x(0)=x0 u(t)∈Ωu(0≦t<tf) tf

:状態方程式 :初期条件 :制御の許容可

能性の条件 :固定終端時間

(指定) の下で、

《目的関数》 J=KTx(tf), K∈Rn:定数ベクトル

を最小にする u*(t)(0≦t<tf) を求める

ここで、システムの状態方程式 fが時刻 tの陽(explicit)な関数でなくなっているのは、人工的な状態変数 t=xn+1 を導入することによ

って上の形式に変換できるからである。また、

この形式では初期時刻 t0=0 としても一般性を失わない。 ところで、一般に状態方程式が

x(t)=A(t)x(t), x(t)∈Rn

で表せる線形システムに対して、状態方程式が

p(t)=-A(t)Tp(t), p(t)∈Rn となるようなシステムを、もとのシステムの随伴

(共状態)システム(ad-joint(or costate)system)といい、p(t) を随伴(共状態)ベクトル(ad-joint(or costate)vector)と呼ぶ。また随伴システムの状態方程式を随伴(共状態)方

程式(adjoint(or costate)equation)と呼ぶ。そして、もとのシステムの状態方程式の任意の解

とそれに対する随伴方程式の解の内積は、一定

Page 17: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-36-

になるという性質がある。最適制御問題におけ

る最大原理は、通常この随伴システムを利用し

て導出される。 さて、上述の基本問題において最適制御が存

在するものとして、これを u*(t)∈Ωu(0≦t< tf)、最適経路を x*(t)、このときの目的関数の値を J*=KTx*(tf)とする。いま、状態方程式において u(t)=u*(t)、x(t)=x*(t) 付近での許容可能な制御の微小変化を考えて

u(t)=u*(t)+δu(t), u(t)∈Ωu(0≦t<tf) とおく。また初期条件 x(0)=x0に u(t)を加えたときの内部状態の変化を

x(t)=x*(t)+δx(t) そのときの目的関数の値を

J=J*+δJ とする。明らかに、δJ≧0である。 x*(t) および x(t) は状態方程式の解であるから

x*(t)=f(x*(t),u*(t)) x*(t)+δx(t)=f(x*(t)+δx(t),u*(t)+ δu(t))

したがって

δx(t)=f(x*(t)+δx(t),u*(t)+δu(t)) -f(x*(t),u*(t)) δx(0)=0

である。 ところで、システムの任意の許容可能な入力

u(t)と、これによる内部状態の変化 x(t)の付近

では、内部状態の微小な変化Δ x(t) に対して

)t(x)t(u),t(x

)t(x Δ−=Δ      

    

が成立しており、これは線形システムである。

そこで、このシステムの随伴システムを、 Δ x(t) の随伴ベクトルを p(t)として

)t(p)t(u),t(x

)t(pT    

    −=

のように定義する。すると最適制御と最適経路

付近では

)t(x)t(*u),t(*x

)t(x δ−=δ    

    

KTδx(tf)=δJ であり、随伴システムは

)t(*p)t(*u),t(*x

)t(*pT      

    −=

P*(tf)=-K となる。 ここで

H(p(t),x(t),u(t))=pT(t)f(x(t),u(t)) という関数 Hを定義する。これは、通常 Hamil- ton関数(ハミルトニアン Hamiltonian)と呼ばれる。 いま

0tf∫ p*T(t)δx(t)dt

という積分を計算すると、次のようになる。

・ ・ ・

xf

∂∂

xf

∂∂

xf

∂∂

xf

∂∂

Page 18: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-37-

0tf∫ p*T(t)δx(t)dt

=[p*T(t)δx(t) 0t

] f -0tf∫ p*T(t)δx(t)dt

=-KTδx(t)+0tf∫ p*T(t)

x*(t),u*(t)

=-δJ+0tf∫

p*(t),x*(t),u*(t)

ここでδx(t) は、定義から

δx(t)=f(x*(t)+δx(t),u*(t)+δu(t)) -f(x*(t),u*(t))

であるから、これを代入すると

0tf∫ p*T(t)δx(t)dt

=0tf∫ {p*T(t)f(x*(t)+δx(t),u*(t)+δu(t))

-p*T(t)f(x*(t),u*(t))} dt

=0tf∫ {H(p*(t),x*(t)+δx(t),u*(t)+δu(t))

-H(p*(t),x*(t),u*(t))} dt

=0tf∫ {H(p*(t),x*(t),u*(t)+δu(t))

)t(x)t(u)t(*u),t(*x),t(*pδ

δ++    

 )t(x0t

21 Tf δ∫− δx(t)

-H(p*(t),x*(t),u*(t))} dt となる。ここで、u*(t)+δu(t)∈Ωuなるすべて

のδu(t)に対して、δJ≦0である。

0≦t1≦t2≦tfなる t1と t2をとり、δu(t) は区間[t1,t2]以外では 0とする。δt = t1-t2→0 とすれば δJ≒ {-H(p*(t1),x*(t1),u*(t1)+δu(t1))

+H(p*(t1),x*(t1),u*(t1))} δt

)t(u)t(*u),t(*x),t(*p 1111 δ++{    

t)t(x)t(*u),t(*x),t(*p 1

111

δδ+ }    

)t(xtt

21 T

1

f δ∫− δx(t)dt

ここで、δx(t1)、δx(t) はδt のオーダーの微小量である。よってδJの右辺の第 1項はδtのオーダー、第 2項および第 3項は (δt)2の

オーダーの微小量となる。したがって、δJは第 1 項で決まり、δJ≧0 およびδt>0 であるから、すべての u(t1)∈Ωu(0≦t1<tf) に対して次の関係が成り立つ。 H(p*(t1),x*(t1),u*(t1))≧H(p*(t1),x*(t1),u*(t1)+ δ u(t1)) あるいは、t1を tと置き換えることによって

H(p*(t),x*(t),u*(t))≧H(p*(t),x*(t),u*(t)) がすべての u(t)∈Ωu(0≦t<tf)に対して成り立つ。 以上のことから、基本問題に対する最適制御

の必要条件は

H(p*(t),x*(t),u*(t))≧H(p*(t),x*(t),u*(t)) u(t)∈Ωu(0≦t<tf)

となるような

δx(t)dt

δx(t)dt

p*(t), x*(t)+ξTδx(t),u*(t)+δu(t)

p*(t), x*(t)+ξTδx(t),u*(t)+δu(t)

xH

∂∂x

H∂∂

xH

∂∂

   ji

2

xxH∂∂

xH

∂∂

   ji

2

xxH∂∂

xf

∂∂

Page 19: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-38-

)t(*p)t(*u),t(*x

)t(*pT      

    −=

P*(tf)=-K の解 p*(t) が存在する ことで与えられる。これを最大原理という。 最大原理において p*(t) および x*(t) は未知

であるので、この式を満たす制御入力 u*(t)は

u*(t)=h(p*(t),x*(t)) のように p*(t)と x*(t)の関数としてしか求まらない。そこで、実際に入力を時間の関数として

与えるためには、この関数を状態方程式および

随伴方程式に代入して

x*(t)=f {x*(t),h(p*(t),x*(t))}

T

)t(*p              −= p*(t)

を連立させて、境界条件

x*(0)=x0 p*(tf)=-K

のもとで解くことが必要である。 このようにして、最大原理を満たす制御入力

u*(t)は開ループ制御の形で求めることができる。ここで、最大原理は最適制御のための必要

条件であるので、u*(t) は必ずしも最適制御となっていないこともあることに注意しなけれ

ばならない(つまり最大原理は必要条件であっ

て十分条件ではない)。もちろん、u*(t) が最適制御であれば最大原理を満たし、このとき得ら

れる x*(t) は最適経路になる。 ここで、最大原理を満たす制御入力 u*(t)が閉ループ制御として求められるような最適制

御問題として、固定終端時間・自由終端条件の

線形 2次形式問題を紹介しておく。 【線形 2次形式問題】

u(t)∈Rm, x(t)∈Rnとし、A(t) と B(t) は それぞれ n×n,n×m行列とする。このとき

《制約条件》 x (t)=A(t)x(t)+B(t)u(t) x(0)=x0 tf

:状態方程式

:初期条件 :固定終端 時間(指定)

ものとで

《目的関数》

J=0t

21 f∫ {|x(t)| +|u(t)| } dt+

21|x(tf)|

を最小にする u*(t)(0≦t<tf)を求める ただし R(t)はm×mの正定対称行列、Fと Q(t) は n×n の非負定対称行列とする

この線形2次形式の最適制御問題の最適制御を求めよう。 上に述べた随伴ベクトルを p*(t)とすれば、これは

p *(t)=-AT(t)p*(t)+Q(t)x*(t) p*(tf)=-Fx*(tf)

x*(t)h(p*(t),x*(t))

2Q(t)

2 R(t)

2F

xf

∂∂

・ x

))}t(*x),t(*p(h),t(*x{f∂

Page 20: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-39-

を満たす。最適制御 u*(t) は、最大原理によって Hamilton関数

H(p*(t),x*(t),u(t)) =p*T(t)(A(t)x*(t)+B(t)u(t))

-21 x*T(t)Q(t)x*(t)-

21 uT(t)R(t)u(t)

を最大にするので

= 0 として

u*(t)=-R-1(t)BT(t)p*(t) を得る。この結果をもとの制約条件の式に代入

して、随伴ベクトルの満たす微分方程式と並べ

て書けば、次のような 2点境界値問題が得られる。

x*(t)=A(t)x*(t)+B(t)R-1(t)BT(t)p*(t) p*(t)=-A(t)Tp*(t)Q(t)x*(t) x*(0)=x0 p*(0)=-Fx*(tf)

このとき p*(0) を p0と書くと、これは未知

ではあるが、終端条件を用いて x0の 1 次式で表すことができる。すると x*(t) も p*(t) も、ともに x0の式(x0からの時間発展)で書ける

ことになり、結局 p*(t) は x*(t) によって、次の形で与えられる。

-p*(t)=-P(t)x*(t) ただし P(t) は

-P(t)=AT(t)P(t)+P(t)A(t) -P(t)B(t)R-1(t)BT(t)P(t)+Q(t)

P(tf)=Fx*(tf)

によって与えられる行列である。 この結果を上の u*(t) の式に代入すれば、最適制御は

u*(t)=-R-1(t)BT(t)P(t)x*(t) の形、すなわち状態フィードバック(最適制御

規則)として得られることになる。 2.2.3 最適制御問題の解法:動的計画法

(DP)と非線形計画法(NLP)

最適制御の必要条件は最大原理によって与

えられるので、最大原理を満たす内部状態の変

化 x*(t) および随伴状態の変化 p*(t) を求めることによって、最適制御 u*(t) を得ることができる。これを、最適制御問題の間接解法という。

しかし、一般に解析的にこれを求めるのはほと

んどの場合不可能であり、実際には数値計算に

頼らざるを得ない。これに対して、どうせ数値

計算で解くのであれば、最大原理を用いずに、

許容可能な制御の中で目的関数を最小にする

ものを、数理計画法における最適化の手法によ

って求めることも考えられる。このように、動

的計画法(DP:dynamic programming)や非線形計画法(NLP:non-linear programming)などの最適化の手法によって、最適制御を直接

に求める方法を直接解法という。 動的計画法による最適制御問題の解法は、最

適性原理(optimality principle)とよばれる原理に基づいて、最適制御問題を特殊な形式で定

式化することによって与えられる。もちろん、

最適制御理論における最大原理は、動的計画法

の定式化に基づいて導出することもできる。一

方、非線形計画法による解法は、最適制御問題

を目的関数を最小にする許容可能な制御を探

索するとことであり、もとの問題を静的な最適

化問題として定式化することによって得られ

る。このとき、非線形計画法における最適解の

必要条件、すなわち Kuhn-Tucker 条件は、最適制御理論における最大原理と等価な条件と

考えることができる。

・ ・

uH

∂∂

Page 21: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-40-

(1)動的計画法(DP) 一般の動的計画法の定式化では、最適決定問

題は「順序付けられた多段階(multi-stage)」の最適決定問題に分割される。そして、ある段

階における決定はそれ以降の段階の決定問題

にのみ影響を与えるようにする。このように分

割すれば、全体の最適解は各段階の最適解の系

列としてあたえられる。この自明の事実を述べ

たものが最適性原理である。 [最適性原理]多段階決定過程において、各段

階の決定が全体の最適決定を与えるためには、

各段階における決定は、その段階の初期状態や

それ以前の段階での決定がどんなものである

かによらず、最適な決定になっていなければな

らない。 動的計画法は、この原理を順序付けられた段

階に対して帰納的に(動的に)適用することに

より、もとの問題をより解きやすい小さな問題

の系列に変換して徐々に解いて行く手法である。 もちろん、「順序付けられた段階」という概念

は必ずしも静的なものだけを意味するのではな

く、離散的な時間で表現された動的なシステム

の各期間を段階と考えることもできるし、連続

的な時間で表現された動的システムでも、次の

よりにして段階を定義することができる。すな

わち、連続時間システムの最適制御問題におけ

る最適制御 u*(t)(t0≦t<tf) は、指定された時間区間[t0,tf]を[t0,t1],[t1,t2],・・・,[tn,tf]のよ

うに適当な区間に区切って考えれば、各区間内の

最適制御の系列 u*(t) (t0≦t<t1), u*(t) (t0≦t <t2),・・・,u*(t) (tn≦t<tf) と考えることができる。したがって、動的計画法は連続時間システ

ムの最適制御問題にも適用できる。しかしこの

ような問題では、最適制御が解析的に求められ

る場合を除いて、数値計算を行うときには離散

時間システムの最適制御問題として扱うのが普

通である。そこで、ここでは離散時間システム

の最適制御問題に対する動的計画法による解法

を述べる。 【離散時間最適制御問題】 《制約条件》

x(t+1)=f(x(t),u(t),t) :状態方程式 (t=0,1,・・・,T-1) x*(0)=x0 :初期条件 T :終端期間(指定) u(t)∈Ωu(t=0,1,・・・,T-1):制御の

許容可能性条件

を満たし

《目的関数》

J=1T

0t

=∑ v(x(t),u(t),t)+vT(x(T))

を最小にする u*(t), (t=0,1,・・・,T-1)を求める

を考える。ここで、状態方程式が離散的な時間

(期間)tの陽(explicit)な関数であるのは時変システムであることを意味し、目的関数が tの陽な関数であるのは、このシステムが各期間

において目的関数が変化してもよいことを表す。

もちろん、この問題は定係数システムや目的関

数が変化しない場合を含んでいる。また、目的

関数中の vTは最終状態に対する評価を表す。 さて、この問題における離散な時間 t=0からt=T-1 を決定の「順序付けられた段階」と解釈し、第 t段階での決定の満たすべき条件を考える。 いま、第 t-1 段階までの制御が決定されているとすれば、第 t段階におけるシステムの状態 x(t) は与えられたものと考えられる。このとき、第 t 段階以降第 T-1 段階(最後の制御)までの最適制御の系列は、x(t) によって決まるはずである。これを

u*(t), u*(t+1),…,u*(T-2),u*(T-1)

Page 22: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-41-

とする。しかし、この系列は第 t段階においては未知であるので、もちろん u*(t) を決定することはできない。そこで、第 t段階において任意の制御 u(t) を行ったとし、これによって決まる x(t+1) に対して、第 t+1 段階以降第 T-1 段階までは最適制御を行ったと仮定すると、第 t+1段階以降の最適制御の系列は上とは異なり

u**(t+1),…,u**(T-2),u**(T-1) となるはずである。 最適性原理は、第 t段階において u(t) = u*(t)と決定したときには

u*(t+1),…,u*(T-2),u*(T-1) と

u**(t+1),…,u**(T-2),u**(T-1) は一致しなければならないことを主張するも

のである。 この最適性原理を用いれば、上の問題の解法

は以下のようにして与えられる。 まず、第 t 段階の目的関数おける v(x(t),u(t),t) は、第 t段階での損失と考えることができるので、第 t段階の状態 x(t) を与えたときに第 t段階から第 T段階までの総損失は、x(t) および、u(t),u(t+1),…,u(T-2),u(T-1) の関数として与えることができる。これをVt(x(t), u(t),…,u(T-1))とする。このとき明らかに

Vt(x(t),u(t),…,u(T-1)) =v(x(t),u(t),t)

+Vt+1(x(t+1),u(t+1),…,u(T-1)) となっている。ただし、第 T段階においては制御を考える必要がないので、

VT(x(T))=vT(x(T)) である。 ここで、第 t段階の状態が x(t) であるという条件のもとで、第 t 段階以降第 T-1 段階まで最適制御を行ったとしたときの Vt の値を

V*t(x(t))とすれば、先に述べた最適性原理によって

V*t(x(t))=Vt(x(t),u*(t),…,u*(T-1))

=min {v(x(t),u(t),t)} u(t)

+Vt+1(x(t+1),u**(t+1),…, u**(T-1))

=min {v(x(t),u(t),t)}

u(t) +Vt+1(x(t+1),u*(t+1),…, u*(T-1))

=min {v(x(t),u(t),t)} +V*t+1(x(t+1))

u(t)

V*T(x(T))=vT(x(T)) となっていなければならない。この式は

V*t(x(t))(t=0,1,…,T-1) に関する逆向きの漸化式になっており、第 t段段での最適制御 u*(t)および V*t(x(t)) の値は、V*t+1(x(t+1))が与えられれば x(t) の関数 u*(x(t)) として求められる。したがって、全段階にわたる最適制御を求める

には、システムの状態方程式を使って以下のよ

うに計算すればよい。 1) t=T-1とすると V*T-1(x(T-1))= min {v(x(T-1),u(T-1),

u(T-1)

T-1)} +vT(x(T))

=min {v(x(T-1),u(T-1),T-1)} + u(T-1)

Page 23: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-42-

vT(f(x(T-1),u(T-1),T-1) となるので、すべての x(T-1) に対する最適制御 u*(x(T-1)) と V*T-1(x(T-1)) を求めてお く。 2) t=T-2とすると V*T-2(x(T-2))= min {v(x(T-2),u(T-2),

u(T-2)

T-2)} + V*T-1(x(T-1)) となるが、x(T-1)=f(x(T-2),u(T-2),T-2) であるので、1)で求めた V*T-1(x(T-1)) を使えばすべてのx(T-2) に対して上の式を満たすよ

うなu*(x(T-2)) およびV*T-2(x(T-2)) を求めることができる。そして、1)で得られているu*(x(T-1))、u*(x(T-2)) を一緒に考えれば、すべての x(T-2) に対して、第 T-2段および第 T-1 段の最適制御が得られていることになる。 3)t=T-3,・・・,1として 2)と同様な計算を行う。

4)t=0とすると

V*0(x(0))= min {v(x(0),u(0),0)} +V*1(x(1)) u(0)

Fig.2.6 動的計画法の手続き

離散システム(多段階システム)

動的計画法による逆向き解法の手続き

となるが、x(0) = x0が初期条件として与えられ

ているので 3)までで求められている V*1(x(1)) =V*1(f(x0,u(0),0)) を使えば u*(0) は決定される。したがって、x(1) を x(1)=f(x0,u*(0),0) に よって計算すれば、3)までの計算過程を逆にたどって行くことにより全段階における最適

制御の系列が求められる。 実際の計算においては、各段階における最小

化には、通常、非線形計画法におけるさまざま

な数値計算手法が用いられる。 このようにして最適制御問題における開ルー

プ最適制御 u*(t) (t=0,1,・・・,T-1) は動的計画法によって求められる。ただし、上に示したよう

にこの手法は膨大な計算量と記憶を必要とする

ので、実際の計算では段階数や制御入力、状態

量の離散化の程度を考慮しなければならない。

また、この手法では全段にわたる開ループ最適

制御を求めるために、各段階毎に与えられた初

期条件のもとでの最適制御を求めている。そこ

でこれらをすべて記憶しておけば、実際の制御

を行っている間に外乱が加わり状態が変化して

しまったとしても、その状態を初期条件とした

最適化 最適化 最適化

u ( 1 ) u ( 0 ) u ( T-2 ) u ( T-1 )

x ( T-2 ) x ( T-1 )x ( 0 ) x ( 1 ) x ( 2 ) x ( T ) f t = 1 f t = 0 ft=T-2 ft=T-1

x ( 0 ) x ( T ) x ( T-2 ) x ( T-1 )

u ( T-1 )u ( T-2 )u ( 0 )

ft=0 ft=T-2 ft=T-1

Page 24: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-43-

場合の最適制御もすでに計算され記憶されて

いるので、ちょうど状態フィードバックを考え

た閉ループ制御と同じ効果をもたせることが

できるという利点もある。 (2)非線形計画法(NLP) 非線形計画法は、制約条件のある静的

(static) な最適化問題を解くための一般的な手法である。しかし、動的なシステムの最適化問

題も、システムの動的な挙動が明示的にならな

いように定式化を行うことによって、非線形計

画法の手法をそのまま適用することができる。

そこで、ここではまず非線形計画法の一般的な

定式化に基づいて、最適解の必要条件である

Kuhn-Tucker 条件を与える。次に、離散時間システムの最適制御問題を静的な最適化問題

として定式化して、この問題における Kuhn- Tucker 条件、すなわち最適制御の必要条件を考える。 一般に、非線形計画法が適用される制約条件

のある静的な最適化問題(最小化問題)とは、

以下のような問題である。 【制約条件付き最小化問題】 x∈Rn, v:Rn→R1, g:Rn→Rng, h:Rn→Rnh として 《制約条件》

g(x)≦0:不等式制約 h(x)=0:等式制約

を満たし 《目的関数》

v(x) を最小にする xを求める この定式化では等式制約条件 h(x)=0 が含まれているが、これは

h(x)≦0 -h(x)≦0

という 2つの不等式に分けて考えれば、不等式制約として扱える。そこで、Kuhn-Tucker 条件の導出は不等式制約条件だけの場合につい

て行う。 まず、Lagrange関数を次のように定義する。

L(x、λ)=v(x)+λT g(x) ここで、制約条件を満たす xの集合から境界上の特異点を排除するために、次の仮定をおく。 <束縛資格条件>

g(x)=0となるすべての点 xに対して

0dxx

)x(g≦ 

   

   

∂∂

を満たす任意のベクトル微分 dx は、制約条件g(x)≦0を満たす集合内のある弧に接する。 この条件を仮定すると、次の Kuhn-Tuckerの定理が成り立つ。 [Kuhn-Tuckerの定理] x*が上述の最適化問題の解となるための必要条件は、

0**xx

)x(L=

λ∂

λ∂,

     

  , 

0**x

)x(L≦

,  

   

  , 

λλ∂

λ∂

0***x

)x(L=λ

λλ∂

λ∂ 

,  

   

  , 

Page 25: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-44-

を満たすλ*≧0が存在することである。 [証明]

x*が境界上の点である場合

0dxx

)x(g≦    

     

∂∂

を満たすすべてのベクトル微分に対して

0dx*xx

)x(v≧   

    

   

     

が成立しなければならない。すると、Farkasの補助定理によって

   

   

x)x(v

∂ =-

x)x(g

∂∂      λ*

を満たすようなベクトルλ*≧0 が存在する。 すなわち

   

   

x)x(v

∂ +

x)x(g

∂∂      λ*= 0

   

   

x)x(v

∂ +λ*T

x)x(g

∂∂      = 0

0**xx

)x(L=

λ∂

λ∂ 

    

   

  ,  

を満たすベクトルλ*≧0が存在する。 また x* が g(x*)<0となる制約集合の内点である場合には、

   

     

x)x(v

∂ = 0

でなければならない。そうすると、

   

  ,  

x)x(L

λ∂ = 0

がλ*= 0に対して成立する。これは

   

 ,  

λ∂

λ∂ )x(L = g(x*)≦0

から自明である。また、

λ*T    

  ,  

λ∂

λ∂ )x(L =λ*Tg(x*)

であり、x* が境界上の点のときは g(x*) = 0、内点のときはλ*= 0 となるので、いずれにせ よ、

0**xx

)x(L=

λ∂

λ∂ 

    

   

  ,  

が成り立つ。(証明終) この定理の述べる必要条件を Kuhn-Tucker条件という。また、この条件は、x* とそのときのλ*がすべての xとλ≧0に対して、

L(x*,λ)≦L(x*,λ*)≦L(x*,λ*) を満たす点となるための必要条件でもある。こ

のような点は L(x,λ) の鞍点と呼ばれる。 一般に、上述の最小化問題に対して <制約条件>

00x

)x(L≧, 

   

  ,  λ=

λ∂

のもとで <目的関数>

L(x,λ)=V(x)+λTg(x)

を最大にするようなλを求める。 という問題を、もとの問題の双対問題という。

T

x* T

x*

T

x* T

x*

x* x*

x*

x*,λ*

x*,λ*

x*,λ*

Page 26: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-45-

Kuhn-Tucker の定理と鞍点との関係によって、次の双対定理が成立することが、簡単に示

せる。 [双対定理]

x* が上述の最小化問題の解であるときには、(x*,λ*)がその双対問題の解となるようなλ*≧0が存在し、両問題の最小値と最大値は等しい。

この双対定理は、最適化問題を数値計算で解く

場合に、解の存在範囲の限定、計算の打ち切り

の判定などに利用することができる。 以下に、等式制約条件を明示的に扱った場合

の Kuhn-Tucker 条件を記しておく。この場合の Kuhn-Tucker条件は、Lagrange関数を

L(x,λ,π)=v(x)+λTg(x)+πTh(x) として

   

    

x),,x(L

πλ∂ = 0

π∂

πλ∂

 

     ),,x(L = 0

  

    

λ∂

πλ∂ ),,x(L ≦ 0

  

    

λ∂

πλ∂ ),,x(L λ*= 0

λ*≧0 となるようなπ*とλ*が存在することである。 ここで、先に述べた離散時間システムの最適

制御問題に対して、最適制御の必要条件を求め

てみる。これは、

【離散時間最適制御問題】 u(t)∈Rm(t=0,1,・・・,T-1), x(t)∈Rn(t=0,1,・・・,T-1,T) として

《制約条件》

x(t+1)=f(x(t),u(t),t) :状態方程式 (t=0,1,・・・,T-1) x(0)=x0 :初期条件 T :終端期間(指定) u(t)∈Ωu(t=0,1,・・・,T-1):制御の許

容可能性条件

を満たし

《目的関数》

J=1T

0t

=∑ v(x(t),u(t),t)+vT(x(T))

を最小にする u*(t), (t=0,1,・・・,T-1)を求める

であった。 まず、この問題を非線形計画問題として定式

化するために、制御の許容可能性のΩuが

g(x(t),u(t))≧0 のような不等式制約条件の形で与えられると

仮定する。 次に、システムの動的な挙動を静的な変数と

して記述するために、各期間 t(t=0,1,・・R,T- -1) における制御 u(t) と状態 x(t) をすべて独立な変数と考え、静的な入力ベクトル uと状態 xを

u=(u(0)T,u(1)T,・・・,u(T-1)T)T ∈Rm×T x=(x(0)T,x(1)T,・・・,x(T-1)T,x(T)T)T

∈Rn×(T+1) と定義しなおす。すると、状態方程式は、これ

らの変数の間の次のような連立代数方程式とな

x*,λ*,π*

x*,λ*,π*

x*,λ*,π*

x*,λ*,π*

Page 27: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-46-

り、

x0-x(0) f(x(0),u(0),0)-x(1)

F(x,u)= = 0 f(x(T-1),u(T-1),T-1)-x(T)

制約条件も

g(x(0),u(0))

G(x,u)= ≧ 0 g(x(T-1),u(T-1))

と再定義される。したがって、上の動的なシス

テムの最適制御問題は、静的な最小化問題

u∈Rm×T,x∈Rn×(T+1),G∈Rng として

《制約条件》 F(x,u) = 0:等式制約 G(x,u)≧0:不等式制約

を満たし

《目的関数》

J(x,u)=1T

0t

=∑ v(x(t),u(t),t)+vT(x(T))

を最小にする u* を求める として定式化される。 不等式および等式制約のある最適化問題に

関する非線形計画法のアプローチにしたがい、 Lagrange関数を

L(x,u,π,λ)=J(x,u) +πTF(x,u)+λTG(x,u)

ただしπ= (π(0),π(1),・・・,π(T-1),π(T))T

∈RT+1 λ=(λT(1),λT(2),・・・,λT(T-1),

λT(T))T∈RT×ng

と定義する。 ここでさらに、Hamilton関数を

H(x(t),u(t),π(t+1),λ(t+1))

=V(x(t),u(t)))+πT(t+1)f(x(t), u(t),t)+λT(t+1)g(x(t),u(t)) (t=0,1,・・・,T-1)

と定義すれば、最適解の必要条件(Kuhn- Tucker条件)は、Hamilton関数を用いて、

x(t+1)=    

  

)1t()t(HT

+π∂

∂ (t=0,1,・・・,T-1)

π(t)=   

  

)t(x)t(HT

∂∂ (t=0,1,・・・,T-1)

π(T)=    

   

)T(x))T(x(V T

T

  

  

)t(u)t(H

∂ = 0 (t=0,1,・・・,T-1)

λ(t+1)≧0 (t=0,1,・・・,T-1)

λ(t+1)  

  

)1t()t(HT

+λ∂

∂=0 (t=0,1,・・・,T-1)

  

  

)1t()t(H+λ∂

∂ ≦0 (t=0,1,・・・,T-1)

で与えられる。 以上のように非線形計画法を用いて最適制

御問題を解く場合には、解の必要条件としての

Kuhn-Tucker 条件を利用する。しかし、実際の数値計算においては、結局、極値探索を行な

うことになるので、通常は、問題の種類、構造

に応じて、さまざまな探策法を利用する。

… … … … … … … … … … … … … …

……………………………

Page 28: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-47-

2.3 階層制御理論

2.3.1 階層システムの理論

階層システムの理論(hierarchical system theory)は、自然界のシステムや工学的、社会的なシステムに存在する階層性を扱うための

理論的枠組であり、一般システム理論(general system theory)における分析手法の 1つと考えることができる。この階層システム理論にお

いては、大規模で複雑なシステムが、階層性を

持った複数のサブシステムを統合(coordinati- on)するシステムという形式で記述される。そして、議論の中心は矛盾のない統合が可能であ

るための条件を明らかにすることである。

階層システムの理論では、1 つの階層システムは相互に影響を及ぼし合うようないくつかの

サブシステム(subsystem)を構成要素とし、これらのサブシステムが互いに影響を及ぼすそ

の及ぼし方に関して階層構造を仮定している。

サブシステムは、さまざまな物理的現象や社会

的現象等を表すプロセス(process)と呼ばれる受動的なサブシステムと、他のサブシステムヘ

の影響を独自の目標達成行動によって決定する

ことのできる、能動的サブシステムとに大別さ

れる。そして個々のサブシステムは、他のサブ

システムからの影響を条件とするような意思決

定問題(descision problem)を解く意思決定ユニット(descision unit)として定式化される。

Fig.2.7 階層システム

意思決定ユニットの階層とプロセスからなる断層システム

上図に示すように、ある階層の 1つのサブシステムにおいて、その上位のサブシステムから

の影響、すなわち上位のサブシステムの意思決

定が規定されるならば、そのサブシステムの意

思決定問題は明確に規定され、目標達成の可能

性は下位の階層のすべてのサブシステムがどの

ような意思決定を行うかに依存している。一方、

下位のすべてのサブシステムの意思決定問題は

上位のサブシステムの意思決定によって規定さ

れる。したがって、上位のサブシステムが自ら

の目標を達成しようとすると、下位のサブシス

テムに、上位のサブシステムが目標を達成でき

るような、調和のとれた意思決定を行うように

影響を与える必要がある。これがサブシステム

の統合という概念である。 一般に階層システム全体の意思決定問題は、

システム全体による目標の達成という 1つの意思決定問題形で定式化される。しかし、階層シ

ステム全体として目標を達成するには、サブシ

ステムの統合を考えなければならない。このと

き、そのような統合が可能であるかどうかは、

各々の意思決定問題および解の間の相互関係に

プ ロ セ ス

応答

応答

応答

応答

制御

制御

制御

制御

統合入力

フィードバック情報

意思決定ユニット

Page 29: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-48-

よって決まる。階層システム理論では、これを

意思決定問題の可統合性(coordinability)として議論する。 可統合性の概念をよりわかりやすく説明す

るために、階層システムを 2 レベルシステム (2-level system)に限定する。2レベルシステムは階層システムの中でももっとも単純な

システムであるが、2レベルシステムに関する議論を多階層システムに拡張するのは比較的

容易であることから、基本的な階層システムで

あるといえる。 2 レベルシステムは下図に示すように、プロセスおよびプロセスと直接に係わりをもつサブ

システムである複数の下位ユニット(infimal unit)、さらにその下位ユニットの意思決定問題

を規定することのできる 1 つの上位ユニット(supremal unit)からなる。 2 レベルシステムでは、全体の目標すなわちシステム全体の意思決定問題は、プロセスの状

態に対して設定される。しかし、プロセスの状

態を直接に変えることができるのは下位ユニッ

トであるとされており、全体の意思決定問題に

おける意思決定と下位ユニットの意思決定は同

一の変数(プロセスに対する制御)にもとづい

て行われる。すなわち、2レベルシステムでは、上位ユニットの意思決定問題の解(統合入力)

が下位ユニットの意思決定問題を規定し、上位

ユニットが目標を達成できるか否かは、下位ユ

ニットの意思決定に依存している。また、下位

ユニットの意思決定問題の解(制御)はプロセ

Fig.2.8 2レベルシステム

スに影響を及ぼし、下位ユニットが目標を達成

できるか否かはプロセスの応答によって決まる。 2 レベルシステムにおける第 1の統合は、全体の目標を達成するするように、下位ユニット

に意思決定を行わせることである。下位ユニッ

トの意思決定はそのユニットの意思決定問題に

基づいているので、結局、この第 1の統合が可能かどうかは、全体の意思決定問題とその解お

よび下位ユニットの意思決定問題とその解の関

係によって決まる。このような状況において、

下位ユニットの意思決定問題の解が存在し、こ

れがシステム全体の意思決定問題の解にもなっ

ているような上位ユニットの統合入力が存在

するとき、そしてそのときに限って、「下位ユ

ニットの意思決定問題は全体の意思決定問題

に関して可統合である」という。 一方、上位ユニットが自分の目標を達成する

には、下位ユニットの意思決定問題の解が自分

の目標を達成させることができるように、下位

ユニットの意思決定問題に統合入力、すなわち

自分自身の意思決定問題の解を与えなければな

らない。これが、2 レベルシステムにおける第2 の統合である。そして、上位ユニットの意思決定問題と下位ユニットの意思決定問題それぞ

上 位 ユ ニ ッ ト

プ ロ セ ス

下 位 ユニット

下 位ユニット

下 位ユニット

応答

応答

応答

制御

制御

制御

Page 30: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-49-

れに、上のような相互関係を持つ解が存在する

とき、そのときに限って「下位ユニットの意思

決定問題は上位ユニットの意思決定問題に関

して可統合である」という。 次に、これら 2つの統合の概念の間の関係を考える。2レベルシステムがシステム全体の目標を達成できるには、第 1の可統合性が成立していなければならないが、下位ユニットの意思

決定問題は上位ユニットの統合入力によって

規定される。これに対して、第 2の可統合性は下位ユニットの意思決定が、上位ユニットの目

標を達成するように統合できることを意味し

ている。したがって、2レベルシステムがシステム全体の目標を達成しようとするときに、2つの統合の間に要求される適切な関係は、「下

位ユニットの意思決定問題が上位ユニットの

意思決定問題に関して統合されているときに

は、常に下位ユニットの意思決定問題は全体の

意思決定問題に関して統合されている」ように

なっていることである。これを 2レベルシステムにおける一貫性の公理(consistency axiom)という。これは、それぞれの意思決定ユニット

が自分の目標を達成するように意思決定を行

うことと、システム全体の目標を達成すること

が矛盾しないための要請である。 以上のことから、第 1、第 2の可統合性が成立し、しかも一貫性の公理が成り立つような 2レベルシステムであることが、全体の目標を達

成しうる2レベルシステムであるための必要条件であることがわかる。しかし、この条件は全

体の目標を達成するための具体的な2レベルシステムの構成法を与えるものではない。このよ

うな 2レベルシステム、特に下位ユニットの意思決定問題を統合できるような上位ユニットの

意思決定問題を実際に構成するには、どのよう

な変数を統合入力として選ぶのかということや

下位システムからどんな情報を取り入れるのか

といった、意思決定問題の構造自体を決めなけ

ればならない。例えば、あるシステムを制御す

るという目標を考えるならば、意志決定問題の

構造を決めるということは、制御方式として開

ループ制御方式と閉ループ制御方式のどちら

を採用するかを決定するようなものであり、2レベルシステムにおいても、システムの設計者

がなんらかの基準によって問題の構造を設定

しておかなければならない。 一般に、上位ユニットが下位ユニットの意思

決定問題を統合しなければならないのは、下位

ユニットどうしがプロセスを通して互いに影

響(相互作用 interaction)を及ぼし合うにもかかわらず、それぞれの下位ユニットが自分の意

思決定問題を解くにあたって他の下位ユニッ

トの決定を無視することに起因する。したがっ

て、下位ユニットの意思決定問題を統合するた

めの、上位ユニットの意思決定問題を構成する

には、この相互作用を統合入力によってどのよ

うに扱うかということが問題になる。それにつ

いては次の 3つの方式が考えられている。 (1)相互作用予測(interaction prediction)

下位ユニット間に生じるであろう相互

作用の予測値を統合入力とする (2)相互作用概算(interaction approximation)

下位ユニット間に生じるであろう相互

作用の値の大まかな範囲を統合入力と

する (3)相互作用分離(interaction decoupling)

各下位ユニットは他の下位ユニットか

らの影響を自分で自由に想定できるも

のとして意思決定を行うものとする。 そして、2レベルシステムにおいて、これらの統合方式を用いてシステム全体の目標が達

成できるということを主張する命題は統合原

理(coordination principle)とよばれる。統合原理には、以下の 3つがある。 (1)相互作用予測原理(interaction predic-

tion principle) 「統合方式として相互作用予測を用いた

Page 31: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-50-

ときに、相互作用の予測値が正しければ、

下位ユニットの意思決定問題の解がシス

テム全体の意思決定問題の解となってい

る」 (2)相互作用概算原理(interaction approxi-

mation principle) 「統合方式として相互作用概算を用いた

ときに、実際の相互作用が相互作用の概

算範囲に入っていれば、下位ユニットの

意思決定問題の解はシステム全体の意思

決定問題の解となっている」 (3)相互作用均衡原理(interaction balance

principle) 「統合方式として相互作用分離を用いた

ときに、各下位ユニットが決定した相互

作用の値と実際の相互作用の値が均衡し

ているならば下位ユニットの意思決定問

題の解は全体の意思決定問題の解となっ

ている」 したがって、2レベルシステム全体の目標を下位ユニットの意思決定問題の統合によって

達成しようとする場合、各統合方式に対応して

それぞれの統合原理が成立していることが必

要条件となる。このとき、統合原理が可適用

(applicable)であるという。 以上のことから、与えられた統合方式によっ

て 2レベルシステムが可統合である(実際に全体の目標が達成できる)ためには、その方式に

関する統合原理が可適用であり、上位ユニット

の意思決定問題がそのときの統合入力を解と

するような意思決定問題になっていることが

必要であることがわかる。 階層システムの理論は、これら「可統合性」、

「一貫性」、「統合原理の可適用性」という概念

を基礎として、階層システムにおけるさまざま

な問題設定(上位ユニットの意思決定問題の構

成や、大規模な意思決定問題の可統合な 2レベルシステムヘの分解など)を行った上で理論を

展開している。詳しくは例を参照されたい。 2.3.2 2 レベル制御

階層制御理論(hierarchical control theory)は、上で説明した階層システムの理論を大規模

なシステムの最適制御問題にインプリメント

したものと考えることができる。したがって階

層制御理論は、全体の最適制御問題が与えられ

ているときに、これを階層システムにおける統

合によって解く手法に関する理論である。 与えられたシステム全体の最適制御問題を

階層システムにおける統合によって解くとい

うことは、これをいくつかの部分最適制御問題

に分けて解くということである。歴史的には、

大規模な最適化問題を相互に関連をもつよう

な、いくつかの比較的小規模な最適化問題に分

割して(decomposition)解く方法は、分割法とよばれて研究されてきた。そこでは、ある最

適化問題が分割によって解くことができるた

めの分割原理(decomposition principle)と呼ばれる条件が求められ、分割によって解を得る

ための具体的解法が考案されてきた。階層シス

テム理論はこのような問題を一般化した理論

であるともいえる。 一般に階層制御理論においても、2レベルシステムを基本的な階層システムとして用いて

いる。2レベルシステムにおける最適制御問題を考えるときには、これを 2 レベル制御(2-level control)という。 2レベル制御におけるプロセスとは制御対象そのものである。下位ユニットはプロセスに制

御を加えることができるので、これを制御主体

(controller)とよび、上位ユニットはそれらの制御機を統合する役割をもつので統合者

(coordinator)とよぶことにする。制御主体および統合者の意思決定問題は最適制御問題で

あるとしておく。 2 レベル制御の問題とは、与えられた制御対象システムに関し全体の最適制御が得られるよ

Page 32: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-51-

うに 2レベルシステムを構成し、統合によって実際に解を求めことである。すなわち、全体の

最適制御問題に関して一貫性の公理が成立す

るような、制御主体および統合者の最適制御問

題を見いだし、可適用であるような原理を用い

て統合を行うことである。しかし、全体の問題

をどのように分割するかということと、どのよ

うな統合方式を採用するかということは互い

に関係しているし、分割の方法もさまざまなも

のがある。したがって、ここでは一般的な議論

は行わず、以下に述べるような特別の 2レベル制御問題に関して、特にその統合方式を中心に

説明する。ここで取り上げたもの以外の 2レベル制御については、例を参照されたい。 また連続時間システム、離散時間システムお

よび静的な最適化問題のいずれの場合にも階

層制御理論が適用できるが、ここでは制御対象

は離散時間システムであるとしておく。 N 個の部分からなる次のような離散時間シ

ステムを考える。このような部分は、通常、サ

ブシステムとよばれる。 xi(t+1)=fi(xi(t),ui(t),mi(t)) :状態方程式

mi(t)=N

1j=∑ hj,i(xj(t),uj(t)), hi,i(・)≡0 :相互作用

gi(xi(t),ui(t),mi(t))≦0 :制御および状態の許容可能性の条件

(t= 0,1,・・・,T-1, i=1,・・・,N) ここで、iはサブシステムの番号を表し、ui(t)、xi(t) はそれぞれ i番目のサブシステムの t期間での入力と内部状態を表す。また、mi(t) は i番目のシステムが他のシステムの内部状態に

よって受ける影響を表す変数であり、干渉変数

(interaction variable)とよばれる。giは i番目のシステムの制御と状態の許容可能性の条

件を表す関数である。それぞれの変数は一般的

にはベクトル変数であり、fi、hj,i、gi もそれに

対応したベクトル値関数となるが、表現の煩雑

さを避けるため,それぞれの次元は明確には指

定しない。 したがって、サブシステムとは全体のプロセ

ス(状態変数および制御入力)を重複のないよ

うに分割したものである。一般にはプロセスに

存在する制約条件はサブシステムごとに分割

できるとは限らないが、このシステムでは制約

条件も分割できるような特殊なシステムであ

るとしておく。 このシステムにおいて、システム全体の最適

制御問題は以下のようなものであるとする。た

Fig.2.9 相互作用をもつサブシステムからなる全体システム

サブシステム 1

サブシステム

2

サブシステム

3

他の サブシステム

Page 33: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-52-

だし、初期条件は最適化にとっては等式制約の

1種であるので、これを陽には考慮しないことにする。 【全体の最適制御問題】

《制約条件》 xi(t+1)=fi(xi(t),ui(t),mi(t))

mi(t)=N

1j=∑ hj,i(xj(t),uj(t)), hi,i(・)≡0

gi(xi(t),ui(t),mi(t))≦0 (t= 0,1,・・・,T-1, i=1,・・・,N) のもとで

《目的関数》

J=N

1i=∑ {Gi(xi(T))+

1T

0t

=∑ Vi(xi(t),ui(t),mi(t))}

を最小にする u*(t)=(u1(t),・・・,un(t))T, (t= 0,1,・・・,T-1) を求める

この全体の最適制御問題の目的関数は、N個のサブシステムそれぞれに与えられる目的関

数の和という形式になっている。このときは明

らかに、各サブシステムの目的関数が最小にな

れば(目標が達成できれば)、全体の目的関数

も最小になる(目標が達成される)。したがっ

て、個々のサブシステムの最適制御の決定を下

位ユニットの意思決定問題とみなし、それぞれ

が自分の目的関数を最小にする制御を行うと

すれば、明らかに下位ユニットの最適制御問題

は全体の最適制御問題に関して可統合である。

つまり、この最適制御問題は問題自体に 2レベルシステムヘの変換の方法を含んでいる。 そこで、これを 2レベル制御問題として書き直せば、第 i 下位ユニットすなわち第 i 制御主体の最適制御問題は 【第 i制御主体の最適制御問題】

《制約条件》

xi(t+1)=fi(xi(t),ui(t),mi(t))

mi(t)=N

1j=∑ hj,i(xj(t),uj(t)), hi,i(・)≡0

gi(xi(t),ui(t),mi(t))≦0 (t= 0,1,・・・,T-1) のもとで

《目的関数》

Ji=Gi(xi(T))+1T

0t

=∑ Vi(xi(t),ui(t),mi(t))

を最小にする ui*(t),(t= 0,1,・・・,T-1) を求める

となる。 ただし、このままでは各制御主体は独自に最

適制御を行うことができないので、完全な 2レベル制御問題にはなっていない。問題となるの

は、これらの制御主体の最適制御問題を独立し

た最適制御問題に変換し、これを統合して全体

の最適制御が得られるような上位ユニットす

なわち統合者を構成することである。 一方、この最適制御問題のような目的関数の

もとで、制御主体の相互作用が上の式のような

形で与えられている問題に対しては、相互作用

均衡原理が可適用であることが知られている。

すなわち、個々の制御主体は干渉変数 mi(t),(t=0,1,・・・,T-1) の値を自分で自由に設定して最適制御問題を解くものとすれば、他の制御

主体の最適制御問題の解から計算される実際の

干渉変数の値と設定した値が均衡したときに、

個々の制御主体の最適制御問題の解は全体の最

適制御問題の解になっている。そこで、この 2レベル制御問題では干渉変数の均衡化を行うよ

うな統合者を構成すればよいことがわかる。 このような統合者の構成法の 1つとして、以下に非線形計画法における Lagrange関数を利用する方法を述べる。 まず、全体の最適制御問題では等式制約とし

ての状態方程式と相互干渉、不等式制約として

Page 34: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-53-

の制御および状態の許容可能性の条件がある

ので、これを次のような Lagrange関数を用いて、制約のない最適化問題に変換する。

L=N

1i=∑ {Gi(xi(T))

+1T

0t

=∑ [Vi(xi(t),ui(t),mi(t))

+ψiT(t+1)(fi(xi(t),ui(t),mi(t))-xi(t+1))

+πiT(t+1)(N

1j=∑ hj,i(xj(t),uj(t))-mi(t))

+λiT(t+1) gi(xi(t),ui(t),mi(t))]} この関数は、相互干渉の制約の部分以外は制

御主体ごとに分割が可能であるので、π i

(t+1),(i=1,・・・,N,t=0,・・・,T-1) を定数と考えて変数を各制御主体ごとに分割すれば、各

制御機に対する次のような最適制御問題が構

成できる。 【第 i制御主体の最適制御問題(可統合)】

《制約条件》 xi(t+1)=fi(xi(t),ui(t),mi(t)) gi(xi(t),ui(t),mi(t))≦0 (t= 0,1,・・・,T-1) のもとで

《目的関数》 Li=Li(xi(t),ui(t),mi(t);π)

=Gi(xi(T))+1T

0t

=∑ [Vi(xi(t),ui(t),mi(t))

+N

1i=∑πjT(t+1)hi,j(xi(t),ui(t))

-πiT(t+1)mi(t)) を最小にする ui*(t), (t=0,1,・・・,T-1) を求める

これは、第 i制御主体がπi(t+1),(i=1,・・・,

N,t=0,・・・,T-1)が与えられたという条件のもとで、Li を目的関数とするような最適制御問

題を解くということである。一方、この Lagran- ge 関数 L に関しても、前節で述べた鞍点定理(Kuhn-Tucker条件)が成り立つので、Lすな

わち iN

1iL

=∑ を最大にするようなπi(t+1),(i=1,

・・・N,t=0,・・・,T-1)は全体の問題の最適解にもなっている。これは, πi(t+1),(i=1,・・・ N,t=0,・・・,T-1)によって Lが最適化されたときには、相互干渉の均衡が成立していること示

しており、相互作用均衡原理が可適用であること

および統合者の意思決定問題としてπi(t+1), (i= 1,・・・N,t=0,・・・,T-1)の関数Lの最適化問題を採用すればよいことを意味している。 したがって、各制御主体の最適制御問題の解を

ui*(t)、mi*(t)、xi*(t)、そのときの目的関数の値を Li(ui*(t),mi*(t),xi*(t);π) とすれば、統合者の最適化問題は 《目的関数》

L0= iN

1iL

=∑ (ui*(t),mi*(t),xi*(t);π)

を最大にするようなπ=(π1(t+1),・・・, πN(t+1))T (t=0,・・・,T-1) を求める

という双対問題となる。 また、全体の最適制御問題が解をもつならば、

明らかに制御主体の最小化問題は統合者の最

大化問題に関して可統合であり、一貫性の公理

も成立している。 このように、全体の最適制御問題は、システ

ム全体の Lagrange 関数が個々の制御主体に分割できることによって、2レベル制御問題に変換できることが示された。ただし、2レベル制御を用いて具体的に解を求めるには個々の制御主体

や統合者は Lagrange 関数の最適化という形式の意思決定問題を明示的に扱う必要はない。な

ぜならば、このとき個々の制御主体は統合者か

らπ1(t+1),・・・,πN(t+1) (t=0,1,・・・T-1)が

Page 35: 2 章 最適制御の理論 - esri.go.jp · うになると、必ずしも安定性や応答の速さなど、 制御系の応答特性という形で制御の目的が設定 できないことがある。そのような場合には、制

-54-

Fig.2.10 相互作用均衡原理による 2レベル制御

すべて与えられたという条件のもとで、ui(t)とmi(t)(t=0,1,・・・,T-1) を制御入力として、制御対象

xi(t+1)=fi(xi(t),ui(t),mi(t)) を、制約条件

gi(xi(t),ui(t),mi(t))≦0 のもとで、目的関数

Ji=Gi(xi(T))

+1T

0t

=∑ {Vi(xi(t),ui(t),mi(t))

+N

1i=∑πj(t+1)Thi,j(xi(t),ui(t))

-πi(t+1)Tmi(t) を最小にするような最適制御 ui*(t)と mi*(t),(t=0,1,・・・,T-1)を求めるという最適制御問題を解けばよいからである。そして、統合者は

すべての制御主体のui*(t)とmi*(t)および xi*(t) (i= 1,・・・N,t=0,1,・・・,T-1)を情報として受け取り、すべての iに対して

mi(t)-N

1j=∑ hj,i(xj(t),uj(t))=0

が成り立つように、すなわち各サブシステムの

相互作用が均衡するようにπ1(t+1),・・・,πN

(t+1)(t=0,1,・・・,T-1)を調整するという最適化問題を解くことにすれば、このシステムの統

合が行われることになる。 また、このようなシステムの最適制御問題に

対しては、相互作用予測原理も可適用であるこ

とが知られている。詳細は例を参照されたい。 以上のように、大規模な最適制御問題、特に

相互干渉をもつような多くのサブシステムか

ら構成されるシステムの最適制御問題に、2レベル制御が適用できることが示される。

統 合 者

制 御 主 体

サブプロセス

miと i,jn

ijh

=∑ の調整

L1の最適化 L2の最適化 LNの最適化

fN f2 f1