pucheta acse 2009

UNIVERSIDAD NACIONAL DE CÓRDOBA

FACULTAD DE CIENCIAS EXACTAS, FÍSICAS Y NATURALES

CONTROL ÓPTIMO Y SISTEMAS ESTOCÁSTICOS

Filminas para apuntes de clases a cargo de

Prof. Dr. Ing. Julián A. Pucheta

2009

Control óptimo y procesos estocásticos

J. A. Pucheta (www.labimac.blogspot.com) 2

Contenidos 1. INTRODUCCIÓN.......................................................................................................................................................... 3

1.1. Modelo en el espacio de estado......................................................................................................................... 3 1.2. Diseño de controladores de estado lineales ....................................................................................................... 6 1.3. Esquema básico del controlador lineal de estado .............................................................................................. 7 1.4. Metodologías de diseño más utilizadas ............................................................................................................. 8 1.5. Diseño del controlador mediante asignación de polos ...................................................................................... 8 1.6. Controlador de tiempo finito ............................................................................................................................. 9

2. CONTROL ÓPTIMO EN SISTEMAS LINEALES................................................................................................................. 9 2.1. Motivación ........................................................................................................................................................ 9

3. REGULADOR ÓPTIMO LINEAL EN TIEMPO CONTINUO................................................................................................ 10 3.1. Formulación del problema............................................................................................................................... 10 3.2. Estabilidad en el sentido de Lyapunov............................................................................................................ 10 3.3. Problema de control óptimo cuadrático........................................................................................................... 12

4. REGULADOR ÓPTIMO LINEAL EN TIEMPO DISCRETO................................................................................................. 14 4.1. Formulación del problema............................................................................................................................... 14 4.2. Formulación del problema de estado estacionario........................................................................................... 14 4.3. Problema de control óptimo lineal de continuo a discreto............................................................................... 19

5. REGULADOR ÓPTIMO LINEAL EN EL TRANSITORIO.................................................................................................... 28 5.1. Formulación del problema en el transitorio..................................................................................................... 28

6. CONTROL ÓPTIMO BASADO EN PROGRAMACIÓN DINÁMICA...................................................................................... 33 6.1. Principio de optimalidad de Bellman .............................................................................................................. 33

7. PROGRAMACIÓN DINÁMICA ..................................................................................................................................... 40 7.1. Versión simbólica: Ecuación de Hamilton-Jacobi-Bellman............................................................................ 40 7.2. Versión numérica: Ecuación de Bellman ........................................................................................................ 44 7.3. Problema básico .............................................................................................................................................. 44 7.4. La política óptima de decisiones ..................................................................................................................... 45 7.5. Programación dinámica regresiva ................................................................................................................... 45 7.6. Algunos funcionales típicos ............................................................................................................................ 49 7.7. Programación Dinámica iterativa .................................................................................................................... 51 7.8. Programación dinámica aproximada ............................................................................................................... 52 7.9. Discusión y comentario final........................................................................................................................... 61

8. CONTROL DIGITAL ESTOCÁSTICO ................................................................................................................. 62 8.1. Modelo matemático estocástico de señales reales. .......................................................................................... 62 8.2. Ecuaciones diferenciales estocásticas.............................................................................................................. 63 8.3. Modelos de Estado para Sistemas Estocásticos de Tiempo continuo.............................................................. 65 8.4. Modelos de Estado para Sistemas Estocásticos de Tiempo Discreto. ............................................................. 71 8.5. Diseño de Controladores de Estado para Sistemas Estocásticos Lineales....................................................... 78

9. BIBLIOGRAFÍA .......................................................................................................................................................... 87



1. Introducción 1.1. Modelo en el espacio de estado La representación de sistemas en el espacio de estado constituye una herramienta de gran utilidad para el análisis y diseño de sistemas de control en el dominio temporal. En particular resulta de gran significación para el tratamiento de los sistemas multivariable. Esta forma de representación fue desarrollada para el tratamiento de modelos continuos y fue extendida posteriormente a los modelos discretos en razón de los requerimientos impuestos por el control digital. Se puede dar informalmente para un sistema la siguiente definición de estado dinámico del sistema. El estado de un sistema causal, es la información mínima que es necesario conocer en un instante t=t0 para que conjuntamente con el valor de las entradas definidas en todo tiempo a partir de t≥t0; se pueda determinar el comportamiento del sistema para cualquier t≥t0. El estado dinámico de un sistema constituye una información instantánea que se va modificando con la evolución temporal del sistema. Las variables que son necesarias para definir el estado se denominan variables de estado. Se puede dar la siguiente definición. Las variables de estado constituyen el conjunto más pequeño de variables, tales que el conocimiento de las mismas en t=t0, conjuntamente con las entradas para t≥t0, determinan el comportamiento del sistema para cualquier tiempo t≥t0. De igual modo se puede definir el vector de estado como: Un vector de estado de dimensión n es aquél cuyas componentes están constituidas por las n variables de estado. Finalmente se define al espacio de estado de la siguiente manera. Espacio de estado es el espacio geométrico n-dimensional donde se puede representar cualquier estado por un punto. Con el objeto de asociar estas definiciones a la modelación de un sistema físico, se toma como ejemplo un circuito elemental RLC; representado en la Fig. 1-1.

Fig. 1-1. (a) Circuito RLC; (b) Entrada-Salida del circuito RLC

Se toma u=ve(t) como señal de entrada al sistema y la tensión vr(t) sobre el resistor R como salida. Por relaciones físicas es conocido que la evolución de las distintas variables físicas en este circuito, tales como tensiones y corrientes, quedará definida en un futuro si se conoce para un instante de tiempo t=t0, la corriente que fluye en el inductor L, la tensión que exista sobre el capacitor C y la tensión de entrada desde t0 en adelante. En base a la definición que se ha dado de variables de estado es posible elegir a la corriente en el



circuito y a la tensión sobre el capacitor como variables de estado, ya que éstas definen el estado dinámico del circuito. La evolución futura del estado dinámico para t≥t0 se podrá determinar si se conoce para t=t0 las variables de estado i(t), vc(t) y además la tensión de entrada ve(t) para t≥t0. Para analizar la evolución del circuito se pueden plantear las ecuaciones diferenciales del mismo.

(1-1)

Las Ec. (1-1) se pueden expresar en una ecuación matricial-vectorial.

(1-2)

Definiendo a i, vc como variables de estado y a x como vector de estado, la Ec. (1-2) se tiene

u(t) b+A x(t)=x& con

(1-3)

La matriz A se denomina matriz del sistema y b vector de entrada. La variable de salida y=vR puede obtenerse también a partir del vector de estado mediante

(1-4)

con cT=[R 0]. El vector C se denomina vector de salida. De esta forma el circuito RLC de la Fig. 1-1 queda modelado en el espacio de estado por

(1-5)

con

(t).v=y(t)

(t)v=u(t)

]vi[=(t)x

r

e

cT

estando A, b, c definidas en las Ec. (1-3) y Ec. (1-4).

1.1.1. Representación de sistemas multivariables Cuando se consideran varias entradas y varias salidas del sistema simultáneamente, se recurre a la

i C

1 =

dtdv

vL

1+v

L

1i

L

R=

dt

di

c

ec−−

[ ].v

0

L

1

+ v

i

0

C

1

L

1

L

R

=

dt

dvdt

di

ecc

−−

.0

1/L = b ,

0 1/C

1/L-R/L- =A

x(t)c =y T

x(t)c = y(t)

u(t) b + Ax(t) = (t)xT

&



representación mostrado en la Fig. 1-2, en el cual existen interacciones múltiples de las e entradas con las s salidas. Si se desea modelar con ecuaciones diferenciales, conduce a un sistema de s×e ecuaciones diferenciales, de distinto orden que contemplan las relaciones dinámicas de todas las entradas con las distintas salidas. La de mayor orden define el orden n del sistema multivariable. Además, el orden del sistema está dado por el número mínimo de variables de estado necesarias para describir la evolución del sistema.

Fig. 1-2. Sistema Multivariable.

El sistema de las s×e ecuaciones diferenciales transformadas al dominio de la frecuencia en variable compleja s permiten modelar el sistema multivariable a través de la matriz de transferencia G(s),

(1-6)

donde y(s) es el vector de salida de dimensión s, u(s) es el vector de entrada de dimensión e, y G(s) es la matriz de transferencia de dimensión s×e. Cada elemento de la matriz G(s) representa la Función de Transferencia Gij(s) de la entrada uj(s) respecto de la salida yi(s). De la misma forma que para el caso monovariable, aunque con un mayor grado de complejidad resulta posible a través de una adecuada elección de las variables de estado, transformar todas las ecuaciones diferenciales en conjuntos de ecuaciones diferenciales de primer orden, y compactar la notación para obtener una ecuación diferencial matricial-vectorial de primer orden de la misma forma que las Ec. (1-5),

(1-7)

Donde A es la matriz del sistema, B es la matriz de entrada, C es la matriz de salida y D es la matriz de transferencia directa, todas expresadas como función del tiempo para señalar la dependencia temporal en el caso de ser necesario. Para determinar la correcta dimensión de las distintas matrices componentes de la Ec. (1-7), resulta útil representar los vectores y matrices de la Ec. (1-7) por rectángulos cuyas longitudes de lados representan la dimensión considerada. Las Ec. (1-7) pueden representarse esquemáticamente para un sistema multivariable con e entradas y s salidas como en la Fig. 1-3.

( ) ( ) ( )su sGsy =

u(t). D(t)+ x(t)C(t)=y(t)

u(t) B(t)+ x(t)A(t)=(t)x&



Fig. 1-3. Representación esquemática de las ecuaciones de estado.

Se observa que para un sistema multivariable la matriz de entrada B toma la dimensión n×e, la matriz de salida C la dimensión s×n, la matriz de transferencia directa D la dimensión s×e y la matriz de entrada A, la dimensión n×n, igual que para el caso monovariable. 1.2. Diseño de controladores de estado lineales Existen diversos esquemas de control, basados en la teoría de Entrada-Salida y en la de variables de estado. A continuación se muestran los esquemas más difundidos.

1.1.2. Entrada-salida Se realimenta el error de control, definido como e(k)=yd(k)-y(k). Los esquemas más difundidos son los del tipo Proporcional Integral Derivativo PID, con sus diversas variantes, por ejemplo, Modificado, con predictor, con anti-wind up, auto sintonía, etc.

Fig. 1-4. Esquema de control en la representación de sistemas Entrada-Salida.

yk ek

Proceso Controlador

yd

uk

-



1.1.3. Espacio de estados Se realimenta el estado del proceso, x(k).

Fig. 1-5. Esquema de control basado en realimentación de estados.

1.3. Esquema básico del controlador lineal de estado Se modifica el funcionamiento del proceso mediante el controlador, implementado como

u(k)=-k(k)x(k). Modelo de proceso lineal en el espacio de estados con realimentación lineal

( ) ( ) ( ) ( )( ) ( )( ) ( ) ( ) ( )( ) ( )

−=−=+

kkKkDkCk

kkKkBkA1k

xy

xx

x(k) Iq-1

A(k)

u(k)

x(0)

C(k) B(k) x(k+1)

D(k)

y(k)

-K(k)

rk uk

Proceso

Controlador

yk

ek

- -



1.4. Metodologías de diseño más utilizadas En el ámbito de diseño de controladores de estado lineales, los más difundidos son:

Asignación de polos a) Ecuación característica dada

b) De tiempo finito

Espacio de estados

Funcional de costo

Regulador óptimo lineal

1.5. Diseño del controlador mediante asignación de polos El objetivo es trasladar los polos de det(zI-A)=0 a un lugar deseado mediante det (zI-A+BK)=0. Ecuación característica dada Para el caso monovariable, se hacen transformaciones lineales en el sistema para obtener la forma canónica controlable

0] 0 b b[ = c~

1

.

0

0

0

= b~

a-..a-

....

0000

0100

0010

= A~

omT

1n

KK

K

K

K

K

K

( ) ( ) ( )ku

1

.

.

0

kw

a-.aa-

....

0000

0100

0010

1kw

11nn

+

−

=+

− K

K

K

K

K

Con u(k)=-K.w(k)

( ) ( )kw

ka...kaka

....

01..

0...10

1kw

111n1nnn

−−−−−−

=+

−−

La ecuación característica es

( ) ( ) ( ) 0zka...zkaka n111n1nnn =++++++ −− .



Las raíces de ésta ecuación característica será

( )( ) ( ) 0pz...pzpz n21 =−−− . El diseño del controlador comienza ubicando a los polos pi, que son los polos de lazo cerrado. Tiene como ventaja de que es un método simple y directo. La desventaja es que no se tiene en cuenta el efecto conjunto de los polos en el comportamiento del sistema, ni tampoco la magnitud de las acciones de control. 1.6. Controlador de tiempo finito Es un caso particular del anterior, donde se sitúa a todos los polos de lazo cerrado en el origen del plano complejo. Se llega a ki=ai por lo tanto u será

( ) [ ] ( )ka...aaku 11nn x−= . La ventaja de éste método es que es rápido, simple, y considera el efecto del conjunto de los polos de lazo cerrado. La desventaja es que las acciones de control son muy elevadas. 2. Control óptimo en sistemas lineales 2.1. Motivación Para el caso del diseño de controladores en tiempo discreto, siempre que el sistema sea controlable, los polos de lazo cerrado pueden ubicarse en cualquier punto del plano complejo, pero el límite de las respuestas está dado por las acciones de control. La velocidad de respuesta del proceso y la magnitud de las acciones de control están inversamente relacionadas. Una solución se encuentra proponiendo un funcional de costo que incluya estos elementos y luego realizar su minimización. El uso del criterio de minimización es ampliamente utilizado, incluso en controladores Entrada-Salida para optimizar los parámetros del PID, Fletcher-Powell propone

( ) ( ) ( )[ ]∑=

∆+==M

0k

2k

2k ureu,eJJ

La solución analítica es posible solamente para controladores de bajo orden. Se puede minimizar a prueba y error numéricamente. Para el diseño en el espacio de estados, se empleará el funcional

( ) ( ) ( )[ ]∑=

+==M

0k

2k

2k rueu,eJJ



El funcional propuesto es convexo y continuo de sus argumentos ek y uk. El controlador será óptimo en el sentido de éste funcional. 3. Regulador óptimo lineal en tiempo continuo 3.1. Formulación del problema Dado el sistema lineal determinístico en tiempo continuo

(3-1)

se desea encontrar una ley de control ut

(3-2)

que haga evolucionar al proceso desde x(0)≠0 a x(∞)=0 minimizando el funcional de costo

(3-3)

con Q simétrica y semidefinida positiva y R simétrica y definida positiva. Para diseñar el controlador en espacio de estados en el domino del tiempo continuo, se usará el segundo método de Lyapunov, porque no requiere resolver las ecuaciones diferenciales del sistema a controlar. En general, el sistema se define como

( ) ( ) 0x0x,t,xfx ==& con la solución

( ) .xt,x;t 0000 =φ 3.2. Estabilidad en el sentido de Lyapunov Definición de equilibrio: Es un punto del espacio de estado, xe, donde

( ) 0.t 0t,xf e ≥∀= Los sistemas lineales tienen el origen como único punto de equilibrio si A es no singular. Se definen las esferas S(δ) y S(ε) alrededor del punto de equilibrio, ∀t≥t0. mediante

,xx e0 δ≤− ( ) ,xt,x;t e00 ε≤−φ

respectivamente. El sistema será estable en el sentido de Lyapunov si para cada esfera S(ε) existe una esfera S(δ) tal que las trayectorias que empiezan en S(δ) no salen de S(ε) con t→∞. Si δ no depende de t0, el equilibrio es uniformemente estable. El sistema será inestable si para algún ε>0 y cualquier δ>0 siempre existirá un x0 en S(δ) tal que las trayectorias que allí comienzan se salen de S(ε).

( ) ( )∫∞

+=0

TT dtRuuQu,J xxx

⋅=⋅+⋅=

tt

ttt

C

uBA

xy

xx&

tt Ku x⋅−=



3.2.1. Teorema de Lyapunov Sea la función escalar definida positiva V(x) una función de energía (ficticia) que depende de x y de t. Si la derivada temporal de V(x) es definida negativa entonces el punto de equilibrio xe en el origen es uniformemente asintóticamente estable y la función V(x) se denominará función Lyapunov.

3.2.2. Teorema de Krasovskii Sea el sistema modelado mediante las ecuaciones

( ) ( ) ,x0x ,t,xfx 0==&

donde x∈Rn. Para éste sistema, se define la matriz Jacobiano

( ) .

x

f

x

f

x

f

x

f

x...x

f...fxF

n

n

1

n

n

1

1

1

n1

n1

∂∂

∂∂

∂∂

∂∂

=∂

∂∂=

L

MOM

L

Además, se define la matriz

( ) ( ) ( ),xFxFxF T += se establece una función Lyapunov para éste sistema haciendo

( ) ( ) ( ),xfxfxV T ⋅= debido a que

( ) ( ) ( ).xfFxfxV T ⋅⋅=&

3.2.3. Aplicación en sistemas lineales Sea el sistema modelado mediante las ecuaciones lineales homogéneas

(3-4)

Se elige la función candidata de Lyapunov

(3-5)

siendo P una matriz simétrica y definida positiva, la derivada temporal de V(x) es

(3-6)

donde se requiere que la matriz entre paréntesis sea definida negativa para que la candidata V(x) propuesta sea función de Lyapunov. Por lo tanto debe cumplirse que

(3-7)

donde Q debe ser definida positiva. Para verificar la existencia de P, se hace el estudio sobre

( ) ,IPAPA T −=+

PAPAQ T +=−

( ) ( ) xPAPAxxV TT ⋅+⋅=&

( ) ,xPxxV T ⋅⋅=

( ) .x0 x,Axx 0==&



igualando a la matriz identidad. Nótese la relación existente entre la función Lyapunov V(x) y su derivada temporal, las expresiones (3-5) y (3-6) muestran que

(3-8)

3.3. Problema de control óptimo cuadrático Se usará el segundo método de Lyapunov para resolver el problema del control óptimo formulado. Primero se fijan las condiciones de estabilidad y luego se diseña el controlador dentro de ésas condiciones. El método supone que el sistema es controlable. Reemplazando (3-2) en la primer ecuación del sistema (3-1), se tiene

(3-9)

donde se asume que (A-BK) es estable, es decir, tiene todos los autovalores con parte real negativa. Sustituyendo (3-2) en (3-3),

(3-10)

Usando el Teorema de Lyapunov, para que la candidata

(3-11)

sea Función Lyapunov, entonces su derivada temporal deberá ser definida negativa. Derivando en el tiempo a la V(x),

(3-12)

reemplazando la Ec (3-9) en la derivada temporal de x, se tiene que

(3-13)

El primer término está definido en la Ec (3-7). El segundo término, debe ser definido positivo, y se hará la igualdad

(3-14)

teniendo en cuenta la (3-10). Así, la derivada temporal de V(x) deberá cumplir con

(3-15)

Igualando las expresiones, se tiene que

(3-16)

Derivando respecto a t, se tiene

( ) ( )xBKAPxPxBKAxPxxPxx TTTTT −+−=+

(3-17)

que debe resolverse en P simétrica y definida positiva. Como la condición (3-17) debe cumplirse para todo x∈Rn, se resuelve la igualdad a partir de igualar las matrices de ponderación de la forma cuadrática. Por lo tanto,

( ) tt BKA xx ⋅−=&

( ) ( )( ) ( ) .dtRKKQdtRKKQu,J0

TT

0

TT∫∫∞∞

+=+= xxxxxxx

( ) ( ) .xQxxPAPAxxPxt

TTTT ⋅⋅−=⋅+⋅=⋅⋅∂∂

( ) ( ) .xRKKQxxV TT ⋅+⋅−=&

( ) ,xPxxV T ⋅⋅=

( ) ( ) .xRKKQxxPxt

TTT ⋅+⋅−=⋅⋅∂∂

( ) ( )( ) ( ) ,xRKKQxxBKAPPBKAx TTTT ⋅+⋅−=−+−

( ) xPxPxxxV TT &&& +=

( ) ( ) ( ) .xPBKPBKxxPAPAxxV TTTTT +−+=&

PBKPBKRKK TTT +=



(3-18)

corresponde al argumento del funcional de costos a minimizar, y definiendo a la función ξ como

(3-19)

Para hallar K, se minimiza la expresión (3-19) respecto de K, teniendo en cuenta las reglas de derivación matricial e igualando a 0 el resultado verificando que la derivada segunda de (3-19) sea positiva para que el extremo sea un mínimo. Dada una matriz X y dos vectores x, y se verifica

(3-20)

pero la tercera propiedad sólo es válida si X es simétrica. Derivando la (3-19) respecto a K, se tiene

RK2PBPBK

TT ++=∂

ξ∂

y la derivada segunda de (3-19) es

T2

2

R2K

=∂

ξ∂

que es definida positiva, lo que indica que el extremo de la derivada primera es un mínimo. Por lo tanto, igualando a cero la derivada primera y despejando K se tiene que

(3-21)

La ley de control será, entonces,

(3-22)

Reemplazando el valor de K en la igualdad (3-18) se obtiene el valor mínimo de la función implícita. Así,

( ) ( ) ( ) ,QPBKPAPAPBKRKKQBKAPPBKARKK0 TTTTT +−++−=+−+−+= reemplazando, entonces, K por la Ec. (3-21), se tiene

( ) ( ) ,QPBPBRPAPAPPBBRPBRRPBR0 T1TTT1T1TT1 +−++−= −−−−

( ) ( ) ( ) ( ) ,QPBPBRPAPAPBRPBPBRPB0 T1TT1TTTT1TT +−++−= −−− que operando, se llega a

(3-23)

que es la Ecuación de Riccati reducida. Evaluando a J de la Ec. (3-10) con el ut de la Ec. (3-22) se obtiene

(3-24)

donde se ha usado la igualdad (3-8) para resolver la integral. Para determinar el valor en la Ec. (3-24), se considera que los autovalores de (A-BK) tienen parte real negativa, entonces x(t)→0 con t→∞. Por lo tanto la Ec. (3-24) resulta

(3-25)

( ) ( ).BKAPPBKARKKQ TT −+−++=ξ

( ) ( ) ( ),xX2 =

x

xXx ;x X =

y

yXx ;y X =

x

yXx TT

TT

⋅∂

⋅⋅∂⋅∂

⋅⋅∂⋅∂

⋅⋅∂

.PBRK T1−=

.xPBRu tT1

t ⋅−= −

,0QPBPBRPAPA T1T =+−+ −

( ) ( ) ( )0T

0T

0

T

0

TT PPP.dtRKKQu,J xxxxxxxxx −−=−=+= ∞∞

∞∞

∫

( ) .Pu,J 0T

0 xxx =

( ) ( )( ) ,RKKQBKAPPBKA TT +=−+−−



Dado el caso en que se diseñe al funcional de costos en términos de la salida y, del sistema de Ec. (3-1),

(3-26)

se reemplaza y por la segunda fila de la Ec. (3-1), quedando

(3-27)

y se emplea CTQC en lugar de Q. Para el diseño del controlador óptimo cuadrático, una vez formulado el problema, se debe resolver la Ecuación de Riccati (3-23) con respecto a P verificando que (A-BK) sea estable. Para calcular el controlador usando Matlab, se dispone del comando

K=LQR(A,B,Q,R) o bien

[K,P,E]=LQR(A,B,Q,R) donde E contiene a los autovalores de (A-BK). 4. Regulador óptimo lineal en tiempo discreto 4.1. Formulación del problema La formulación del problema de control para el Regulador Óptimo lineal en tiempo discreto es la siguiente. Dado el sistema lineal determinístico

(4-1)

se desea encontrar una ley de control uk que haga evolucionar al proceso desde x(0)≠0 a x(N)=0 minimizando el siguiente funcional de costo

(4-2)

con S y Q simétricas y semidefinidas positivas y R simétrica y definida positiva. Para encontrar la ley de control uk, existen diversos métodos, entre los más difundidos están los basados en el principio de optimalidad de Bellman y los que emplean los multiplicadores de Lagrange. Para el caso en que N tienda a infinito en la definición del funcional (4-2), se tiene una formulación del problema conocida como de estado estacionario donde pierde sentido el término xT

NSxN ya que al ser estable el sistema controlado siempre será nulo, la cual admite un procedimiento de cómputo basado en la Teoría de Lyapunov. 4.2. Formulación del problema de estado estacionario Se propone formular el problema de control óptimo para emplear la Teoría de Lyapunov, que considera un sistema dinámico en estado estacionario. Dado el modelo dinámico de la Ec. (4-1), se desea encontrar una ley de control uk

(4-3)

( ) [ ] NTNk

Tkk

Tk

1-N

0=k

SRuu+Qu,xJ xxxx += ∑

+=+=+

kkkkk

kkkk1k

uDC

uBA

xy

xx

( ) ( )∫∞

+=0

TT dtRuuQu,J yyx

( ) ( )∫∞

+=0

TTT ,dtRuuQCCu,J xxx

kk Ku x⋅−=



que haga evolucionar el sistema para k=0 hasta k=∞, minimizando el funcional de costos

(4-4)

donde Q es simétrica y semidefinida positiva, y R es simétrica y definida positiva. Para resolver éste problema, se empleará el Teorema de estabilidad de Lyapunov.

4.2.1. Estabilidad en tiempo discreto El análisis de estabilidad en el sentido de Lyapunov sirve para sistemas lineales o no lineales de tiempo discreto, variantes o invariantes en el tiempo. Se basa en el segundo método de Lyapunov. Teorema Sea el sistema en tiempo discreto

(4-5)

donde x∈Rn, f(x) ∈Rn, f(0)=0, y T período de muestreo. Se emplea una función que contempla la energía del sistema, y de ésta función se calcula la diferencia temporal, es decir, que dada

(4-6)

y la función diferencia para dos intervalos de muestreo se define como

(4-7)

Si existe una función escalar continua V(x) tal que

1. V(x)>0 ∀x≠0, 2. ∆V(x)<0 ∀x≠0, ∆V(x)=V(f(x kT))-V(xkT), 3. V(0)=0, 4. V(x)→∞ con ||x||→∞,

entonces el estado de equilibrio x=0 es asintótica-globalmente estable y V(x) es una función de Lyapunov. Nótese que 2 puede ser reemplazado por ∆V(x)≤0 ∀x, y ∆V(x) no se hace cero para toda secuencia x kT solución de (4-5). Suponiendo que en el sistema de la Ec. (4-1) se hace uk=0, se propone la siguiente función candidata de Lyapunov

(4-8)

donde P es simétrica y definida positiva. Entonces, se calcula

( ) ( ) ( ).xVAxVxV Kkk −=∆

( ) .Ruu+Qu,J kTkk

Tk

0=k

xxx ∑∞

=

( ) candidata funcionxV kT =

( ) ( )( ) ( ).xVxVxV kTT1kkT −=∆ +

( ) ( ),xfx kTT1k =+

( ) kTkk PxxxV =



Reemplazando la (4-8) se tiene, ( ) ( ) k

Tkk

Tkk PxxPAxAxxV −=∆ ,

(4-9)

Para asegurar estabilidad asintótica, se impone que la (4-9) sea definida negativa, y se puede escribir que

(4-10)

donde Q es definida positiva, da la condición suficiente para estabilidad asintótica

(4-11)

Es conveniente especificar Q simétrica y definida positiva, y luego verificar que P - determinada por la (4-11)- es definida positiva o no. Si P es definida positiva, entonces la V(x) propuesta por (4-8) es función de Lyapunov y se demuestra estabilidad. Por otro lado, nótese que de la Ec. (4-8), se calcula su diferencia temporal como

( ) ( ) ( )k1kk xVxVxV −=∆ + de donde resulta que

(4-12)

y a su vez se iguala al lado derecho de la Ec. (4-10), y da

(4-13)

4.2.2. Problema de control óptimo discreto estacionario Reemplazando la ley de control (4-3) en la expresión del funcional de costos (4-4), se puede escribir que

(4-14)

Ahora se busca la solución al problema de control en tiempo discreto en estado estacionario, que se basa en la Ec. (4-13), pero si la acción de control no es nula, aparece la modificación de incorporar al controlador. Así, para el caso en que uk≠0 en la entrada al sistema (4-1), se reemplaza en las ecuaciones del sistema la expresión de la ley de control (4-3), y se tiene que la Ec. (4-13) se transforma en

(4-15)

si se hace coincidir a la matriz Q Ec. (4-13) con el argumento de ponderación de la forma cuadrática de la Ec. (4-14). De aquí que minimizando la (4-14) con respecto a K, se encuentra la ley de control óptima (4-3). Para ello, se opera en la igualdad (4-15) que puede escribirse como

(4-16)

Ésta última igualdad debe cumplirse para todo valor de xk, por lo tanto, se tiene que minimizando

(4-17)

con respecto a K es lo mismo que hacerlo en la (4-14). Para ello, se define una función ζ a partir de

( ) ( ) .xPPAAxxV kTT

kk −=∆

( ) ,QxxxV kTkk −=∆

.PPAAQ T −=−

( ) kTk1k

T1kk PxxPxxxV −=∆ ++

.PxxPxxQxx kTk1k

T1kk

Tk −=− ++

( ) .PxxPxxxRKKQx kTk1k

T1kk

TTk −=+− ++

( ) ( ) ( )( ) .xPBKAPBKAxxRKKQx kTT

kkTT

k −−−=+−

( ) ( ) .RKKQu,J kTT

k0=k

xxx += ∑∞

( ) ( ) PBKAPBKARKKQ TT +−−−=+



la Ec. (4-17) como,

(4-18)

Se procede minimizando a la Ec. (4-18) respecto a K, derivando miembro a miembro, considerando las reglas (3-20) y que la regla de la cadena en operaciones con matrices es

(4-19)

Para minimizar a la expresión de la Ec. (4-18), se deriva respecto a K, se iguala a cero y se despeja K en el extremo. Para demostrar que es un mínimo, se hace la derivada segunda de la Ec. (4-18) respecto a K, que deberá ser positiva. Entonces, derivando respecto a K a la Ec. (4-18), se tiene

( ) ( )BKAP2BRK2K

T −⋅−+=∂

ς∂.

La derivada segunda será ( )TTT

TT

2

2

PBB2R2K

PBKB2PAB2RK2

K+=

∂⋅+⋅−∂=

∂ς∂

cuyo resultado es una matriz definida positiva. Por lo tanto, el extremo en cuestión es un mínimo. Operando para despejar K de la derivada primera,

PBKBPABRK TT −= , es decir

PABPBKBRK TT =+ y de aquí

(4-20)

Reemplazando el valor de K óptimo encontrado en la Ec. (4-17), se llega a la Ecuación de Riccati de estado estacionario. Para ello, se reemplaza entonces la (4-20) en la (4-18). Entonces, operando primero a la Ec. (4-18),

(4-21)

donde el lado derecho y los primeros dos términos del lado izquierdo no dependen de K, pero sí los términos desde el tercero hasta el sexto. Reemplazando K de la Ec. (4-20) en el tercer término, se tiene

( ) ( ) PABPBBRRPABPBBRRKK T1TT

T1TT −−+

+=

( ) ( ) ( ) .PABPBBRRPBBRPAB T1TT1TTT −−

+

+=

Haciendo lo mismo con el cuarto término,

( ) ( ) PABPBBRPABPBKA T1TTTT −+= .

Con el quinto,

( ) ( ) ( ) ( ) PAPBBRBPABPAPABPBBRBPABKT1TTT

TT1TT

+=

+=

−−

( ) ( ) .PBKAPBKARKKQ TT −−−++=ς

( ) ( )( ) ( ) ( ) ( ) .X

FXF

x

F=

x

FXF xTxxx

Tx

∂⋅⋅∂

⋅∂

∂∂

⋅⋅∂

( ) .PABPBBRK T1T −+=

( ) ( ) ,PPBKBKPABKPBKARKKPAAQ TTTTT =+−−++



( ) ( ) PAPBBRBPABT1TTT

+=

−

( ) ( ) PABPBBRPAB TT1TTT

+=

−

y con el sexto término, se tiene

( ) ( ) ( ) PABPBBRPBPABPBBRBPBKBK T1TT

T1TT −−+

+=

( ) ( ) ( ) PABPBBRPBBPBBRBPA T1TT

T1TT −−+

+=

( ) ( ) ( ) PABPBBRPBPBBRBPAB T1TT1TTT −−

+

+=

( ) ( ) ( ) .PABPBBRPBBPBBRPAB T1TTT1TTT −−

+

+=

Nótese que todos los términos se expresaron como una forma cuadrática de BTPA, por lo tanto, se puede hacer la suma de los términos y agruparlos reemplazándolos en la Ec. (4-21), entonces operando se tiene,

( ) ( ) ( ) ( ) ( ) +

+−+−+

+++=

−−−− T1T1T1TT1TTTT PBBRBPBBRPBBRRPBBRPABPAAQP

( ) ( ) PABPBBRPBBPBBR T1TTT1T

+

++

−−

, que operando con el primer y cuarto término dentro del paréntesis, para agrupar como forma cuadrática, se tiene

( ) ( )( ) ( ) ( ) T1T1T1TTT1T PBBRPBBRPBBRRPBBPBBR

+−+−++

+

−−−−

, y ahora se puede simplificar ya que las inversas existen

( ) ( ) ( ) ( ) 1TT1T1T

T1T PBBRPBBRPBBRPBBR−−−−

+−=

+−+−

+

, que será el término medio de la forma cuadrática en BTPA, finalmente, la Ec. (4-21) queda

(4-22)

que es la Ecuación de Riccati de estado estacionario en tiempo discreto. A su vez, operando se llega a

(4-23)

y también a,

(4-24)

Para el diseño del controlador, debe resolverse la Ecuación de Riccati en P. El funcional de costo se puede evaluar, usando las igualdades de la Ec. (4-14) y la Ec. (4-15), se llega a

( ) ( ) PABPBBRPABPAAQP T1TTTT −+−+=

( ) APBRBIPAQP1T1TT −−++=

( ) .ABRBPAQP1T1T1T −−− ++=

( ) .PxxPxxPxxRuu+Qu,J 0T0k

Tk1k

T1k

0=kk

Tkk

Tk

0=k

=−== ++

∞∞∑∑ xxx



(4-25)

4.3. Problema de control óptimo lineal de continuo a discreto Se estudiará el problema de control óptimo que se plantea en el tiempo continuo pero se implementa en tiempo discreto. Formulación del problema Dado el sistema modelado mediante las Ec. (3-1), se desea encontrar la ley de control ut de la forma

(4-26)

que minimice el funcional de costo definido por

(4-27)

con Q simétrica y semidefinida positiva y R simétrica y definida positiva. Se supone que el sistema representado por las Ec. (3-1) puede ser reemplazado por

(4-28)

La solución general del sistema de Ec. (3-1) ∀t∈[t0,t] es

(4-29)

Si se expresa la solución en el intervalo ∀t∈[kT,(k+1)T] y considerando que us en ése intervalo es constante según se expresa en la Ec. (4-26), se tiene que

(4-30)

Así, la solución xt ∀t∈[kT,(k+1)T] puede expresarse como

(4-31)

donde

(4-32)

Reemplazando la Ec. (4-31) y la Ec. (4-26) en la expresión del funcional de costo J de la Ec. (4-27)

(4-33)

Operando el término entre llaves, considerando que todas las cantidades son escalares, y que u y x

( )[ ]T1k,kT t,uu kTt +∈=

( ) ( )∫ ++=f

ff

t

0t

Ttt

Ttt

Tt dtRuuQ

2

1Sxx

2

1u,J xxx

( )

⋅=

⋅+⋅=+

kTkT

kTTkTTT1k

C

uBA

xy

xx

( ) ( ) .dsBuexext

ts

stAt

ttAt

00

0 ∫−− +=

( ) ( ) .uBdsexex kT

t

kT

stAkT

kTtAt

+= ∫

−−

,uFxFx kT2kT1t ⋅+⋅=

( )

( )

∫−

=

−=

t

kT

stA2

kTtA1

.BdseF

eF

( ) ( ) ( ) ( )∑ ∫

−

=

++⋅+⋅⋅+⋅+=

1N

0k

T1k

kTkT

TkTkT2kT1

TkT2kT1NT

TNT dtRuuuFxFQuFxF

2

1Sxx

2

1u,J x



son constantes en el intervalo de integración, se llega a la expresión de J de la forma

(4-34)

donde

( )tdQFFQ

T1k

kT1

T11 ∫

+

= ( )

tdQFFMT1k

kT2

T11 ∫

+

= ( )( )tdRQFFR

T1k

kT2

T21 ∫

+

= + .

Nótese que el funcional en tiempo continuo de la Ec. (4-27) no queda expresado como

(4-35)

sino que se agrega un término cruzado que involucra a xkT y ukT y se modifican Q y R.

( ) ∑−

=+++=

1N

0kk1

Tkk1

Tkk1

TkNT

TNT uRuuMx2xQx

2

1Sxx

2

1u,J x

( ) ,Ruu+Q2

1Sxx

2

1u,J k

Tkk

Tk

1N

0=kN

TN xxx ∑

−+=



Ejemplo de aplicación Para la planta de la Fig. 6, suponiendo que el flujo entre los tanques es proporcional a la diferencia de nivel de líquido en los mismos, y aplicando el principio de conservación de la masa (o del volumen si el fluido es incompresible), las ecuaciones que gobiernan al sistema son

t121

1 u + )h - h( R1

1 =

dt

dh A

h R

1 - )h - h(

R1

1 - =

dt

dh A 2

212

22

donde ut es el caudal de líquido que entra al tanque 1.

Fig. 6. Planta hidráulica.

Se considera que 3

1 = R ;

2

1 = R ; 1 = A = A 2121 y el sistema de medidas es el MKS. Se pretende

controlar la altura del líquido en el tanque 2 controlando el caudal de líquido entrante al tanque 1. Se pide, para los dominios en tiempo continuo y discreto:

1. Deducir las ecuaciones de estado del sistema. 2. Calcular el controlador óptimo K siguiendo el procedimiento visto, donde deben resolverse

las Ecuaciones de Riccati en P. 3. Graficar diferentes respuestas del sistema para distintas matrices Q y R. Verificar los

resultados con las igualdades Jmin=xT(0)Px(0).

4. Proponer una estrategia de control para referencia distinta de cero, por ejemplo 1, 10, y -100.

Solución 1. Utilizando las ecuaciones que gobiernan al sistema

( ) )t(uhh1R

1

dt

dhA 12

11 +−=



( ) 2122

2 h2R

1hh

1R

1

dt

dhA −−−=

Valuando con A1=A2=1, R1=0,5 y R2=0,333, se tiene:

( ) )t(uhh2dt

dh12

1 +−=

( ) 2122 h3hh2

dt

dh −−−=

O lo que es lo mismo, para tiempo continuo se tiene:

−=

++−=

212

211

h5h2h

)t(uh2h2h&

&

Expresando las ecuaciones con matrices

(4-36)

2. Para hallar la matriz P a partir de la Ec. de Riccati reducida, que es el caso del dominio del tiempo continuo, se opta por la iteración siguiente

(4-37)

donde γ=0,01 si se hacen 500 iteraciones. Desde el programa Prog_TC_01.m pueden ensayarse diferentes casos para hallar la matriz P. Nótese que el método no sirve así planteado si A es singular. Para hallar la matriz P a partir de la Ecuación de Riccati en estado estacionario, se propone hacer la siguiente operación recursiva

(4-38)

que en 10 iteraciones llega al P invariante. Desde el programa Prog_TD_02.m pueden ensayarse diferentes casos para hallar la matriz P. 3. En el caso de tiempo continuo, la evaluación del funcional de costo se implementa mediante la evaluación de la Ec. (3-3), donde el estado se calcula mediante el método de integración de Euler. Debe coincidir con el valor de la Ec. (3-25) para referencia nula. Ensayar al programa Prog_TC_01.m.

⋅=

⋅

+

⋅

−−

=

2

1

2

1

2

1

x

x]10[y

.u0

1

x

x

52

22

x

x

&

&

( )( )

−γ−=

+=

gTT

-1T-1Tg

PPPP

APBPBR PA - Q-P

( ) APBBPBRA)P(B -A PA Q P kT-1

kTT

kT

kT

1k ++=+



En el caso del tiempo discreto, la evaluación del funcional de costos (4-4) se implementa directamente, y debe coincidir con el valor según la Ec. (4-25) para referencia nula. Ensayar el programa Prog_TD_02.m. 4. Cuando la referencia es distinta de cero, puede usarse el mismo controlador que se diseñó, pero hay que modificar a la acción de control. Una propuesta, se fundamenta en una ley de control de la forma

(4-39)

donde rt es la referencia y tiene la misma dimensión que yt, G es una ganancia de prealimentación de la referencia.

Fig. 7. Esquema de control óptimo en tiempo continuo con referencia distinta de cero.

Como la referencia se alcanza en el estado estacionario del sistema, se hace el análisis para diseñar a G usando Laplace. De la Ec. (3-1) se tiene

(4-40)

Reemplazando la transformada de Laplace de la Ec. (4-39) en la primera de la Ec. (4-40), se tiene

( ) ( ) ssssss BGrxBKAGrKxBAs +−=+−+⋅= xx ( )( ) ss BGrxBKAsI =−−

( )( ) s1

s BGrBKAsIx −−−= y la salida y se obtiene con la segunda de la Ec. (4-40)

( )( ) s1

s BGrBKAsICy −−−= de donde se puede definir una ganancia en s, como

(4-41)

y así

xt ∫ ⋅ dt

A

ut

x0

C B x& yt

-K

G rt

ttt GrKxu +−=

⋅=⋅+⋅=

ss

sss

C

uBAs

xy

xx

( )( ) BGBKAsICH 1s

−−−=



(4-42)

La referencia rs será un escalón unitario, ya que se trata de un problema de regulación, y se emplea el teorema del valor final, que establece que

.ylimyslim tt

s0s ∞→→

=⋅

Aplicando la igualdad a la Ec. (4-42) con rs escalón unitario, se tiene que la salida será

( )( ) BGBKACI 1−−−= y despejando G de aquí, se tiene que

(4-43)

En el programa Prog_TC_01.m se tiene una implementación de ésta propuesta. Para el caso de tiempo discreto, se procede de manera análoga, sólo que cambia el dominio. La acción de control propuesta será

(4-44)

donde nuevamente la ganancia de prealimentación de la referencia G es la incógnita. Reemplazando ésta uk en la Ec. (4-1) en el dominio de Z, se tiene

(4-45)

despejando xz de la primera, se tiene

( ) z1

z BGrBKAzIx −+−= y por lo tanto yz es

(4-46)

en donde se define que

(4-47)

Para hallar G, se supone que yz alcanza la referencia rz en el estado estacionario, y por lo tanto se usa el teorema del valor final (TVF), que establece que

.ylimyz

1zlim k

kz

1z ∞→→=⋅−

Aplicando el TVF a yz cuando rz es un escalón unitario, se tiene que

( ) BGBKAICI 1−+−= y por lo tanto, despejando G se tiene que

(4-48)

En el programa Prog_TD_02.m se tiene una implementación de ésta propuesta. Nótese que en los dos casos vistos las ganancias de prealimentación dejan al sistema a lazo abierto con respecto a la referencia. Para ello se proponen sendas estrategias que incorporan un integrador

.rHy sss ⋅=

( )[ ] .BBKACG11 −−−−=

kkk GrKxu +−=

( )

=+−+=

zz

kzz

C

GrKxBAz

xy

xx

( ) z1

z BGrBKAzICy −+−=

( ) .BGBKAzICH 1z

−+−=

( )[ ] .BBKAICG11 −−+−=



del error de control.

Incorporación de un integrador Incorporando un término de integración en el diseño en tiempo continuo, se tiene que la ley de control ut es

(4-49)

donde

(4-50)

definiéndose el nuevo estado ξ, como la salida de un integrador cuando a la entrada está presente el error de control rt-yt. El esquema de control se muestra en la Fig. 8.

Fig. 8. Esquema de control óptimo en tiempo continuo con un integrador en el lazo para referencia distinta de cero.

El sistema de orden incrementado puede escribirse como

(4-51)

Para el estado estacionario, se tiene con t→∞,

(4-52)

Suponiendo una referencia constante, escalón, se pueden restar las ecuaciones (4-51) y (4-52) obteniendo

(4-53)

xt ∫ ⋅ dt

A

ut

x0

C B x& yt

-K

K1 rt

ξt ∫ ⋅ dt

tξ&

-

t1tt KKxu ξ+−=

ttttt Cxryr −=−=ξ&

.r1

0u

0

Bx

0C

0Att

t

t

t

t

+

+

ξ⋅

−=

ξ&&x

.r1

0u

0

Bx

0C

0A∞∞

∞

+

+

ξ⋅

−=

ξ ∞∞

∞&

&x

eu0

Be

0C

0Ae

+⋅

−=&



que determinan la dinámica del error, donde

(4-54)

Haciendo el diseño del controlador con las matrices

(4-55)

se llevará el error de de control de la Ec. (4-54) a cero. El algoritmo está implementado en el programa Prog_TC_Integrador.m para Matlab. Para el caso del tiempo discreto, si se incorpora un integrador en el lazo del controlador, se tendría un esquema como el de la Fig. 9.

Fig. 9. Esquema de control óptimo en tiempo discreto con un integrador en el lazo para referencia distinta de cero.

La ley de control uk es

(4-56)

donde la variable vk se define como la salida de un integrador del error de control rk-yk,

(4-57)

Operando sobre la señal vk, se tiene

( )kk1kk1k1kk1k BuAxCrvyrvv +−+=−+= ++++

1kkkk1k rCBuvCAxv ++ +−+−= de lo cual se tiene que

xk

A

uk

x0

C B

xk+1 yk

-K

K1

rk v

vk-

q-1

Iq-1

-

=

−=

0

BB ,

0C

0AA aa

ξ+−=

ξ−−

ξ=

∞

∞1ee

t

t KKxu ,xx

e

k1kk vKKxu +−=

kk1kk yrvv −+= −

.r1

0u

CB

B

v

x

1CA

0A

v

x1kk

k

k

1k

1k+

+

+

+

−+

⋅

−=



(4-58)

Asignando a rk un escalón, y haciendo k→∞, se tiene

(4-59)

restando a la Ec. (4-58) la Ec. (4-59), se llega a

(4-60)

donde

(4-61)

La expresión (4-60) determina la dinámica del error de control. Por lo tanto, diseñando el controlador considerando las matrices de orden incrementado

(4-62)

se obtendrá el controlador óptimo con un integrador del error de control. En el programa para Matlab Prog_TD_Integrador.m está implementado el algoritmo propuesto.

.r1

0u

CB

B

v

x

1CA

0A

v

x∞∞

∞

∞

∞

∞

+

−+

⋅

−=

.uCB

Be

1CA

0Ae ekk1k

−+⋅

−=+

[ ] .eKKu ,vv

xxe k1ek

k

kk −=

−−

=∞

∞

−=

−=

CB

BBy ,

1CA

0AA aa



5. Regulador óptimo lineal en el transitorio Se pretende deducir la expresión del controlador óptimo en el dominio del tiempo para que haga evolucionar a un proceso modelado como un sistema lineal, desde cualquier estado inicial en el instante k=0 hasta el valor 0 en el instante k=N. 5.1. Formulación del problema en el transitorio El procedimiento que va a implementarse se conoce como minimización de una función sujeto a restricciones, las cuales están impuestas por el modelo dinámico del proceso. El concepto del método es útil para considerar restricciones arbitrarias en la formulación del problema de control óptimo. Las restricciones se agregan al funcional de costo mediante los multiplicadores de Lagrange (ML) λ, que son vectores con la misma dimensión que el vector de estado. Se minimiza J de la Ec (4-2), cuando está sujeta a las restricciones especificadas por la Ec (4-1), para una condición inicial x(0)≠0. Al emplear un conjunto de ML λ(1), λ(2),.... λ(N) que forman un vector adjunto o covector, se re define al funcional J(x,u) de la Ec (4-2) como el funcional de costo aumentado Ja(x,u), dado por

(5-1)

donde los ML se escriben así para mantener la dimensión escalar de L. Minimizar (5-1) es equivalente que minimizar (4-2) sujeto a (4-1). Para minimizar Ja(x,u), se busca diferenciar a Ja(x,u) respecto de cada componente dadas como x, u y λλλλ e igualar a 0 las expresiones. Suele ser conveniente trabajar con los conjugados de cada componente, pero aquí se trabajará con las componentes originales ya que sólo se hará tratamiento simbólico. Por lo tanto, se pretende hallar las siguientes igualdades

(5-2)

con k de 1 a N para xk y λk, y de 1 a N-1 para u. Para facilitar el procedimiento, se explicitará al funcional de costo Ja(x,u) de la Ec. (5-1)

(5-3)

( ) [ ] [ ] N

TN

1kT

1kkk1kkkT

1kkTkk

Tk

1-N

0=ka

Sxx

xBuAxxBuAxRuu+Qxxu,xJ

+

λ−++−+λ+= ++++∑

( ) ( ) ( ) ( ),0

u,xJ,0

u,xJ,0

u,xJ,0

u,xJ

k

a

k

a

N

a

k

a =∂

∂=

∂∂

=∂

∂=

∂∂

λuxx

( ) [ ] [ ][ ] [ ]

[ ] [ ] .Sxx

xBuAxxBuAxRuu+Qxx

xBuAxxBuAxRuu+Qxx

xBuAxxBuAxRuu+Qxxu,xJ

NTN

NT

N1N1NN1N1NTN1-N

T1-N1-N

T1N

1kT

1kkk1kkkT

1kkTkk

Tk

kT

k1k1kk1k1kTk1-k

T1-k1-k

T1k

1-N

0=ka

+

λ−++−+λ++

λ−++−+λ++

λ−++−+λ++⋅⋅⋅=

−−−−−

++++

−−−−−∑



Ahora, se visualiza claramente dónde están las funciones de las variables correspondientes para ejecutar el procedimiento de (5-3). Recordar las igualdades de derivación matricial expresadas en la Ec. (3-20). Se obtiene,

( ) kkT

kkk1kT

1kT

kk

a AQx2AAQx2u,xJ λ−λ+=λ−λ−λ+λ+=

∂∂

++x

de donde se deduce

(5-4)

( ) NNNNN

N

a Sx2Sx2u,xJ λ−=λ−λ−=

∂∂

x

de donde se obtiene

(5-5)

( ) 1kk1k1kk

k

a BRu2BBRu2u

u,xJ+++ λ+=λ+λ+=

∂∂

por lo tanto

(5-6)

( ) k1kkk1kkk1kk

k

a xBuAx2xBuAxxBuAxu,xJ −+=−++−+=

λ∂∂

−−−

por último

(5-7)

Nótese que la Ec. (5-7) es la ecuación de estados del sistema (4-1). Para verificar que el extremo encontrado sea un mínimo, puede hacerse la derivada segunda de (5-3) respecto a sus variables y se verá que es positiva en los casos de xk, xN, y uk, pero en λk el método no decide. Para hallar la expresión del controlador, hay que operar entre las ecuaciones (5-4), (5-5), (5-6) y (5-7) para independizarse de λ. Entonces, despejando λ de (5-4),

(5-8)

tiene como condición final a la Ec. (5-5), es decir

(5-9)

De la expresión (5-6) se despeja uk,

(5-10)

Sustituyendo la expresión de uk de (5-10) en la ecuación de estado del sistema (4-1), se tiene para

( ).0Sx0

u,xJNN

N

a =λ−⇒=∂

∂x

( )1.-N 1,2,....,k ,0BRu0

u,xJ1k

Tk

k

a ==λ+⇒=∂

∂+u

( )N.1,2,...,k ,0xBuAx0

u,xJk1k1k

k

a ==−+⇒=∂

∂−−

λ

( )1.-N1,2,....,k ,0AQx0

u,xJk1k

Tk

k

a ==λ−λ+⇒=∂

∂+x

1.-N1,2,....,k ,AQx 1kT

kk =λ+=λ +

.SxNN =λ

1.-N 1,2,....,k ,BRu 1kT1

k =λ−= +−



A y B invariantes

(5-11)

Para resolver el problema de optimización, deben resolverse simultáneamente las expresiones de la Ec. (5-8) y la Ec. (5-11). Las condiciones de borde serán λN y x(0). De la Ec. (5-9), se define

(5-12)

donde la matriz Pk es simétrica y real, y PN=S. Sustituyendo (5-12) en las expresiones (5-8) y (5-11), se tiene

(5-13)

y análogamente para (5-11)

(5-14)

Las expresiones (5-13) y (5-14) se denominan transformaciones de Riccati, por no contener a λ. De la Ec. (5-14) se tiene que

(5-15)

Se demuestra que el paréntesis tiene inversa si P es al menos semidefinida positiva. Por lo tanto

(5-16)

Sustituyendo la Ec. (5-16) en la Ec. (5-13)

(5-17)

Multiplicando ambos miembros de la Ec. (5-17) por xk

T se tiene que

(5-18)

Como la igualdad debe cumplirse para todo x, entonces

(5-19)

que es la Ecuación de Riccati. Sabiendo que PN=S, se resuelve PN-1 y así sucesivamente hasta P0. Despejando λk+1 de a Ec. (5-8) se tiene que

(5-20)

El vector de control óptimo se escribe entonces reemplazando en (5-10) la Ec.(5-20), se obtiene

(5-21)

( ) . ,BBRA 001kT1

k1k xxxx =λ−= +−

+

1-0,1,...Nk ,xP kkk ==λ

1.-N1,2,....,k ,xPAQxxP 1k1kT

kkk =+= ++

( ) . ,xPBBRA 001k1kT1

k1k xxxx =−= ++−

+

( ) ( ) . ,APBBRIx 00k1

1kT1

1k xxx =+=−

+−

+

( ) 1.-N1,2,....,k ,xAPBBRIPAQxP k1

1kT1

1kT

kk =

++=

−+

−+

( ) 1.-N1,2,....,k ,xAPBBRIPAQxxPx k1

1kT1

1kTT

kkkTk =

++=

−+

−+

( ) 1.-N1,2,....,k ,APBBRIPAQP1

1kT1

1kT

k =++=−

+−

+

( ) ( ) 1.-N 1,2,....,k ,QxABRu kk1TT1

k =−λ−=−−

( ) ( ) 1.-N1,2,....,k ,QxA kk1T

1k =−λ=λ−

+

( ) ( ) . ,AxPBBRI 00k1k1kT1 xxx ==+ ++

−



Reemplazando λk de la Ec. (5-12) en la (5-21), se tiene

(5-22)

de donde se define el controlador Kk como

(5-23)

Evaluando el funcional de costo de la Ec. (4-2) con la uk de la (5-22) se encontrará el Jmin. Para simplificar el procedimiento, multiplicando ambos miembros de (5-13) por xk

T, se tiene

(5-24)

y reemplazando el término xk

TAT por su equivalente de la Ec. (5-15)

(5-25)

y despejando el término en xkTQxk se tiene

(5-26)

En la Ec. (5-10) se reemplaza λk+1 partiendo de la Ec. (5-12) que está valuada en k,

(5-27)

Así, ukTRuk resulta

(5-28)

Sumando las expresiones de la Ec. (5-26) con la Ec. (5-28) se tiene que

(5-29)

y operando se llega a

(5-30)

Sustituyendo la Ec. (5-30) en la Ec. (4-2)

(5-31)

pero como PN=S, se tiene que el Jmin resulta

( ) ( ) 1.-N 1,2,....,k ,xKxQPABRu kkkk1TT1

k =−=−−=−−

( ) ( ) 1.-N 1,2,....,k QPABRK k1TT1

k =−=−−

1.-N1,2,....,k ,xPAxQxxxPx 1k1kTT

kkTkkk

Tk =+= ++

( ) 1.-N1,2,....,k ,xPPBBRIxQxxxPx 1k1kT

1kT1T

1kkTkkk

Tk =++= +++

−+

1.-N 1,2,....,k ,xPBRu 1k1kT1

k =−= ++−

( ) ( ) 1.-N 1,2,....,k ,xPBRRxPBRRuu 1k1kT1T

1k1kT1

kTk == ++

−++

−

( ) 1.-N1,2,....,k ,xPPBBRIxxPxQxx 1k1kT

1kT1T

1kkkTkk

Tk =+−= +++

−+

( )( ) ( ) 1.-N1,2,....,k ,xPBRRxPBR

xPPBBRIxxPxRuuQxx

1k1kT1T

1k1kT1

1k1kT

1kT1T

1kkkTkk

Tkk

Tk

=

++−=+

++−

++−

+++−

+

1.-N1,2,....,k ,xPxxPxRuuQxx 1k1kT

1kkkTkk

Tkk

Tk =−=+ +++

( ) ( )[ ] NTNNN

TN1N1N

T1N22

T211

T111

T100

T0min SxPxxPxxPxxPxxPxxPxJ xx+−++−+−= −−−L

.xPxJ 00T0min =



(5-32)

En el Ejemplo de aplicación visto, se pretende implementar un control con 3, 4 y 5 etapas con el tiempo de muestreo de 0,104 seg. Agregar como ítem N° 5, con la salvedad de que se implementará en tiempo discreto únicamente. Como ítem N°6, obtener simulaciones con la referencia distinta de cero. Tiene sentido incorporar un término integrador?. En el programa para Matlab Prog_TD_N_03.m está codificado el algoritmo.

%Uso del control óptimo en la planta hidráulica %Control óptimo de tiempo discreto en el transitori o. %Autor JAP. %29 de noviembre de 2007. clear; Ts=.1*2*pi/6;kmax=5; Ac=[-2 2;2 -5]; Bc=[1;0];Cc=[0 1];Dc=0; SYSc=ss(Ac,Bc,Cc,Dc); [SYS,G] = c2d(SYSc,Ts, 'zoh' ); %Acá SYS está discretizado con el To=Ts. [A,B,C,D] = ssdata(SYS); Q=[1 0;0 10];R=.01;S=[1 0;0 100]; %Cálculo del LQR P=zeros(2); K=zeros(kmax,2); P=S; %condición inicial de P for hi=kmax:-1:1 P= Q + A'*P*inv(eye(2)+B*inv(R)*B'*P)*A; K(hi,:)=inv(R)*B'*inv(A')*(P-Q); end %Con referencia distinta de 0. r=0*pi;x=[1;1]; Jmin=x'*P*x; Jxu(1)=0;Jxx(1)=0; for k=1:kmax x1(k)=x(1); x2(k)=x(2); y(k)=C*x; Gj=inv(C*inv(eye(2)-A+B*K(k,:))*B); uq=Gj*r; u=-K(k,:)*x+uq; Jxu(k+1)=Jxu(k)+x'*Q*x+u'*R*u; Jxx(k+1)=Jxx(k)+x'*(Q+K'*R*K)*x; x=A*x+B*u; end Jxu(k+1)=Jxu(k+1)+x'*S*x; Jinf=Jxu(k+1); Jmin/Jinf t=0:Ts:Ts*(kmax-1); figure; subplot(2,2,1),plot(t,x1);title([ 'h_1(t)' ]);



6. Control óptimo basado en programación dinámica Se ha visto el procedimiento de resolver el problema de control óptimo para sistemas en tiempo contínuo y tiempo discreto, basados en el Teorema de Lyapunov y usando multiplicadores de Lagrange. Ahora se empleará un principio de optimización que sirve para resolver el mismo problema de control pero que además permite utilizar cualquier funcional de costo y contemplar las restricciones en las variables de estado y en las de control de manera natural. 6.1. Principio de optimalidad de Bellman

Fig. 10. Trayectoria óptima desde a hasta d en línea continua. En línea de trazos, otra posible trayectoria óptima.

Sea la trayectoria óptima mostrada en la Fig. 10. Suponiendo que la primer decisión, hecha en a, resulta en el tramo a-b con costo ga-b y las decisiones siguientes tienen un costo Jb, correspondiente al segmento b-d es decir, desde el punto b hasta el final. El costo mínimo desde a hasta d es

bab*a JgJ +=

Afirmación: Si el tramo a-b-d es una trayectoria óptima de a hasta d, entonces b-d es la trayectoria óptima desde b hasta d. Prueba: Suponiendo que el tramo b-c-d sea la trayectoria óptima, como muestra en línea de trazos la Fig. 10, el costo desde b hasta d será entonces

cbc1b JgJ +=

*abab

1bab JJgJg =+<+

pero puede cumplirse únicamente violando la condición que a-b-d es la trayectoria óptima desde a hasta d. Así se prueba la afirmación. El principio de optimalidad puede enunciarse: Una secuencia óptima de control (política óptima) tiene la propiedad de que cualquiera sea el par (estado, acción) inicial las decisiones restantes deben constituir una secuencia óptima de control (política óptima) con respecto al estado resultante de la primera acción de control.

•

•

•

• a

b

c

d



6.1.1. Formulación del problema Formulación del problema de control para el Regulador Óptimo lineal determinístico: dado el sistema lineal determinístico descrito por las Ec. (4-1) se desea encontrar una ley de control uk que haga evolucionar al proceso desde x0≠0 a xN=0 minimizando el funcional de costo definido en la Ec. (4-2). Se resuelve utilizando un método basado en Programación dinámica.

6.1.2. Ejemplo de tres etapas Se presenta un problema de control óptimo definido mediante el funcional de costo

( ) [ ]∑=

++=2

0k

23

2k

2k xuxu,xJ ,

siendo la ecuación del sistema )k(u)k(x)1k(x +=+ .

Nótese que el funcional de costo define que la evolución del proceso está determinada en 3 etapas. Solución: Se tiene que

23

* x)3,x(J = . Se comienza calculando J*(x,2)

( ) 23

22

22

u

*22

22

u

* xuxmin3,xJuxmin)2,x(J ++=++= .

Reemplazando mediante la expresión del modelo dinámico para poner todos los términos en función de las variables del instante k=2,

( ) ( ) 222

22

22

u

* uxuxmin2,xJ +++= .

Diferenciando la cantidad entre llaves con respecto a u e igualando el resultado a cero, se obtiene

( ) ( ) 0u4x2ux2u2uxuxdud

222222

222

22

2 =+=++=+++ .

Usando este resultado y la convexidad de la función ( )222

22

22 uxux +++ se deduce que el valor

de u que la minimiza es 2o2 x

2

1u −= . Sustituyendo se obtiene

22

2

22

2

222

* x2

3x

2

1xx

2

1x)2,x(J =

−+

−+= .

Para obtener J*(x,1), la ecuación es entonces

( )

+++= 2

112

12

1u

* ux2

3uxmin)1,x(J .

Siguiendo el mismo procedimiento analítico se encuentra que x5

3uo

1 −= . Sustituyendo se obtiene

2* x5

8)1,x(J = .

Finalmente la ecuación recursiva para J*(x,0) es



( )

+++= 2

0020

20

u

* ux5

8uxmin)0,x(J ,

minimizando se obtiene 0o0 x

13

8u −= y la función de costo resultante es

20

* x13

21)0,x(J = .

La especificación completa de J*(x,k) y de uo(x,k), k=0,1,2 se indica en la Tabla 6-1.

k J*(x,k) uo(x,k) 0

( )2

0x615,1 ( )0x

138−

1 ( )

2

1x600,1 ( )1x5

3−

2 ( )

2

2x500,1

( )2x

2

1−

3 ( )

2

3x

Tabla 6-1. Solución explícita para la función de costo mínimo y la secuencia óptima de control del ejemplo

En la sección siguiente, se va a generalizar la metodología para un planteo con referencia variante en el tiempo distinta de cero.

6.1.3. Ejemplo de tres etapas con referencia rk Se presenta un problema de control óptimo definido mediante el funcional de costo

( ) ( )[ ] ( )∑=

−++−=2

0k

233

2k

2kk rxurxu,xJ ,

siendo la ecuación del sistema )k(u)k(x)1k(x +=+ .

Nótese que el funcional de costo define que la evolución del proceso está determinada en 3 etapas. Solución: Se tiene que

( )233* rx)3,x(J −= .

Se comienza calculando J*(x,2)

( ) ( ) ( ) ( ) ( ) 233

22

222

u

*22

222

u

* rxurxmin3,xJurxu,xJmin)2,x(J −++−=++−== .

Reemplazando mediante la expresión del modelo dinámico para poner todos los términos en función de las variables del instante k=2,

( ) ( ) ( ) 2322

22

222

u

* ruxurxmin2,xJ −+++−= .

Diferenciando la cantidad entre llaves con respecto a u e igualando el resultado a cero, se obtiene

( ) ( ) ( ) 0r2u4x2rux2u2ruxurxdu

d3223222

2322

22

222 =−+=−++=−+++− .

Usando este resultado y la convexidad de la función ( ) ( )23222

22

22 ruxurx −+++− se deduce



que el valor de u que la minimiza es

32o2 r5,0x5,0u +−= .

Sustituyendo se obtiene

( )( )[ ] ( )[ ]

( ) ( )[ ] ( )[ ]

( ) 23

22322

22

2332

22

2332

22

232

23322

2332

22

2332

22

232

2222

22

222

*

r5,0rrr2xx5,1

r25,0rx5,0x25,0

rrx2x25,0rx5,0rr5,0x5,0x

r25,0rx5,0x25,0

rrx2x25,0rx5,0

rrx2xrx

)2,x(J

+++−=

+⋅−=

+⋅⋅−=−=−+−+

+−=

+⋅⋅−=+−+

+−=−+

=

.

( ) 23

22322

22

* r5,0rrr2xx5,1)2,x(J +++−= Para obtener J*(x,1), la ecuación es entonces

( ) ( ) 23

22322

22

21

211

u

* r5,0rrr2xx5,1urxmin)1,x(J +++−++−= .

( ) ( ) ( )( ) ( ) ( )

( ) ( ) 0rr2ux3u2

0rr2ux25,1u2

r5,0rrr2uxux5,1urxdu

d

32111

32111

23

223211

211

21

211

1

=+−++=+−+⋅+=

++++−+++−

Siguiendo el mismo procedimiento analítico se encuentra que

( )321o1 rr22,0x6,0u ++−= .

Sustituyendo en

( ) ( ) 23

22322

22

21

211

* r5,0rrr2xx5,1urx)1,x(J +++−++−=

( ) ( ) ( )( )( )

( )( ) ( ) ( ) ( )( ) ( )

( )( ) ( ) ( ) ( )[ ]( ) ( )

( )( ) ( ) ( ) ( )

( )[ ] ( ) 23

22

232

213211

21

*

23

22

23232132321

232321

21

232321

21

2321

232321

21

232321

21

2321

2111

21

211

23

223211

211

21

211

*

r25,0rrr21,0rrr24,0r2xx6,1)1,x(J

r25,0r

rr22,0rr2x4,0rr2rr22,0x4,0

rr206,0rr2x24,0x24,0

rr204,0rr22,0x4,02x4,05,1rr22,0x4,05,1

rr204,0rr2x24,0x36,0

rr204,0rr22,0x6,02x6,0rr22,0x6,0

rrx2xrx

r25,0rrr2uxux5,1urx)1,x(J

+++−+++−=

++

+−+−=+⋅++−

++++=

+++⋅+=+++

+++−=

+++⋅−=++−+

+−=−+

=++++−+++−=

se obtiene

( ) ( )[ ] ( ) 23

22

232

213211

21

* r5,0rrr21,0rrr24,0r2xx6,11,xJ +++−+++−=



. Finalmente la ecuación recursiva para J*(x,0) es

( ) ( )

++−= 1,xJurxmin)0,x(J *2

02

00u

* ,

minimizando respecto de u0,

( ) ( ) ( )[ ] ( )( )( ) ( )[ ]

( )[ ]( )[ ]

2,5

rr24,0r2x2,3u

0rr24,0r2x2,3u2,5

0rr24,0r2ux6,12u2

r5,0rrr21,0rrr24,0r2uxux6,1

32100

32100

321000

23

22

232

2132100

200

+++−=

=++−+

=+−−+++

+++−++++−+

se obtiene

( )[ ]32100 rr24,0r20,1923x0,6153u +++−= y la función de costo resultante se obtiene reemplazando a u0 en la expresión de J1

*. En la sección siguiente, se va a generalizar la metodología para un sistema multivariable y con N etapas de evolución. En el programa para Matlab Sol_Analitica_ref.m está implementado el código que genera la operatoria expuesta y da los resultados directamente. En los programas Prog_3_rk_04.m y Prog_3_PD_05.m está implementada la evolución del sistema con éste controlador.

6.1.4. Solución al problema del regulador óptimo lineal determinístico. Siguiendo el principio de Optimalidad, el funcional de Ec. (4-2) se puede descomponer en dos partes

(6-1) El funcional de (6-1) será minimizado respecto de uN-1, por cuanto la primer sumatoria no depende de uN-1. Entonces se obtiene

(6-2)

Luego se reemplaza el valor obtenido de u en la expresión del funcional para obtener el costo mínimo, expresado como J*

N-1, que estará en función del modelo dinámico del proceso y de las matrices de ponderación. Haciendo nuevamente el mismo procedimiento, se obtiene la acción u para el instante uN-2 lo que permitirá obtener el J*

N-2. Repitiendo éste procedimiento hasta el instante k, se obtiene la expresión de la ley de control óptima que generará el costo mínimo J*.

Entonces, definiendo al funcional de costos en el instante k como función del funcional en el instante k+1 se tiene,

(6-3)

Para k+1=N se tiene

(6-4)

[ ] .SxxRuuQxxRuu+QxxJ NTN1-N

T1-N1-N

T1-Ni

Tii

Ti

2-N

0=i0 +++= ∑

.SxxRuuQxxmin= Jmin NTN1-N

T1-N1-N

T1-N

u1-N

u 1N1N

++−−

1kTT

kkk Ju(k) R (k)u+ x(k)Qx(k) = )u,xJ(J ++=

)N(Sx)N(x1)-u(N R 1)-(Nu+1)- x(NQ1)-x(NJ TTT

1N +=−



donde JN = xT(N) S x(N), y el estado x(N) es

(6-5)

Reemplazando la Ec. (6-5) en la Ec. (6-3) y haciendo

( )( ) ( )( )1-Nu,1-NxJJ min 1N1Nu

°=−−.

Tener en cuenta las condiciones (3-20). Se tiene

(6-6)

Despejando u se obtiene el uo(N-1)

(6-7)

reemplazando el estado y la acción de control para k=N-1, que son las Ecs. (6-5) y (6-7) en la Ec. (6-4) y reordenando

(6-8)

con

(6-9)

agrupando los términos en x(N-1), y definiendo

(6-10)

se obtiene

(6-11) Se procede a continuación a minimizar a la Ec (6-3) en k=N-2,

(6-12)

con

(6-13)

como las Ecs. (6-12) y (6-13) son análogas a las Ecs. (6-4) y (6-5), se opera repitiendo los pasos desde Ec. (6-6) hasta Ec. (6-11) obteniéndose

(6-14)

(6-15)

( )1).- x(N1)-P(N 1)-(NxJmin T

1-N1-Nu=

1).-u(N B+1)-A x(N=x(N)

0. =1)-u(N R 2+1)-u(N B S B 2+

+ 1)]-[A x(N S 1)-(NB 2 = 1)-u(N

J

T

T1N

∂∂ −

1).-A x(N S B B] S B + [R- = 1)-(Nu TT -1°

( )[ ] ( ) ,1)- x(NS 1-Nx+1)]-[A x(N 1)-H(N1)-A x(N =Jmin TT

1-N1Nu

⋅−

S B ] B S B + R [ B S - S = 1)-H(N T-1T

A 1)-H(N A + Q = 1)-P(N T

1)- x(N1)-P(N 1)-(Nx2)-u(N R 2)-(Nu 2)- x(NQ 2)-(Nx =J TTT2-N ++

2)-u(N B+2)-A x(N=1)-x(N

2)-A x(N 1)-P(N B

] B 1)-P(N B+-[R= 2)-(NuT

-1T

⋅

⋅°

[ ] 1)-P(N B B 1)-P(N B+R

B 1)-P(N - 1)-P(N = 2)-H(N

T1-T⋅

⋅



(6-16)

(6-17)

donde la diferencia está en cambiar a S por P(N-1). Siguiendo con la inducción, para un k cualquiera,

(6-18)

(6-19)

(6-20)

(6-21)

la Ec. (6-20) s la ecuación matricial de Riccati y se debe resolver para obtener el vector de control. La condición inicial para P es

(6-22)

Se ha obtenido así, la expresión para

( ) ( )kxkKu )k(o −= .

Con el proceso lineal, variante o invariante, donde K(k) es

(6-23)

Si el sistema es invariante, entonces se puede obtener P en estado estacionario, esto se cumple haciendo

(6-24)

y por lo tanto se obtiene

(6-25)

que es la ecuación matricial de Riccati en estado estacionario. Nótese que igual a la Ec. (4-22). Entonces la ecuación del controlador será

(6-26)

Para el caso del proceso invariante, se puede obtener la ecuación matricial de Riccati de estado

A 2)-H(N A+Q = 2)-P(N T

A. 1)-P(N B ]B 1)-P(N B[R

B 1)-P(N A -A 2)-P(N A + Q = 2)-P(N

T1-T

TT

+⋅

⋅

[ ] 1)x(k),+BP(kB 1)+P(k (k)B+R-= (k)u-1T ⋅°

1)+P(k B ]B 1)+P(k B + [R B 1)+P(k - 1)+P(k = H(k) T-1T

[ ] A. 1)+P(kBB 1)+P(kB + R

1)B+P(k A-A 1)+P(kA + Q = P(k)

1)A+H(k A+Q = 1)+P(k

T1T

TT

T

−

x(k).P(k) (k)x=J Tk

*

. S = P(N)

[ ] A. 1)+P(k BB 1)+P(k B+R = K(k) T-1T

P(k)lim= Pk ∞→

( ) PABPBBRPBA-PAA+Q = P T-1TTT +

( ) .PAxBPBBR -= (k)u kT-1T+°



estacionario tomando límite sobre P(k). De esta manera, el controlador de estado estacionario queda

( )kKxu )k( −= .

Donde el controlador es sub óptimo en las transiciones, pero óptimo al alcanzar la referencia.

6.1.5. Extensión a los sistemas multivariable La metodología de diseño del controlador desarrollada para los sistemas mono variable, puede ser extendida a los sistemas multivariable definidos en la Sección 1.1.1. Para ello, se formula el problema de control considerando que el sistema (1-7) y expresando a la acción de control mediante

(6-27)

donde K∈Rm×n, u y x son funciones temporales con magnitudes u∈Rm y x∈Rn, respectivamente. Para ello, se define

(6-28)

siendo B∈Rn×e y h∈Re es un vector que se elige de manera tal que el par (A, b) sea controlable. Ahora se tiene un sistema mono variable con entrada ut

(6-29)

y se busca el vector kT de realimentación para obtener a ut

(6-30)

de manera que los autovalores de A-BK sean los mismos que los de A-bkT. Igualando

(6-31)

se concluye por comparación que

(6-32)

Se ha convertido el problema multivariable en un problema de una simple entrada, y por lo tanto se puede resolver con las ecuaciones del caso para la obtención de kT. El vector h no es único, por lo que habrá más de una matriz de realimentación que cumpla con la asignación de polos requerida, la única restricción para h es que el par (A, Bh) sea completamente controlable. 7. Programación dinámica 7.1. Versión simbólica: Ecuación de Hamilton-Jacobi-Bellman La Ecuación de HJB es la versión en el dominio del tiempo contínuo de la Ecuación de Bellman mostrada en la Ec. (7-37) y Ec. (7-38), y es una ecuación diferencial no lineal en derivadas parciales. Aquí, se formula el problema del control óptimo en el dominio del tiempo continuo proponiendo un funcional de costos de la forma

(7-1)

tt xKu −=

h Bb =

ttt u bx Ax +=&

tT

t xku =

[ ] [ ]Tkh BAK BA −=−

Tk hK =

( ) ( ) ( )∫ ττ+= ττ

f

0t

f

t

ft d,u,xgt,xhu,xJ



El objetivo de control consiste en hallar la ley de control que haga evoluciona al proceso modelado mediante la expresión (7-2) minimizando al funcional de costos (7-1). El modelo del sistema es

(7-2) donde x(t0) tiene un valor fijo C. La minimización del funcional (7-2) para todo t∈[t0,tf], será

(7-3) Subdividiendo el intervalo en ∆t

(7-4) donde se aplicará el Principio de optimalidad de Bellman.

Fig. 11. Partición de la trayectoria óptima desde t hasta tf, en un ∆∆∆∆t.

Se obtiene, entonces

(7-5) Asumiendo que existe derivada segunda de J* en la Ec. (7-5), y que es acotado, se hace la expansión mediante serie de Taylor en el punto (xt,t). Se tiene,

(7-6) Haciendo ∆t pequeño, se tiene que,

(7-7)

t ∆t

tf

•

[ ] ]t,t[t,t,,a f0ttt ∈= uxx&

( ) ( ) ( )

ττ+= ∫ ττ∈τ

f

t

f]tf,t[

t

ftu

t d,u,xgt,xhmint,x*J

( ) ( ) ( ) ( )

+ττ+ττ= ∫∫∆+

∆+∈τττ

∆+

ττ ft

ttt

ut t,xhd,u,xgd,u,xgmint,x*J

f

f

ttt]tt,t[

( ) ( ) ( ) .tt,x*Jd,u,xgmint,x*J tt

tt

ut

t]tt,t[

∆++ττ= ∆+

∆+

ττ∫∆+∈τ

( ) ( ) ( ) ( )

( ) [ ] .superiororden de osmintérxxx

t,x*J

tt

t,x*Jt,x*Jd,u,xgmint,x*J

ttt

Tt

tt

tt

ut

t]tt,t[

+−

∂∂

+

+∆

∂∂

++ττ=

∆+

∆+

ττ∫∆+∈τ

( ) ( ) ( ) ( )( ) ( )[ ] .superiororden de términostt,u,xat,xJ

tt,xJt,x*Jtt,u,xgmint,x*J

ttT

t*x

t*tttt

ut

t

+∆+

+∆++∆=

•

•

• t0



donde se definen T

21

*x x

*J

x

*J

x

*JJ

∂∂

∂∂=

∂∂= L , y

t

*JJ*

t ∂∂= .

Los términos J* y Jt* pueden sacarse de las llaves de minimización porque no dependen de ut. Se tiene,

(7-8) Se cancelan los términos en J*,

(7-9) Dividiendo por ∆t y tomando límite cuando ∆t→0, considerando que

0t

eriorsuporden de términoslim

0t=

∆→∆,

Se llega a

(7-10) con la condición de frontera para t=tf,

(7-11) Definiendo al Hamiltoniano H como

(7-12) y también se define a

(7-13) que debido a la acción minimizante dependerá de x, J*x y t. Así, se llega a la Ecuación de Hamilton Jacobi Bellman, expresada en función del Hamiltoniano

(7-14) que es la versión en tiempo continuo de la Ecuación de Bellman, expresada en la Ec. (7-37).

7.1.1. Ejemplo de aplicación de la Ecuación de HJB Sea el sistema

(7-15) hallar la ley de control ut que minimiza al funcional de costos

(7-16)

( ) ( ) ( ) ( )

( ) ( )[ ] .superiororden de términostt,u,xat,xJ

tt,u,xgmintt,xJt,x*Jt,x*J

ttT

t*x

ttu

t*ttt

t

+∆+

+∆+∆+=

( ) ( )

( ) ( )[ ] .superiororden de términostt,u,xat,xJ

tt,u,xgmintt,xJ0

ttT

t*x

ttu

t*t

t

+∆+

∆+∆=

( ) ( ) ( ) ( )[ ]t,u,xat,xJ t,u,xgmint,xJ0 ttT

t*xtt

ut

*t

t

++=

( ) ( )ftft t,xht,x*Jf

=

( ) ( ) ( ) ( )[ ]t,u,xat,xJ t,u,xgt,J,u,xH ttT

t*xtt

*xtt +=

( ) ( ) t,J,u,xHmint,J*,u,xH *xtt

*xt =

( ) ( )t,J*,u,xHt,xJ0 *xtt

*t +=

ttt uxx +=&

( ) ∫+=T

0

2tT

2 .dtu4

1x

4

1J



Aquí,

(7-17)

y también (7-18)

entonces se construye el Hamiltoniano como

(7-19) la derivada respecto de u es

(7-20) y la derivada segunda de H es

(7-21) por lo que igualando a 0 la Ec. (7-20) la u que se obtendrá corresponderá a un mínimo de J de la Ec (7-16). Se obtiene así, que

(7-22) Ahora se construye la Ec HJB

(7-23) resulta

(7-24) que para t=T se tiene

(7-25) Se propone una solución, por ejemplo

(7-26) donde Kt es una función temporal, incógnita.

(7-27) que por la Ec. (7-22) se tiene que

(7-28) Tomando KT=1/2,

(7-29) y mediante la HJB Ec (7-24), y debido a que debe resolverse para todo xt, se llega a

(7-30) Una solución es

(7-31) Nótese que si T>>t, K es aproximadamente 1, y el sistema es estable ya que reemplazando en la Ec

2tu

4

1g =

tt uxa +=

( )tt*x

2t u,xJu

4

1H +=

( )t,xJu2

1

u

Ht

*xt +=

∂∂

02

1

u

H2

2

>=∂∂

( ).t,xJ2u t*x

*t −=

[ ] [ ] [ ]2*xt

*x

2*x

*t J2xJJ2

4

1J0 −+−+=

[ ] [ ] t*x

2*x

*t xJJJ0 +−=

( ) .x4

1T,x*J 2

TT =

( ) 2ttt xK

2

1t,x*J =

( ) ttt*x xKt,xJ =

tt*t xK2u −=

( ) 2ttt

*t xK

2

1t,xJ &=

.KKK2

10 t

2tt +−= &

( )( ) ( )TtexptTexp

tTexpK t −+−

−=



(7-15) se tiene

(7-32) Nótese que la solución para un problema con un sistema modelado con una variable de estado, y un funcional de costo cuadrático es muy laborioso y tedioso, incrementando la dificultad si el sistema es modelado como no lineal y el funcional de costo propuesto no es cuadrático. 7.2. Versión numérica: Ecuación de Bellman Hasta aquí no se han considerado las restricciones, ni tampoco las no linealidades en el modelo del proceso a controlar ni funcionales de costo no cuadráticos. Sin embargo, en determinadas situaciones es conveniente tener en cuenta las restricciones en el proceso para el diseño del controlador. Cuando se trata con procesos cuyos modelos no son del tipo lineal o se deben considerar saturaciones en los actuadores o en las variables de estado, sucede que la expresión analítica cerrada de la solución al problema de control óptimo no siempre puede hallarse, por lo que se hace uso de la aproximación numérica de la ley de control mediante la cuantificación de los estados de la planta. 7.3. Problema básico Para formular el problema, se presentan las expresiones del modelo del proceso, las restricciones en las variables y el funcional de costo a minimizar. Se considera el problema de minimizar la función de costos separable

(7-33) donde x(0) tiene un valor fijo C y deben ser satisfechas la ecuación del sistema

(7-34) y las restricciones

(7-35) (7-36)

Por simplicidad se supone que f y L son funciones acotadas y continuas de sus argumentos, y que x y u pertenecen a subconjuntos cerrados y acotados de Rn y Rm, respectivamente. Entonces, el teorema de Weierstrass asegura que existe una política de minimización.

Fig. 12. Implementación del controlador basado en programación dinámica numérica.

Se desea hallar una función ( )( ) mn:k,kx ℜ→ℜµ , que haga evolucionar al proceso modelado

Sistema x(k+1)=f(x(k),u(k),k)

µ(x(k),k)

x(k) u(k)=µ(x(k),k)

[ ] 1N,...1,0k,k),k(),k(f)1k( −==+ uxx

,RX n⊂∈x.RU m⊂∈u

( )[ ]∑=

=N

0k

k),k(u,kxLJ

.xx tt −=&



mediante la Ec (7-34) desde cualquier condición inicial hasta el estado final x(N) cumpliendo con las restricciones (7-35) - (7-36), y que minimice al funcional de costo (7-33). Aplicando el principio de optimalidad, se obtiene

(7-37) denominada Ecuación de Bellman., y por lo tanto la acción de control u será

(7-38) 7.4. La política óptima de decisiones Se desea obtener la ley de control mediante el cómputo de

( ) ( ) ( )( ) .1k,k),k(u,xfJk),k(u,xLminargk,xu *

)k(u

o ++=

Para obtener la ley de control se proponen tres métodos, conocidos como Programación dinámica regresiva (Clásica), Programación dinámica Iterativa, y Programación dinámica aproximada. 7.5. Programación dinámica regresiva Mediante éste método, se obtiene una tabla de valores con dos entradas: x y k, conociendo que

( ) N),N(u,xLminJ)N(u

* =

y luego se resuelve numéricamente mediante la programación dinámica. En la metodología del ejemplo 6.1.2, cuyos resultados están en la Tabla 6-1, puede verse que hay dos pasos: uno es para calcular la secuencia óptima de decisiones y otra para calcular la trayectoria óptima del estado del proceso para cada valor numérico de x(0).

7.5.1. Procedimiento de evaluación numérica Sea el funcional de costo

[ ] .1)5(xe)k(u2J4

0k

)k(x∑=

− −+⋅+= ,

el sistema expresado por

)k(u)k(x4

1)k(x

4

5)k(x22)k(x)1k(x 32 ⋅

⋅−⋅+⋅−+=+

con las siguientes restricciones

.1u1

,3x0

≤≤−≤≤

utilizando una cuantificación uniforme con ∆x=1 y ∆u=1. Se desea: -Hallar la solución completa por programación dinámica. -Generar la solución para el estado inicial x(0)=2.

( ) ( )( ) ,1k,k),k(u,xfJk),k(u,xLmin)k,x(Jmin *

)k(u)k(u++=

( ) ( ) ( )( ) .1k,k),k(u,xfJk),k(u,xLminargk,xu *

)k(u

o ++=



-Aplicar interpolación lineal para cualquier interpolación requerida. Solución: Para los incrementos de cuantificación indicados, el conjunto de estados admisibles es x=0,1,2,3 y el conjunto de decisiones admisibles es u=-1,0,1. Con el objeto de facilitar el análisis es útil calcular la función de transición de estados y la función de costo para cada etapa en cada estado cuantificado en función de la variable de decisión u. Dado que, en este ejemplo, ambas funciones son invariantes en el tiempo, ahorra tiempo de computarlas al principio y almacenarlas para referencia. Los resultados se muestran en las tablas Tabla 7-1 y Tabla 7-2.

x(k) x(k+1) 0 )k(u2 ⋅ 1 )k(u1+ 2 )k(u2 + 3 )k(u5,03 ⋅+

Tabla 7-1. Función de transición de estados.

x(k) L[x(k),u(k),k] 0 2+u(k) 1 [ ])k(u236788,0 +⋅ 2 [ ])k(u213534,0 +⋅ 3 [ ])k(u204979,0 +⋅

Tabla 7-2. Índice de desempeño para cada etapa en cada estado cuantificado.

Debe notar que en el estado x = 3 la decisión u = -1 lleva a un próximo estado igual a 2,5. Dado que este estado no es uno de los estados cuantificados de X será necesaria una interpolación para obtener el costo mínimo de dicho próximo estado. Los cálculos comienzan especificando L[x,5] en los estados cuantificados como se muestra en la Fig. 7-13 donde para cada estado cuantificado de esa etapa se tiene, L[3,5] = |3-1| = 2 L[2,5] = |2-1| = 1 L[1,5] = |1-1| = 0 L[0,5] = |0-1| = 1. x=3

x=2

x=1

x=0

k=0 1 2 3 4 5

2

1

0

1

Fig. 7-13. Condiciones de borde.

Para ilustrar el procedimiento de interpolación, se consideran los tres controles aplicados al estado



x=3 en la etapa k=4, como se muestra en la Tabla 7-3.

u g(x,u,k) J*(g,k+1) L(x,u,k) Costo Total 1 3,5 * * * 0 3 2 0,09958 2,09958 -1 2,5 1,5 0,04979 1,54979

Tabla 7-3. Cálculos en x=3, k=4.

Para u = +1 el próximo estado es x = 3,5, el cual viola las restricciones de estados. Para u = 0 el próximo estado es x = 3. El costo mínimo en el próximo estado es I(3,5) = 2 y el costo de la etapa es L(3,0,4)=0,09958 lo que da un costo total de 2,09958. Para u = -1 el próximo estado es x = 2,5, un valor intermedio en la mitad entre los estados cuantificados x = 2 y x = 3. Una interpolación lineal entre el costo I(2,5)=1 e I(3,5)=2 da un costo de I(2,5,5) = 1,5. El costo de la etapa es L(3,-1,4) = 0,04979 lo que da un costo total de 1,54979. Este último costo es, claramente, el valor mínimo. La solución completa se muestra en la Fig. 7-14.

x=3

x=2

x=1

x=0

k=0

3.67669

2

1

0

1

0 -1 -1 -1 -10.83720 0.73762 0.69898 0.89236 1.54979

1 0 0 0 -1

1.14363 0.94735 0.67669 0.40601 0.13534

1 1 1 1 02.05099 1.78033 1.50965 1.23898 0.73576

1 1 1 1 0

3.40601 3.13534 3.000

k=1 k=2 k=3 k=4 k=5 Fig. 7-14. Solución completa utilizando interpolación lineal.

k X u L(x,u,k) 0 2 1 0,40602 1 3 -1 0,04979 2 2,50 -0,50 0,12313 3 2,05 -0,05 0,24792 4 2 -1 0,13534 5 1 - 0,0 0,96220

Tabla 7-4. Solución óptima para x(0) = 2.

Para el estado inicial x(0) = 2 la solución se muestra en la Tabla 7-4. Cabe destacar que esta solución requiere interpolación para obtener la decisión óptima para k ≥≥≥≥ 2. La decisión óptima para x(0) = 2 es u = 1 la cual lleva al próximo estado x(1) = 3 con un estado de etapa L(2,1,0) = 0,40602. La decisión óptima para x(1) = 3 es u=-1 la cual lleva al próximo estado x(2) = 2,5 y un costo de etapa de L(3,-1,1) = 0,04979. A partir de este estado se requiere realizar interpolaciones dado que no es uno de los estados cuantificados para los cuales ya se han calculado las decisiones óptimas. Las decisiones óptimas para los dos estados más cercanos son ( ) 02,2u = y ( ) 12,3u −= . La ecuación general de interpolación lineal es



( ) ( ) ( )[ ] ( ) ( )xxx

k,xauk,x1auk,xauk,xu ∆−⋅

∆∆−∆++∆⋅=

para ( ) x1axxa ∆⋅+≤≤∆⋅ . En este caso x = 2.5 y 1x =∆ , a = 2

( ) ( ) 02,2uk,xau ==∆ ( )[ ] ( ) 12,3uk,x1au −==∆+

Reemplazando en la ecuación general de interpolación lineal se obtiene

( ) ( ) ( ) 5,025.21

0102,5.2u −=−−−+= .

Estos valores del estado y de la decisión óptima pueden ahora introducirse en las ecuaciones originales del sistema y del costo de etapa. Dichos cálculos indican que el próximo estado es x(3)=2,05 y que el costo de la etapa es 0,12313.

( ) 05,25.05.24

15.2

4

525.225.2x 32

3 ≅−

∗−∗+∗−+=

( ) ( )[ ] 12313,0e5.023,5.0,5.2L 5.2 =∗−+=− −

La interpolación entre ( ) 02,2u = y ( ) 13,3u −= da

( ) ( ) 05,0205.21

0103,05.2u −=−−−+= .

La sustitución en las ecuaciones originales del sistema y del costo muestra que x(4)=2 y que el costo es 0,24792. A continuación se obtiene directamente que la decisión óptima ( ) 14,2u −= ,el costo en k=4 es 0,13534 y el estado final x(5)=1, con una penalidad (o costo) terminal de 0. Es dable destacar que el costo total a lo largo de esta trayectoria es de 0,96220 y no 1,14363 que es el valor calculado en el armado de la grilla. Esta discrepancia muestra que para ecuaciones del sistema y funciones de costo no lineales, como las aplicadas en este ejemplo, es a veces necesario utilizar intervalos de cuantificación más finos y/o interpolaciones de mayor orden para obtener resultados precisos. En el programa para Matlab PDNumerica_01.m se presenta una implementación del algoritmo propuesto.



0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50

1

2

3Estados

Est

ados

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50

0.5

1

1.5

2

Costo

Cos

tos

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5-1

-0.5

0

0.5

1

Acción de control

Acc

ione

s de

con

trol

Etapas

Nmax

=4 . Mmax

=3

Nmax=45 . Mmax=45

Fig. 15. Evolución usando la política tabulada sin interpolación.

7.6. Algunos funcionales típicos En la formulación del problema general de optimización en múltiples etapas o discreto, se distinguen tres elementos esenciales: La descripción de la planta o proceso en consideración por medio de una ecuación dinámica discreta como la expresada mediante la Ec (7-34). La presencia de k en los argumentos de g indica que la función puede, en general, variar con el tiempo (o etapa). Las dinámicas del sistema están fijadas por la física del problema. Las restricciones en los estados y en las acciones de control, expresadas mediante las Ec (7-35) - (7-36), están fijadas por la física del proceso y por el ingeniero. El funcional de costo (a minimizar o índice de desempeño a maximizar), expresado mediante la Ec (7-33), es elegido exclusivamente por el ingeniero. El valor del índice L(x(k),u(k),k) para k=N normalmente es una expresión que no depende explícitamente de u(N), por lo que se puede expresar mediante una función que es una función del tiempo final N y del estado en el tiempo final N, es decir

(7-39) Representa el costo o penalidad que el usuario le designa a cada estado final admisible. Si se desea que el sistema llegue, en N etapas a un determinado estado final, se asigna costo cero a dicho estado y un costo o penalización elevada a los otros estados. De esta manera se puede lograr que el costo total de la trayectoria sea el mínimo, cuando el estado final es el estado al cual el ingeniero desea que llegue dicha trayectoria óptima en las N etapas. La función L[x(k),u(k),k] es una función que puede variar con la etapa k (a menudo el tiempo),

( ) ( ) N.k N),N(x:k),k(u),k(xL =∀φ=



diseñada por el ingeniero para alcanzar una determinada respuesta o comportamiento por parte del sistema. Para alcanzar diferentes objetivos de control se seleccionan diferentes tipos de índices de comportamiento. Algunos de los índices comúnmente utilizados se describen a continuación.

7.6.1. Problemas de tiempo mínimo Suponiendo que se desea encontrar la secuencia de control uk que lleve el sistema desde el estado inicial dado x(0) a un estado final deseado x(N) en el tiempo mínimo. Entonces se podría seleccionar el funcional

[ ] [ ] ∑−

=+φ=+φ=

1N

0k

1)N(xN)N(xJ

y especificar la condición de borde x(N)=xd. En este caso es L=1, y N puede o no ser una variable a minimizar.

7.6.2. Problemas de Mínimo Consumo de Combustible Cuando se desea encontrar la secuencia de control uk para llevar el sistema desde x(0) a un estado final deseado x(N), en un tiempo fijo N utilizando el mínimo combustible, el funcional a utilizar es

[ ]∑−

=φ+=

1N

0k

)N(x)k(uJ

debido a que el combustible que se quema es proporcional a la magnitud del vector de control. En este caso L=u(k). Por ejemplo si el control es proporcional a la diferencia de temperaturas TD-TA entre la temperatura deseada y la temperatura ambiente, al variar TA la diferencia puede ser positiva o negativa, indicando la necesidad de aplicar calefacción o refrigeración. En ambos casos existe consumo de combustible.

7.6.3. Problemas de mínima energía Este funcional se utiliza si se desea encontrar u(k) para minimizar la energía del estado final y de todos los estados intermedios y también del control. Nuevamente suponiendo fijado el tiempo final N, se puede utilizar el funcional

[ ] )N(x S )N(x 2

1)k(u R )k(u)k(x Q )k(x

2

1J T

1N

0k

TT ++= ∑−

=

donde Q, R y S son matrices de ponderación definidas positivas.

En este caso )N(x S )N(x 2

1 T=φ y ( ) ( ) ( ) ( )[ ]ku R kukx Q kx2

1L TT += , ambas son funciones

cuadráticas. Minimizar la energía corresponde, en cierto sentido, a mantener el estado y el control cerca de cero. Si se considera más importante que los estados intermedios sean pequeños entonces se podrá elegir qi grande para pesar los estados fuertemente en J que es el funcional que se trata de minimizar. Si es



más importante que sea pequeña la energía de control, entonces se elegiría un valor grande de r i. Si interesa más que el estado final sea pequeño, entonces S debería ser grande. El problema de control óptimo se caracteriza por compromisos y ajustes con diferentes factores de peso en J que resultan en diferentes equilibrios entre objetivos de desempeño y magnitud de las acciones óptimas requeridas. En la práctica, es usualmente necesario hacer un diseño de control con un funcional J estimado, computar la secuencia de control óptimo uk y correr una simulación en computadora para ver como responde el sistema a esta secuencia de acciones de control. Si la respuesta no es aceptable, se repite la operación usando otro J con diferentes pesos en los estados y controles. Después de varias repeticiones para encontrar una secuencia uk aceptable, esta versión final de uk se aplica al sistema real. Las ventajas de la PDR pueden destacarse en los problemas de baja dimensionalidad, ya que es una metodología que encuentra un mínimo global, y la ley de control resultante reside en una tabla de valores. Sin embargo, para ampliar el ámbito de aplicación de la PDR a sistemas de alta complejidad y de grandes dimensiones existen dos alternativas: la Programación dinámica iterativa y la Programación dinámica aproximada. 7.7. Programación Dinámica iterativa

Fue propuesta por Luus en 1990, para procesos químicos. Intenta ampliar el campo de aplicación hacia los problemas de ingeniería de grandes dimensiones. Propone implementar el algoritmo de la PDR sobre una región determinada del espacio de estados. Para aplicar la PDR, se aproxima el problema de control óptimo buscando una política de control constante por partes, generando una secuencia de decisiones como política de control que varía en forma continua, sobre P etapas de tiempo, cada una de longitud L, tal que

Pt

L f= .

Por lo tanto, en el intervalo tk ≤ t < tk+1, se tiene el control constante:

kt uu = . El problema entonces es encontrar la secuencia u0, u1, ...., uP – 1 que minimiza el funcional de costos. Se define

k1k ttL −= + con tP = tf y t0 = 0.

7.7.1. Algoritmo de la PDI Paso 1: Dividir el intervalo de tiempo tf en P etapas de tiempo, cada una de longitud L. Paso 2: Elegir el número N de puntos de la grilla x y el número M de valores admisibles para cada una de las variables de control uj. Paso 3: Elegir la región rj para cada una de las variables de control. Paso 4: Eligiendo Nu (impar) valores de control dentro de la región admisible, evaluar la Ec. (7-34) del modelo dinámico de proceso Nu veces para generar la grilla x en cada etapa de tiempo.



Paso 5: Comenzando en la última etapa de tiempo P, correspondiente al tiempo (tf – L), para cada punto de la grilla x evaluar la Ec. (7-34) desde (tf – L) hasta tf para todos los Mu

m valores admisibles de control. Elegir el control u que minimiza el funcional de costo y almacenar el valor del control para usarlo en el paso 6. Paso 6: Retroceder a la etapa P – 1, correspondiente al tiempo (tf – 2L) y evaluar a la Ec. (7-34) desde (tf – 2L) hasta (tf – L) para cada punto de la grilla x con los Mm valores admisibles de control. Para continuar la integración desde (tf – L) hasta tf elegir el control del paso 5 que corresponde al punto de la grilla más cercano al x resultante en (tf – L). Comparar los Mm valores del funcional de costo y almacenar el valor de control que da el mínimo valor. Paso 7: Continuar el procedimiento hasta alcanzar la etapa 1 correspondiente al tiempo inicial t=0. Almacenar la política de control que minimiza el funcional de costo y almacenar la trayectoria x correspondiente. Paso 8: Reducir la región de valores de control admisibles por un factor ε, o sea

( ) j1j r1r ε−=+

donde j es el índice de iteración. Usar la trayectoria x óptima del paso 7 como puntos medios para la grilla x en cada etapa de tiempo, y usar la política de control óptima del paso 7 como puntos medios para los valores admisibles del control u en cada etapa de tiempo. Paso 9: Incrementar el índice de iteración j en 1 y vuelva al paso 4. Continúe iterando por un número especificado de iteraciones tal como 20 y verificar los resultados.

7.7.2. Comentario Como ventaja, se logró obtener una secuencia de acciones de control empleando menores recursos computaciones que en el caso de la PDR. Sin embargo, ésta técnica permite encontrar una solución para el problema de control óptimo dependiente del estado inicial del proceso, por lo cual en la operación en línea requiere de un equipamiento capaz de implementar la PDI en línea y en el tiempo de muestreo impuesto por el proceso real y la especificación de control. 7.8. Programación dinámica aproximada Existen varias posibilidades de disminuir la cantidad de recursos según la dimensionalidad y naturaleza del problema. A continuación se van a describir dos métodos muy difundidos, que son los métodos de Iteración de política aproximada aproximando el funcional de costos y aproximando el funcional y la ley de control.

7.8.1. Aprendizaje Q Es un método computacional alternativo que puede usarse cuando no se dispone de un modelo explícito del proceso. Se supone que es dato el valor del costo asociado a las transiciones de estados. Se define para un par estado acción (i,u) el factor Q mediante

( ) ( ),jJj,u,iL)u,i(Q µµ +=



(7-40)

donde i es el estado actual, j es el estado alcanzado una vez aplicado la acción u, µ es la ley o política de control para las transiciones desde el estado j hasta el final del proceso y Jµ es el costo asociado formado por la sumatoria de los costos parciales. A partir de éstos valores, se mejora la política µ mediante

(7-41)

A ésta política mejorada, se le vuelve a computar los costos asociados y se calculan nuevamente los factores Q mediante la Ec. (7-40). Repitiendo éste procedimiento, se llega a la política óptima cuando no hay más cambio en los factores Q o en la mejora de la política. Se actualizan los valores de los factores Q asociados a una política, evitando evaluar la política en el proceso. Se definen los factores Q óptimos Q*(i,u) correspondientes al par (i,u) mediante

(7-42)

donde la Ecuación de Bellman puede escribirse como

(7-43)

Combinando las ecuaciones Ec. (7-42) y la Ec. (7-43), se tiene

(7-44)

Los factores Q óptimos Q*(i,u) son la solución única del sistema de la Ec. (7-44). El algoritmo se escribe como

(7-45)

y en una forma más general,

(7-46)

La función γ cambia de una iteración a otra para el mismo par (i,u). Se demuestra que la convergencia estará asegurada si se cumple que

(7-47)

entonces Qn(i,u) converge a Q*(i,u). Se supone que existe una política óptima y que Q está acotado para todo su dominio. En el programa para Matlab PD_Q_731.m se implementó un algoritmo que calcula la política de control óptima para el Ejemplo 7.3.1, el mismo se muestra en la Fig. 16. La función γ tiene la forma

( ) ( ),jJj,u,iL)u,i(Q ** +=

( )( ).u,iQmin)i(J *

iUu

*

∈=

( )( )

( ).v,jQminj,u,iL)u,i(Q *

jUv

*

∈+=

( )( )

( ).v,jQminj,u,iL)u,i(QjUv∈

+=

( ) ( )( )

( ) .v,jQminj,u,iL)u,i(Q1)u,i(Q njUv

n1n

+γ+γ−=∈

+

( ) ( ) ( )∑∑∞

=

∞

=∈∀∞<γ∞=γ

0n

2n

0nn ,iUui, ,u,i ,u,i

( )( ).u,iQminarg)i(

iUu

µ∈

=µ



n10

10n +

=γ

donde n indica la cantidad de veces que se actualiza al par estado acción (i,u). En la Fig. 17 se muestran gráficamente los resultados obtenidos.



Fig. 16. Código para implementar el algoritmo de aprendizaje Q en Matlab.

% Programación dinámica. % Apredizaje Q. % Para el Ejemplo 7.3.1. % x(k+1)=x(k)+(2-2*x(k)+5/4*x(k)^2-1/4*x(k)^3)*u(k) ; % con el funcional de costo J=sum((2+u(k))*exp(-x(k ))); %Autor JAP %06 12 07 clear,clc,close all ; TM=200; Mmax=15; color= '.-k' ; tic; du=Mmax; etapas=6; xmin=0; xmax=3;umin=-1; uma x=1; %%%Carga de datos rand( 'state' ,0); equis1=3*(rand(TM,1)); tiempo=ceil((etapas-1)* rand(TM,1)); M_est = [tiempo,equis1]'; Au=(umax-umin)/(Mmax-1); for i=1:Mmax uf(i)=umin+Au*(i-1); end CI=2;vfinal=1; Q = zeros(TM,du); J=zeros(1,TM); sal(1)=CI;costo(1)=0; Ya=zeros(1,TM); for k=1:etapas-1 entrada = [k; sal(k)]; consigna(k) = pol_tab_mu1(entrada,M_est,Ya); sal(k+1)=mopdm(k,sal(k),consigna(k)); costo(k+1)=costo(k)+indice(k,sal(k),consigna(k) ); end costo(k+1)=costo(k+1)+abs(sal(k+1)-vfinal); evoluc(1)=costo(etapas); costo(etapas) m=zeros(TM,du); for iterac=1:10 for iq=1:TM k=M_est(1,iq); x=M_est(2,iq); %Recorre todas las acciones for acc=1:du xy=mopdm(k,x,uf(acc)); m(iq,acc)=m(iq,acc)+1; gama=10/(10+m(iq,acc)); if k<etapas-1 [aux lugar]=min(abs(((k+1)-M_est(1, :))/max(M_est(1,:)))+abs((xy-M_est(2,:))/max(M_est(2,:)))); Q(iq,acc)=(1-gama)*Q(iq,acc)+gama*( indice(k,x,uf(acc))+J(lugar)); else Q(iq,acc)=(1-gama)*Q(iq,acc)+gama*( indice(k,x,uf(acc))+abs(xy-vfinal)); end end end for iq=1:TM [val lugar]=min(Q(iq,:)); J(iq)=val; Ya(iq)=uf(lugar); end sal(1)=CI; costo=0; for k=1:etapas-1 entrada = [k; sal(k)]; consigna(k) = pol_tab_mu1(entrada,M_est,Ya) ; sal(k+1)=mopdm(k,sal(k),consigna(k));



0 1 2 3 4 50

0.5

1

1.5

2

2.5

3Estados

Est

ados

0 1 2 3 4 50

1

2

3

4Costo

Cos

tos

0 1 2 3 4 5

-1

-0.5

0

0.5

1

Acción de control

Acc

ione

s de

con

trol

Etapas0 2 4 6 8 10

10-5

100

105

1010

Evolucion del J(0)

Iteraciones

Fig. 17. Resultados obtenidos mediante el aprendizaje Q para el Ejemplo 7.3.1.

7.8.2. Aproximación del funcional de costo La ecuación de Bellman de la programación dinámica indica que

(7-48)

donde f es el modelo dinámico del proceso

(7-49)

Como muestra la Ec. (7-48), si se dispone de la función J* en el estado siguiente al xk, se podría encontrar la acción de control óptima uk. Sin embargo, como es bien sabido la minimización de la Ec. (7-48) es laboriosa y demanda recursos computacionales cuando la dimensionalidad del problema aumenta. Una alternativa al problema de la dimensionalidad consiste en utilizar una función los valores de la Ec. (7-48) en un dominio compacto. Así, se obtiene una representación compacta del costo asociado a cada estado del proceso, el esquema de la Fig. 18 muestra esta característica.

( ) ( )( ) ,1k,k,u,xfJk,u,xLmin)k,x(J k*

ku

*

k

++=

( ) 1.-0,1,2...Nk ,k,u,xfx kk1k ==+



Fig. 18. Expresión compacta de aproximador de costo

Como se observa en la Fig. 18, encontrando el valor del vector r adecuado, se dispone del valor aproximado del costo mínimo en el que se incurre para llegar al estado de costo nulo partiendo del estado actual i, y si se dispone del modelo del sistema se podrá encontrar la política de control mediante

(7-50)

7.8.3. Procedimiento de ajuste Para encontrar r , se divide en dos tareas el proceso de búsqueda que encuentra la función de política, como se muestra en la Fig. 19, una es la evaluación de una política estacionaria definida a partir de la que se calculan los costos para todos los estados del proceso, y la otra tarea es la mejora de la política. Ambas tareas se realizan de manera aproximada con respecto al sistema original, porque se utiliza una función que ajusta su comportamiento. La función de aproximación podrá ser una red de neuronas y por lo tanto la aproximación en la evaluación y mejora de la política se debe a su utilización.

Fig. 19. Esquema del proceso de búsqueda de la política óptima

Implementación

Se dispone de un conjunto de datos representativos S~

y para cada estado S~

i ∈ se calculan los valores de costo c(i), de la función Jµ(i), luego minimizando en r

(7-51) se obtiene una función de aproximación para el costo asociado a la política evaluada. Minimizando la expresión (7-51) se encuentra el vector de parámetros r . La iteración del gradiente incremental es

(7-52) para todo i que pertenece a S

~, donde γ cumple con las condiciones de (7-47).

Actualización de política

Evaluación aproximada de política

Jµ µ

µ

Aproximación del

costo ( )r,iJ~µ

i ( )iJ~

( ) ( )( )∑∈

−S~

i

2

ricr,iJ

~min

( ) ( ) ( )( )rrrr ,iJ~

ic,iJ~

: −∇γ+=

( ) ( )( ) .,1k,k,u,xfJ~

k,u,xLmin)k,x(J k*

ku

*

k

r++=



Luego se calculan los costos asociados a cada par estado acción, mediante

(7-53) Entonces, se obtiene la política mejorada mediante

(7-54) para cada estado correspondiente al conjunto S

~.

Una vez que se dispone de ( )r,iJ~µ , se obtiene µ a partir de la ecuación (7-54). Luego se evalúan

los costos asociados a cada estado, simbolizados por c(i), mediante la Ec. (7-52) se ajustan los

parámetros de r obteniendo una nueva versión de la función de aproximación ( )r,iJ~µ . Luego, se

procede a efectuar la de mejora de política, en la que se obtiene una nueva política de control expresada como µ . Se comienza con el cálculo de los costos para cada estado, y entre cada

iteración se efectúa la actualización de la función γ.

Consideraciones Dada la política estacionaria µ, los valores de Jµ no se calcularán exactamente, porque se tiene

una aproximación ( )r,iJ~µ , donde r es el parámetro de ajuste. Las fuentes de error, en la iteración

de política aproximada son principalmente dos:

— La estructura de ( )r,iJ~µ puede que no sea lo suficientemente potente, por ejemplo si se

disponen de pocos parámetros de ajuste. — El adecuado ajuste de los parámetros r cuando el algoritmo de sintonía de r no está bien

ajustado o es deficiente. La política inicial del método requiere que sea tan buena como sea posible, caso contrario deberá fijarse el vector de parámetros r . En el programa para Matlab PDA_J_It_Politica_731.m se implementó el algoritmo descrito. El algoritmo usado para resolver la Ec. (7-52) es el de Levenberg-Marquardt. En la Fig. 20 se muestran los resultados obtenidos. La función γ utilizada es

n5,15

5n +

=γ .

( ) ( ) ( ).r,jJ~

u,iLu,iQ~ +=

( )( ) ( )( ) i r,jJ

~m,iLminarg

iU∀+=µ

∈µ



0 1 2 3 4 50

0.5

1

1.5

2

2.5

3Estados

Est

ados

0 1 2 3 4 50

1

2

3

4Costo

Cos

tos

0 1 2 3 4 5

-1

-0.5

0

0.5

1

Acción de control

Acc

ione

s de

con

trol

Etapas0 5 10 15 20

0.5

1

1.5

2

2.5Evolucion del J(0)

Iteraciones

Fig. 20. Desempeño del controlador para el Ejemplo 7.3.1 mediante iteración de política aproximada.

7.8.4. Función compacta para generar el control La implementación de cualquier esquema de control con realimentación de estados, consiste en obtener la acción de control a aplicar al sistema partiendo del valor del vector de estados, se puede escribir como

(7-55) donde ( )k,u,xf kk es el modelo del proceso y ( )iµ es la función que representa la política óptima

de decisiones a partir de los estados. La función ( )iµ es la solución analítica del planteo de control óptimo, que mediante la técnica de

iteración de política aproximada se obtiene una aproximación ( )v,i~µ de la función ( )iµ , donde v

es el vector de parámetros de ajuste. Para encontrar la función aproximadora ( )v,i~µ , se lleva a cabo la metodología que se detalla a continuación. Se calculan las ( )iµ dentro del conjunto S mediante

(7-56) donde la ley de decisiones se representa por ( )v,i~µ , siendo v el vector de parámetros de ajuste.

( )kk

kk1k

xu

)k,u,x(fx

µ==+

( ) ( )( )∑∈

µ−µSi

2

viv,i~min



Una solución la Ec (7-56) se obtiene mediante el método del gradiente incremental. Cada iteración es representada por

(7-57) para todo i que pertenece a S, donde γ cumple con las condiciones de (7-47). Se resuelven dos problemas de aproximación al mismo tiempo: -Dado µ, se simula y evalúa para encontrar J

~ de Jµ.

-Dado J~

, calcular la política mejorada µ para algunos de los estados y luego encontrar la nueva política ( )v,~ ⋅µ .

Fig. 21. Expresión compacta de la (función política) o ley de control.

Una vez disponible la función ( )v,~ ⋅µ , se obtienen las acciones de control como se indica en la Fig. 21. El esquema de control es el que se muestra en la Fig. 22, es conocido como neurocontrolador debido a que una función de aproximación implementada mediante una red de neuronas genera las acciones de control.

Fig. 22. Expresión compacta de la función política como controlador

En el programa para Matlab PDA_J_It_Politica_mu_731.m está implementado el algoritmo descrito para el Ejemplo 7.3.1. La función algoritmo usado para resolver la Ec.(7-52) y la Ec. (7-57) es el de Levenberg-Marquardt. En la Fig. 23 se muestran los resultados obtenidos. La función γ utilizada es

n5,1100

100n +

=γ .

Aproximación de política ( )v,i~µ u i

( )k,u,xf

Aproximación de

política ( )r,i~µ

i u

( ) ( ) ( )( )v,i~iv,i~v:v µ−µµ∇γ+=



0 1 2 3 4 50

0.5

1

1.5

2

2.5

3Estados

Est

ados

0 1 2 3 4 50

1

2

3

4Costo

Cos

tos

0 1 2 3 4 5

-1

-0.5

0

0.5

1

Acción de control

Acc

ione

s de

con

trol

Etapas0 20 40 60 80 100

100

Evolucion del J(0)

Iteraciones

Fig. 23. Evolución del sistema del Ejemplo 7.3.1 cuando se controla con un neurocontrolador.

7.9. Discusión y comentario final Se han visto diferentes métodos para implementar un controlador que resuelva el problema de control óptimo formulado mediante las Ec. (7-33), (7-34), (7-35), y (7-36); también conocido como el problema básico del control óptimo. Cuando la implementación del controlador pretende hacerse mediante una forma compacta, al estilo de la Ec. (7-55), debe tenerse presente que para la adecuada implementación de la técnica descripta se requiere de gran conocimiento previo del proceso a controlar. Como sugerencias generales, se pueden mencionar: - El algoritmo es fuertemente dependiente de las condiciones iniciales, es decir, de la política inicial y de los estados usados empleados para calcular el neurocontrolador representados por los conjuntos S

~ y S.

- La velocidad de ajuste de los parámetros se fija mediante la función γ, y el método es muy sensible a éste parámetro. Es común hacer los primeros intentos dejando γ=1 constante, con pocas iteraciones, y luego comenzar a modificarla para que se desvanezca con las iteraciones, siempre verificando que el desempeño del controlador mejore a largo plazo. - La cantidad de parámetros de ajuste en cada función de aproximación depende de la complejidad de los datos, en general se acondicionan implementando alguna técnica como normalización o extracción de características.



8. CONTROL DIGITAL ESTOCÁSTICO En el tratamiento convencional de los sistemas de control se considera que las señales actuantes sobre los mismos y las perturbaciones a las que están sometidos son modeladas con expresiones matemáticas determinísticas. Cuando se aplican criterios de optimización, los resultados que se obtienen dependen de las señales utilizadas. Eventualmente un sistema de control diseñado en forma óptima para señales determinísticas, podrá ser subóptimo cuando el mismo está sometido a perturbaciones reales. En la mayoría de los casos los resultados obtenidos del diseño determinístico son aplicables a sistemas reales, afectados por señales reales. No obstante, cuando se aumentan las exigencias de control, los controladores deben diseñarse no sólo basándose en la dinámica del sistema a controlar, sino también teniendo en cuenta las características estocásticas de las señales actuantes. 8.1. Modelo matemático estocástico de señales reales. Un PROCESO ESTOCÁSTICO ES UNA ABSTRACCIÓN MATEMÁTICA DE un proceso empírico cuyo desarrollo está gobernado por leyes probabilísticas. El proceso empírico se estudia como un modelo probabilístico que evoluciona en el tiempo y genera secuencias de valores numéricos.

Fig. 8-1. Componentes del modelo probabilístico de un proceso incierto.

8.1.1. Modelo probabilístico de un experimento Los elementos del modelo probabilístico se pueden observar en la Fig. 8-1. Se simboliza mediante la terna

(Ω, F, P) donde Ω es el conjunto de todas las posibles salidas del experimento, F es una colección de subconjuntos de Ω denominado eventos, que incluye a Ω, con las propiedades siguientes:

(1) si A es un evento, entonces Ac=ω∈Ω | ω∉A es también un evento, y se incluye Ωc ya que es el conjunto vacío ∅.

Evento B

Evento A

Espacio muestral Ω Conjunto de resultados

P(A) P(B)

Experimento Ley probabilística



(2) si A1, A2, ...Ak,... son eventos, entonces k1k A∞=U y k1k A∞

=I son también eventos. P es una función que asigna a cada evento A un número no negativo P(A) denominado probabilidad del evento A que cumple con

(1) P(Ω)=1. (2) ( ) ( )∑

∞=

∞= = 1k kk1k APAPU para cada secuencia mutuamente disjunta A1, A2, ...Ak,...

P es la medida de probabilidad.

8.1.2. Variable aleatoria Se define sobre el espacio probabilístico (Ω, F, P) la variable aleatoria x, si para cada escalar λ el conjunto

ω∈Ω | x(ω)≤λ ∈F siendo así, un evento. Además, tendrá una función de distribución de probabilidad

F(z)=Pω∈Ω | x(ω)≤z.

8.1.3. Proceso estocástico Un proceso estocástico en tiempo contínuo es una colección de variables aleatorias, definida mediante,

x( ω,t) | t∈ℜ. Paralelamente, un proceso estocástico en tiempo discreto, se define mediante

x( ω,t) | t∈Z. 8.2. Ecuaciones diferenciales estocásticas La definición de Ecuación diferencial estocástica es análoga a la de ED ordinaria, salvo que la función solución es un Proceso estocástico. La motivación para estudiar a ésta clase de ED consiste en resolver un problema real con determinada precisión. Por ejemplo, sea la EDO lineal de un sistema de primer orden sin excitación externa,

(8-1)

Si a(t) es una función determinística escalar variante en el tiempo, X también lo será. Pero, si a(t) se describe mediante

(8-2)

entonces X será un proceso estocástico, y la Ec. (8-1) será una Ecuación diferencial estocástica (EDE). Para hallar una solución de la Ec. (8-1), se debe modelar a la señal “ruido”, es decir, proponer características que permitan limitar el alcance del planteo. Suponiendo que “ruido” sea un Proceso estocástico W ruido blanco con las siguientes propiedades:

(i) ∀t1≠t2 entonces Wt1 y Wt2 son independientes. (ii) W t es estacionario, es decir que la distribución conjunta de Wt1+t,···,Wtk+t no

depende de t. (iii) E[Wt]=0 ∀t.

Con ésta definición de W, se puede escribir a la Ec. (8-1) como

( ) ( ) cte. X0X ,Xtadt

dX0=⋅=

( ) ruidorta t +=



(8-3)

donde σt es un escalar función del tiempo. Con mayor generalidad, las funciones temporales rt y σt pueden ser función de t y de X. Así, la Ec. (8-33) se convierte en

(8-4)

Resolviendo, se define el intervalo de integración [0, t] y en el mismo una partición 0=t0<t1<...<tm=t. Se tiene que la Ec. (8-4) puede escribirse como

(8-5)

despejando ∆tk

(8-6)

donde Xj=X(tj), Wk=W(tk), ∆tk=tk+1-tk. Reemplazando el producto

kk tW ∆⋅ por

( ) ( )k1kk tVtVV −=∆ +

donde Vt,t≥0 sugiere que sea un movimiento Browniano. Se demuestra porque es el único PE con trayectorias continuas y tales características en sus incrementos. Entonces, poniendo al PE Vt=Bt, se tiene que

(8-7)

Haciendo en la Ec. (8-7) ∆tk→0, si es que existe límite en algún sentido, se puede escribir a la solución X como

(8-8)

donde dBt es un mB que inicia en el origen. Ahora la Ec. (8-38) puede escribirse incluso en la forma compacta diferencial

(8-9)

que es la versión estocástica general de la Ec. (8-1).

8.2.1. Solución de la ecuación diferencial estocástica Para hallar la solución de la EDE (8-38), una de las herramientas más poderosas es la fórmula de Itô. En ésta sección sólo se desarrollará la aplicación, como motivación del estudio de las EDEs y su utilidad para representar procesos reales. Suponiendo que r,σ∈R, en la Ec. (8-38), se tiene que

(8-10)

donde se pueden agrupar las variables de la forma

(8-11)

integrando ambos miembros, se tiene

XWXrdt

dXttt ⋅⋅σ+⋅=

( ) ( ) kkkkkkkk

k1k XWX,tXX,trt

XX ⋅⋅σ+⋅=∆

−+

( ) ( ) XWX,tXX,trdt

dXtkkkk ⋅⋅σ+⋅=

( ) ( ) kkkkkkkkkk1k tWXX,ttXX,trXX ∆⋅⋅⋅σ+∆⋅⋅=−+

( ) ( ) .BXX,ttXX,trXX1k

0jjjjj

1k

0jjjjj0k ∑∑

−

=

−

=∆⋅⋅σ+∆⋅⋅+=

( ) ( )∫∫ ⋅⋅σ+⋅⋅+=t

0sss

t

0ss0t dBXX,sdsXX,srXX

( ) ( ) ( ) cte. X0X ,dBXX,tdtXX,trdX 0tttttt =⋅⋅σ+⋅⋅=

tt

t dBdtrX

dX ⋅σ+⋅=

tttt dBXXdtrdX ⋅⋅σ+⋅⋅=



(8-12)

Para hallar la solución del lado izquierdo, se evaluará mediante la fórmula de Itô la función ln(Xt). Por lo tanto, se tiene que

(8-13)

Reemplazando el dXt de la Ec. (8-10)

(8-14)

de donde finalmente, usando las reglas de derivación de Itô, se obtiene

(8-15)

Integrando ambos miembros respecto del tiempo, se tiene

(8-16)

donde el segundo término del lado derecho es la igualdad de la Ec. (8-12)

(8-17)

despejando Xt se tiene la expresión del proceso estocástico solución de la EDE de la Ec. (8-10),

(8-18)

La expectativa es

(8-19)

Nótese que la Ec. (8-32) tiene igual estructura que las soluciones a EDOs lineales determinísticas. 8.3. Modelos de Estado para Sistemas Estocásticos de Tiempo continuo Sea el sistema RLC representado en la Fig. 1-1, con la carga del circuito modelada mediante la EDO

(8-20)

cuyas condiciones iniciales corresponden a la corriente de la bobina y la carga del capacitor. Si se considera que la tensión de entrada ve tiene una componente de ruido, la EDO de la Ec. (8-20) se convierte en una EDE. Más aún, si se pretende medir la carga q y se considera un ruido en la medición, el problema se transforma en un problema de estimación de q, cuya metodología se conoce como filtro Kalman-Bucy. Es un procedimiento que consiste en estimar el estado de un sistema que cumple una ODE ruidosa basada en series de mediciones ruidosas. Entonces, expresando a la tensión de entrada como una función determinística más una componente de ruido, se tiene

(8-21)

.BtrdBdsrdsX

dXt

t

0

t

0s

t

0 s

s ⋅σ+⋅=⋅σ+⋅=⋅ ∫ ∫∫

( ) ( ) ( )2t2

tt

t2t2

tt

tt dX

X2

1

X

dXdX

X

1

2

1dX

X

1Xlnd ⋅−=⋅

−+=

( ) ( )2ttt2

tt

tt dBXXdtr

X2

1

X

dXXlnd ⋅⋅σ+⋅⋅⋅−=

( ) .dt2X

dXXlnd

2

t

tt ⋅σ−=

( ) .ds2

dsX

dXdsXlnd

t

0

2t

0 s

st

0s ∫∫∫ ⋅σ−⋅=⋅

t2

1Btr

X

Xln 2

0

t ⋅σ−⋅σ+⋅=

.Bt2

1rexpXX 2

0t

⋅σ+⋅

σ−⋅=

[ ] [ ] ( ).trexpXEXE 0t ⋅⋅=

( ) Idt

dQ ,Q0Q ,VQ

C

1

dt

dQR

dt

QdL 00e2

2

===++

WGve ⋅α+=



y haciendo la asignación

(8-22)

Reemplazando en la Ec. (8-20) se obtiene

(8-23)

y en notación matricial, se puede escribir

(8-24)

donde Bt es un mB unidimensional, .L

0K ,G

L

10

H ,L

R

LC

110

A ,dx

dxdX

2

1

α=

=

−−=

=

Reescribiendo la Ec. (8-24) para agrupar a X,

(8-25)

y pre multiplicando por exp(-A·t) ambos miembros,

(8-26)

donde se intentará relacional al lado izquierdo con d(exp(-A·t)·X). Para ello, se usa la versión multidimensional de Itô. Se definen dos funciones g1,g2 tal que g:[0,∞)×R2→R2, dada por

(8-27)

Aplicando Itô multidimensional, se tiene que

(8-28)

Sustituyendo en la Ec. (8-26) se tiene que

(8-29)

que integrando por partes siguiendo el método Itô

(8-30)

Nótese la complejidad de las soluciones que expresan matemáticamente el estado del sistema en el dominio del tiempo continuo, cuando se desea encontrar una solución exacta para todo t∈[0, ∞). Sin embargo, es una metodología muy poderosa que merece mencionarse.

.dt

dQQ

x

xX

2

1

=

=

⋅α++−−=

=

WGxC

1Rx

dt

dxL

xdt

dx

122

21

tdBKdtHdtXAdX ⋅+⋅+⋅⋅=

tdBKdtHdtXAdX ⋅+⋅=⋅⋅−

( ) ( ) ( ) [ ]tdBKdtHtAexpdtXAtAexpdXtAexp ⋅+⋅⋅⋅−=⋅⋅⋅⋅−−⋅⋅−

( ) ( )

⋅⋅−=

2

121 x

xtAexpx,x,tg

( )( ) ( ) ( ) ( ) .dXtAexpdtdXtAexpAdXtAexpd ⋅⋅−+⋅⋅⋅−−=⋅⋅−

( ) ( ) ( )∫∫ ⋅⋅⋅−+⋅⋅⋅−=−⋅⋅−t

os

t

00 dBKsAexpdsHsAexpXXtAexp

( ) ( )[

( ) [ ]

⋅⋅⋅+⋅⋅−+

+⋅⋅⋅−+⋅⋅=

∫t

0s

t0

dsBKAHsAexp

BKtAexpXtAexpX



8.3.1. Procesos Estocásticos de Tiempo Discreto. Siguiendo con la definición anterior, dado un experimento aleatorio cuyos elementos θ pertenecen a un espacio muestral Ω, se puede definir una función ξ que asocia a cada elemento de dicho espacio una función de tiempo discreto xi(k), donde k es la notación simplificada de KT, siendo T el período de muestreo. Al conjunto imagen χ que contiene todas las funciones vinculadas al experimento aleatorio se lo define como Proceso Aleatorio o Estocástico. Cada función es una realización del proceso. Esto se puede representar como

(8-31)

con

(8-32)

De esta manera para un instante determinado n, queda definida una variable aleatoria xn. Si en lugar del tiempo se fija un elemento cualquiera θj del experimento aleatorio queda definida una función. Las propiedades estadísticas del proceso estocástico se pueden describir por su función de densidad de probabilidad y por las funciones de probabilidad conjunta de todas las variables aleatorias que se pueden definir en el proceso. Cuando estas caracterizaciones estadísticas son funciones del tiempo, entonces se dice que el proceso es variante. Por el contrario si son independientes del instante de observación se dice que es invariante. Esto implica que los parámetros estadísticos son iguales para todas las variables aleatorias que se puedan definir en el proceso. Cuando en un conjunto de señales aleatorias, que conforman un proceso estocástico estacionario, cualquiera de las realizaciones del proceso se puede obtener por desplazamiento temporal de alguna de ellas, el mismo se denomina Ergódico. En este caso los parámetros estadísticos obtenidos para una variable aleatoria, en un instante definido, sobre todas las funciones o realizaciones, son iguales a los que se obtienen a lo largo del tiempo de evolución de una de las señales.

8.3.2. Parámetros estadísticos de procesos estocásticos. La caracterización estadística de un proceso estocástico se realiza teniendo en cuenta las variables aleatorias que se pueden definir en el proceso. Si el proceso es ergódico se cumple

(8-33) donde N es el número total de muestras de una realización, Mi es la cantidad de veces que tiene lugar el suceso xi(k) y M el número total de funciones o realizaciones. El primer miembro de la Ec. (8-33) se denomina valor medio temporal. El segundo representa el valor medio de las muestras para un tiempo dado k. El poder establecer esta igualdad es de gran importancia ya que permite aplicar todas las herramientas matemáticas de la estadística a las señales temporales. El valor medio, expectativa o esperanza matemática se expresa como

(8-34)

χ→Ωξ :

.... 2, 1, = i ), (k, x= i θχ

(k)xM M

1lim= x(k)

N

1 lim ii

M

1=iM

N

1=kN

∑∑ ∞→∞→

x(k).N

1lim = x(k) E = m

N

1=kN

x ∑∞→



Los parámetros estadísticos como valor medio, varianza, dispersión y momentos de distinto orden, son valores que dan información sobre las señales estocásticas, pero que son independientes de la variable tiempo. Esto es, no tiene información sobre cuan rápido cambia la señal o cual es su contenido armónico. Una función que provee información sobre la coherencia interna de una señal o sobre su velocidad de cambio es la Función de Autocorrelación, definida como la esperanza matemática del producto de la señal consigo misma desplazada en el tiempo, m intervalos de muestreo.

(8-35) En el dominio discreto se tiene:

(8-36) Se observa de la definición que el valor medio de la señal influye en la correlación. Si se desea obtener una función que solamente tenga en cuenta las fluctuaciones respecto del valor medio, se pueden substraer éstos de la señal. En este caso se obtiene la Función de Autocovarianza o simplemente Covarianza, definida como:

(8-37) Para m=0, se obtiene la varianza de la señal

(8-38) Si la señal tiene distribución gaussiana, las características estadísticas estáticas y dinámicas quedan totalmente definidas por la esperanza y la función de autocovarianza. Si estos valores son independientes del tiempo, la señal es estacionaria en sentido amplio. La dependencia estadística entre dos señales estocásticas estacionarias x(k) e y(k) está definida por la Función de Intercorrelación. En tiempo discreto está definida por

(8-39) De igual modo, cuando se eliminan los valores medios de las señales se obtiene la denominada Función de Intercovarianza.

(8-40) Dos variables aleatorias x e y se denominan incorreladas si

(8-41) Si además es

0 = m m yx ,

se dicen ortogonales y son independientes si

(8-42) donde p(x), p(y) son las funciones de densidad de probabilidad de x, y respectivamente, mientras que p(x, y) es la función de densidad de probabilidad conjunta. Un ruido blanco es una señal para la cual cualquier valor es independiente de todos los valores pasados. Esto implica que la función de covarianza será idénticamente nula para cualquier m, excepto para m=0 donde tomará un valor definido. Si el ruido blanco tiene una distribución gaussiana, el mismo quedará totalmente definido por su valor medio mx y la función de covarianza

(8-43)

m).+y(k x(k)N

1lim = m)+y(k x(k) E = (m)

N

1=kN

xy ∑∞→Φ

.m)+ x(kx(k)E = (m)xxΦ

m).+ x(k x(k)N1

lim =m)+ x(kx(k) E = (m)N

1=kNxx ∑

∞→Φ

.m - (m) = ]m - m)[x(k+ ]m - [x(k) E = mx, cov = (m)R 2xxxxxxx Φ

[ ] .m - x(k) N

1lim = (0)R = 2

x

N

1=kNxx

2x ∑

→∞σ

[ ][ ] .m m - (m) = m - m)y(k+m - x(k)E = my,x,cov = (m)R yxxyyxxy Φ

. 0 = (m)Rxy

p(y) p(x) = y)p(x,

(m) = (m)R 2xxx σ



siendo

≠σ0. m para 0

0 = m para 1 = (m)2

x

Cuando una señal está definida por un conjunto de n valores en cada instante, se tiene una señal estocástica vectorial o vector señal de orden n definida como

(8-44) Este vector siempre se podrá descomponer en sus n señales escalares. Si cada señal es estacionaria su valor medio estará definido por

(8-45) La coherencia interna del vector señal se define mediante el valor esperado del producto del vector señal, sin su valor medio, con su traspuesto desplazado en el tiempo. Esto queda expresado por la Función Matricial de Covarianza.

] m - m)+ x(k[ ]m - x(k)[ E = (m)RT

xxxx o bien

(8-46) Esta función matricial queda formada por todas las funciones de covarianza de las distintos componentes del vector señal de orden n. Sobre la diagonal se encuentran las n funciones de autocovarianza de las n componentes de la señal vectorial y todos los otros elementos son las funciones de intercovarianza entre las componentes de la señal. Cuando las componentes del vector señal son señales escalares incorreladas, su intercovarianza será cero y la función matricial será una matriz diagonal.

(8-47)

8.3.3. Procesos Gaussianos. Una variable aleatoria x se dice que es gaussiana cuando está caracterizada por la función de densidad de probabilidad

(8-48)

. (k)]x ... (k)x (k)x[ =(k)x n21T

. ]m ... 2m 1m[ = (k)x E = m xnxxTT

x

(m)R(m)R(m)R

...

...

...

(m)R(m)R(m)R

(m)R(m)R(m)R

= (m)R

xxxxxx

xxxxxx

xxxxxx

xx

nn2n1n

n22212

n12111

K

K

K

K

K

K

(m)R00

0..

...

.0.

0(m)R0

00(m)R

= (m)R

xx

xx

xx

xx

nn

22

11

K

K

K

K

K

K

( )

σ−

σπ

2

x

x

x1/2

m -x

2

1exp

)(2

1 = p(x)



propuesta por Gauss y de allí su nombre. Se puede hacer una extensión para n variables aleatorias, organizadas en forma vectorial, obteniéndose

(8-49) donde

(8-50)

(8-51)

(8-52) De esta manera, un proceso aleatorio estacionario caracterizado por la Ec. (8-49), se dice que es gaussiano.

8.3.4. Proceso de Markov. Cuando la probabilidad condicional de un evento de valor x(k) en un proceso estocástico depende solamente de su último valor x(k-1) y de ninguno anterior, se denomina Proceso de Markov de primer orden. Esto se expresa mediante la función de densidad de probabilidad condicionada tal que

(8-53) Se puede decir entonces que en un proceso de Markov, el próximo valor de la señal x(k+1) estará influenciado solamente por el valor presente x(k). En una ecuación escalar en diferencias de primer orden:

(8-54) el valor futuro depende de los valores presente de x(k) y v(k). En el caso que v(k) sea una señal estadísticamente independiente, como un ruido no correlacionado, la función de densidad de probabilidad de x(k+1) dependerá sólo de x(k) y será por lo tanto un proceso de Markov. Si la ecuación en diferencias es de mayor orden como

(8-55) siempre se puede transformar la ecuación que describe el proceso, en varias ecuaciones de primer orden mediante una apropiada elección de variables auxiliares, tal que

(8-56)

( )[ ] ( )[ ] ( ) ( )[ ] ( ) ( ) ( )[ ]

−π − km-kxkRkm-kx2

1exp kRdet2=kxp x

1-xx

Tx

2/1xx

n/2-

( ) ( ) kxE = kmx

( )

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )

kRkRkR

...

...

...

kRkRkR

kRkRkR

= kR

xxxxxx

xxxxxx

xxxxxx

xx

nn2n1n

n22212

n12111

K

K

K

K

K

K

( ) ( ) ( )[ ] ( ) ( )[ ] .kmkxkm-kxEkR xjjxiixx ji−⋅=

. / x(k) p = / x(k) p 1)- x(k ] x(0)..., 2),- x(k1),-[x(k

( ) ( ) ( )kvb + kxa = 1kx ⋅⋅+

( ) ( ) ( ) ( ) v(k)b+1nkxa++1kxa+kxa=1kx 11-nn ⋅−−−+ L

( ) ( )( ) ( ) ( )

( ) ( ).kx=1kx

.

.

.

kx1kx=1k x

kx=kx

n1-n

21

1

+

=++



El proceso podrá expresarse como una ecuación matricial en diferencias de primer orden

(8-57) En forma sintética

(8-58) Si la matriz A y el vector b son constantes, cada elemento de x(k+1) depende sólo del valor presente de x(k) y es por lo tanto un proceso de Markov. En la Fig. 8-2 se representa la Ec. (8-58).

Fig. 8-2. Modelo de Markov para x(k).

8.4. Modelos de Estado para Sistemas Estocásticos de Tiempo Discreto.

8.4.1. Extensión del modelo de estado determinístico para sistemas estocásticos. Frecuentemente los sistemas se ven expuestos a perturbaciones que no se pueden describir analíticamente y por lo tanto no es posible conocer su evolución futura como en el caso de los sistemas determinísticos estudiados. En esta circunstancia, las señales aleatorias de perturbación deberán ser tratadas estadísticamente. Por otra parte, el estado también se verá afectado aleatoriamente y por lo tanto tendrá una función de distribución de probabilidad. Una extensión natural del concepto de estado para sistemas determinísticos a los sistemas estocásticos, es exigir que la función de distribución de probabilidad del vector de estado, en el futuro, sólo dependa del valor actual del estado. Una forma de transformar la ecuación de estado determinística en una ecuación estocástica, es suponer que x(k+1) es una variable aleatoria que depende de x(k) y de e(k). Es decir

(8-59) donde f es el valor medio de la función de distribución de probabilidad condicional de x y e es una secuencia de vectores aleatorios con distribución gaussiana con valor medio

(8-60) y matriz de covarianza

(8-61) Si las componentes de e son estadísticamente independientes, entonces la matriz de covarianza Ree, para m=0, toma la forma

( )( )

( )

( )( )

( )

( ).k v

b

.

.

.

.

0

+

kx

.

.

.

kx

kx

a.aa

1000

....

....

0100

0010

=

1kx

.

.

.

1kx

1kx

n

2

1

n2 1

n

2

1

+

+

+

K

K

K

K

K

K

( ) ( ) ( ).k vb+kA x=1kx +

( ) ( ) ( )[ ] ( )[ ]k,kxe+k ,ku ,kxf=1kx +

( )[ ] ( )[ ] 0 k,kxeE=k,kxme =

( )[ ] ( )[ ] ( )[ ] .m ,mxe k,kxeEm-k,m-kxR Tee =

( )[ ] ( )[ ] [ ] kx(k),,, k,kx diagk,kxR 2en

2e1ee σσ= L



(8-62) donde σ ei

2 es la varianza de la componente i-ésima del vector aleatorio e y proporciona una medida de la potencia de la señal aleatoria o de ruido que afecta el sistema. El vector e se puede modelar de manera que provenga de otro vector de ruido que tenga valor medio nulo y matriz de covarianza unitaria, esto es

(8-63) se cumple con

(8-64)

(8-65) reemplazando la Ec. (8-63) en la Ec. (8-60) y la Ec. (8-61)

(8-66)

(8-67) Comparando las Ecs. (8-66) y (8-67) con las Ecs. (8-64) y (8-65) se deduce que

(8-68)

(8-69) De esta forma se obtienen los parámetros estadísticos del vector e en función de los del vector v. Reemplazando los valores definidos para éstos, las ecuaciones quedan

(8-70)

(8-71) Por lo tanto conocida la matriz de covarianza del vector aleatorio que afecta al sistema, éste se puede modelar de manera que el vector aleatorio de entrada tenga componentes estadísticas con distribución gaussiana normal (0, 1). La matriz F se obtiene descomponiendo Ree, para el caso particular dado por Ec. (8-62) tomando la forma

(8-72) Para que la función de distribución de probabilidad condicional x(k+1) dado x(k), sea estadísticamente independiente de los valores pasados de x, la función de distribución condicional de e[x(k), k] dado x(k), tampoco debe depender del pasado de x. Sólo cumpliendo estas condiciones la Ec. (8-59) recibe el nombre de ecuación matricial-vectorial estocástica en diferencias y es un proceso aleatorio de Markov. Si la función vectorial f en la Ec. (8-59) es lineal en x y en u, y el vector de ruido e no depende de x, la Ec. (8-59) se puede escribir como

(8-73) con parámetros estadísticos

0v(k)Emv ==

( ) ( ) I=kvkvE=RT

vv ⋅ para el vector e será

( ) ( ) ( ) 0=km kFkm ve =

( ) ( ) ( ) ( ) ( ) ( ).kFkF=kFkRkF=kRTT

vvee

[ ] ( ) ( )[ ]k,kv[x k],kxFkx(k),e ⋅=

( )[ ] ( )[ ] 0k,kxvE=k,kxmv =

( )[ ] ( )[ ] ( )[ ] I=k ,kxvk,kxvE=k,kxR Tvv ⋅

( )[ ] ( )[ ] [ ] k x(k),vE k,kxFk,kxme =

[ ] ( )[ ] ( )[ ] ( )[ ] [ ].k x(k),Fk,kx vk,kxvE k,kxF=kx(k),R TTee

[ ] ( )[ ] ( )[ ]k,kxm k,kxFkx(k), m ve =( )[ ] ( )[ ] ( )[ ] ( )[ ].k,kxF k,kxR k,kxF k,kxR T

vvee =

( )[ ] 0k,kxme =

[ ] ( )[ ] ( )[ ].k,kxF k,kx Fkx(k),R Tee =

( )[ ] ( )[ ] [ ] ( )[ ] .k,kx,,kx(k),,k,kx diagk,kx F ene2e1 σσσ= L

( ) ( ) ( ) ( ) ( ) ( ) ( )k vkF+ku kB+kxkA=1kx ⋅+



De igual modo que para el vector de estado, la ecuación determinística para la salida, se puede transformar en una ecuación estocástica. El vector de salida estocástico estará dado por

(8-74) donde z es un vector aleatorio independiente de e, que afecta a la salida y cuyos parámetros estadísticos son

(8-75)

(8-76) De igual manera, como se trató al vector aleatorio de estado e, el vector aleatorio de salida z se puede modelar dando como resultado.

(8-77) donde w es un vector aleatorio con

(8-78)

(8-79) de manera que para z se obtiene

(8-80)

(8-81) y reemplazando los valores dados en las Ecs. (8-78) y (8-79) en las Ecs. (8-80) y (8-81)

(8-82)

(8-83) Si las componentes de z son estadísticamente independientes, la matriz Rzz tiene la forma

(8-84) y por lo tanto G

(8-85) si G es lineal en x y en u, y z es independiente de y, la Ec. (8-74) se puede escribir

(8-86) Con parámetros estadísticos

( ) ( ) 0kwE=kmw =

( ) ( ) ( ) I=kwkwE=kR Tww ⋅

para el vector z

( ) ( ) ( ) 0=kmkGkm wz =

( ) ( ) ( ) ( ) ( ) ( ).kG kG=kG kR kGkR TTwwzz =

En la Fig. 8-3 se muestra una representación en diagrama de bloques de las Ecs. (8-73) y (8-86).

( ) ( ) ( )[ ] ( )[ ]k,kyz+k,ku,kxg=ky

( )[ ] ( )[ ] 0k,kyzEk,kymz ==

( )[ ] ( )[ ] ( )[ ] .k,kyz k,kyzEk,kyR Tzz =

( )[ ] ( )[ ] ( )[ ]k,ky wk,kyG=k,kyz

( )[ ] ( )[ ] 0k,kywE=k,kymw =( )[ ] ( )[ ] ( )[ ] I=k,kywk,kywE=k,kyR T

ww

( )[ ] ( )[ ] ( )[ ]k,kymk,kyG=k,kzm wz

( )[ ] ( )[ ] ( )[ ] ( )[ ]k,kyGk,kyRk,kyGk,kyR Twwzz =

( )[ ] 0k,kymz =( )[ ] [ ] ( )[ ].k,kyGk y(k),Gk,kyR T

zz =

( )[ ] [ ] [ ][ ]k y(k),,,k y(k), diag =k,kyR 2zn

2z1zz σσ L

( )[ ] ( )[ ] ( )[ ][ ]k,ky,,k,ky diag=k,kyG znz1 σσ L

( ) ( ) ( ) ( ) ( ) ( ) ( ).k wkG+ku kD+k xkC=ky



Fig. 8-3. Diagrama de bloques del sistema lineal estocástico de tiempo discreto.

Si el sistema es invariante y los vectores aleatorios son estacionarios, las Ecs. (8-73) y (8-86) se transforman en

(8-87)

(8-88) con

I.=R 0;=m

I=R 0;m

www

vvv =

8.4.2. Solución de la ecuación en diferencias de estado para sistemas estocásticos. La solución de una ecuación en diferencias para sistemas determinísticos, consiste en obtener el valor de estado x en todo instante. En forma semejante resolver la ecuación en diferencias para sistemas estocásticos significa conocer la distribución de probabilidad conjunta de las variables de estado, en todo instante. Suponiendo conocida la distribución de probabilidad conjunta de x(0), x(1) (condiciones iniciales); se puede calcular la distribución condicional de x(1) dado x(0); puesto que x(1) está dado como una función de x(0) y v(0). Si la función de distribución de x(0) es conocida, la distribución conjunta se puede encontrar aplicando el teorema de Bayes.

(8-89) Admitiendo que el vector de estado inicial x(0) tiene una distribución gaussiana, entonces x es un proceso gaussiano, puesto que se forma por combinación lineal de variables aleatorias que tienen esa distribución; lo mismo sucede con el vector de salida y formado por la combinación lineal de variables aleatorias con la misma distribución. Entonces los procesos estocásticos x, y quedan completamente caracterizados por su función de valor medio y su función de covarianza. Para la función de valor medio se tiene

(8-90) reemplazando la Ec. (8-73) en la Ec. (8-90)

(8-91)

( ) ( ) ( ) ( )k vF+ku B+ kAx=1kx +

( ) ( ) ( ) ( )kG w+ku D+k xC=ky

( ) ( ) ( )[ ] [ ] ( )[ ] ( )[ ]0xp /1xp/x(k)p0x,,1-k x,kxp x(0)1)-x(k LL =

( ) ( ) 1kxE1kmx +=+

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( ) ( ).km kF+km kB+km kA1km

kv EkF+kuE kB+kxE kA

k vkF +ku kB+kxkAE=1km

vuxx

x

=+=

=+



Si el sistema es invariante y el vector v es estacionario

(8-92) cuya solución es

(8-93) con valor inicial

(8-94) y para el vector de salida

(8-95) Reemplazando la Ec.(8-86) en la Ec. (8-95)

( ) ( ) ( ) ( ) ( ) ( ) ( ) kwEkGkuE kDkxE kC=kmy ++ ,

y por lo tanto queda

(8-96) Si el sistema es invariante y el proceso estacionario

(8-97)

(8-98) Las Ecs. (8-91), (8-92), (8-93), (8-96), (8-97), y (8-98) son análogas a las ecuaciones correspondientes a sistemas determinísticos 23, 24, 28 y 30. Cuando el valor medio de los vectores aleatorios v y w son nulos quedan

(8-99) Si el sistema es invariante

(8-100)

(8-101) De igual modo

(8-102) Si el sistema es invariante

(8-103)

(8-104) En la Fig. 8-4 se muestra una representación del modelo, en diagrama de bloques de las Ecs. (8-91) y (8-96), referidas a los valores medios, el cual es análogo al mostrado en la Fig. 8-3, referido al modelo de estado estocástico.

( ) ( ) ( ) ( )km F+km B kmA =1km vuxx ++

( ) ( ) ( ) ( )km F+imBA+0mA=km vu1-i-k

1-k

0=ix

kx ∑

( ) ( ) m0xE=0m 0x =

( ) ( ) kyE=kmy

( ) ( ) ( ) ( ) ( ) ( ) ( )km kG+km kD+kmkC=km wuxy

(k)mG + (k)m D + (k)m C = (k)m wuxy

( ) ( ) ( ) ( ) ( ) ( )kmCFimBACkmGkmD0mAC=km vu1-i-k

1-k

0=iwux

ky ++++ ∑

( ) ( ) ( ) ( ) ( ).km kB + km kA=1km uxx +

( ) ( ) ( )km B kmA =1km uxx ++

( ) ( ) ( ).im B A +0m A=km u1-i-k

1-k

0=ix

kx ∑

( ) ( ) ( ) ( ) ( ).km kD+km kC=km uxy

( ) ( ) ( )km D+km C=km uxy

( ) ( ) ( ) ( ).im BAC +km D+0m A C=km u1-i-k

1-k

0=iux

ky ∑



Fig. 8-4. Diagrama de bloques que representa a las Ecs. (8-91) y (8-96).

Para la función de covarianza del vector de estado se tiene

(8-105) Reordenando

(8-106)

reemplazando la Ec. (8-73) en la Ec. (8-106) y considerando además que v es estadísticamente independiente de u y x; y que mv(k)=0 se obtiene

(8-107)

para sistemas invariantes y vector aleatorio v estacionario se tiene

(8-108) con valor inicial

( ) ( ) ( ) . Rm m-0x 0xE=0R 0T00

Txx =

Suponiendo que el valor de las entradas es cero, lo que implica ( ) ( ) ( ) 0=kRkR=kR uuuxxu = ,

y utilizando la Ec. 5.4-13, la Ec. 5.4-49 se reduce a

(8-109) con el valor inicial

( ) ( ) ( ) .R0x0xE0R 0T

xx == . Si el sistema es invariante y el vector aleatorio e es estacionario, la Ec. (8-109) se transforma en

(8-110)

Desarrollando para k=0, 1, 2, …

( ) ( ) ( )[ ] ( ) ( )[ ] .1km -1kx 1km-1kxE1kR xT

xxx ++++=+

( ) ( ) ( ) ( ) ( ).1km 1km-1kx 1kxE=1kR Txx

Txx +++++

( ) ( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( ) ( ) ( )1km 1km-kF kR kF+

kBkRkB+kAkR kB

kBkR kAkA kR kA=1kR

Txx

Tvv

Tuu

Tux

Txu

Txxxx

++++

+++

( ) ( ) ( ) ( )( ) F R F + B kR B+

+ A kR B + B kRA + A kRA =1kRT

vvT

uu

Tux

Txu

Txxxx +

( ) ( ) ( ) ( ) ( ).kR+kA kR kA=1kR eeT

xxxx +

( ) ( ) .R+A kRA =1kR eeT

xxxx +



. .

. .

R + A RA + A A R AA

+ A A A (0)R AAA = R + A (2)RA = (3)R 2,=k

R + A RA + A A (0)R AA = R + A (1)RA = (2)R ,1=k

R + A RA = R + A (0)RA = (1)R ,0=k

eeT

eeTT

ee

TTTxxee

Txxxx

eeT

eeTT

xxeeT

xxxx

eeT

0eeT

xxxx

+

para k genérico

(8-111)

Si todos los autovalores de la matriz A tienen módulo estrictamente menor que 1 entonces la serie Ec. (8-110) converge a un valor finito

(k)Rlim = R xxk

xx∞→

por lo tanto la Ec. (8-110) toma la forma

(8-112)

La Ec. (8-110) se denomina ecuación matricial en diferencias de Liapunov y la Ec. (8-112) ecuación matricial de Liapunov en estado estacionario o ecuación algebraica de Liapunov. De esta manera se observa que conociendo la matriz A del sistema y la matriz de covarianza del vector aleatorio que afecta al sistema, se puede determinar el valor medio y la matriz de covarianza del estado, en cualquier instante. Con ello queda completamente definida la caracterización estadística del mismo. Para el vector de salida se define

(8-113)

reemplazando las Ecs. (8-86) y (8-96) en la Ec. (8-113)5.4-55

(8-114)

con valor inicial

.R = m m-(0)x x(0)E = (0)R 0T00

Txx

Para sistemas invariantes y vector aleatorio w estacionario se tiene

(8-115)

Suponiendo que el valor de las entradas es cero, lo que implica

0 = (k)R = (k)R = (k)R uuuxxu ,

. )A( R A + )A( (0)R A = (k)R1-i-kT

ee1-i-k

1-k

0=i

kTxx

kxx ∑

. R + A RA = R eeT

xxxx

[ ] [ ] (k)m (k)m -(k)y y(k)E=

(k)m - y(k) (k)m -y(k)E = (k)RTyy

T

Tyyyy

(k)m - (k)m - (k)G (k)R G(k) +

+ (k)D (k)R D(k) + (k)C (k)R D(k) +

+ (k)D (k)R C(k) + (k)C (k)R C(k) = 1)+(kR

Tyy

Tww

Tuu

Tux

Txu

Txxyy

. G RG + D (k)R D +

+ C (k)R D + D (k)R C + C (k)R C = 1)+(kRT

wwT

uu

Tux

Txu

Txxyy



y utilizando la Ec. (8-83), la Ec. (8-115) queda

(8-116)

reemplazando la Ec. 5. (8-111) en la Ec. (8-116)

(8-117)

si los valores de A tienen módulo estrictamente menor que 1 entonces la Ec. (8-116) converge a un valor finito

(8-118)

La Ec. 5.4-60 constituye la matriz de covarianza de la salida, en estado estacionario. Las Ecs. (8-107), (8-108), (8-111), (8-114), (8-115) y (8-117) son análogas en estructura a las Ecs. 23, 24, 28, 30 obtenidas para los sistemas determinísticos. 8.5. Diseño de Controladores de Estado para Sistemas Estocásticos Lineales.

8.5.1. Formulación del problema de control para sistemas estocásticos Si se toma el funcional de costos

( ) ( ) ( ) ( ) ( ) ( ) ( )∑−

=++=

1N

0k

TTT kRukukQxkxNSxNxux,J

para obtener una ley de control óptimo, cuando se trata de un sistema estocástico lineal de tiempo discreto, modelado por las ecuaciones

(8-119)

(8-120)

donde v(k), w(k) son vectores aleatorios con

( ) ( ) ( ) ( ) ( ) ( ) I. =kw kwE =kv kvE

0 = kwE = kvETT

( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( ) 0=kw kvE=kv kxE=kw kvE

k n 0=nw kwE=nv kvETTT

TT ≠∀

para todo valor de k; y con parámetro estadístico para el estado inicial,

( )[ ] ( )[ ] ( )[ ] R m-0xm-0xE

m 0xE

0T

00

0

=⋅

=

se presentará el inconveniente, que como el vector de estado es aleatorio, entonces el funcional también lo es, y por lo tanto no hay forma de establecer el valor mínimo del mismo. Por este motivo se define un nuevo funcional de costo como algún parámetro estadístico, por ejemplo el valor medio,

R + C (k)R C = (k)R zzT

xxyy

R + C )A( R A C + C )A( (0)R A C = (k)R zzTiT

eei

1-k

0=i

TkTxx

kyy ∑

. R + C R C + C A RA C = R zzT

eeTT

xxyy

( ) ( ) ( ) ( ) ( )k vkF+u(k) B(k)+k xkA=1kx +

( ) ( ) ( ) ( ) ( ) ( ) ( )k wkG+ku kD+k xkC=ky



(8-121)

con S y Q simétricas y semidefinidas positivas y R simétrica y definida positiva. De esta manera el problema del Regulador Óptimo Lineal Estocástico (LQGR) se puede formular como sigue. Dado un sistema estocástico lineal de tiempo discreto modelado en el espacio de estado con Ecs. (8-119) y (8-120); se debe encontrar una ley de control u, que modifique el estado llevándolo desde un valor inicial x(0) a uno final x(N)=0 y que simultáneamente haga mínimo el funcional de costos de Ec. (8-121).

8.5.2. Solución al problema del regulador óptimo lineal estocástico. Suponiendo que se ha medido el vector de estado y se tiene x(0), x(1), …, x(k) se debe determinar el vector de entrada u(k). Puesto que la Ec. (8-119) es una ecuación estocástica matricial-vectorial en diferencias, la función de distribución de probabilidad condicional de los valores futuros del estado, dado los valores pasados del mismo, sólo dependen del valor actual x(k). Por lo tanto es suficiente obtener u(k), como función de x(k) y no de los valores pasados x(k-1), …, x(0). Siguiendo la misma metodología que para el caso determinístico, el funcional de Ec. (8-121) se puede descomponer en dos partes de la siguiente manera

(8-122) donde el segundo término no es necesario minimizar puesto que no depende de u(k), u(k+1), …, u(N-1). Entonces se obtiene

(8-123)

Si se indica con uo la función vectorial que hace mínimo el funcional de costo; y se considera que esta tiene un mínimo único se puede escribir

(8-124)

Por otra parte también se cumple

(8-125)

Tomando esperanza matemática en todos los miembros

(8-126)

( ) ( ) ( ) ( ) ( ) ( ) ( )

++= ∑ ku R kuk xQ kxNSxNxEu,xJE = J TT1-N

0=k

Tm

( ) ( ) ( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

++

+

+==

∑

∑

iu R iui xQ ixE

iu R iu+iQxixN xS NxEu,xJEJ

TT1-k

0=i

TT1-N

k=i

Tm

( ) ( ) ( )

( ) ( ) ( ) ( )

=

∑ iu R iu+i xQ ix +

+N xS NxEminux,JEmin=Jmin

TT1-N

k=i

T

uum

u

( ) [ ].ux,JEmin=)ux,J(E)ux,J(Eu

°≥

( ) ( ) ( ).ux,J min=ux,Ju,xJu

o≥

( ) ( ) ( )[ ] .ux,JminEux,JEu,xJE o

u

o =≥



Minimizando esta expresión respecto de u y teniendo en cuenta que el segundo y tercer término son constantes se tiene

(8-127)

Comparando las Ecs. (8-124) y (8-127) se tiene

(8-128)

Esta última expresión indica que cuando el índice de desempeño tiene un mínimo único, las operaciones de minimización y de cálculo de esperanza matemática son conmutables. Entonces la Ec. (6-2) toma la forma

(8-129)

Es decir que, minimizar el funcional de costo estocástico dado por Ec. (6-1) es equivalente a minimizar el funcional determinístico y luego calcular la esperanza matemática. De esta manera se ha trasladado el problema de minimización de un funcional estocástico al caso de minimización de un funcional determinístico. Por lo tanto, aplicando el principio de optimización de Bellman y tomando como punto de partida la ecuación

(8-130)

ésta se puede descomponer en

(8-131)

Definiendo al funcional de costos en el instante k como función del funcional en el instante k+1,

(8-132)

Para k+1=N se tiene

(8-133)

donde JN = xT(N) S x(N), y el estado x(N) es

(8-134)

Reemplazando la Ec. (6-5) en la Ec. (6-3) y haciendo

( ) ( )oux,J = u,xJ min , (Tener en cuenta que, dada una matriz X y dos vectores x, y se verifica

( ) [ ] ( ) ( )[ ] .ux,JminE=ux,JEux,JEminu

o

u≥

( ) [ ] ( )[ ] .ux,JminE ux,JEminuu

=

( )[ ] ( ) ( ) ( ) ( ) ( ) ( ) .iu R iui xQ ix +N xS Nx minE

ux,JminEJmin

TT1-k

0=i

T

u

um

u

+=

==

∑

( ) ( ) ( ) ( ) ( ) ( ) ( )iu R iu+i xQ ix +N xS Nx=u,xJ TT1-N

k=i

T ∑

( ) ( ) ( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ).iu R iu+i xQ ix

+1-Nu R 1-Nu+1-N xQ 1-Nx+N xS Nx=u,xJ

TT2-N

k=i

TTTkk

∑+

( ) ( ) ( ) ( ) ( ) ( ) ( )1-N v1-NF+1-Nu 1-NB+1-N x1-NA Nx =

xX2 = x

) xX x( ;x X = y

)y X x( ;y X = x

)y X x( TT

TT

∂∂

∂∂

∂∂

( ) ( ) ( ) ( ) ( ) 1kTT

kkk Jku R kuk xQ kx=u,xJJ +++=

( ) ( ) ( ) ( ) ( ) ( )Nx S Nx1-Nu R 1-Nu1-N xQ1-NxJ TTT1N ++=−



(8-135)

la tercera propiedad sólo es válida si X es simétrica) se tiene

(8-136)

Despejando u se tiene

(8-137)

reemplazando el estado y la acción de control para k=N-1, que son las Ecs. (6-5) y (6-7) en la Ec. (6-4) y reordenando

(8-138)

con

(8-139)

agrupando los términos en x(N-1) y v(N-1), definiendo

(8-140)

y aplicando esperanza matemática en la Ec. (6-8) se obtiene

(8-141)

Reemplazando la Ec. (6-9) en la Ec. (6-10) se obtiene

(8-142)

Por otra parte, se puede demostrar que dada las formas bilineal y cuadrática zTXy y zTXz respectivamente, con matriz X simétrica; la esperanza matemática es

(8-143)

(8-144)

( ) ( )[ ]

( ) ( ) ( ) ( ) 0 = 1-Nu R 2 + 1-Nu 1-NB S 1-NB 2+

+ 1-N v1)-F(N + 1)- x(N1)-A(N S 1-NB 2 = 1)-u(N

J

T

T1N

∂∂ −

( ) ( ) ( ) ( ) ( ) ( )[( ) ( )].1-N v1-NF+

+ 1-N x1-NA S 1-NB ]1-NB S 1-NB + [R- 1-Nu TT -1=°

( )( ) ( ) ( ) ( )[ ] ( )

( ) ( ) ( ) ( ) ( ) ( ),1-N xS 1-Nx+]1-N v1-NF1-N x1-N[A

1-NH1-N v1-NF+1-N x1-NA =Jmin

T

T1-N

1Nu

+⋅

⋅−

( ) ( ) ( ) ( )[ ] ( ) S 1-NB 1-NB S 1-NB+R 1-NB S-S=1-NH T1T −

( ) ( ) ( ) ( )1-NA 1-NH 1-NA+Q=1-NP T

( )( ) ( ) ( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) 1-N v1-NF 1-NH 1-NA 1-NxE 2

1-N v1-NF 1-NH 1-NF 1-Nv EN xS NxE=JminE

TT

TTT1-N

1Nu

+

++

−

( ) ( ) ( ) ( ) ( )( ) ( )[ ] ( ) ( ).1-NA S 1-NB 1-NB S 1-NB+R

1-NB S 1-NA - 1-NA S 1-NA+Q=1-NP

T1-T

TT

[ ]R Xtr+m X m = y X zE zyyTz

T

[ ]R Xrt+m X m = z X zE zzzTz

T



Aplicando estas propiedades al segundo y tercer término de la Ec. (8-141) y teniendo en cuenta que Rvv(k)=I y mv(k)=0 se obtiene

(8-145) Se procede a continuación a minimizar para u(N-2), se aplica entonces la propiedad expresada en Ec. (8-128) a la Ec. (6-11)

( )( ) ( ) ( ) ( )

( )

( )( ) ( ) ( ) ( )

( )

( )[ ] ( ) ( ) ( )[ ]1-NF 1-NH 1-NFtr +JminE

)u x,J(min2-NRu2-Nu2-NQx2-NxminE

=Jmin2-NRu2-Nu2-NQx2-NxEmin

T2N

d

2Nu

1Nu

TT

2Nu

1-N1Nu

TT

2Nu

=

++

++

−−

−−

−−

donde

(8-146)

con

(8-147)

como las Ecs. (6-12) y (6-13) son análogas a las Ecs. (6-4) y (6-5), se opera repitiendo los pasos desde Ec. (6-6) hasta Ec. (6-11) obteniéndose

(8-148)

(8-149)

(8-150)

(8-151)

(8-152)

Continuando con la inducción para u(N-3, u(N-4, ···, u(k+1), u(k)

(8-153)

(8-154)

( )( ) ( ) ( )

( ) ( ) ( )[ ]1-NF 1-NH 1-NFr t+

1-N x1-NP 1-NxE JminE

T

T1-N

1-Nu+=

( ) ( ) ( ) ( ) ( )( ) ( )2-Nu R 2-Nu

2-N xQ 2-Nx+1-N x1-NP 1-Nx =JT

TT2-N

d +

( ) ( ) ( ) ( ) ( ) ( ) ( )2-N v2-NF+2-Nu 2-NB2-N x2-NA =1-Nx +

( ) ( ) ( ) ( )[ ] ( ) ( )( ) ( ) ( ) ( )[ ]2-N v2-NF+2-N x2-NA.

.1-NP 2-NB 2-NB 1-NP 2-NB + R-=2-Nu T-1T°

( ) ( ) ( ) ( )( ) ( ) ( )[ ] ( ) ( )1-NP 2-NB 2-NB 1-NP 2-NB+R .

.2-NB 1-NP-1-NP=2-NHT1-T

2)-A(N 2)-H(N 2)-(NA + Q = 2)-P(N T

( ) ( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( )[ ] ( ) ( ) ( )2-NA 1-NP 2-NB 2-NB 1-NP 2-NB+R .

. 2-NB 1-NP 2-NA-2-NA 2-NP 2-NA+Q=2-NP

T1T

TT

−

( )( ) ( ) ( ) ( ) ( ) ( )[ ]

( ) ( ) ( )[ ]1-NF 1-NH 1-NFtr+

+2-NF 2-NH 2-NFtr2-N x2-NP 2-NxE =JminE

T

TTd2-N2Nu

+

−

( ) ( ) ( )[ ]( ) ( ) ( ) ( ) ( ) ( )[ ]k vkF+k xkA 1kP kB

kB 1kP kB+ R-= (k)u-1T

++°

( ) ( ) ( ) ( ) ( ) ( ) ( )[ ] ( ) ( )1kP kB kB 1kP kB+RkB 1kP- 1kPkH T1T ++++= −

( ) ( ) ( ) ( )( ) ( ) ( ) ( ) ( ) ( ) ( )

( ) ( ) ( )[ ] ( ) ( ) ( ).kA 1kP kBkB 1kP kB+R

kB1kP kA-kA 1kPkA+Q=kP

kA1kH kA+Q = 1kP

T1T

TT

T

++

++++

−



(8-155)

(8-156)

(8-157)

la Ec. (6-20) s la ecuación matricial de Riccati y se debe resolver para obtener el vector de control. Comparando las Ecs. (8-142), (6-17) y (6-20) se deduce que la condición inicial para P es

(8-158)

De la Ec. (6-18) se concluye que la ley para obtener el vector de entrada óptimo, está formado por dos partes; la primera es una realimentación lineal del vector de estado tal como se obtiene para el regulador óptimo lineal determinístico y además una ley de prealimentación del vector aleatorio de perturbación. En la Fig. 8-5 se observa un diagrama de bloques del sistema con controlador. Es importante destacar que se necesita conocer el vector de perturbación aleatorio; en caso que esto no sea posible, se debe hacer una predicción del mismo. Cuando la predicción no es factible se obtiene una ley incompleta con un incremento de Jm. La Ec. (6-18) se puede escribir

(8-159)

(8-160)

(8-161)

la Ec. (8-160) es la misma que para el problema determinístico (6-23). Si el sistema es invariante, entonces se puede obtener P en estado estacionario, esto se cumple haciendo

(8-162)

y por lo tanto se obtiene

(8-163)

que es la ecuación matricial de Riccati en estado estacionario. Entonces la ecuación del controlador será

(8-164)

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ).iF iH iFtr +

kR kPtr +km kP kmJ min

T1-N

k=i

xxxTxk

uk

∑

+=

( ) ( ) ( ) ( ) ( ) ( )[ ]

∑ iF iH iFtr + k xkP kxE=JT

1-N

k=i

Tm

( ) . S =NP

( ) ( ) ( ) ( ) ( )k vkK-k xk-K=ku vx°

( ) ( ) ( ) ( )[ ] ( ) ( ) ( ).kA 1kP kBkB 1kP kB+R=kK T-1Tx ++

( ) ( ) ( ) ( )[ ] ( ) ( ) ( )kF 1kP kB kB 1kP kB+R=kK T-1Tv ++

P(k)lim= Pk ∞→

[ ] A P BB PB+RPBA-PAAQ=P T-1TTT+

( ) [ ] ( ) ( )[ ].k vF+k xAP BB PBR-=ku T-1T+°



Si F no se conoce y se elimina de la Ec. (6-26), se obtiene el controlador determinístico. Esto significa que dicho controlador determinístico es también la solución óptima obtenible para el caso estocástico cuando no se puede modelar el ruido.

Fig. 8-5. Sistema con ley óptima de realimentación y prealimentación del vector de perturbación.

Para la Fig. 8-5 se ha tomado

(8-165)

donde

(8-166)

Por último si se calcula la derivada segunda en la Ec. (6-6) se tiene

(8-167)

de manera que para que el funcional de costo sea mínimo, se debe asegurar que S o R sean definidas positivas. Si se asegura a R como definida positiva, S puede ser semidefinida positiva, pero tanto S como Q nunca pueden ser definidas negativas porque entonces el índice Jm puede resultar negativo, lo que contradice la definición de cualquier funcional de costo.

8.5.3. Controladores de Estado de Varianza Mínima. En la sección anterior se estudió el problema del regulador óptimo estocástico, como una extensión del regulador óptimo lineal determinístico. Se presenta a continuación otro criterio de diseño basado en el concepto de varianza mínima. Dado un sistema dinámico estocástico lineal de tiempo discreto con ecuaciones

(8-168)

(8-169)

donde v(k), w(k), x(k) son vectores aleatorios con distribución gaussiana con parámetros estadísticos

( ) ( ) ( ) ( ) ( ) ( )[ ]k vkF+k xkAkK-=ku°

( ) ( ) ( ) ( )[ ] ( ) ( ).1kP kBkB 1+kP kB+R=kK T-1T +

( ) ( )[ ]1-NB S 1-NBR2=1)-(Nu

)u x,J( T2

2

+∂∂

v(k)F(k) + u(k) B(k) + x(k)A(k) = 1)+x(k

w(k)G(k) + u(k) D(k) + x(k)C(k) = y(k)



(8-170)

(8-171)

(8-172)

(8-173)

Se define el funcional de costo como la varianza del estado

(8-174)

Para que el vector de control no resulte con amplitudes demasiado grandes conviene incorporarlo en el índice de manera que

(8-175)

puesto que x, u son vectores

(8-176)

Por último es importante disponer de la posibilidad de modificar cuanto influye cada componente de x y de u sobre el índice, por ello se incluyen dos matrices de peso R, Q, donde Q es simétrica y semidefinida positiva y R es simétrica y definida positiva.

(8-177)

donde el factor r se ha incluido en la matriz R. Se puede hacer entonces la formulación del problema. Dado un sistema dinámico estocástico lineal de tiempo discreto modelado en el espacio de estado con Ecs. (8-168) y (8-169) se debe encontrar una ley de control u que minimice el funcional de costo dado por la Ec. (8-177) o lo que es lo mismo se minimiza la varianza del vector de estado. Para resolver el problema planteado se reemplaza la Ec. (8-168) en la Ec. (8-177); obteniéndose

u(k) R (k)u + ] v(k)F(k)+

+ u(k) B(k) + x(k)A(k) [ Q ] v(k)F(k) + u(k) B(k) + x(k)A(k)[ E = 1)+(kJT

Tm

(8-178) operando en la Ec. (8-177) y minimizando con respecto a u se tiene

(8-179)

donde uo se obtiene de

0 =w(k)E=v(k)E

0 (k)xv(k)E(k)wv(k)E TT ==

I=(k)w w(k)E=(k)v v(k)E TT

k.n 0, (n)w w(k)E=(n)v v(k)E TT ≠∀=

.1)+(kxE=)u x,J(E = 1)+(kJ 2m

(k)ur + 1)+(kx E = )ux,J( E = 1)+(kJ 22m

.u(k) (k)ur + 1)+ x(k1)+(kxE =)u x,J(E = 1)+(kJ TTm

(k)Ru(k)u+1)+1)Qx(k+(kxE )u x,J(E=1)+(kJ TTm =

u(k) R (k)u + ] v(k)F(k)+

+u(k) B(k) + x(k)A(k) [ Q ] v(k)F(k) + u(k) B(k) + x(k)A(k) [ = u) x,(JT

Tm

.)u (x,JE = )u x,J(minE = 1)+(kJ min mu

m°



0 = u(k)

)u x,(J m

∂∂

teniendo en cuenta que, dada una matriz A y dos vectores x, y es

2Ax = x

A x) x( ; xA = y

y)A x( ;y A = x

y)A x( TT

TT

∂∂

∂∂

∂∂

se obtiene

(8-180)

despejando u se tiene

(8-181)

llamando

(8-182)

(8-183)

(8-184)

Las Ecs. (8-182), (8-183) y (8-184) son equivalentes en estructura que las Ecs. (8-159), (6-23) y (8-161) obtenidas para el controlador óptimo lineal estocástico. En este caso la matriz P que satisface la ecuación matricial de Riccati es sustituida por la matriz de peso Q. Para el caso que el sistema sea lineal e invariante y el vector aleatorio v estacionario, la ecuación del controlador será

(8-185)

Para la Fig. 8-6 se ha tomado

(8-186)

donde

(8-187)

De esta manera la ley de control óptima, en el sentido de la obtención de una varianza mínima, posee dos partes, una ley de realimentación de estado similar al caso determinístico y una ley por prealimentación del vector aleatorio de ruido que afecta al sistema.

[ ]

0 = u(k) R 2 + u(k) B(k) Q (k)B2

v(k)F(k) + x(k)A(k)(k)QB2 = u(k)

) xu,( J

T

Tm

+

+∂

∂

[ ] [ ] v(k)F(k) + x(k)A(k)Q (k)B B(k) Q (k)B 2 + R- = (k)u T-1T°

v(k)(k)K - x(k)(k)K - = (k)u vx°

[ ] A(k) Q (k)B B(k) Q (k)B 2 + R= (k)K T-1Tx

[ ] F(k). Q (k)B B(k) Q (k)B 2 + R(k)K T-1Tv =

[ ] [ ]. v(k)F + A x(k)Q B B Q B 2 + R- = (k)u T-1T°

[ ] v(k)F(k) + x(k)A(k)K(k) = (k)u°

[ ] Q. (k)B B(k) Q (k)B 2 + R= K(k) T-1T



Es importante destacar que se necesita conocer el vector de perturbación aleatorio; en caso que esto no sea posible, el mismo se debe predecir. Cuando la predicción no es factible se obtiene una ley incompleta con un incremento del índice J. La Ec. (8-185) se puede obtener de la Ec. (6-18) si se reemplaza P(k+1) por Q. Por este motivo la estructura de los controladores son iguales como se puede observar comparando la Fig. 8-5 y la Fig. 8-6.

Fig. 8-6. Sistema de control con ley óptima de realimentación de estado y ley de prealimentación del vector de perturbación para índice de mínima varianza.

9. Bibliografía Anderson B., Moore J., 1971. Linear optimal control. Prentice-Hall International Inc., London. Bellman R. and S. Dreyfus, 1962. Applied dynamic programming. Princenton University Press. Bertsekas D. and J. Tsitsiklis, 1996. Neuro-dynamic programming. Athena scientific. MIT. Bertsekas D. and J. Tsitsiklis. Notas del curso Introduction to Probability. MIT. Kirk, Donald E.. Optimal Control Theory: An Introduction, Dover Publications, 2004. Luus, R. Iterative Dynamic Programming.CRC Press Ogata, Katsuhiko. Ingeniería de Control Moderna. Prentice Hall. Ogata, Katsuhiko. Sistemas de Control en Tiempo Discreto 2da Ed. Prentice Hall. Oksendal B., 2003. Stochastic differential equations 6ed., Springer.

pucheta acse 2009

Documents