control optimo estocastico

65
Control ´ optimo estoc ´ astico Prof. John F. Moreno T. Maestr´ ıa en Finanzas

Upload: paula-andrea-rojas-chaves

Post on 25-Sep-2015

20 views

Category:

Documents


2 download

TRANSCRIPT

  • Control optimo estocastico

    Prof. John F. Moreno T.

    Maestra en Finanzas

  • Dinamica de portafolios

    I Partimos de considerar un mercado financiero conformado porN activos activos.

    I Asumimos que la dinamica del precio de los diferentes activosesta dada (por el momento no la estudiaremos).

    I El objetivo es determinar la dinamica del valor de unportafolio autofinanciado.

    I Consideramos que el tiempo esta dividido en periodos delongitud t, y las negociaciones solo tiene lugar en losinstantes nt,n= 0,1,2, ....

    I Al referirnos al periodo t estaremos haciendo referencia altiempo transcurrido en el intervalo [t, t+t).

  • Notacion

    I N =Numero total de activos en el mercado.

    I hi(t) = numero de unidades del activo i que se tienen en elperiodo t.

    I h(t) = [h1(t),h2(t), ...,hN(t)], portafolio que se tiene durante elperiodo t.

    I c(t) = monto de dinero consumido por unidad de tiempodurante el periodo t.

    I Si(t) = precio del activo i durante el periodo t.

    I V (t) = valor del portafolio en el tiempo t.

  • Informacion y decisiones en el modelo

    I En el tiempo t, es decir al inicio del periodo t = [t, t+t),traemos con nosotros un portafolio viejoh(tt) = {hi(tt), i= 1, ...,N} del periodo tt.

    I En el tiempo t podemos observar el vector de preciosS(t) = [S1(t), ...,SN(t)].

    I En el tiempo t, despues de haber observado S(t),seleccionamos una nuevo portafolio h(t) que semantendra durante el periodo t.

    I En el tiempo t seleccionamos una tasa de consumo c(t)para el periodo t.

    I Tanto h(t) como c(t) se asumen constantes durante el periodot.

  • La condicion de autofinanciamiento

    Solo consideramos pares portafolio-consumo (h,c) que seanautofinanciables, es decir los cambios en el valor del portafolioentre periodos se deben exclusivamente a consumos y cambios enel precio de los activos que lo conforman, no por la entrada osalida de dinero exogeno.

  • ANALISIS

    Observamos que el valor de nuestra riqueza en el tiempo t (V (t)),al inicio del periodo t esta determinada por el valor del portafolioviejo h(tt),

    V (t) =N

    i=1

    hi(tt)Si(t) = h(tt)S(t)1 (1)

    es decir, el valor de la riqueza al inicio del periodo t es igual a loque se obtendra por vender el portafolio que se trae (el viejo) alprecio de hoy.

    1La notacion xy= Ni=1 xiyi sera la utilizada para denotar el producto puntode x y y.

  • Se asume que el monto obtenido producto de esta venta se utilizapara:

    I Reinvertir en un nuevo portafolio h(t).

    I Consumir a la tasa c(t) durante el periodo t.

    El costo del nuevo portafolio adquirido en el tiempo t es:

    N

    i=1

    hi(t)Si(t) = h(t)S(t)

    y el costo de la tasa de consumo es c(t)t, ya que c(t) es consumopor unidad de tiempo.

  • Obtenemos la siguiente ecuacion presupuestaria debida a lacondicion de autofinanciamiento,

    h(tt)S(t) = h(t)S(t)+ c(t)t

    S(t) [h(t)h(tt)] h(t)

    +c(t)t = 0

    S(t)h(t)+ c(t)t = 0

    Si sumamos y restamos el termino S(tt)h(t) en la expresionanterior tenemos que:

    S(tt)h(t)+S(t)h(t)S(tt)h(t)+ c(t)t = 0

  • S(tt)h(t)+ [S(t)S(tt) S(t)

    ]h(t)+ c(t)t = 0

    S(tt)h(t)+S(t)h(t)+ c(t)t = 0

    Si hacemos que t 0 en esta ultima expresion, tenemos que:

    S(t)dh(t)+dS(t)dh(t)+ c(t)dt = 0 (2)

    y considerando de nuevo la ecuacion (1) y haciendo que t 0 setiene que:

    V (t) =N

    i=1

    hi(tt)Si(t) = h(tt)S(t)V (t) = h(t)S(t)

  • Si tomamos la diferencial de Ito de V (t) = h(t)S(t) se tiene que:

    dV (t) = h(t)dS(t)+S(t)dh(t)+dS(t)dh(t)

    y utilizando la ecuacion (2):

    dV (t) = h(t)dS(t) c(t)dt (3)

    expresion que muestra claramente la condicion deautofinanciemiento.

  • Podemos resumir lo dicho hasta el momento en las siguientesdefiniciones, donde asumimos que {S(t); t 0} es un procesoN-dimensional de precios dado.

    I Una estrategia de portafolio (o simplemente un portafolio)es un proceso N-dimensional F St -adaptado {h(t); t 0}.

    I El proceso de valor V h correspondiente al portafolio h estadado por:

    V h(t) =N

    i=1

    hi(t)Si(t)

  • I Un proceso de consumo es cualquier proceso unidimensionalF St -adaptado {c(t); t 0}.

    I Un par (h,c) se dice autofinanciado si el proceso de valorasociado V h satisface la condicion.

    dV h(t) = h(t)dS(t) c(t)dt

  • Para un portafolio dado h, el correspondiente portafolio relativo uesta dado por:

    ui(t) =hi(t)Si(t)V h(t)

    ; i= 1,2, ...,N.

    donde,N

    i=1

    ui(t) = 1

    Podemos ver que ui representa la proporcion relativa del portafolioque esta invertida en el activo i.

  • En terminos del portafolio relativo la condicion deautofinanciamiento nos dice que el (h,c) es autofinanicado si y solosi

    dV h(t) =V h(t)N

    i=1

    ui(t)dSi(t)Si(t)

    c(t)dt

  • Dividendos

    Consideramos ahora el proceso {D1(t),D2(t), ...,DN(t)}, dondecada Di(t) denota los dividendos acumulados pagados alposeedor del activo i durante el intervalo (0, t].

    Si Di(t) tiene la estructura,

    dDi(t) = i(t)dt

    para algun proceso i, entonces decimos que el activo i generarentabilidad continua por dividendos.

  • En este caso seguimos teniendo que V (t) = h(t)S(t), pero laecuacion presupuestaria cambia, ya que el dinero del que sedispone en el tiempo t ahora esta determinado por:

    I h(tt)S(t), valor del portafolio viejo en el tiempo t.I Los dividendos generados en el intervalo (tt, t] dados por:

    N

    i=1

    hi(tt)[Di(t)Di(tt)] = h(tt)D(t)

    de forma que la ecuacion presupuestaria esta determinada por:

    h(tt)S(t)+h(tt)D(t) = h(t)S(t)+ c(t)t

  • De esta forma y utilizando los mismos argumentos anteriores setiene que la dinamica del portafolio autofinanciado para el casocon dividendos esta determinada por:

    dV (t) =N

    i=1

    hi(t)dSi(t)+N

    i=1

    hi(t)dDi(t) c(t)dt

  • Consideramos entonces las siguientes definiciones:

    I El proceso de ganancia {G(t); t 0} esta definido por:

    G(t) = S(t)+D(t)

    I El par (h,c) se dice autofinanciado si

    dV h(t) =N

    i=1

    hi(t)dGi(t) c(t)dt

  • Control optimo

    Ejemplo: Consideramos una economa definida en el intervalo[0,T ], en la cual hay un agente que en el tiempo t = 0 esta dotadocon una riqueza inicial x0.

    El problema del agente es determinar la mejor manera deinvertir y consumir en este horizonte temporal.

  • Las oportunidades de inversion para el agente son:

    I Un activo libre de riesgo B con tasa de interes constante r.

    dB= rBdt

    I Un activo riesgoso con valor S(t), tal que:

    dS= Sdt+SdW

    Denotamos por u0t a lo invertido en B en el instante t, por u1t a lo

    invertido en el activo S en el instante t y como ct a la tasa deconsumo.

  • Solo se consideran estrategias de inversion-consumo que seanautofinanciadas, hay negociacion continua y no hay restriccion aventas en corto.

    En este escenario denotamos por Xt a la riqueza del agente en eltiempo t, y tenemos que:

    dXt = Xt [u0t r+u1t ]dt ctdt+u1t XtdWt

    Como seleccionar un estrategia (h,c) que maximice el valoresperado de su utilidad total en el intervalo [0,T ]?

  • Problema de control optimo estocastico

    maxu0,u1,c

    E[ T

    0F(t,ct)dt+(XT )

    ]

    sujeto a:

    dXt = Xt [u0t r+u1t ]dt ctdt+u1t XtdWt

    X0 = x0ct 0 para todo t 0u0t +u

    1t = 1 para todo t 0

  • Definicion

    En un problema de control optimo encontramos:

    I Como evoluciona el sistema de interes. (Modelo dinamico delsistema.)

    I Como se va ha controlar el sistema. (Conjunto de estrategiasadmisibles).

    I Restricciones adicionales si son necesarias.

    I Una funcion objetivo, que permite determinar la respuestadel sistema a cada estrategia admisible.

  • Ejemplos:

    1. (Sistema discreto)

    X(t+1) = F(X(t),u(t), (t)) ; t = 0,1,2, . . . ,T

    con X(0) = x0 y T . Las (t) son perturbaciones quehacen:

    I Sistema estocastico ( (t) son v.a.)I Sistema determinstico ( (t) son constantes conocidas)I Sistema incierto ( (t) son constantes desconocidas)

  • 2. (Sistema continuo)

    dX(t+1)dt

    = F(X(t),u(t), (t)) ; 0 t T

    con X(0) = x0 y T .I Sistema estocastico

    dX(t) = (t,X(t),u(t))dt+(t,X(t),u(t))dW (t)

    I Sistema determinstico

    dX(t) = (t,X(t),u(t))dt

  • Estrategias admisibles

    Una estrategia de control u(t) se especifica mediante restricciones,y se considera admisible si:

    I u(t) es adaptado a X(t), e.d.,u(t,X(t)).I u(t,X(t)) es posible para todo t y todo x.I Para todo t y x la EDE,

    dX(t) = (t,X(t),u(t,X(t)))dt+(t,X(t),U(t,X(t))dw(t)

    con X(t) = x, tiene solucion unica.

  • Funcion objetivo

    Para un problema determinstico en tiempo discreto, se tiene quela forma de la funcion objetivo pude ser:

    V (u,x) =T1t=0

    c(X(t),u(t))+CT (X(T ))

    o

    V (u,x) =

    t=0

    tc(X(t),u(t))

  • Para el problema determinstico en tiempo continuo, se tiene que:

    V (u,x) = T0

    c(X(t),u(t))dt+CT (X(T ))

    y en el caso estocastico:

    V (u,x) = E[ T

    0c(X(t),u(t))dt+CT (X(T ))

    ]

  • 1. En un problema de control optimo se busca optimizar V (u,x)sobre el conjunto de estrategias admisibles u(t) U , para loscuales el proceso de estado X(t) sigue las restricciones dadaspor el modelo dinamico y las restricciones adicionales.

    2. la funcion V (u,x) := supu(t)UV (u,x), es llamada funcion devalor y u es la ley de control optimo.

  • Ejemplo: Retomando el problema de portafolio, se tiene que:

    I El proceso estado es la riqueza del agente X(t) con unadinamica dX(t).

    I Las acciones o procesos de control del agente son: h= (u0t ,u1t )

    y ct .I La funcion objetivo es:

    v(u,x) = E[ T

    0F(t,Xu(t),u(t))dt+(XuT )

    ]

  • El Problema Formal

    Tenemos las funciones:

    (t,x,u) : R+RnRk Rn(t,x,u) : R+RnRk Rnd

    y para un punto fijo x0 Rn consideramos la ecuacion diferencialestocastica controlada:

    dXt = (t,Xt ,ut)dt+(t,Xt ,ut)dWtX0 = x0

  • dXt = (t,Xt ,ut)dt+(t,Xt ,ut)dWtX0 = x0

    Tratamos de controlar el proceso de estado X seleccionandoadecuadamente el proceso de control u.

    Cuales son las condiciones para que un proceso de control usea admisible?

  • 1. El proceso ut sea adaptado al proceso de estado X , es decir, utdepende de los valores pasados observados de X , en particular

    ut(t,Xt)

    luego,

    dXt = (t,Xt ,ut(t,Xt))dt+(t,Xt ,ut(t,Xt))dWtX0 = x0

    2. Que el proceso ut cumpla con las restricciones de control, esdecir, si U Rk entonces ut U para todo t.

  • Definicion: Un proceso de control ut es admisible si:

    1. u(t,x) U para todo t y todo x.2. Para todo punto (t,x) la E.D.E

    dXs = [x,Xs,u(s,Xs)]ds+ [s,Xs,u(s,Xs)]dWsXt = x

    tiene solucion unica, denotada por Xx,u

  • Funcion objetivo del problema de control

    Consideramos el par de funciones:

    F : R+RnRk R : Rn R

    A partir de las cuales definimos la funcion de valor del problema,J0 :U R, definida por:

    J0(u) = E[ T

    0F(t,Xut ,ut)dt+(X

    uT )]

    donde Xut es el proceso que soluciona la E.D.E del proceso decontrol.

  • En este contexto definimos el valor optimo J0 por:

    J0 = supuUJ0(u)

    si existe una ley de control admisible u, tal que:

    J0(u) = J0

    y en este caso esta ley se dice ley de control optimo para elproblema dado.

  • La ecuacion de Hamilton-Jacobi-Bellman

    Dado un problema de control optimo las dos preguntas naturales acontestar son:

    I Existe una ley de control optimo?

    I Dado que que existe un control optimo, lo podemosencontrar?

    Para esto integramos el problema original a una clase masgrande de problemas de control que estan relacionados conuna ecuacion diferencial parcial conocida como ecuacion de

    Hamilton-Jacobi-Bellman.

  • Empezamos por seleccionar un instante fijo de tiempo t en [0,T ] yun valor x Rn del espacio de estados.

    Para el par (t,x) definimos el problema de control P(t,x):

    maxEt,x

    [ Tt

    F(s,Xus ,us)ds+(Xut )]

    sujeto a:

    dXus = (s,Xus ,u(s,X

    us ))ds+(s,X

    us ,u(s,X

    us ))dWs

    Xt = xu(s,y) U (s,y) [t,T ]Rn.

  • La funcion de valor (funcion objetivo) de este problema es:

    J : R+RnU R

    J (t,x,u) = E[ T

    tF(s,Xus ,us)ds+(X

    uT )]

    y la funcion de valor optimo es:

    V : R+Rn R

    V (t,x) = supuUJ (t,x,u)

    Buscamos derivar una ecuacion diferencial parcial para la funcionde valor optimo V .

  • Para poder derivar la EDP asociada a la funcion V se asume que:

    I Existe un proceso de control optimo u, lo que garantiza laexistencia de la funcion V .

    I La funcion V C1,2.I Es posible justificar los procedimientos de toma de lmites que

    se aplicaran.

  • Deduccion de la EDP

    Para (t,x) fijos en (0,T )Rn y para un valor fijo h, se considerauna ley de control arbitraria u U , y se define:

    u(s,y) =

    {u(s,y) ; (s,y) [t, t+h]Rnu(s,y) ; (s,y) (t+h,T ]Rn

    Siguiendo la ley de control u estaramos utilizando un controlarbitrario u en el intervalo [t, t+h] y el control optimo u en el restodel intervalo hasta T .

  • La idea de la programacion dinamica

    1. Dado (t,x) se consideran las estrategias.

    I. Usar el control optimo u.

    II. Usar el control u.

    2. Calcular la utilidad esperada bajo ambas estrategias.

    3. Utilizar que la estrategia en I. es mejor que en II. y hacer queh 0, para obtener la EDP.

  • Utilidades esperadas:

    I Estrategia I.

    El valor esperado de la utilidad siguiendo esta estrategia es :

    V (t,x) =J (t,x, u)

    I Estrategia II.

    En este caso dividimos el intervalo (t,T ] en dos partes, de(t, t+h) y de [t+h,T ].

    El valor esperado de la utilidad en el intervalo (t, t+h) estadado por:

    Ex,t

    [ t+ht

    F(s,Xus ,us)ds]

  • En el segundo intervalo [t+h,T ] tenemos que el estado en elinstante t+h es un estado aleatorio Xut+h, y como en este intervaloestamos siguiendo la estrategia optima, la utilidad esperada estadada por V (t+h,Xut+h).

    Concluimos que la utilidad esperada en el intervalo [t+h,T ],siguiendo al estrategia II, esta determinada por:

    Ex,t

    [ t+ht

    F(s,Xus ,us)ds+V (t+h,Xut+h)

    ]

  • I Comparacion de las utilidades esperadas

    Como por definicion la estrategia I es la optima, se tiene que:

    V (t,x) Ex,t[ t+h

    tF(s,Xus ,us)ds+V (t+h,X

    ut+h)

    ]

    Aplicando la formula de Ito se tiene que:

    V (t+h,X st+h) =V (t,x)

    + t+ht

    {V t

    (s,Xus )+Vx

    (s,Xus )(s,Xus ,us)+

    12 2Vx2

    (s,Xus )uu

    }ds

    + t+ht

    Vx

    (s,Xus )udWs

  • Si definimos el operador:

    Au = (t,x)x

    +12u u

    2

    x2

    entonces,

    V (t+h,X st+h) =V (t,x)

    + t+ht

    {V t

    (s,Xus )+AuV (s,Xus )

    }ds+

    t+ht

    Vx

    (s,Xus )udWs

    y al tomar valor esperado dados (t,x) se tiene que:

    Et,x[V (t+h,X st+h)]=V (t,x)+Et,x

    [ t+ht

    {V t

    (s,Xus )+AuV (s,Xus )

    }ds]

  • Entonces al considerar de nuevo la desigualdad,

    V (t,x) Ex,t[ t+h

    tF(s,Xus ,us)ds+V (t+h,X

    ut+h)

    ]

    se tiene que,

    Ex,t

    [ t+ht

    F(s,Xus ,us)+V t

    (s,Xus )+AuV (s,Xus )

    ]ds 0

  • I Tomando lmite

    Multiplicando y dividiendo por h haciendo que h 0, se tiene que:

    F(t,x,u)+V t

    (t,x)+AuV (t,x) 0

    y podemos ver que la igualdad se tiene solo si u= u, luego

    V t

    (t,x)+ supuU{F(t,x,u)+AuV (t,x)}= 0

    ecuacion que consideramos con la condicion de fronteraV (T,x) =(x) para todo x.

  • Ecuacion HJB

    Bajo los supuestos anteriores se tiene que:

    1. V satisface la ecuacion de Hamilton-Jacobi- Bellman

    V t

    (t,x)+ supuU{F(t,x,u)+AuV (t,x)}= 0 (t,x) (0,T )Rn

    V (T,x) =(x) x Rn

    2. Para cada (t,x) (0,T )Rn el supremo de la ecuacion HJBes alcanzado por u= u(t,x).

  • Nota:

    Es importante notar que aunque el resultado anterior estaexpresado en forma de condicion necesaria, la ecuacion HJBtambien actua en forma de condicion suficiente, es decir, si Vsatisface la ecuacion HJB entonces V es el supremo de la funcionde valor y u es un control optimo.

  • Tenemos entonces la ecuacion HJB:

    V t

    (t,x)+ supuU{F(t,x,u)+AuV (t,x)}= 0

    V (T,x) =(x)

    1. La consideramos como una ecuacion diferencia parcial de lafuncion V .

    2. Para (t,x) [0,T ]Rn fijo, resolvemos el problema:

    maxuU{F(t,x,u)+AuV (t,x)}

    3. Si u es el optimo entonces:

    V t

    (t,x)+F u(t,x)+AuV (t,x) = 0

    V (T,x) =(x)

    4. Resolver!!

  • El problema original

    Retomando el problema del agente tenemos que:

    maxu0,u1,c

    E[ T

    0F(t,ct)dt+(XT )

    ]

    sujeto a:

    dXt = Xt [u0t r+u1t ]dt ctdt+u1t XtdWt

    X0 = x0ct 0 para todo t 0u0t +u

    1t = 1 para todo t 0

  • I Que sucede en el problema anterior si = 0 y la funcion Fes una funcion creciente y no acotada en la variable c?

    Problema degenerado que no tiene solucion optima.

    Con alta probabilidad el proceso de riqueza tomaravalores negativos, lo cual no esta prohibido por lasrestricciones de control.

  • Una forma de resolver lo anterior es considerar un domino de laforma D= [0,T ]{x|x> 0}, que se incorpora en el problemautilizando el tiempo de parada

    = inf{t > 0|Xt = 0}T

    con lo cual la funcion objetivo del problema sera:

    E[

    0F(t,ct)dt

    ]

  • Si en el problema definimos una nueva variable de control w comowt = u1t y 1wt = u0t , se tendra que:

    dXt = Xt [(1wt)r+wt]dt ctdt+wtXtdWt= wt [ r]Xtdt+(rXt ct)dt+wtXtdWt

    y la ecuacion HJB del problema es:

    V t

    + supc0,wR

    [F(t,ct)+w( r)xVx

    +(rx c)Vx

    +12x2w22

    2Vx2

    ] = 0

    con V (T,x) = 0 y V (t,0) = 0.

  • Ejemplo:

    Sea F(t,c) = e tc , con 0< < 1, entonces:

    supc0,wR

    [F(t,ct)+w( r)xVx +(rx c)Vx

    +12x2w22

    2Vx2

    ]

    supc0,wR

    [e tc +w( r)xVx

    +(rx c)Vx

    +12x2w22

    2Vx2

    ]

  • supc0,wR

    [e tc +w( r)xVx

    +(rx c)Vx

    +12x2w22

    2Vx2

    ]

    Las condiciones de primer orden para ese problema de optimizacionestatica son:

    I c

    c1e t Vx

    = 0 (A)

    I w

    w=V/xx 2V/x2

    ( r)2

    (B)

  • Si en este contexto consideramos que V (t,x) = e th(t)x dondeh(T ) = 0 para cumplir con las condiciones, tenemos que:

    V t

    = e th(t)x e th(t)x

    Vx

    = e th(t)x1

    2Vx2

    = (1)e th(t)x2

    y reemplazando en las ecuaciones (A) y (B) tenemos:

    w= r

    (1 )2 ; c= xh(t)1/1

  • Retomando la ecuacion de HJB tenemos que:

    V t

    + supc0,wR

    [F(t,ct)+w( r)xVx

    +(rx c)Vx

    +12x2w22

    2Vx2

    ] = 0

    x{h(t)+Ah(t)Bh(t)/(1)

    }= 0 ; h(T ) = 0

    donde,

    A=( r)2(1 )2 + r

    12( r)2(1 )2 ; B= 1

  • Teorema de separacion de fondos

    Caso sin activo libre de riesgo

    I Consideramos un mercado financiero compuesto por n activosriesgosos (S1, ..,Sn), donde se asume que el vector de precioS(t) sigue la dinamica:

    dS= D(S)dt+D(S)dW

    donde es un vector, una matriz y D(S) = diag[S1, ...,Sn],luego

    dSi = Siidt+SiidW

  • I Consideramos tambien el proceso de portafolio autofinanciado

    dX = Xwdt cdtXwdW

    I Una funcion de utilidad instantanea F(t,ct), tal que buscamosmaximizar:

    E[ T

    0F(t,ct)dt

    ]

    sujeto a la dinamica del proceso de riqueza (Xt) y a lasrestricciones: iwi = 1 y c 0

  • I La ecuacion HJB del problema es:

    V t

    + supw,c0

    {F(t,c)+Aw,cV (t,x,s)}= 0

    V (T,x,s) = 0V (t,0,s) = 0

    con,

    Aw,cV (t,x,s) = xwVx cV

    x+12x2ww

    2Vx2

  • Si suponemos que y son constantes y que es de rangocompleto (luego es invertible), se tiene que el problema deoptimizacion estatica puede plantearse en terminos delLagrangiano:

    L= F(t,c)+(xw c)Vx+ 12x2wwVxx+ (1we)

    y de las condiciones de primer orden:

    I Fc =Vx.

    I x Vx+ x2Vxxw= e w= 1[ x2Vxx exVxx2Vxx

    ]

    I = x2Vxx+xVxe1

    e1e

  • Reemplazando este valor de en la ecuacion del w, se tiene que:

    w=1

    e1e1e

    g

    +VxxVxxY (t)

    1[e1e1e

    e]

    h

    w= g+Y (t)h

  • Trabajo en clase

    Resuelva el problema de minimizar:

    E[exp{ T

    0u2t dt+X

    2T

    }]

    dado que dX = (ax+u)dt+dW .

    Sugerencia: Tome V (t,x) = eA(t)x2+B(t)

    Dinmica de portafoliosControl OptimoProgramacin dinmica estocsticaEstrategias admisiblesFuncin objetivo

    El problema formalLa ecuacin de HJBConsumo optimoTeorema de separacin de fondos