![Page 1: Politica optima de produccion y control: Un modelo Markoviano](https://reader031.vdocuments.mx/reader031/viewer/2022020406/57506f8f1a28ab0f07d0e7c2/html5/thumbnails/1.jpg)
TRABAJOS DE ESTADISTICA Y DE INVESTIGACION OPERATIVA Vol. XXVII I , Cuad. 1, Madrid, 1977
POLITICA OPTIMA DE PRODUCCION Y CONTROL:
UN MODELO MARKOVIANO
Francisco Benito
Institut fiir Operations Research Eidgenfssische Technische Hochschule Ziirich
Resumen.
En la producci6n en serie se dan perturbaciones que conducen
a defectos en el producto fabricado, y que, por tanto, se acusan en
el control de calidad. En muchos casos las mediciones hechas para
determinar la calidad no son exactas sino sujetas a errores. Las deci-
siones 6ptimas sobre la polftica a seguir en la producci6n (eliminaci6n
de las perturbaciones) y e n los tests de calidad son en estos casos mils
dif/ciles de determinar que si no se diese la inseguridad debida a las
mediciones inexactas de la calidad.
Para este problema se puede utilizar como modelo matemfitico
una cadena controlada de Markov con finitos estados e informaci6n
incompleta. El modelo se puede transformar en un proceso auxiliar
de Markov con informaci6n completa, pero con espacio de estados
no numerable. Para hacer posibles los cfilculos num6ricos se discretiza
el espacio de estados del proceso auxiliar.
El procedimiento permite comparar diversos m6todos de control
de calidad, y opt imar simultfineamente las pol/ticas de producci6n
y de control. El modelo discreto sirve tambi6n como modelo de
simulaci6n para valorar cualquier polilica.
37
![Page 2: Politica optima de produccion y control: Un modelo Markoviano](https://reader031.vdocuments.mx/reader031/viewer/2022020406/57506f8f1a28ab0f07d0e7c2/html5/thumbnails/2.jpg)
Abstract.
Technical troubles in mass production often lead to defective
items of the parts produced, which may be detected in quality control.
Sometimes the quality measurements are inaccurate and unreliable;
in this case optimal decisions on production policy (elimination of the
technical difficulties) and on quality control (test policy) are more
difficult to find than in the case of exact measurements.
A suitable mathematical model for this problem is a Markoy-process
with a finite number of states and with incomplete information. This
model can be transformed into a Markov-process with complete
information but continuous state space. For numerical computations
a discrete approximation of this auxiliary process is given.
The procedure can be used for comparison of several test methods
and for simultaneous optimization of the production and test policies.
Simulations with the approximation model are also possible.
1. Introduccibn.
En la producci6n en serie se suele admitir que la calidad del lore
producido en un periodo depende del estado de la maquinaria que
elabora el producto, y que ese estado puede variar de un periodo
a otro debido a perturbaciones aleatorias. Si se considera un espectro
discreto de posibles estados de la instalaci6n y de calidades de los
lotes producidos, se pueden representar esas variaciones por medio
de una cadena de Markov.
Los tests de calidad de l producto son en muchos casos inexactos
y aleatorios, de modo que la calidad actual en cada periodo no se
puede determinar con una certeza del 100 por 100. Esta inseguridad
no se refleja en los modelos usuales, y esto implica, a menudo, una
inadmisible simplificaci6n de la realidad. En caso de varios m6todos
posibles de control de calidad, se plantea asimismo la pregunta: cu~l
se debe emplear en cada periodo, para conseguir un compromiso
6ptimo entre el costo del test y el valor de la informaci6n que
proporciona. Tenemos dos decisiones por periodo, en cierto modo
38
![Page 3: Politica optima de produccion y control: Un modelo Markoviano](https://reader031.vdocuments.mx/reader031/viewer/2022020406/57506f8f1a28ab0f07d0e7c2/html5/thumbnails/3.jpg)
en concurrencia, aunque el problema no corresponde al estudiado por Rfos [7] o Cano [4]. Precisemos con un ejemplo.
2. Produccibn masiva.
En una planta industrial se fabrican diariamente 10.000 botellas
de plfistico de un determinado modelo. Cada botella se trabaja suce- sivamente en dos mfiquinas A y B. La m~quina A tiene una proba- bilidad de averfa constante: O,1 averfas/dfa. En caso de averfa, et 60
pot 100 de los ejemplares fabricados son defectuosos. Para la mfiqui- na B estos panimetros son, respectivamente, 0,2 averfas/d/a y 20 por 100 de ejemplares defectuosos. Adem~is, pot diversos motivos (defectos
de las materias primas, manejo incorrecto de la maquinaria, etc.) hay un l0 por 100 de ejemplares defectuosos.
El estado de las m~quinas (averiadas o no) no es observable, y las
finicas decisiones que se pueden tomar consisten en reemplazar una de las m~quinas (A o B) o ambas. Los costes de reemplazamiento para la mfiquina A (resp. B) son de 10.000 $ (resp. 3.000 $) y cuando se reemplazan mfiquinas (una o dos) hay que interrumpir la producci6n durante un dia.
Si, por ejemplo, ambas mfiquinas estfin averiadas, cada botella resultarfi defectuosa durante la elaboraci6n en la mfiquina A con pro- babilidad 0,6 (o sea, con probabilidad 0,4 seni no defectuosa), y con probabilidad 0,2 al pasar por la mfiquina B (o sea, con probabilidad 0,8 no tendril defecto debido a B); por otros motivos puede una botella con probabilidad 0,1 tener defectos (o sea, probabilidad 0,9
de ser aceptable). Estos tres efectos (de la m~quina A, de la m~quina B y otros) se superponen: la probabilidad de que una botella sea aceptable es el producto: 0,4 X 0,8 X 0,9 = 0,288 que corresponde a 28,8 por 100 de buenas unidades en la producci6n de ese dfa.
Para los cuatro estados posibles de las m~iquinas, se obtienen por
razonamientos an~logos los porcentajes de buenas unidades que apa- recen en la Tabla 2.1.
Estos porcentajes (o los respectivos estados) forman el espectro
39
![Page 4: Politica optima de produccion y control: Un modelo Markoviano](https://reader031.vdocuments.mx/reader031/viewer/2022020406/57506f8f1a28ab0f07d0e7c2/html5/thumbnails/4.jpg)
Estados
I Ambas mfiquinas en buen estado
2 $61o mfiquina A ave- riada
3 $61o m~quina B ave- riada
4 Ambas m~iquinas ave- riadas.
Probabilidad de no tener defectos
mfq. A m~q. B otros
0,4
0,4 •
0,8
0,8
0,9
• 0,9
X 0,9
• 0,9
Porcentaje de buenas unMades
90%
36%
72%
28,8%
Tabla 2.1
de calidades y definen una cadena de Markov. Las probabilidades de tr~nsito correspondientes se calculan a partir de las probabilidades de
evoluci6n en cada una de las mfiquinas. Ejemplo: Si estfi averiada s61o la mfiquina A, puede la mfiquina B averiarse o no; en el primer
caso la probabilidad es 0,2 y tenemos el trfinsito: "s61o la mfiquina A averiada" --~ "ambas mfiquinas averiadas"; en el segundo caso la
probabilidad es 0,8 y el trfinsito: "s61o la mfiquina A averiada" ~ "s61o la mfiquina A averiada". En la Figura 2.1 y la Tabla 2.2 aparecen las
probabilidades de trfinsito cuando se decide no reemplazar ninguna
de las mfiquinas. Para las otras tres posibles decisiones (es decir: reemplazar la mfiquina A, reemplazar la mfiquina B, reemplazar ambas
mfiquinas) se obtienen las matrices de tr/msito recogidas en las Tablas
2.3, 7.1 y 7.2.
Cada botella sin defecto se puede vender al precio de 1 $; los costes de las materias primas y consumo de energia alcanzan 0,20 $ por botella. Las botellas defectuosas se pierden (se reintegra su precio
al cliente).
As/ descrita, la marcha de esta fftbrica se asimila a un Proceso de Decisi6n Markoviano sin informaci6n, pues los estados permahecen desconocidos. Se puede, sin embargo, estimar el porcentaje de "buenas" unidades en la producci6n diaria a base de tomar muestras. En el caso planteado es claro que no se puede llevar a cabo una prueba
40
![Page 5: Politica optima de produccion y control: Un modelo Markoviano](https://reader031.vdocuments.mx/reader031/viewer/2022020406/57506f8f1a28ab0f07d0e7c2/html5/thumbnails/5.jpg)
~ 0,72 ( ~ 0,9
A en orden ., ~ en orden B en o r d e n ~ 0,18 ~ . _ _ B averiada
0,08 ,, 0,1
averiada ~ averiada B en orden 0,2 averiada
Fig. 2.1: Probabilidades de tr~nsito para los cuatro estados de la cadena de Markov en caso de no reemplazar ninguna m~tquina (producir).
E s t a d o en el d fa n
1 A y B e n orden
2 $61o A averiada
3 $61o B averiada
4 A y B averiadas
Es tado en el d fa n + 1
1 2 3 4 A y B S61o A S61o B A y B
en orden averiada averiada averiadas
0,72 0,08 0,18 0,02
0,0 0,8 0,0 0,2
0,0 0,0 0,9 0,1
0,0 0,0 0,0 1,0
Tabla 2.2: Probabilidades de tr~nsito paxa los cuatro estados de la cadena de Markov en caso de no reemplazar ninguna m~iquina (producir).
41
![Page 6: Politica optima de produccion y control: Un modelo Markoviano](https://reader031.vdocuments.mx/reader031/viewer/2022020406/57506f8f1a28ab0f07d0e7c2/html5/thumbnails/6.jpg)
Es tado en el d i a n
1 A y Ben orden
2 S61o A averiada
3 S61o B averiada
4 A y B averiadas.
E s t a d o en el d i a n + 1
1 2 3 4 A y B $61o A $61o B A y B
en orden averiada averiada averiadas
1,0 0,0 0,0 0,0
1,0 0,0 0,0 0,0
0,0 0,0 1,0 0,0
0,0 0,0 1,0 0,0
Tabla 2.3: Probabilidades de tr~nsito para los cuatro estados de la cadena de Markov en caso de reemplazar la mfiquina A (se interrumpe la producci6n)
de toda la producci6n, sobre todo si las botellas se inutilizan al pro- barlas (test destructivo). En general las pruebas implican costos que dependen del tamafio de la muestra. Po t eso se plantea tambi6n el
problema de optimar el plan de muestreo.
Supongamos que por razones prficticas son posibles s61o algunos tamafios de la muestra: probar 5, 20 6 100 botellas (costo: 4 $ botella).
Tambi6n cabe no tomar muestras. Se obtienen fficilmente las probabi- lidades condicionales para los distintos nfimeros posibles de botellas
defectuosas en la muestra, dada la calidad de la producci6n (porcentaje de "buenas" unidades en la producci6n del dfa, que corresponden
a los cuatro estados de las mfiquinas).
Por ejemplo, en caso de "s61o la mfiquina A averiada' , despu6s de pasar po t la mfiquina A son "buenas'" s61o 40 po t 100 de las unidades, y de 6stas un l0 por 100 resultarfin defectuosas en la elaboraci6n, de modo que ese dfa cabe esperar 36 por 100 de "buenas" unidades en la producci6n total.
Las probabilidades de los distintos resultados de las pruebas se calculan segfin una distribuci6n binomial. Asi en el caso de 36 por 100 de "buenas" unidades en la totalidad, la probabilidad de q u e e n una muestra de 5 botellas haya precisamente 2 defectuosas es:
5 ) ( 1 - 0 ,36) 2 0 ,36 s-2 = 0,191 ( 2
42
![Page 7: Politica optima de produccion y control: Un modelo Markoviano](https://reader031.vdocuments.mx/reader031/viewer/2022020406/57506f8f1a28ab0f07d0e7c2/html5/thumbnails/7.jpg)
Ejemplo: muestra de 5 botellas.
Calidad: % buenas unidades
90 % 36 % 72 % 28,8~o
Resultado del test: ngtmero de botellas defectuosas en la muestra
0 1 2 3 4 5
0,591 0,328 0 , 0 7 3 0,008 0,000 0,000 0,006 0,054 0 , 1 9 1 0,340 0,302 0,107 0,193 0 , 3 7 6 0 , 2 9 3 0 , 1 1 4 0 , 0 2 2 0,002 0,002 0 , 0 2 5 0 , 1 2 1 0 , 2 9 9 0 , 3 7 0 0,183
Tabla 2.4
Se obtiene asi para este proceso de fabricaci6n un Modelo de Decisi6n Markoviano con informaci6n incompleta, que tiene cuatro estados, siete acciones compuestas"
producir •
reemplazar mfiquina A reemplazar m~iquina B
reemplazar A y B
y las ganancias correspondientes:
no tomar muestra muestra de 5 botellas muestra de 20 botellas muestra de 100 botellas
I x no tomar muestra
ganancia = prec io de ven ta - gas tos de p r o d u c c i 6 n - gas tos de m u e s t r e o
Se busca la politica que haga mhxima la ganancia total con un descuento de 1~/0o al dia.
En la Figura 2.2 se representa la marcha del sistema.
Para resolver el tipo de problemas que ilustra este ejemplo, vamos a construir un modelo general y describir un algoritmo que determine la politica 6ptima.
3. Modelos markovianos.
Es frecuente la aplicaci6n prfictica de modelos markovianos, sobre
43
![Page 8: Politica optima de produccion y control: Un modelo Markoviano](https://reader031.vdocuments.mx/reader031/viewer/2022020406/57506f8f1a28ab0f07d0e7c2/html5/thumbnails/8.jpg)
\ j "
. . . . . " Ti I ipo "" "" \ ~ e " : / t ie muestra \
/ / Tipo d e ' ~
las mfiquinas . . . . ,,- -voiuci6t A B u s
\ \,
Fig. 2.2
t odo a par t i r del t rabajo de Howard [5], y en parte ya estfi descri ta
en la bibliograffa (r id. p o t e jemplo Howard [6]). La par t icular idad
de la informaci6n incomple t a radica en que no se puede de t e rmina r
d i r ec tamente y sin er ror el estado del sistema, sino a t ray ,s de medi-
ciones inexactas. De estas mediciones se conoce s61o la probabi l idad
de ob tene r un de t e rminado resultado, condic ionada al es tado real del
sistema. El carficter markov iano se basa en el supuesto de que con los
da los sobre el es tado actual del sistema se puede preyer la evoluci6n
li l lura, sin necesidad de datos sobre los estados anteriores al actual.
l~slo significa que se puede olvidar la historia previa del sistema, con 1o
que se simplifican los cfilculos y se ahorra espacio en la inemoria.
44
![Page 9: Politica optima de produccion y control: Un modelo Markoviano](https://reader031.vdocuments.mx/reader031/viewer/2022020406/57506f8f1a28ab0f07d0e7c2/html5/thumbnails/9.jpg)
La hip6tesis de que el proceso tiene carficter markoviano, se puede
aceptar en muchos procesos industriales (por ejemplo, en el de pro-
ducci6n de un articulo en serie) en los que la situaci6n actual y las
decisiones que se toman hoy determinan la marcha del proceso, de
modo que se pueda manejar como dependiente s61o del estado actual.
Para elaborar un modelo general de un proceso de fabricaci6n en
serie como el que nos ocupa, adoptaremos las hip6tesis y la notacibn
siguiente:
- L a calidad de la producci6n se considera constante durante un
periodo, y puede tomar s61o un n0mero finito de niveles. Estos niveles
de calidad constituyen el espacio de estados Z = I z l de un proceso estocfistico con tiempo discreto.
- H a y un conjunto finito de mdtodos de producci6n E = l el, Y para cada uno la probabilidad de trfinsito entre dos calidades cuales-
e quiera z' z", en periodos sucesivos, viene dada porpz,z,,. Estos nOmeros
e Pz'z" dan la probabilidad de que al comienzo del periodo n + 1 la calidad (estado) sea z" ~ Z si en el periodo n era z' ~ Z y durante ese periodo
se ha producido con el m6todo e ~ E .
e - L a s probabilidades de tr~nsito Pz'z" son independientes del tiempo
(el proceso estoc~stico es homog6neo respecto al t iempo) y forman
la ley de movimiento P = l Pz'z"e I "
- L a s distintas calidades (estados) no se pueden identificar directa-
mente, sino s61o a trav6s de un mdtodo de observaci6n perteneciente
a u n conjunto finito B = l b l - diversos procedimientos de muestreo
de la producci6n o revisiones de la instalaci6n, etc. Para cada m6todo
de observaci6n b hay un conjunto finito de posibles resultados de la medici6n M b = lmbl y una ley de medida qb ( ' l ') .
Las cantidades qb (mblz) dan la probabilidad de que, en un periodo
cualquiera, siendo el estado z ~ Z al observar con el m~todo b se obtenga el resultado mb. Las leyes de medida no dependen del tiempo.
- L o s gastos y ganancias relacionados con el proceso dependen de
la calidad producida y de los m6todos de producci6n y observaci6n. La ganancia por periodo se representa con r (z, e, b), siendo z ~ Z el
45
![Page 10: Politica optima de produccion y control: Un modelo Markoviano](https://reader031.vdocuments.mx/reader031/viewer/2022020406/57506f8f1a28ab0f07d0e7c2/html5/thumbnails/10.jpg)
estado y e EE, b EB los m6todos de producci6n y observaci6n en
el pe riodo.
La funci6n ganancia es independiente del tiempo. Sin embargo, las ganancias que se hacen despu6s del momento inicial se ponderan
con un factor de descuento/3 (0 </3 < 1), de modo que el valor actual
de una unidad monetaria a recibir dentro de n periodos es/3n.
- L a funci6n objetivo a optimar (maximar) es la esperanza mate-
m:itica de la ganancia total descontada a partir del momento inicial
y con horizonte ilimitado:
E[~=o /3n r(zn,en,bn)l
4. Reducci6n a informaci6n completa.
Cuando se admite un solo m6todo de observaci6n se obtiene un
Modelo de Decisi6n Markoviano con informaci6n incompleta (designa-
do en adelante MDM-II) en el sentido de AstriSm [1] o Sawaragi [8],
que han estudiado una transformaci6n del mismo a informaci6n com-
pleta. Este modelo posee entonces una pol/tica 6ptima homog6nea
(o sea, independiente del tiempo).
Supongamos que el MDM-II viene determinado por los siguientes
parhmetros:
IS, M, A, P, Q, ~o0, r,/31
donde:
S = espacio de estados M = conjunto de los posibles resultados de la medici6n
A = conjunto de las acciones (o decisiones)
P = ley de movimiento
Q = ley de medidas
r informaci6n inicial
r = funci6n ganancia /3 = factor de descuento
Dado que consideramos modelos que deben ser aptos para las
46
![Page 11: Politica optima de produccion y control: Un modelo Markoviano](https://reader031.vdocuments.mx/reader031/viewer/2022020406/57506f8f1a28ab0f07d0e7c2/html5/thumbnails/11.jpg)
aplicaciones, se pueden especificar estos parfimetros del m o d o siguiente:
S, M, A son conjuntos f ini tos con la topologia discreta:
S = I s l , . . . . . , Sh 1: h elementos
M = l m l , . . . . . ,mk I: k e lementos
A = I a l , . . . . . , ad I: d elementos
Se admite k <> h.
P es una familia compues ta de d matrices del t ipo h x h :
a = probabilidad del trfinsito s i - - -*s j con la acci6n a Pq
Se cumple h E= a = 1 V a E A A V i E J l h I
j i p q , " ' ,
a pij >~ O Vi, j, a
Q es una matr iz estoc~stica del t ipo h x k :
qil = probabil idad de obtener el resultado m! al hacer la medi- ci6n, si el es tado es si
qil es una probabil idad de trfinsito de S a M, y asi:
k
E qil = 1 V i E I I , . . . , h I 1=1
qit >~ 0 Vi, l
~Oo es una medida de probabil idad en S:
~Oo = (~Oo( 1 ), ~Oo(2) . . . . , ~ooth))
h
~Po(i)>~ 0 V i E I 1 , . . . , h I ^ z 9 o ( i ) = 1 i=l
r (s, a) se representa con una matr iz del t ipo h x d , fo rmada por nflmeros reales finitos.
0 < ~ < 1
47
![Page 12: Politica optima de produccion y control: Un modelo Markoviano](https://reader031.vdocuments.mx/reader031/viewer/2022020406/57506f8f1a28ab0f07d0e7c2/html5/thumbnails/12.jpg)
El modelo derivado con informaci6n completa (en adelante desig-
nado MDM-I') serfi
[cb, M, A, P, ~o, r ~~ 3]
En lugar de adoptar en el momento n las decisiones en base a los cla-
tos Hn = I (~oo, ao, m l , al . . . . , mn) I (historia observada de1 sistema), se transforman primero estos datos. As/ l lamamos pol/tica de informaci6n
(l-politica) a una regla de escoger acciones en base a l a s acciones
previas y a las medidas de probabilidad en el espacio de estados, que
se construyen con ayuda de la historia observada del sistema.
Para una historia dada h, ~ H n , en el momento n sea ~0 n ( ' lhn) una medida de probabilidad (condicional) en S. Con ayuda de las
leyes de movimiento y de medida se puede calcular la nueva medida
de probabilidad en S e n el instante n + 1, para una cierta acci6n an y cierto resultado de medici6n mn§ (o para subconjuntos de A y M);
por la regla de Bayes h all
qimn+~ / ~ Pii ~On ( / Ihn )
(4.1) ~~ ( i l h n ' a n ' m n + l ) = h h an , i E S
Z qtmn+l ~= P/I ~~ ) l=1 ]" 1
(Cuando el denominador se anula, significa que la historia hn+l = = (hn ,an ,mn+l ) tiene probabilidad nula: el resultado mn+l no se
puede obtener; en este caso se pueden asignar a ~on+l('lhn+ ~) valores
arbitrarios).
As/ se pueden calcular sucesivamente medidas de probabilidad en
el espacio de estados y utilizarlas como datos para la aplicaci6n de
una l-pol/tica.
Ahora podemos introducir el modelo derivado MDM-I': �9 es el
espacio de las medidas de probabilidad en S; M, A se definen como
en MDM-II. La ley de movimiento P se deriva de P: para an Y ~on dados
depende S0n+j s61o de mn+l (vid. (4.1)), y la probabilidad de obtener
ese resuitado de medici6n es el denominador en (4.1). Se cumple:
_ an h h an : ~" qlmn+l /~=l Pjl ~On ( j ) Pv:n ~n+llmn+l 1=1
48
![Page 13: Politica optima de produccion y control: Un modelo Markoviano](https://reader031.vdocuments.mx/reader031/viewer/2022020406/57506f8f1a28ab0f07d0e7c2/html5/thumbnails/13.jpg)
r es el estado inicial en el MDM-I'. La funci6n ganancia r ~ se deriva f~icilmente:
h
r ~(~on,a n ) = Z r( i , an)~On ( i ) i = 1
5. Discretizacibn.
cb tiene la potencia del cont inuo. Lo discretizamos de modo que s61o se maneje un peque~o nOmero de elementos de 4~. Esto implica una transformacibn del problema. Hasta ahora la ecuaci6n optimal era
(5.1) V (~o)= aEAsup {r ~ (~o,a)+ 3 ,Z p ~ , V(~o')}
donde ~ = ( ~ ( 1 ) , ~ ( 2 ) , . . . , ~o ~h)) E q ~ .
cI'={ so Iso (i) ~> 0, i = l , . . . , h , 2; r 1 i=l
Consideremos un subconjunto ~ * c q~, cuyos elementos son los v6rtices de un reticulo en ep:
f 1 h 1 qb*= r 1 6 2 n i E N ' i = 1 . . . h, ~_, n i = n o /~/0 ~ ' ~ i = 1
(admit iendo que 0 G N y siendo no>~2, noEN, un nOmero natural arbitrario, que permanece fijo).
La ecuaci6n optimal para un elemento de ~* resulta:
V (~o) = sup r ~ (~0, a) +/3 p ~ , a E A ~'
Dado ~ E ~* existe en general r dp tal que
-a ~r ~ , p ~ , > 0^ q
Sin embargo, cada e lemento r dp se puede representar unfvocamente como combinaci6n convexa de h elementos de ~* (los v6rtices del poliedro que contiene a r
49
![Page 14: Politica optima de produccion y control: Un modelo Markoviano](https://reader031.vdocuments.mx/reader031/viewer/2022020406/57506f8f1a28ab0f07d0e7c2/html5/thumbnails/14.jpg)
h h t * * * ~o'= .x x/( ,p )r 9 . ~ . ~ , ) s ,:],, ;~. (~,')~> o , i = 1 . . . . ,h ,, ~: x j (~o') = 1
l=n j=x
La ecuaci6n anterior se transforma en
V(~p)= sup {r~(~o,a) + fl ,ZE, ~ , V ( . ~ ~ki (~o').~p;(~,)) } a E A ~ 1 =1
* #
donde ~0/.( , ) son los elementos "vecinos" a ~o.
Puesto que V (~o) es una funci6n convexa en cI, (rid. Astrbm [21), se cumple
h , * ~ < ~ , V(~')= V ~: Xj(~).~j(,) X/(~'). V(~(~,))
1=1 1=1
de modo que para las soluciones de la ecuaci6n
(5.2) / h . }
V(~o) =aEASUp r~ (~o, a) + ~ ~'Z~o p~,-a ]=1~ hi (~O') P (~o/(,))
en general, con ~0 ~ ~*"
v (~) =/= v (~)
La ecuaci6n optimal (5.2) corresponde a un problema de optima- ci6n con espacio de estados finito, hor izonte ilimitado y descuento (precisamente el caso de Howard [5]), que se puede resolver fiicilmente con varios algoritmos conocidos. Las soluciones const i tuyen una apro- ximaci6n de las del problema inicial.
Cuando ~0 ~ ~* se puede igualmente representar como combinaci6n convexa de h elementos de ~* :
h ~0 : • h i (~0) * ~ - * E cI~*, h i (~0)/> O, i = 1, h ^ i=1 ~~ ~~162 . . . .
h hi (~o)= 1
i=l
Se pueden incluir en la combinaci6n tambi6n los restantes elementos de ~*, con coeficientes iguales a cero; asf ~o resulta una combinaci6n de todos los elementos de ~*:
50
![Page 15: Politica optima de produccion y control: Un modelo Markoviano](https://reader031.vdocuments.mx/reader031/viewer/2022020406/57506f8f1a28ab0f07d0e7c2/html5/thumbnails/15.jpg)
I 1
Esta expresi6n se sustituye a la derecha en la ecuaci6n (5.2). Por otro 1ado, las probabilidades de tr~nsito se pueden expresar como combinaci6n lineal de probabilidades de trdnsito entre elementos de r y sus imhgenes, ya que se cumple:
--a = ~., I~i ~ai ma
( ~ lai ~Pi)' = ~ lai P~o i ~o}
En definitiva se. obtiene una ecuaci6n
^ (5.3) V (~) = sup Pi (~o). r ~ (~o~., a) + [3 ~, T., Pi (~0)"
a E A " mr1 i
* - a ~;~la - - tp; . , , , X i ( ), V( ) son independientes de ~o donde r ~ (~oi, a), P~i ~~
y se deben calcular una sola vez y almacenar. Se puede demostrar (rid. Benito [3]) que
V (~)= V_(~I=I ~j (~)" ~;(~p))~l~l'= ~'] (tp). V (~;Op)) --
1 (1 1__~ max ( U s - Ds) no h s~S
donde Us (respect. Ds) es el valor del estado s ~ S en el primiti- vo MDM-II al maximizar (respect. minimizar) la ganancia, suponiendo que hay informaci6n completa.
A partir de esta relaci6n se obtiene una cota superior del error:
(5.4) A
0 <~ v (~) - v (~) <.~ 1 ( h - l )
max (Us--DD 2 + h (1--/~) no s E S
, 0 n o ---~ ~
51
![Page 16: Politica optima de produccion y control: Un modelo Markoviano](https://reader031.vdocuments.mx/reader031/viewer/2022020406/57506f8f1a28ab0f07d0e7c2/html5/thumbnails/16.jpg)
6. Caso con varios m6todos de observaci6n.
Esta generalizaci6n es de gran inter6s en las aplicaciones. Se admiten
un n6mero limitado de m6todos de observaci6n y las correspondientes
leyes de medida.
Se puede no s61o elegir una acci6n para influir en la evoluci6n
del sistema, sino que se puede decidir tambi6n sobre el modo de
observar el estado del sistema. La multiplicidad de m6todos de obser-
vaci6n no es un supuesto artificioso: se puede por ejemplo elegir entre
observar el estado del sistema y no observar (y cuando hay costos
de observaci6n el no observar puede ser una decisi6n razonable); por otra parte, el no observar corresponde a una ley de medida degenerada,
con un solo resultado de la medici6n (o con varios posibles, pero
independientes del estado del sistema).
Para reducir este problema al caso anterior, se puede manejar
(siguiendo la notaci6n del p~irrafo 3) E x B como espacio de acciones,
de modo que cada pareja (m6todo de producci6n y de observaci6n)
se considera como una flnica acci6n mixta.
Puesto que E y B son conjuntos finitos, 1o es tambi6n E xB.
Es posible que algunas parejas no sean compatibles (por motivos
pr~icticos), y entonces se considera s61o el subconjunto de los pares
compatibles.
El m6todo de observaci6n no influye en la evoluci6n real del
sistema, pero si en la informaci6n que se tiene sobre su estado actual;
y esa informaci6n es importante, pues las decisiones se toman en base
a ella.
Por eso puede compensar el utilizar un m6todo de observaci6n m~is exacto, aunque esto implique mayores costes, para obtener una mejor
informaci6n y poder adoptar la decisi6n que es correcta para el estado real del sistema. El influjo de ambos elementos (e, b) ~ E x B se refleja
en la ley de movimiento del MDM-I', donde se contienen tanto la ley de movimiento como la ley de medida del MDM-II.
Con este nuevo espacio de acciones E x B se puede, siguiendo
52
![Page 17: Politica optima de produccion y control: Un modelo Markoviano](https://reader031.vdocuments.mx/reader031/viewer/2022020406/57506f8f1a28ab0f07d0e7c2/html5/thumbnails/17.jpg)
la linea de los pfirrafos 4 y 5, construir algoritmos para determinar una politica suboptimal homog6nea.
6.1. Algoritmo.
Se trata de llevar a cabo tres etapas sucesivas (vid. Diagrama I):
a) Transformaci6n del MDM-II en MDM-I' y discretizaci6n de 6ste (el modelo discreto resultante lo designaremos MDM-I* ).
b) Optimaci6n en el MDM-I*. c) Aplicaci6n de la politica al primitivo MDM-II.
Describimos a continuaci6n, brevemente, la soluci6n de estos tres problemas parciales.
Transformaci6n y discretizaci6n:
De acuerdo con la notaci6n del pfirrafo 5, se elige no (nfimero de partes en que se divide el intervalo unidad) y se construye el retfculo ~* en un hiperplano del espacio euclfdeo de dimensi6n h (subrutina GENFI). Se obtienen asf los "estados" del nuevo MDM-I*. A conti- nuaci6n se fija la estructura de este modelo, comenzando por el aspecto dinfimico (carficter markoviano): la ley de movimiento para cada acci6n mixta ( ~ a . . , ) (subrutina MARFI). Esta subrutina pro-
~~ i ~~ a porciona tambi6n los coeficientes ),] [~Oim a " *' J ~ que se precisan en la etapa
c). La estructura de costos y ganancias en el MDM-I* se basa en la ganancia inmediata para cada elemento de ~* con cada acci6n mixta (subrutina REW1). Cuando en el primitivo MDM-I| los costos de producci6n y observaci6n vienen dados por separado, hay que calcular primero la ganancia inmediata en este modelo para cada acci6n mixta (subrutina WERTIM).
Asi queda definido el MDM-I* y se puede determinar su politica 6ptima (homog6nea y determinista), que corresponde a una politica suboptimal del primitivo MDM-II.
Optimaci6n en el MDM-I*:
El MDM-I* resultante de la discretizaci6n se puede resolver con
53
![Page 18: Politica optima de produccion y control: Un modelo Markoviano](https://reader031.vdocuments.mx/reader031/viewer/2022020406/57506f8f1a28ab0f07d0e7c2/html5/thumbnails/18.jpg)
. a - -aI / o.,0, / W.R+,. I f I ' " -'I c ~ . ~ o d o l . ~ . . i . I
_.tm_c'el _MD_M- 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . _j . . . . . . . " . . . . . . . . .
1 MARF! I REW 1
Consmsu:i6n de hut probal~- [ . lidadea de m~dto ms $ r I I I ~ o de lu ganandas
= = o : ........... ~ .......................... I .................. MDM-I* H O W [ /
I [ Opfima~6a con un a]g~rflmo ~ _ [ J [ P O L I N 1 I [ de Howard mod~ic~ffi4o [~ I l Cilculodelapollticainicial
: f ~ : . . . . - F Aplicaci6n de
~ - - - , / . o - - . ~ / I , ~ l DIAGF[ l= lapolitica
}
Pefi~'~ I S T E M A / ' - - " - ' I -~ / resnl / l ;-" Actualizad6n de la inf . . . . pF'.n~n~] tado de medic. I nuevo esU,do de infonnac/6n
I
+ ' I / ;remltado de medic~ /
Comienzo del periodo n
I-
Fin de~ periodo n
l ~ $[STEMA / / geaultado de mec~c. /
Comie~o del periodo n+l SISTEMA REAL
+ I TREA
ActuaSzac~n de la informac.
nuevo est~do de informaci6n
DIAGFI
ac~/6n a �9
i TREA _ ] ~ 6 n de la lnformac.
"~ nuevo r de infcf maci6n
ORDENADOR
politica 6ptiraa I~. valore~ relatives
datos almacenados
5 4
![Page 19: Politica optima de produccion y control: Un modelo Markoviano](https://reader031.vdocuments.mx/reader031/viewer/2022020406/57506f8f1a28ab0f07d0e7c2/html5/thumbnails/19.jpg)
distintos algoritmos. Se ha empleado una variante del algoritmo de Howard en que aparecen explicitamente las dos componentes de cada acci6n mixta (subrutina HOW). Es un m6todo de iteraci6n en el espacio de las politicas. Para determinar una polftica inicial admisible se elige la de mdxima ganancia inmediata (subrutina POLINI). Al final de esta fase se obtiene la politica 6ptima del MDM-I*, que asigna a cada elemento de ~* una acci6n mixta y un valor relativo.
Aplicaci6n de la politica:
La soluci6n del MDM-I* hay que extenderla al MDM-I', es decir, a partir de la regla de elegir acciones para los elementos de ~* hay que encontrar una para los elementos de �9 ~ ~*. Siguiendo el razona- miento del pdrrafo 5, se representa cada elemento ~0 ~ �9 como una combinaci6n convexa de h elementos de ~*: primero hay que deter- minar los h elementos de cb* correspondientes al ~o dado (subrutina HECK) y despu6s se calculan los coeficientes de la combinaci6n convexa (subrutina DISKRT). Esto tiene particular inter6s para aquellos elementos de �9 que pueden ser imagen de un elemento de ~* (con la
. * E notaci6n del p~irrafo 5: l~O~.mala=(e,b)~ExB, m~Mb,~oi ~b*t).
Con la ayuda de esa representaci6n de cada elemento como una combinaci6n convexa, se optimiza segfm ecuaci6n (5.3) (subrutina DIAGFI) donde los valores de h i ( *' ) ~Oim a y de V (~07) proceden de las subrutinas MARFI y HOW.
Asf se obtiene una politica suboptimal del MDM-I'. El MDM-I' equivale al MDM-II, pero para aplicar en el primitivo MDM-II la regla de decisi6n del MDM-I' se precisa transformar los datos observados. Se emplea para esto una subrutina que dados (~o, e, b, rob): ~o ~ r e ~ E, b ~ B, m b E M b (vid. notaci6n del pdrrafo 3) obtiene el elemento imagen ~o'~ r (subrutina TREA). Utilizando reiteradamente las sub- rutinas TREA y DIAGFI se determina en cada periodo una acci6n mixta para el MDM-II.
6.2. Estimaci6n de la eficiencia de una pol#ica.
La politica suboptimal obtenida tiende a hacer mdxima la ganancia total con descuento en horizonte ilimitado. De acuerdo con el Turnpike-
55
![Page 20: Politica optima de produccion y control: Un modelo Markoviano](https://reader031.vdocuments.mx/reader031/viewer/2022020406/57506f8f1a28ab0f07d0e7c2/html5/thumbnails/20.jpg)
D i a g r a m a 11
J I M 2
Informaci6n inicial
Factor de descuento BETA
N 1: Horizonte
N2: Nfimero iteraciones
l VAR = 0. NSIM2 ----- 1
l-
/
S I M 1 I
TRiM = 0, |
I FAKTOR = 1. NSIMI = 1
D I A G F I
accibn a elegir
ganancia in meaiata: RIM i
I TRIM = TRIM -4- FAKTOR * RIM FAKTOR= FAKTOR * BETA
NSIMI = NSIMI ~- 1
TRLg = TREg r + TRIM [
VAR VAR -~ TRIM * TRIM
NSIM2 NSIM2 * 1 J
T R E A (lOP �9 O)
Simulaci6n de an txinsito Simdacidn de un= observacidn Actualizaci6n de la informaci6n
nuevo estado de informaci6n
VAR ~ ( V A R - T R E ~ * T R E C , ' / N 2 ) / ( N 2 - - 1~
TREW ~-- TREW/N2
1
56
![Page 21: Politica optima de produccion y control: Un modelo Markoviano](https://reader031.vdocuments.mx/reader031/viewer/2022020406/57506f8f1a28ab0f07d0e7c2/html5/thumbnails/21.jpg)
teorema (vid. Shapiro [9]), esta politica es tambi6n adecuada para
horizonte finito, cuando quedan todavia por recorrer un n0mero suficiente de periodos.
Se puede utilizar un criterio heuristico, interesante en la pr~ctica,
para determinar la eficiencia de la politica: la ganancia total a esperar
cuando se aplica esta politica durante un n0mero determinado de
periodos.
Esta aplicaci6n de una politica se puede simular (rid. Diagrama I1)
de modo que con el valor medio (TREW) y la varianza (VAR) de la
ganancia total descontada durante N1 periodos, se puede por ejemplo
construir un intervalo de confianza con la seguridad que se desee.
El algoritmo SIM2 es aplicable a cualquier politica del MDM-I*
y proporciona valores criticos que permiten estimar y comparar la
eficiencia de estas politicas para el MDM-II.
7. Aplicacibn.
Apliquemos el algoritmo descrito al ejemplo del p~irmfo 2. Las pro-
babilidades de tninsito en caso de reemplazar la m~iquina B o ambas
mfiquinas aparecen en las Tablas 7.1 y 7.2.
Es tado en el d fa n
1 A y Ben orden
2 $61o A averiada
3 S61o B averiada
4 A y B averiadas
Es tado en el d ia n + 1
1 2 3 4 A y B $61o A $61o B A y B
en orden averiada averiada averiadas
1,0 0,0 0,0 0,0
0,0 1,0 0,0 0,0
1,0 0,0 0,0 0,0
0,0 1,0 0,0 0,0
Tabla 7.1: Probabilidades de tr~.nsito para los cuatro estados de la cadena de Markov en caso de reemplazar la m~quina B (se interrumpe la producci6n).
57
![Page 22: Politica optima de produccion y control: Un modelo Markoviano](https://reader031.vdocuments.mx/reader031/viewer/2022020406/57506f8f1a28ab0f07d0e7c2/html5/thumbnails/22.jpg)
Estado en el dfa n
1 A y B e n orden
2 $61o A averiada
3 $61o B averiada
4 A y B averiadas
1 A y B
en orden
Estado en el dfa n + 1
2 3 4
$61o A $61o B A y B averiada averiada averiadas
1,0 0,0 0,0 0,0
1,0 0,0 0,0 0,0
1,0 0,0 0,0 0,0
1,0 0,0 0,0 0,0
Tabla 7.2: Probabilidades de trfinsito para los cuatro estados de la cadena de Markov en caso de reemplazar ambas m~quinas (se interrumpe la producci6n).
Para simplificar, agrupemos los resul tados del mues t r eo de mo-
do que en la mues t ra de cinco botel las s61o vamos a dist inguir
dos casos: hasta dos unidades defec tuosas y m~is de dos unidades
defectuosas . Amilogamente , en la mues t ra de tamafio 20 utiliza-
remos los siguientes intervalos para el nf imero de botellas defec-
tuosas: [0 ,6 ] , [7, 13], [ 1 4 , 2 0 ] y en la mues t ra de tamafio 100: [0, 19], [20, 39], [40, 59], [60, 79], [80, 100]. Se ob t i enen asf las
siguientes leyes de medida:
Muestra de 5 botellas: probabilidad de los resultados.
Calidad:
buenas unidades
90 %
36 %
72 %
28,8~o
M~todo de observaciOn: b = 2
Resultado del muestreo: intervalos para el
ngtmero de unidades defectuosas en la muestra
[0, 2] [3, 5]
0,991 0,009
0,251 0,749
0,862 0,138
0,148 0,852
Tabla 7.3
58
![Page 23: Politica optima de produccion y control: Un modelo Markoviano](https://reader031.vdocuments.mx/reader031/viewer/2022020406/57506f8f1a28ab0f07d0e7c2/html5/thumbnails/23.jpg)
Muestra de 20 botellas: probabilidad de los resultados.
Calidad: buenas unidades
90 %
36 % 72 %
28,8%
Mdtodo de observaciOn: b = 3
Resultado del muestreo: #ttervalos para el
n(tmero de unidades defectuosas en la muestra
[0, 61 [7, 131 ll4, 201
0,99761 0,00239 0,00000
0,00208 0,61761 0,38031
0,68311 0,31677 0,00012
0,00016 0,34633 0,65351
Tabla 7.4
Muestra de 100 botellas: probabilidad de los resultados.
Calidad: buenas unidades
90 %
36 % 72 % 28,8%
[0, 19] [20, 39] [40, 59] [60, 79]
Mdtodo de observaciOn: b = 4
Resultado del muestreo: intervalos para el
n~mero de unidades defectuosas en la muestra
180, 1001
0,99802 0,00198 0,00000 0,00000 0,00000
0,00000 0,00000 0,17394 0,82567 0,00039
0,02589 0,96771 0,00640 0,00000 0,00000
0,00000 0,00000 0,00597 0,96382 0,03021
Tabla 7.5
En este problema no se da nunca una informaci6n completa: incluso en el primer dfa de producci6n tras haber reemplazado ambas m~iquinas pueden darse aver/as, de modo que el estado del modelo resulta desconocido.
La polftica 6ptima que resulta (calculada con un indice de dis- cretizaci6n no = 2) aparece en la Tabla 7.6. Se ve que nunca compensa reemplazar s61o la mfiquina B.
59
![Page 24: Politica optima de produccion y control: Un modelo Markoviano](https://reader031.vdocuments.mx/reader031/viewer/2022020406/57506f8f1a28ab0f07d0e7c2/html5/thumbnails/24.jpg)
I'olftica 6ptima:
"estado" Mdtodo de Tamaao de Valor (distribuci/m) producciOn la muestra relativo
I
2
3
4
5
6
7
8
9
10
producir
producir
reemplazar A
producir
producir
producir
producir
reemplazar A
producir
reemplazar A+B
5
20
0
20
100
20
20
0
100
0
4410284,52
4401643,29
4395874,24
4407345,55
4398484,38
4404691,39
4400384,87
4392938,20
4397417,91
4392874,24
Tabla 7.6 (n o = 2)
De los 10 " e s t a d o s " (dis t r ibuciones) del MDM-I*, co r responden
4 a los 4 estados del pr imit ivo MDM-II:
" e s t a d o " (distr.) 1 = 90 % buenas unidades = A y B en orden
" e s t a d o " (distr.) 3 = 36 % buenas unidades = s61o A averiada
" e s t a d o " (distr.) 6 = 72 % buenas unidades = s61o B averiada
" e s t a d o " (distr.) 10 = 28,8% buenas unidades = A y B averiadas
La pol/ t ica ob ten ida da buenos resui tados tambi6n en ho r i zon t e
i imitado. En las Tablas 7.7 y 7.8 se pueden compara r las ganancias
a esperar duran te 10 dias para esta pol / t ica y para una polf t ica con
mues t r eo de tamafio fijo: p robar 5 botel las y
- s i hay c o m o mfiximo 2 defectuosas , con t inua r p ro d u c i en d o
- s i hay mils de 2 defectuosas , r eemplazar a l te rna t ivamente las
mfiquinas A y B.
60
![Page 25: Politica optima de produccion y control: Un modelo Markoviano](https://reader031.vdocuments.mx/reader031/viewer/2022020406/57506f8f1a28ab0f07d0e7c2/html5/thumbnails/25.jpg)
Valoraci6n de una polftica por simulaci6n.
Politica 6ptima obtenida
Ganancia a esperar Desriaci(m Estado inicial
durante 10 dias ($) estandant
A y B en orden
$61o A averiada
$61o B averiada
A y B averiadas
46738
34608
41953
33176
13020
10476
11616
11678
Tabla 7.7 (n o = 2, NI = 10, N2= 25)
Valoraci6n de una polftica pot simulaci6n.
Pol{tica: tomar una muestra de 5 botellas .v -si hay como mdximo 2 del'ectuosas: produc#" -s i hay mds de 2 defectuosas: reemplazar alternativamente A y B
Ganancia a esperar Desviaci6n Estado inicial
durante 10 dfas ($) estandard
A y B e n orden . . . . .
$61o A averiada . . . . .
$61o B averiada . . . . .
A y B averiadas . . . . .
46634
28490
36645
25466
14128
12031
16669
9780
Tabla 7.8 (no= 2, NI = 10, N2= 25)
BIBLIOGRAFIA.
[1] AstriSm, K.J . : Optimal control o f Markov processes with hwomph'te state information, J. Math. Ann. Appl. 10, 174-205 (1965).
[2] Astr6m, K . J . : Optimal control o f Markov processes with incomplete state information 11: The convexity o f the loss function, J. Math. Ann. Appl. 26, 403-406 (1969).
61
![Page 26: Politica optima de produccion y control: Un modelo Markoviano](https://reader031.vdocuments.mx/reader031/viewer/2022020406/57506f8f1a28ab0f07d0e7c2/html5/thumbnails/26.jpg)
13] Benito, F.: Ein Modell der Qualitiitskontrolle in der Serienproduktion bei kostspieligcn Tests, Diss. ETH Ziirich (1975).
14] ('ano Sevilla, I:. J.: Programacibn secuencial en concurrencia, horizonte finito en etapas sin .factor descuento, Trab. Estad. Inv. Oper. 20, 35-46 (1969).
[5] Howard, R.A.: Dynamic programmhzg and Markov processes, Wiley, New York (1960).
16] Howard, R.A.: Dynamic probabilistic systems, 1: Markov models, 11: semimarkov and decision processes, Wiley, New York (1971).
[7] Rfos Garcfa, S.: Procesos dindmicos de decision en concurrencia, Memorias Real Acad. Cienc. Exact. Fis. Nat., Serie Cienc. Exact. VII, 1 (1967).
[8] Sawaragi, Y. and Yoshikawa, T.: Discrete-time markovian decision processes with incomplete state observation, Ann. Math. Stat. 41, 78-86 (1970).
[9] Shapiro, J. F.: Turnpike planning horizonts for a markovian decision model, Manag. Sci., 14, 292-300 (1968).
62