Download - Politica optima de produccion y control: Un modelo Markoviano

TRABAJOS DE ESTADISTICA Y DE INVESTIGACION OPERATIVA Vol. XXVII I , Cuad. 1, Madrid, 1977

POLITICA OPTIMA DE PRODUCCION Y CONTROL:

UN MODELO MARKOVIANO

Francisco Benito

Institut fiir Operations Research Eidgenfssische Technische Hochschule Ziirich

Resumen.

En la producci6n en serie se dan perturbaciones que conducen

a defectos en el producto fabricado, y que, por tanto, se acusan en

el control de calidad. En muchos casos las mediciones hechas para

determinar la calidad no son exactas sino sujetas a errores. Las deci-

siones 6ptimas sobre la polftica a seguir en la producci6n (eliminaci6n

de las perturbaciones) y e n los tests de calidad son en estos casos mils

dif/ciles de determinar que si no se diese la inseguridad debida a las

mediciones inexactas de la calidad.

Para este problema se puede utilizar como modelo matemfitico

una cadena controlada de Markov con finitos estados e informaci6n

incompleta. El modelo se puede transformar en un proceso auxiliar

de Markov con informaci6n completa, pero con espacio de estados

no numerable. Para hacer posibles los cfilculos num6ricos se discretiza

el espacio de estados del proceso auxiliar.

El procedimiento permite comparar diversos m6todos de control

de calidad, y opt imar simultfineamente las pol/ticas de producci6n

y de control. El modelo discreto sirve tambi6n como modelo de

simulaci6n para valorar cualquier polilica.

37

Abstract.

Technical troubles in mass production often lead to defective

items of the parts produced, which may be detected in quality control.

Sometimes the quality measurements are inaccurate and unreliable;

in this case optimal decisions on production policy (elimination of the

technical difficulties) and on quality control (test policy) are more

difficult to find than in the case of exact measurements.

A suitable mathematical model for this problem is a Markoy-process

with a finite number of states and with incomplete information. This

model can be transformed into a Markov-process with complete

information but continuous state space. For numerical computations

a discrete approximation of this auxiliary process is given.

The procedure can be used for comparison of several test methods

and for simultaneous optimization of the production and test policies.

Simulations with the approximation model are also possible.

1. Introduccibn.

En la producci6n en serie se suele admitir que la calidad del lore

producido en un periodo depende del estado de la maquinaria que

elabora el producto, y que ese estado puede variar de un periodo

a otro debido a perturbaciones aleatorias. Si se considera un espectro

discreto de posibles estados de la instalaci6n y de calidades de los

lotes producidos, se pueden representar esas variaciones por medio

de una cadena de Markov.

Los tests de calidad de l producto son en muchos casos inexactos

y aleatorios, de modo que la calidad actual en cada periodo no se

puede determinar con una certeza del 100 por 100. Esta inseguridad

no se refleja en los modelos usuales, y esto implica, a menudo, una

inadmisible simplificaci6n de la realidad. En caso de varios m6todos

posibles de control de calidad, se plantea asimismo la pregunta: cu~l

se debe emplear en cada periodo, para conseguir un compromiso

6ptimo entre el costo del test y el valor de la informaci6n que

proporciona. Tenemos dos decisiones por periodo, en cierto modo

38

en concurrencia, aunque el problema no corresponde al estudiado por Rfos [7] o Cano [4]. Precisemos con un ejemplo.

2. Produccibn masiva.

En una planta industrial se fabrican diariamente 10.000 botellas

de plfistico de un determinado modelo. Cada botella se trabaja sucesivamente en dos mfiquinas A y B. La m~quina A tiene una probabilidad de averfa constante: O,1 averfas/dfa. En caso de averfa, et 60

pot 100 de los ejemplares fabricados son defectuosos. Para la mfiquina B estos panimetros son, respectivamente, 0,2 averfas/d/a y 20 por 100 de ejemplares defectuosos. Adem~is, pot diversos motivos (defectos

de las materias primas, manejo incorrecto de la maquinaria, etc.) hay un l0 por 100 de ejemplares defectuosos.

El estado de las m~quinas (averiadas o no) no es observable, y las

finicas decisiones que se pueden tomar consisten en reemplazar una de las m~quinas (A o B) o ambas. Los costes de reemplazamiento para la mfiquina A (resp. B) son de 10.000 $ (resp. 3.000 $) y cuando se reemplazan mfiquinas (una o dos) hay que interrumpir la producci6n durante un dia.

Si, por ejemplo, ambas mfiquinas estfin averiadas, cada botella resultarfi defectuosa durante la elaboraci6n en la mfiquina A con probabilidad 0,6 (o sea, con probabilidad 0,4 seni no defectuosa), y con probabilidad 0,2 al pasar por la mfiquina B (o sea, con probabilidad 0,8 no tendril defecto debido a B); por otros motivos puede una botella con probabilidad 0,1 tener defectos (o sea, probabilidad 0,9

de ser aceptable). Estos tres efectos (de la m~quina A, de la m~quina B y otros) se superponen: la probabilidad de que una botella sea aceptable es el producto: 0,4 X 0,8 X 0,9 = 0,288 que corresponde a 28,8 por 100 de buenas unidades en la producci6n de ese dfa.

Para los cuatro estados posibles de las m~iquinas, se obtienen por

razonamientos an~logos los porcentajes de buenas unidades que aparecen en la Tabla 2.1.

Estos porcentajes (o los respectivos estados) forman el espectro

39

Estados

I Ambas mfiquinas en buen estado

2 $61o mfiquina A averiada

3 $61o m~quina B averiada

4 Ambas m~iquinas averiadas.

Probabilidad de no tener defectos

mfq. A m~q. B otros

0,4

0,4 •

0,8

0,8

0,9

• 0,9

X 0,9

• 0,9

Porcentaje de buenas unMades

90%

36%

72%

28,8%

Tabla 2.1

de calidades y definen una cadena de Markov. Las probabilidades de tr~nsito correspondientes se calculan a partir de las probabilidades de

evoluci6n en cada una de las mfiquinas. Ejemplo: Si estfi averiada s61o la mfiquina A, puede la mfiquina B averiarse o no; en el primer

caso la probabilidad es 0,2 y tenemos el trfinsito: "s61o la mfiquina A averiada" --~ "ambas mfiquinas averiadas"; en el segundo caso la

probabilidad es 0,8 y el trfinsito: "s61o la mfiquina A averiada" ~ "s61o la mfiquina A averiada". En la Figura 2.1 y la Tabla 2.2 aparecen las

probabilidades de trfinsito cuando se decide no reemplazar ninguna

de las mfiquinas. Para las otras tres posibles decisiones (es decir: reemplazar la mfiquina A, reemplazar la mfiquina B, reemplazar ambas

mfiquinas) se obtienen las matrices de tr/msito recogidas en las Tablas

2.3, 7.1 y 7.2.

Cada botella sin defecto se puede vender al precio de 1 $; los costes de las materias primas y consumo de energia alcanzan 0,20 $ por botella. Las botellas defectuosas se pierden (se reintegra su precio

al cliente).

As/ descrita, la marcha de esta fftbrica se asimila a un Proceso de Decisi6n Markoviano sin informaci6n, pues los estados permahecen desconocidos. Se puede, sin embargo, estimar el porcentaje de "buenas" unidades en la producci6n diaria a base de tomar muestras. En el caso planteado es claro que no se puede llevar a cabo una prueba

40

~ 0,72 ( ~ 0,9

A en orden ., ~ en orden B en o r d e n ~ 0,18 ~ . _ _ B averiada

0,08 ,, 0,1

averiada ~ averiada B en orden 0,2 averiada

Fig. 2.1: Probabilidades de tr~nsito para los cuatro estados de la cadena de Markov en caso de no reemplazar ninguna m~tquina (producir).

E s t a d o en el d fa n

1 A y B e n orden

2 $61o A averiada

3 $61o B averiada

4 A y B averiadas

Es tado en el d fa n + 1

1 2 3 4 A y B S61o A S61o B A y B

en orden averiada averiada averiadas

0,72 0,08 0,18 0,02

0,0 0,8 0,0 0,2

0,0 0,0 0,9 0,1

0,0 0,0 0,0 1,0

Tabla 2.2: Probabilidades de tr~nsito paxa los cuatro estados de la cadena de Markov en caso de no reemplazar ninguna m~iquina (producir).

41

Es tado en el d i a n

1 A y Ben orden

2 S61o A averiada

3 S61o B averiada

4 A y B averiadas.

E s t a d o en el d i a n + 1

1 2 3 4 A y B $61o A $61o B A y B


1,0 0,0 0,0 0,0

1,0 0,0 0,0 0,0

0,0 0,0 1,0 0,0

0,0 0,0 1,0 0,0

Tabla 2.3: Probabilidades de tr~nsito para los cuatro estados de la cadena de Markov en caso de reemplazar la mfiquina A (se interrumpe la producci6n)

de toda la producci6n, sobre todo si las botellas se inutilizan al pro- barlas (test destructivo). En general las pruebas implican costos que dependen del tamafio de la muestra. Po t eso se plantea tambi6n el

problema de optimar el plan de muestreo.

Supongamos que por razones prficticas son posibles s61o algunos tamafios de la muestra: probar 5, 20 6 100 botellas (costo: 4 $ botella).

Tambi6n cabe no tomar muestras. Se obtienen fficilmente las probabilidades condicionales para los distintos nfimeros posibles de botellas

defectuosas en la muestra, dada la calidad de la producci6n (porcentaje de "buenas" unidades en la producci6n del dfa, que corresponden

a los cuatro estados de las mfiquinas).

Por ejemplo, en caso de "s61o la mfiquina A averiada' , despu6s de pasar po t la mfiquina A son "buenas'" s61o 40 po t 100 de las unidades, y de 6stas un l0 por 100 resultarfin defectuosas en la elaboraci6n, de modo que ese dfa cabe esperar 36 por 100 de "buenas" unidades en la producci6n total.

Las probabilidades de los distintos resultados de las pruebas se calculan segfin una distribuci6n binomial. Asi en el caso de 36 por 100 de "buenas" unidades en la totalidad, la probabilidad de q u e e n una muestra de 5 botellas haya precisamente 2 defectuosas es:

5 ) ( 1 - 0 ,36) 2 0 ,36 s-2 = 0,191 ( 2

42

Ejemplo: muestra de 5 botellas.

Calidad: % buenas unidades

90 % 36 % 72 % 28,8~o

Resultado del test: ngtmero de botellas defectuosas en la muestra

0 1 2 3 4 5

0,591 0,328 0 , 0 7 3 0,008 0,000 0,000 0,006 0,054 0 , 1 9 1 0,340 0,302 0,107 0,193 0 , 3 7 6 0 , 2 9 3 0 , 1 1 4 0 , 0 2 2 0,002 0,002 0 , 0 2 5 0 , 1 2 1 0 , 2 9 9 0 , 3 7 0 0,183

Tabla 2.4

Se obtiene asi para este proceso de fabricaci6n un Modelo de Decisi6n Markoviano con informaci6n incompleta, que tiene cuatro estados, siete acciones compuestas"

producir •

reemplazar mfiquina A reemplazar m~iquina B

reemplazar A y B

y las ganancias correspondientes:

no tomar muestra muestra de 5 botellas muestra de 20 botellas muestra de 100 botellas

I x no tomar muestra

ganancia = prec io de ven ta - gas tos de p r o d u c c i 6 n - gas tos de m u e s t r e o

Se busca la politica que haga mhxima la ganancia total con un descuento de 1~/0o al dia.

En la Figura 2.2 se representa la marcha del sistema.

Para resolver el tipo de problemas que ilustra este ejemplo, vamos a construir un modelo general y describir un algoritmo que determine la politica 6ptima.

3. Modelos markovianos.

Es frecuente la aplicaci6n prfictica de modelos markovianos, sobre

43

\ j "

. . . . . " Ti I ipo "" "" \ ~ e " : / t ie muestra \

/ / Tipo d e ' ~

las mfiquinas . . . . ,,- -voiuci6t A B u s

\ \,

Fig. 2.2

t odo a par t i r del t rabajo de Howard [5], y en parte ya estfi descri ta

en la bibliograffa (r id. p o t e jemplo Howard [6]). La par t icular idad

de la informaci6n incomple t a radica en que no se puede de t e rmina r

d i r ec tamente y sin er ror el estado del sistema, sino a t ray ,s de medi-

ciones inexactas. De estas mediciones se conoce s61o la probabi l idad

de ob tene r un de t e rminado resultado, condic ionada al es tado real del

sistema. El carficter markov iano se basa en el supuesto de que con los

da los sobre el es tado actual del sistema se puede preyer la evoluci6n

li l lura, sin necesidad de datos sobre los estados anteriores al actual.

l~slo significa que se puede olvidar la historia previa del sistema, con 1o

que se simplifican los cfilculos y se ahorra espacio en la inemoria.

44

La hip6tesis de que el proceso tiene carficter markoviano, se puede

aceptar en muchos procesos industriales (por ejemplo, en el de pro-

ducci6n de un articulo en serie) en los que la situaci6n actual y las

decisiones que se toman hoy determinan la marcha del proceso, de

modo que se pueda manejar como dependiente s61o del estado actual.

Para elaborar un modelo general de un proceso de fabricaci6n en

serie como el que nos ocupa, adoptaremos las hip6tesis y la notacibn

siguiente:

- L a calidad de la producci6n se considera constante durante un

periodo, y puede tomar s61o un n0mero finito de niveles. Estos niveles

de calidad constituyen el espacio de estados Z = I z l de un proceso estocfistico con tiempo discreto.

- H a y un conjunto finito de mdtodos de producci6n E = l el, Y para cada uno la probabilidad de trfinsito entre dos calidades cuales-

e quiera z' z", en periodos sucesivos, viene dada porpz,z,,. Estos nOmeros

e Pz'z" dan la probabilidad de que al comienzo del periodo n + 1 la calidad (estado) sea z" ~ Z si en el periodo n era z' ~ Z y durante ese periodo

se ha producido con el m6todo e ~ E .

e - L a s probabilidades de tr~nsito Pz'z" son independientes del tiempo

(el proceso estoc~stico es homog6neo respecto al t iempo) y forman

la ley de movimiento P = l Pz'z"e I "

- L a s distintas calidades (estados) no se pueden identificar directa-

mente, sino s61o a trav6s de un mdtodo de observaci6n perteneciente

a u n conjunto finito B = l b l - diversos procedimientos de muestreo

de la producci6n o revisiones de la instalaci6n, etc. Para cada m6todo

de observaci6n b hay un conjunto finito de posibles resultados de la medici6n M b = lmbl y una ley de medida qb ( ' l ') .

Las cantidades qb (mblz) dan la probabilidad de que, en un periodo

cualquiera, siendo el estado z ~ Z al observar con el m~todo b se obtenga el resultado mb. Las leyes de medida no dependen del tiempo.

- L o s gastos y ganancias relacionados con el proceso dependen de

la calidad producida y de los m6todos de producci6n y observaci6n. La ganancia por periodo se representa con r (z, e, b), siendo z ~ Z el

45

estado y e EE, b EB los m6todos de producci6n y observaci6n en

el pe riodo.

La funci6n ganancia es independiente del tiempo. Sin embargo, las ganancias que se hacen despu6s del momento inicial se ponderan

con un factor de descuento/3 (0 </3 < 1), de modo que el valor actual

de una unidad monetaria a recibir dentro de n periodos es/3n.

- L a funci6n objetivo a optimar (maximar) es la esperanza mate-

m:itica de la ganancia total descontada a partir del momento inicial

y con horizonte ilimitado:

E[~=o /3n r(zn,en,bn)l

4. Reducci6n a informaci6n completa.

Cuando se admite un solo m6todo de observaci6n se obtiene un

Modelo de Decisi6n Markoviano con informaci6n incompleta (designa-

do en adelante MDM-II) en el sentido de AstriSm [1] o Sawaragi [8],

que han estudiado una transformaci6n del mismo a informaci6n com-

pleta. Este modelo posee entonces una pol/tica 6ptima homog6nea

(o sea, independiente del tiempo).

Supongamos que el MDM-II viene determinado por los siguientes

parhmetros:

IS, M, A, P, Q, ~o0, r,/31

donde:

S = espacio de estados M = conjunto de los posibles resultados de la medici6n

A = conjunto de las acciones (o decisiones)

P = ley de movimiento

Q = ley de medidas

r informaci6n inicial

r = funci6n ganancia /3 = factor de descuento

Dado que consideramos modelos que deben ser aptos para las

46

aplicaciones, se pueden especificar estos parfimetros del m o d o siguiente:

S, M, A son conjuntos f ini tos con la topologia discreta:

S = I s l , . . . . . , Sh 1: h elementos

M = l m l , . . . . . ,mk I: k e lementos

A = I a l , . . . . . , ad I: d elementos

Se admite k <> h.

P es una familia compues ta de d matrices del t ipo h x h :

a = probabilidad del trfinsito s i - - -*s j con la acci6n a Pq

Se cumple h E= a = 1 V a E A A V i E J l h I

j i p q , " ' ,

a pij >~ O Vi, j, a

Q es una matr iz estoc~stica del t ipo h x k :

qil = probabil idad de obtener el resultado m! al hacer la medi- ci6n, si el es tado es si

qil es una probabil idad de trfinsito de S a M, y asi:

k

E qil = 1 V i E I I , . . . , h I 1=1

qit >~ 0 Vi, l

~Oo es una medida de probabil idad en S:

~Oo = (~Oo( 1 ), ~Oo(2) . . . . , ~ooth))

h

~Po(i)>~ 0 V i E I 1 , . . . , h I ^ z 9 o ( i ) = 1 i=l

r (s, a) se representa con una matr iz del t ipo h x d , fo rmada por nflmeros reales finitos.

0 < ~ < 1

47

El modelo derivado con informaci6n completa (en adelante desig-

nado MDM-I') serfi

[cb, M, A, P, ~o, r ~~ 3]

En lugar de adoptar en el momento n las decisiones en base a los cla-

tos Hn = I (~oo, ao, m l , al . . . . , mn) I (historia observada de1 sistema), se transforman primero estos datos. As/ l lamamos pol/tica de informaci6n

(l-politica) a una regla de escoger acciones en base a l a s acciones

previas y a las medidas de probabilidad en el espacio de estados, que

se construyen con ayuda de la historia observada del sistema.

Para una historia dada h, ~ H n , en el momento n sea ~0 n ( ' lhn) una medida de probabilidad (condicional) en S. Con ayuda de las

leyes de movimiento y de medida se puede calcular la nueva medida

de probabilidad en S e n el instante n + 1, para una cierta acci6n an y cierto resultado de medici6n mn§ (o para subconjuntos de A y M);

por la regla de Bayes h all

qimn+~ / ~ Pii ~On ( / Ihn )

(4.1) ~~ ( i l h n ' a n ' m n + l ) = h h an , i E S

Z qtmn+l ~= P/I ~~ ) l=1 ]" 1

(Cuando el denominador se anula, significa que la historia hn+l = = (hn ,an ,mn+l ) tiene probabilidad nula: el resultado mn+l no se

puede obtener; en este caso se pueden asignar a ~on+l('lhn+ ~) valores

arbitrarios).

As/ se pueden calcular sucesivamente medidas de probabilidad en

el espacio de estados y utilizarlas como datos para la aplicaci6n de

una l-pol/tica.

Ahora podemos introducir el modelo derivado MDM-I': �9 es el

espacio de las medidas de probabilidad en S; M, A se definen como

en MDM-II. La ley de movimiento P se deriva de P: para an Y ~on dados

depende S0n+j s61o de mn+l (vid. (4.1)), y la probabilidad de obtener

ese resuitado de medici6n es el denominador en (4.1). Se cumple:

_ an h h an : ~" qlmn+l /~=l Pjl ~On ( j ) Pv:n ~n+llmn+l 1=1

48

r es el estado inicial en el MDM-I'. La funci6n ganancia r ~ se deriva f~icilmente:

h

r ~(~on,a n ) = Z r( i , an)~On ( i ) i = 1

5. Discretizacibn.

cb tiene la potencia del cont inuo. Lo discretizamos de modo que s61o se maneje un peque~o nOmero de elementos de 4~. Esto implica una transformacibn del problema. Hasta ahora la ecuaci6n optimal era

(5.1) V (~o)= aEAsup {r ~ (~o,a)+ 3 ,Z p ~ , V(~o')}

donde ~ = ( ~ ( 1 ) , ~ ( 2 ) , . . . , ~o ~h)) E q ~ .

cI'={ so Iso (i) ~> 0, i = l , . . . , h , 2; r 1 i=l

Consideremos un subconjunto ~ * c q~, cuyos elementos son los v6rtices de un reticulo en ep:

f 1 h 1 qb*= r 1 6 2 n i E N ' i = 1 . . . h, ~_, n i = n o /~/0 ~ ' ~ i = 1

(admit iendo que 0 G N y siendo no>~2, noEN, un nOmero natural arbitrario, que permanece fijo).

La ecuaci6n optimal para un elemento de ~* resulta:

V (~o) = sup r ~ (~0, a) +/3 p ~ , a E A ~'

Dado ~ E ~* existe en general r dp tal que

-a ~r ~ , p ~ , > 0^ q

Sin embargo, cada e lemento r dp se puede representar unfvocamente como combinaci6n convexa de h elementos de ~* (los v6rtices del poliedro que contiene a r

49

h h t * * * ~o'= .x x/( ,p )r 9 . ~ . ~ , ) s ,:],, ;~. (~,')~> o , i = 1 . . . . ,h ,, ~: x j (~o') = 1

l=n j=x

La ecuaci6n anterior se transforma en

V(~p)= sup {r~(~o,a) + fl ,ZE, ~ , V ( . ~ ~ki (~o').~p;(~,)) } a E A ~ 1 =1

* #

donde ~0/.( , ) son los elementos "vecinos" a ~o.

Puesto que V (~o) es una funci6n convexa en cI, (rid. Astrbm [21), se cumple

h , * ~ < ~ , V(~')= V ~: Xj(~).~j(,) X/(~'). V(~(~,))

1=1 1=1

de modo que para las soluciones de la ecuaci6n

(5.2) / h . }

V(~o) =aEASUp r~ (~o, a) + ~ ~'Z~o p~,-a ]=1~ hi (~O') P (~o/(,))

en general, con ~0 ~ ~*"

v (~) =/= v (~)

La ecuaci6n optimal (5.2) corresponde a un problema de optima- ci6n con espacio de estados finito, hor izonte ilimitado y descuento (precisamente el caso de Howard [5]), que se puede resolver fiicilmente con varios algoritmos conocidos. Las soluciones const i tuyen una apro- ximaci6n de las del problema inicial.

Cuando ~0 ~ ~* se puede igualmente representar como combinaci6n convexa de h elementos de ~* :

h ~0 : • h i (~0) * ~ - * E cI~*, h i (~0)/> O, i = 1, h ^ i=1 ~~ ~~162 . . . .

h hi (~o)= 1

i=l

Se pueden incluir en la combinaci6n tambi6n los restantes elementos de ~*, con coeficientes iguales a cero; asf ~o resulta una combinaci6n de todos los elementos de ~*:

50

I 1

Esta expresi6n se sustituye a la derecha en la ecuaci6n (5.2). Por otro 1ado, las probabilidades de tr~nsito se pueden expresar como combinaci6n lineal de probabilidades de trdnsito entre elementos de r y sus imhgenes, ya que se cumple:

--a = ~., I~i ~ai ma

( ~ lai ~Pi)' = ~ lai P~o i ~o}

En definitiva se. obtiene una ecuaci6n

^ (5.3) V (~) = sup Pi (~o). r ~ (~o~., a) + [3 ~, T., Pi (~0)"

a E A " mr1 i

* - a ~;~la - - tp; . , , , X i ( ), V( ) son independientes de ~o donde r ~ (~oi, a), P~i ~~

y se deben calcular una sola vez y almacenar. Se puede demostrar (rid. Benito [3]) que

V (~)= V_(~I=I ~j (~)" ~;(~p))~l~l'= ~'] (tp). V (~;Op)) --

1 (1 1__~ max ( U s - Ds) no h s~S

donde Us (respect. Ds) es el valor del estado s ~ S en el primitivo MDM-II al maximizar (respect. minimizar) la ganancia, suponiendo que hay informaci6n completa.

A partir de esta relaci6n se obtiene una cota superior del error:

(5.4) A

0 <~ v (~) - v (~) <.~ 1 ( h - l )

max (Us--DD 2 + h (1--/~) no s E S

, 0 n o ---~ ~

51

6. Caso con varios m6todos de observaci6n.

Esta generalizaci6n es de gran inter6s en las aplicaciones. Se admiten

un n6mero limitado de m6todos de observaci6n y las correspondientes

leyes de medida.

Se puede no s61o elegir una acci6n para influir en la evoluci6n

del sistema, sino que se puede decidir tambi6n sobre el modo de

observar el estado del sistema. La multiplicidad de m6todos de obser-

vaci6n no es un supuesto artificioso: se puede por ejemplo elegir entre

observar el estado del sistema y no observar (y cuando hay costos

de observaci6n el no observar puede ser una decisi6n razonable); por otra parte, el no observar corresponde a una ley de medida degenerada,

con un solo resultado de la medici6n (o con varios posibles, pero

independientes del estado del sistema).

Para reducir este problema al caso anterior, se puede manejar

(siguiendo la notaci6n del p~irrafo 3) E x B como espacio de acciones,

de modo que cada pareja (m6todo de producci6n y de observaci6n)

se considera como una flnica acci6n mixta.

Puesto que E y B son conjuntos finitos, 1o es tambi6n E xB.

Es posible que algunas parejas no sean compatibles (por motivos

pr~icticos), y entonces se considera s61o el subconjunto de los pares

compatibles.

El m6todo de observaci6n no influye en la evoluci6n real del

sistema, pero si en la informaci6n que se tiene sobre su estado actual;

y esa informaci6n es importante, pues las decisiones se toman en base

a ella.

Por eso puede compensar el utilizar un m6todo de observaci6n m~is exacto, aunque esto implique mayores costes, para obtener una mejor

informaci6n y poder adoptar la decisi6n que es correcta para el estado real del sistema. El influjo de ambos elementos (e, b) ~ E x B se refleja

en la ley de movimiento del MDM-I', donde se contienen tanto la ley de movimiento como la ley de medida del MDM-II.

Con este nuevo espacio de acciones E x B se puede, siguiendo

52

la linea de los pfirrafos 4 y 5, construir algoritmos para determinar una politica suboptimal homog6nea.

6.1. Algoritmo.

Se trata de llevar a cabo tres etapas sucesivas (vid. Diagrama I):

a) Transformaci6n del MDM-II en MDM-I' y discretizaci6n de 6ste (el modelo discreto resultante lo designaremos MDM-I* ).

b) Optimaci6n en el MDM-I*. c) Aplicaci6n de la politica al primitivo MDM-II.

Describimos a continuaci6n, brevemente, la soluci6n de estos tres problemas parciales.

Transformaci6n y discretizaci6n:

De acuerdo con la notaci6n del pfirrafo 5, se elige no (nfimero de partes en que se divide el intervalo unidad) y se construye el retfculo ~* en un hiperplano del espacio euclfdeo de dimensi6n h (subrutina GENFI). Se obtienen asf los "estados" del nuevo MDM-I*. A conti- nuaci6n se fija la estructura de este modelo, comenzando por el aspecto dinfimico (carficter markoviano): la ley de movimiento para cada acci6n mixta ( ~ a . . , ) (subrutina MARFI). Esta subrutina pro-

~~ i ~~ a porciona tambi6n los coeficientes ),] [~Oim a " *' J ~ que se precisan en la etapa

c). La estructura de costos y ganancias en el MDM-I* se basa en la ganancia inmediata para cada elemento de ~* con cada acci6n mixta (subrutina REW1). Cuando en el primitivo MDM-I| los costos de producci6n y observaci6n vienen dados por separado, hay que calcular primero la ganancia inmediata en este modelo para cada acci6n mixta (subrutina WERTIM).

Asi queda definido el MDM-I* y se puede determinar su politica 6ptima (homog6nea y determinista), que corresponde a una politica suboptimal del primitivo MDM-II.

Optimaci6n en el MDM-I*:

El MDM-I* resultante de la discretizaci6n se puede resolver con

53

. a - -aI / o.,0, / W.R+,. I f I ' " -'I c ~ . ~ o d o l . ~ . . i . I

_.tm_c'el _MD_M- 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . _j . . . . . . . " . . . . . . . . .

1 MARF! I REW 1

Consmsu:i6n de hut probal~- [ . lidadea de m~dto ms $ r I I I ~ o de lu ganandas

= = o : ........... ~ .......................... I .................. MDM-I* H O W [ /

I [ Opfima~6a con un a]g~rflmo ~ _ [ J [ P O L I N 1 I [ de Howard mod~ic~ffi4o [~ I l Cilculodelapollticainicial

: f ~ : . . . . - F Aplicaci6n de

~ - - - , / . o - - . ~ / I , ~ l DIAGF[ l= lapolitica

}

Pefi~'~ I S T E M A / ' - - " - ' I -~ / resnl / l ;-" Actualizad6n de la inf . . . . pF'.n~n~] tado de medic. I nuevo esU,do de infonnac/6n

I

+ ' I / ;remltado de medic~ /

Comienzo del periodo n

I-

Fin de~ periodo n

l ~ $[STEMA / / geaultado de mec~c. /

Comie~o del periodo n+l SISTEMA REAL

+ I TREA

ActuaSzac~n de la informac.

nuevo est~do de informaci6n

DIAGFI

ac~/6n a �9

i TREA _ ] ~ 6 n de la lnformac.

"~ nuevo r de infcf maci6n

ORDENADOR

politica 6ptiraa I~. valore~ relatives

datos almacenados

5 4

distintos algoritmos. Se ha empleado una variante del algoritmo de Howard en que aparecen explicitamente las dos componentes de cada acci6n mixta (subrutina HOW). Es un m6todo de iteraci6n en el espacio de las politicas. Para determinar una polftica inicial admisible se elige la de mdxima ganancia inmediata (subrutina POLINI). Al final de esta fase se obtiene la politica 6ptima del MDM-I*, que asigna a cada elemento de ~* una acci6n mixta y un valor relativo.

Aplicaci6n de la politica:

La soluci6n del MDM-I* hay que extenderla al MDM-I', es decir, a partir de la regla de elegir acciones para los elementos de ~* hay que encontrar una para los elementos de �9 ~ ~*. Siguiendo el razona- miento del pdrrafo 5, se representa cada elemento ~0 ~ �9 como una combinaci6n convexa de h elementos de ~*: primero hay que determinar los h elementos de cb* correspondientes al ~o dado (subrutina HECK) y despu6s se calculan los coeficientes de la combinaci6n convexa (subrutina DISKRT). Esto tiene particular inter6s para aquellos elementos de �9 que pueden ser imagen de un elemento de ~* (con la

. * E notaci6n del p~irrafo 5: l~O~.mala=(e,b)~ExB, m~Mb,~oi ~b*t).

Con la ayuda de esa representaci6n de cada elemento como una combinaci6n convexa, se optimiza segfm ecuaci6n (5.3) (subrutina DIAGFI) donde los valores de h i ( *' ) ~Oim a y de V (~07) proceden de las subrutinas MARFI y HOW.

Asf se obtiene una politica suboptimal del MDM-I'. El MDM-I' equivale al MDM-II, pero para aplicar en el primitivo MDM-II la regla de decisi6n del MDM-I' se precisa transformar los datos observados. Se emplea para esto una subrutina que dados (~o, e, b, rob): ~o ~ r e ~ E, b ~ B, m b E M b (vid. notaci6n del pdrrafo 3) obtiene el elemento imagen ~o'~ r (subrutina TREA). Utilizando reiteradamente las subrutinas TREA y DIAGFI se determina en cada periodo una acci6n mixta para el MDM-II.

6.2. Estimaci6n de la eficiencia de una pol#ica.

La politica suboptimal obtenida tiende a hacer mdxima la ganancia total con descuento en horizonte ilimitado. De acuerdo con el Turnpike-

55

D i a g r a m a 11

J I M 2

Informaci6n inicial

Factor de descuento BETA

N 1: Horizonte

N2: Nfimero iteraciones

l VAR = 0. NSIM2 ----- 1

l-

/

S I M 1 I

TRiM = 0, |

I FAKTOR = 1. NSIMI = 1

D I A G F I

accibn a elegir

ganancia in meaiata: RIM i

I TRIM = TRIM -4- FAKTOR * RIM FAKTOR= FAKTOR * BETA

NSIMI = NSIMI ~- 1

TRLg = TREg r + TRIM [

VAR VAR -~ TRIM * TRIM

NSIM2 NSIM2 * 1 J

T R E A (lOP �9 O)

Simulaci6n de an txinsito Simdacidn de un= observacidn Actualizaci6n de la informaci6n

nuevo estado de informaci6n

VAR ~ ( V A R - T R E ~ * T R E C , ' / N 2 ) / ( N 2 - - 1~

TREW ~-- TREW/N2

1

56

teorema (vid. Shapiro [9]), esta politica es tambi6n adecuada para

horizonte finito, cuando quedan todavia por recorrer un n0mero suficiente de periodos.

Se puede utilizar un criterio heuristico, interesante en la pr~ctica,

para determinar la eficiencia de la politica: la ganancia total a esperar

cuando se aplica esta politica durante un n0mero determinado de

periodos.

Esta aplicaci6n de una politica se puede simular (rid. Diagrama I1)

de modo que con el valor medio (TREW) y la varianza (VAR) de la

ganancia total descontada durante N1 periodos, se puede por ejemplo

construir un intervalo de confianza con la seguridad que se desee.

El algoritmo SIM2 es aplicable a cualquier politica del MDM-I*

y proporciona valores criticos que permiten estimar y comparar la

eficiencia de estas politicas para el MDM-II.

7. Aplicacibn.

Apliquemos el algoritmo descrito al ejemplo del p~irmfo 2. Las pro-

babilidades de tninsito en caso de reemplazar la m~iquina B o ambas

mfiquinas aparecen en las Tablas 7.1 y 7.2.

Es tado en el d fa n

1 A y Ben orden

2 $61o A averiada

3 S61o B averiada

4 A y B averiadas

Es tado en el d ia n + 1

1 2 3 4 A y B $61o A $61o B A y B


1,0 0,0 0,0 0,0

0,0 1,0 0,0 0,0

1,0 0,0 0,0 0,0

0,0 1,0 0,0 0,0

Tabla 7.1: Probabilidades de tr~.nsito para los cuatro estados de la cadena de Markov en caso de reemplazar la m~quina B (se interrumpe la producci6n).

57

Estado en el dfa n

1 A y B e n orden

2 $61o A averiada

3 $61o B averiada

4 A y B averiadas

1 A y B

en orden

Estado en el dfa n + 1

2 3 4

$61o A $61o B A y B averiada averiada averiadas

1,0 0,0 0,0 0,0

1,0 0,0 0,0 0,0

1,0 0,0 0,0 0,0

1,0 0,0 0,0 0,0

Tabla 7.2: Probabilidades de trfinsito para los cuatro estados de la cadena de Markov en caso de reemplazar ambas m~quinas (se interrumpe la producci6n).

Para simplificar, agrupemos los resul tados del mues t r eo de mo-

do que en la mues t ra de cinco botel las s61o vamos a dist inguir

dos casos: hasta dos unidades defec tuosas y m~is de dos unidades

defectuosas . Amilogamente , en la mues t ra de tamafio 20 utiliza-

remos los siguientes intervalos para el nf imero de botellas defec-

tuosas: [0 ,6 ] , [7, 13], [ 1 4 , 2 0 ] y en la mues t ra de tamafio 100: [0, 19], [20, 39], [40, 59], [60, 79], [80, 100]. Se ob t i enen asf las

siguientes leyes de medida:

Muestra de 5 botellas: probabilidad de los resultados.

Calidad:

buenas unidades

90 %

36 %

72 %

28,8~o

M~todo de observaciOn: b = 2

Resultado del muestreo: intervalos para el

ngtmero de unidades defectuosas en la muestra

[0, 2] [3, 5]

0,991 0,009

0,251 0,749

0,862 0,138

0,148 0,852

Tabla 7.3

58


Calidad: buenas unidades

90 %

36 % 72 %

28,8%

Mdtodo de observaciOn: b = 3

Resultado del muestreo: #ttervalos para el

n(tmero de unidades defectuosas en la muestra

[0, 61 [7, 131 ll4, 201

0,99761 0,00239 0,00000

0,00208 0,61761 0,38031

0,68311 0,31677 0,00012

0,00016 0,34633 0,65351

Tabla 7.4


Calidad: buenas unidades

90 %

36 % 72 % 28,8%

[0, 19] [20, 39] [40, 59] [60, 79]

Mdtodo de observaciOn: b = 4

Resultado del muestreo: intervalos para el

n~mero de unidades defectuosas en la muestra

180, 1001

0,99802 0,00198 0,00000 0,00000 0,00000

0,00000 0,00000 0,17394 0,82567 0,00039

0,02589 0,96771 0,00640 0,00000 0,00000

0,00000 0,00000 0,00597 0,96382 0,03021

Tabla 7.5

En este problema no se da nunca una informaci6n completa: incluso en el primer dfa de producci6n tras haber reemplazado ambas m~iquinas pueden darse aver/as, de modo que el estado del modelo resulta desconocido.

La polftica 6ptima que resulta (calculada con un indice de dis- cretizaci6n no = 2) aparece en la Tabla 7.6. Se ve que nunca compensa reemplazar s61o la mfiquina B.

59

I'olftica 6ptima:

"estado" Mdtodo de Tamaao de Valor (distribuci/m) producciOn la muestra relativo

I

2

3

4

5

6

7

8

9

10

producir

producir

reemplazar A

producir

producir

producir

producir

reemplazar A

producir

reemplazar A+B

5

20

0

20

100

20

20

0

100

0

4410284,52

4401643,29

4395874,24

4407345,55

4398484,38

4404691,39

4400384,87

4392938,20

4397417,91

4392874,24

Tabla 7.6 (n o = 2)

De los 10 " e s t a d o s " (dis t r ibuciones) del MDM-I*, co r responden

4 a los 4 estados del pr imit ivo MDM-II:

" e s t a d o " (distr.) 1 = 90 % buenas unidades = A y B en orden

" e s t a d o " (distr.) 3 = 36 % buenas unidades = s61o A averiada

" e s t a d o " (distr.) 6 = 72 % buenas unidades = s61o B averiada

" e s t a d o " (distr.) 10 = 28,8% buenas unidades = A y B averiadas

La pol/ t ica ob ten ida da buenos resui tados tambi6n en ho r i zon t e

i imitado. En las Tablas 7.7 y 7.8 se pueden compara r las ganancias

a esperar duran te 10 dias para esta pol / t ica y para una polf t ica con

mues t r eo de tamafio fijo: p robar 5 botel las y

- s i hay c o m o mfiximo 2 defectuosas , con t inua r p ro d u c i en d o

- s i hay mils de 2 defectuosas , r eemplazar a l te rna t ivamente las

mfiquinas A y B.

60

Valoraci6n de una polftica por simulaci6n.

Politica 6ptima obtenida

Ganancia a esperar Desriaci(m Estado inicial

durante 10 dias ($) estandant

A y B en orden

$61o A averiada

$61o B averiada

A y B averiadas

46738

34608

41953

33176

13020

10476

11616

11678

Tabla 7.7 (n o = 2, NI = 10, N2= 25)

Valoraci6n de una polftica pot simulaci6n.

Pol{tica: tomar una muestra de 5 botellas .v -si hay como mdximo 2 del'ectuosas: produc#" -s i hay mds de 2 defectuosas: reemplazar alternativamente A y B

Ganancia a esperar Desviaci6n Estado inicial

durante 10 dfas ($) estandard

A y B e n orden . . . . .

$61o A averiada . . . . .

$61o B averiada . . . . .

A y B averiadas . . . . .

46634

28490

36645

25466

14128

12031

16669

9780

Tabla 7.8 (no= 2, NI = 10, N2= 25)

BIBLIOGRAFIA.

[1] AstriSm, K.J . : Optimal control o f Markov processes with hwomph'te state information, J. Math. Ann. Appl. 10, 174-205 (1965).

[2] Astr6m, K . J . : Optimal control o f Markov processes with incomplete state information 11: The convexity o f the loss function, J. Math. Ann. Appl. 26, 403-406 (1969).

61

13] Benito, F.: Ein Modell der Qualitiitskontrolle in der Serienproduktion bei kostspieligcn Tests, Diss. ETH Ziirich (1975).

14] ('ano Sevilla, I:. J.: Programacibn secuencial en concurrencia, horizonte finito en etapas sin .factor descuento, Trab. Estad. Inv. Oper. 20, 35-46 (1969).

[5] Howard, R.A.: Dynamic programmhzg and Markov processes, Wiley, New York (1960).

16] Howard, R.A.: Dynamic probabilistic systems, 1: Markov models, 11: semimarkov and decision processes, Wiley, New York (1971).

[7] Rfos Garcfa, S.: Procesos dindmicos de decision en concurrencia, Memorias Real Acad. Cienc. Exact. Fis. Nat., Serie Cienc. Exact. VII, 1 (1967).

[8] Sawaragi, Y. and Yoshikawa, T.: Discrete-time markovian decision processes with incomplete state observation, Ann. Math. Stat. 41, 78-86 (1970).

[9] Shapiro, J. F.: Turnpike planning horizonts for a markovian decision model, Manag. Sci., 14, 292-300 (1968).

62

Download - Politica optima de produccion y control: Un modelo Markoviano

Top Related