recuperación espontánea de la respuesta condicionada en un agente autónomo spontaneous recovery...
TRANSCRIPT
Madrid, Borrador de Santa: 21/10/2022
Recuperación Espontánea de la Respuesta Condicionada en un Agente Autónomo
Spontaneous Recovery of the Conditioned Response in an Autonomous Agent
Lola Alonso, Rafael Moreno*, Manuel Vázquez, Emilio del Rosal y José Santacreu
Universidad Autónoma de Madrid
*Universidad de Sevilla
Dirección de contacto:
José Santacreu Mas
Departamento de Psicología Biológica y de la Salud.
Universidad Autónoma de Madrid.
1
Ciudad Universitaria de Cantoblanco. 28049 Madrid. España
Correo-e: [email protected]
Recuperación Espontánea de la Respuesta Condicionada en un Agente Autónomo
Resumen
Los modelos formales expuestos en la literatura para explicar el
condicionamiento clásico tienen especial dificultad en exhibir la recuperación
espontánea de la respuesta condicionada. Se presenta un modelo matemático de
ecuaciones en diferencias capaz de exhibir muchos fenómenos de condicionamiento
clásico, y entre ellos, la recuperación espontánea, gracias a que cuenta con la
variable “activación del estímulo” que permite que tras el paso del tiempo
después de la extinción, la respuesta condicionada vuelva a manifestarse al
presentar el EC en la fase de test. Además, también cuenta con una asociación
inhibitoria, que es calculada cuando se produce la extinción, que explica parte
del proceso de extinción. El modelo integra en un único sistema de ecuaciones
las dos ideas clave que se han expuesto en la literatura para dar cuenta de la
recuperación espontánea, a saber, la extinción como un proceso: a) inhibitorio
producido por presentaciones del EC sin reforzar, y, b) transitorio, cuyos
efectos dejan de manifestarse con el paso del tiempo.
Palabras clave: modelos computacionales, simulación de procesos de aprendizaje,
condicionamiento clásico, extinción, recuperación espontánea.
2
Spontaneous Recovery of the Conditioned Response in an Autonomous Agent
Abstract
Key words: computational models, simulation of learning processes, classical
conditioning, extinction, spontaneous recovery.
3
El condicionamiento clásico ha sido un área de gran interés para la ciencia de
la conducta y muchos estudiosos del campo han desarrollado modelos que intentan
dar cuenta de los diversos fenómenos que tan amplio término engloba. El objetivo
del presente estudio es exponer un modelo formal que explica algunos de estos
fenómenos, centrándose principalmente en el logro de uno de los más difíciles de
conseguir mediante este tipo de modelos: la recuperación espontánea de la
respuesta condicionada. Recientemente, el fenómeno de la recuperación espontánea
ha recibido una notable atención en la literatura del aprendizaje animal (Brooks
y Bouton, 1993; Devenport, 1998; Goddard, 1997; Maes y Vossen, 2000; Rescorla,
1997; Rosas y Bouton, 1996).
La recuperación espontánea se refiere a la reaparición de una respuesta
condicionada (RC) ante un estímulo condicionado (EC) en una prueba realizada un
tiempo relativamente largo después de que la respuesta ha sido extinguida a lo
largo de presentaciones del EC sin ser acompañado de estímulo incondicionado
(EI). Desde la observación original de Pavlov (1927) está claro que durante la
extinción ocurre algo que no es la la eliminación de lo aprendido, puesto que
algunas de las asociaciones aprendidas durante el entrenamiento persisten
después de la extinción.
Se puede interpretar que lo que sucede en este fenómeno implica un proceso
inhibitorio de alguna clase, puesto que después de transformar un estímulo
neutro en un EC excitatorio tras haberlo emparejado con un EI, la retirada de
éste en la extinción da lugar, o bien a una asociación inhibitoria entre el EC y
el EI, o bien a la inhibición de la RC en presencia del EC. Esta asociación
inhibitoria EC-noEI interfiere con la asociación excitatoria, debilitando la RC.
Esta interpretación la mantienen las llamadas “teorías inhibitorias” (Konorski,
1948; Wagner, 1981; Bouton, 1993, 1994), que también sugieren que las
4
asociaciones inhibitorias tienen un carácter más lábil que las excitatorias. El
propio Pavlov (1927) atribuyó la recuperación espontánea a la disipación de un
proceso inhibitorio transitorio que suprimía la excitabilidad del nodo del EC.
Si el EC ya no es capaz de activar su representación central, no cabe esperar
ninguna RC, incluso si la asociación EC-EI permanece intacta. A los efectos de
representación formal, la teoría del proceso inhibitorio significaría que el
condicionamiento clásico no puede ser explicado mediante una sola función de
asociación, en la que, la presentación conjunta del EC-EI, contribuyera a la
asociación y la presentación del EC-noEI junto a la presentación de noEC-EI,
redujeran el grado de asociación, dado que si así fuera al final del
procedimiento adquisición-extinción el grado de asociación sería nulo. Las
teorías inhibitorias exigen que la función excitatoria sea diferente y mas
potente que la inhibitoria.
Si asumimos que el fenómeno de la recuperación espontánea de la RC tras un
período de descanso, se puede interpretar como un proceso transitorio que inhibe
las respuestas (RCs) al estímulo condicionado pero no produce un deterioro de lo
aprendido, puesto que después de un período de descanso esta inhibición
desaparece y las respuestas al EC reaparecen (Rescorla, 1997a; Sandoz, 1998)
entonces tenemos que asumir que la producción de la RC es función de la fuerza
asociativa pero también de una variable que se recupera (aumenta con el paso del
tiempo sin estimulación). Esto significa que cualquier modelo formal que trate
de reproducir el fenómeno de condicionamiento clásico habrá de contemplar que:
a) se producen tanto asociaciones excitatorias como inhibitorias y b) que el
grado de activación de los estímulos (una variable sensible al paso del tiempo
en función de la última presentación) ha de estar implicada en la producción de
la RC.
5
De acuerdo con este planteamiento, los modelos que no contemplan el paso
del tiempo, no pueden a) exhibir el fenómeno de la recuperación espontánea; b)
la dependencia de la RC del intervalo entre estímulos (mayor magnitud de la RC
cuanta mayor contigüidad entre estímulos); c) el efecto de la práctica
distribuida (el hecho de que, a igualdad de ensayos y probabilidades, cuanto más
distanciados entre ellos aparezcan los emparejamientos, más condicionamiento se
produce), etc. como ocurre con los modelos de Rescorla y Wagner, 1972;
Mackintosh, 1975; Pearce y Hall, 1980; Pearce, 1987; Van Hamme y Wasserman,
1994; Dickinson y Burke, 1996.Además, dichos modelos, que sin duda constituyen
la historia del progreso de la simulación del aprendizaje asociativo, no generan
sus soluciones en tiempo real como sería deseable, como lo hacen los planteados
por Sutton y Barto (1981), el modelo SOP de Wagner (1981), Klopf (1988), el
modelo TD de Sutton y Barto (1987), y Schmajuk-DiCarlo (1992). Sin embargo,
estos modelos tienen el inconveniente de no explicar la recuperación espontánea
de la RC. Así pues nos encontramos ante un fenómeno que no es fácil de
reproducir mediante modelos formales.
La solución a este problema ha surgido como un fenómeno emergente al tratar
de construir un agente autónomo con capacidad de aprendizaje en el que los
distintos procesos de aprendizaje (Habituación, sensibilización, C. Clásico:
asociación entre eventos contextuales y C. instrumental: asociación entre
acciones del agente y eventos del contexto) funcionaran simultáneamente ante
cualquier estimulación del contexto. No hemos tratado de generar un modelo para
explicar un fenómeno de aprendizaje específico de condicionamiento clásico sino
de contemplar un agente que habitúa ante la presentación repetida de un evento
y, si se dan las circunstancias adecuadas, aprende, extingue o recupera
espontáneamente la respuesta condicionada.
6
El modelo que se presenta fusiona los planteamientos hasta aquí expuestos
de la siguiente manera:
a) Cuenta con un proceso de control de la activación del EC que se ajusta
al proceso de habituación readuciéndose ésta cuando dicho estimulo se
presenta repetidamente y recuperándose cuando pasa cierto tiempo. La
función de habituación se fusiona con las funciones de
condicionamiento de manera que éstas contienen a las primeras,
b) Incluye dos funciones de asociación que son función tanto de la
contingencia entre ambos estímulos como de la contigüidad temporal entre
los mismos. Una asociación excitatoria del EC en la fase de adquisición
y una asociación inhibitoria EC-no EI en la extinción, de manera que la
producción de la RC es función de la asociación total (la suma de las
excitatoria e inhibitoria) y de la activación del EC que se presente.
Por ello, el objetivo fundamental de este trabajo consiste en mostrar los
mecanismos por los cuales se produce el fenómeno de la recuperación espontánea a
través de las ecuaciones en diferencias que componen el modelo, tomando las dos
ideas clásicas mencionadas en la literatura, a saber, la extinción de la
respuesta condicionada como un proceso inhibitorio, por un lado, y como un
proceso transitorio, por otro,
Alternativamente a la descripción de la extinción como un proceso
inhibitorio y transitorio, Brooks y Bouton (1993) plantean que la extinción no
es un condicionamiento inhibitorio en el que hay una asociación EC-no EI, sino
que en ella desempeña un papel fundamental el contexto, pues constituye el medio
que permite la recuperación de lo aprendido. Un hecho que sostiene este
planteamiento es que al contrario que en la adquisición de la respuesta, la
extinción no se generaliza a nuevos contextos: lo que se ha extinguido en un
7
contexto no se mantendrá inhibido en otro distinto. De hecho pequeños cambios en
los elementos del contexto en el que una RC está habituada facilitan la
recuperación de dicha respuesta (Bouton y Nelson, 1998; Bouton, 2004). Del mismo
modo un largo periodo de tiempo post la sesión de extinción puede reinstaurar la
RC, lo que se ha explicado como el efecto de un cambio en el contexto temporal
de la extinción (Rosas y Bouton, 19971998) . Esta propiedad es muy similar a la
descrita para la habituación, lo que sugiere que ambos procesos pueden ser
explicados en términos de un sistema de aprendizaje que adquiere, finalmente,
una influencia inhibitoria en la respuesta de orientación o en la RC. Así lo
plantea Robbins (1990), como una de las alternativas plausibles en la
explicación de la extinción. Este autor sugiere que un descenso temporal en la
atención que se presta a un EC contribuye a la extinción (reacuérdese que el
procedimiento de extinción es similar al procedimiento de habituación) y que la
recuperación de la atención que se da después de pasado un cierto tiempo sin
presentar el EC puede explicar la recuperación espontánea de la RC.
Precisamente, el modelo implementado en el agente que presentamos en el
siguiente apartado, es capaz de integrar los fenómenos de habituación (Alonso,
en prensa) con los de condicionamiento clásico, y, en particular, la
recuperación espontánea de la respuesta de orientación se produce a través del
mismo mecanismo que la recuperación espontánea de la RC, por lo que la
“sinergia” al considerar ambos tipos de aprendizaje como partes indisolubles de
un único sistema de aprendizaje puede ser la clave de la explicación del
fenómeno de la recuperación espontánea.
8
Método
Para simular el fenómeno de la recuperación espontánea de la RC en hemos
dispuesto un agente autónomo que se relaciona con un contexto a través de un
programa de comunicaciones TCP/IP. El contexto genera los estímulos apropiados
de acuerdo con un programa temporal que permiten reproducir el procedimiento de
adquisición, posterior extinción y pasado un amplio periodo de descanso de nuevo
extinción. El agente autónomo calcula para cada elemento una serie de funciones
que permiten la habituación y el condicionamiento.
Funciones del modelo
Todas las funciones propuestas funcionan en tiempo real (cada una de sus
iteraciones representa 1 segundo de tiempo real) y están formuladas en forma de
ecuaciones en diferencias, en las que el valor para el momento actual se calcula
basándose en alguna transformación del valor en el momento inmediatamente
anterior. Asimismo, todas las funciones comienzan teniendo valor 0 y están
definidas entre 0 y 1 excepto la correspondiente a la asociación inhibitoria
definida entre 0 y –1. En cuanto a la notación general que será usada de ahora
en adelante, el subíndice j hace referencia a los estímulos condicionados, i a
los incondicionados y k a las respuestas condicionadas. Nótese que las
ecuaciones forman parte de un sistema acoplado aunque se describen por separado
para simplificar la explicación.
En primer lugar, la función , da cuenta del grado de activación en el
agente de cualquier evento del contexto en todo momento. Está definida como:
(ec. 1)
9
donde es un parámetro que determina la velocidad de decaimiento de la
activación del elemento j, es la intensidad del estímulo j (y de hecho, en la
primera presentación del estímulo, ), que puede oscilar entre 0 y 1. La
ecuación 1 incluye otra ecuación en diferencias, , llamada función de
disponibilidad del estímulo. Dicha función que determina la potencial activación
de un estimulo particular si se presentara en el momento t, es un función
sigmoidal creciente como la propuesta en el modelo de la habituación de Wang
(1994) con la particularidad de que es sensible (aumenta su tasa de crecimiento)
cuando el estímulo en cuestión se asocia con cualquier otro estímulo debido a la
contigüidad temporal del mismo. Esta función permite que se recupere la
potencial activación ( ) del E en función no solo del paso del tiempo sino
tambien de la presentación de otro estímulo, lo que contribuye a deshabituar la
respuesta de orientación (RO) y, por consiguiente, a impedir la habituación de
un estímulo que se está condicionando. La función es la responsable directa
del decaimiento exponencial de la huella del estímulo, da cuenta de los
fenómenos de habituación y sensibilización y, por tanto, de la asociabilidad del
mismo a lo largo del tiempo. La dinámica de la ecuación puede observarse en
la Figura 1.
Al igual que en el modelo de Mackintosh (1975), pero a diferencia del de
Rescorla y Wagner (1972), en el que aquí se presenta, el procesamiento
(activación) del EI es independiente y no depende de lo que ocurra con otros ECs
presentes en la situación. En el modelo propuesto, se calcula la activación del
EI del mismo modo que la de cualquier evento teniendo en cuenta que la
10
intensidad del estímulo se considera máxima y la disponibilidad del mismo se
alcanza totalmente en el ciclo siguiente a una presentación.
Para modelizar los fenómenos de condicionamiento clásico, al igual que en
el modelo SOP de Wagner, (1981) proponemos tres funciones asociativas: la
excitatoria, la inhibitoria, de carácter opuesto a la excitatoria y la total
(suma de las dos anteriores). En primer lugar, la función asociativa excitatoria
es sigmoidal creciente y se define como:
(ec. 2)
donde es la tasa de aprendizaje que es un parámetro libre; es un parámetro
que señala el valor mínimo inicial. La función de crecimiento de
sigmoidal, permite una simulación mas adecuada de la curva de adquisición que la
exponencial negativamente acelerada (más sencilla) que se ha propuesto en
anteriores modelos. En ella, se incluyen las activaciones del EC ( ) y del EI
( ) como representantes de la asociabilidad de dichos estímulos, así como de
su contigüidad temporal, de forma que, cuanto más cercanos en el tiempo
aparezcan, más activos estarán y más asociación se gana en un ensayo concreto.
De esta forma se acoplan las funciones de activación estimular (construidas para
la habituación estimular) con las propias de la asociación.
Además, la estructura del agente permite el calculo de la función
asociativa excitatoria a cualquier par de eventos del contexto sean estos dos
estímulos neutros, o dos estímulos ya condicionados, lo que permite el
desarrollo de condicionamiento de segundo orden.
Hace mucho tiempo se ha propuesto el establecimiento de una asociación
inhibitoria durante la extinción (Konorski, 1948; vease la revisión de Boston,
11
1993) y se ha incorporado a modelos formales como el de Pearce y Hall, (1980).
En nuestro caso al igual que en el modelo de Pearce y Hall (1980), se supone que
el condicionamiento inhibitorio se produce por la formación de una asociación
EC-noEI, pero, a diferencia de estos autores, contemplamos la ausencia de EI en
general, en lugar de omisión de un EI esperado ya predicho por el EC. En este
modelo, se define la fuerza asociativa inhibitoria a través de la siguiente
ecuación:
(ec. 3)
donde los parámetros tienen idéntico significado al que tenían en la ecuación 2,
aunque hay algunos cambios. En primer lugar, nótese que esta función adquiere
valores negativos conforme se va calculando en los ensayos pertinentes de EC-
noEI y que su decremento es más lento que el de la función excitatoria al
dividir por un número (α/2) al igual que en el modelo SOP de Wagner (1981, p.
21).
En este modelo, como en Pearce y Hall (1980) y Wagner (1981), no se asume
que los procesos excitatorios sean cualitativamente diferentes de los
inhibitorios, por lo que la fuerza asociativa total es la suma de las fuerzas
excitatoria e inhibitoria y, a diferencia de las anteriores, se calcula para
todo momento t, como se muestra en la siguiente ecuación:
(ec. 4)
De esta manera, para un mismo EC j, su poder predictivo respecto a un EI i, es
una “suma” de las veces en que lo ha predicho y de las veces en que no. Este
término se utiliza para el cálculo de la estimación de la probabilidad de
emisión de RC, como se indica en:
12
(ec. 5)
Esta ecuación permite la aparición de respuestas condicionadas, tanto en función
del proceso de adquisición y por tanto cuando , como en función de la
activación del EC y, por tanto, cuando .
Una ventaja del modelo es que permite simular una relación no lineal entre
la fuerza asociativa y la RC, puesto que aquélla interactúa con la activación
para producir la respuesta (ec.5). Otros modelos, como el de Dickinson y Burke
(1996), sin embargo, basan sus predicciones únicamente en la fuerza asociativa,
como sinónimo de fuerza de respuesta perdiendo el efecto del intervalo EC-EI
que recoge la variable Atj de la ecuación 5.
Procedimiento
Todas gráficas que se presentan en este trabajo son el resultado de la
siguiente preparación experimental:
a) Adquisición: se hacen 12 emparejamientos (hasta la asíntota de emisión de
RCs) EC-EI, ambos con la máxima intensidad, en intervalos
de un minuto cada uno. El desfase entre la aparición del EC y la aparición
del EI es de 2 segundos, y ambos tienen una duración de 1 segundo.
b) Extinción: 5 minutos después de la fase anterior se presenta el EC otras
12 veces en iguales condiciones que en la fase de adquisición, excepto
que no se presenta en ningún momento el estímulo incondicionado.
c) Test de recuperación espontánea y extinción: 2 horas después de la fase
anterior, se vuelve a presentar el EC en las mismas condiciones que en la
primera fase de extinción. El test supondría únicamente la primera
13
presentación de esta tanda, pero la simulación se efectuó repitiendo el
procedimiento de extinción para observar si, como señalan los datos
empíricos, la segunda sesión de extinción es más rápida que la primera.
La duración total de la simulación es de 9350 segundos (más de dos horas y
media). Se lanzó la misma simulación 10 veces (es decir, para 10 agentes
ingenuos e independientes) con el fin de obtener un promedio representativo de
la emisión de la RC, puesto que ésta es un valor probabilístico que depende de
la ecuación 5.
Los valores de los parámetros utilizados para todas las simulaciones son
los siguientes:
Resultados
El objetivo de la preparación experimental empleada era mostrar los fenómenos
paradigmáticos del condicionamiento clásico, como son la adquisición de la
respuesta condicionada, su extinción y la recuperación espontánea. En las
figuras 1 a 6 se presentan los datos de la simulación, es decir, la dinámica de
cada una de las funciones del agente con respecto al EC que fue condicionado. El
agente muestra la activación del EC , en la figura 1; la asociación
excitatoria del EC con respecto al EI particular al que fue condicionado,
en la figura 2; la asociación inhibitoria del EC con respecto al EI Ntj en la
figura 3; la asociación total como la suma de fuerzas excitatorias e inhibitorias
del EC que estamos estudiando con independencia de las asociaciones de cualquier
conjunto de estímulos con los que el agente hubiera tenido experiencia Ttj en la
figura 4; la probabilidad de RC en cada presentación del EC, P(Rk)t en la figura
5 y finalmente, en la figura 6, una estimación de la emisión de la RC promedio
14
de 10 agentes ingenuos con respecto a la tarea de condicionamiento en cada una
de las tres fases del procedimiento.
(INTRODUCIR AQUÍ LAS FIGURAS 1 y 2)
Respecto a la adquisición, en la figura 1 se puede observar la evolución de la
activación del EC que aunque decrece (se va habituando) debido a la repetida la
presentación del EC, mantiene una respuesta (RO) aceptable superior al 70% alo
largo de los ensayos de condicionamiento. Obviamente, para ese número de
presentaciones, si el EC no fuera seguido del EI como corresponde a la a la fase
de adquisición, se hubiera habituado totalmente. En esta fase la función
asociativa excitatoria (figura 2) y la asociación total (figura 4) son
idénticas, dado que la función inhibitoria no se calcula cuando no hay ensayos
EC-noEI. Es decir, en la fase de adquisición, el EI aparece antes de que el EC
pierda su activación ( ec. 1, ) La probabilidad de emisión de la RC y el
promedio de emisión de la RC de 10 agentes muestran la típica curva de
adquisición sigmoidal creciente del condicionamiento clásico (figuras 5 y 6).
(INTRODUCIR AQUÍ LAS FIGURAS 3 y 4)
Respecto a la extinción, en la segunda fase del procedimiento, la activación del
EC en los primeros ensayos se recupera, después de los 5 minutos de inactividad
interfase, tal como cabía esperar y, dado que la segunda fase consiste en la
presentación exclusivamente del EC, éste se va habituando aunque no tanto ni tan
rápido como lo haría si tal EC no hubiera sido previamente condicionado. En
definitiva la evolución de la activación en la fase 2 (figura 1) funciona
normalmente tanto para lo que sería esperable desde la perspectiva de la
habituación como desde la perspectiva del condicionamiento. Con respecto a la
función excitatoria en esta fase de extinción, el sistema muestra que no hay
cambios en tal función (dado que no se presentan juntos EC-EI por lo que la
15
curva muestra estabilidad (figura 2). Por el contrario, la función inhibitoria,
con el comienzo de la primera fase de extinción, en los ensayos de presentación
EC-NADA y en particular EC-noEI, se activa (figura 3) lo cuan incide en la
asociación total (figura 4) y, naturalmente, en las funciones que controlan la
RC (figura 5 y 6). En consecuencia, la estimación de la RC en esta fase de
extinción, disminuye tanto porque disminuye la asociación total como porque
disminuye la activación del EC.
(INTRODUCIR AQUÍ LAS FIGURAS 5 y 6)
Los primeros ensayos de la fase 3, constituyen el procedimiento de evaluación
del fenómeno de la recuperación espontánea de la respuesta. En nuestro modelo se
produce este fenómeno fundamentalmente por la reactivación del EC (figura 1) que
a su vez es coincidente con los datos empíricos que conocemos de la habituación,
es decir, pasado un cierto tiempo después de la serie de presentaciones del EC
se recupera la RO. El paso del tiempo no afecta a las funciones asociativas
sino exclusivamente a la activación del EC. Sin embargo, el conjunto de ensayos
de extinción de la fase 3, es decir la segunda extinción muestra como la función
inhibitoria se pone en marcha de nuevo (figura 4) y ello contribuye junto a la
natural reducción de la activación del EC (serie de presentaciones del EC
aislado) a conseguir como efecto emergente una mas rápida extinción (figuras 5
y 6).
Discusión
El modelo presentado e implementado en la arquitectura de un agente autónomo que
se comunica con un contexto mediante un protocolo de comunicación TCP/IP da
cuenta de los fenómenos de condicionamiento clásico adquisición, extinción y
reextinción mayor y más rápida de la RC y, muy especialmente, de la recuperación
16
espontánea de la respuesta, fenómeno que como hemos señalado, ha resultado muy
difícil de reproducir en el contexto de la modelización formal.
Desde nuestra perspectiva la razón del éxito en la simulación de tales fenómenos
tiene dos fuentes de explicación. De una parte, la arquitectura del agente y,
de otra, el sistema dinámico de ecuaciones en diferencias que constituye el
modelo.
La arquitectura del agente permite que este:
a) procese cualquier evento generado por el contexto como independiente con
su propia línea de proceso, realizando los cálculos en tiempo real para
cada estímulo de las funciones mencionadas, de tal manera que la función
de activación se inicializa para cada estímulo nuevo, del que no se tengan
datos.
b) calcule el nivel de activación de cualquier estimulo del que se tengan
datos en función de su nivel de activación anterior.
c) calcule la asociación de un E con cualquier otro subsiguiente si coincide
que ambos tienen un valor de activación distinto de cero ( ) con
independencia de que sea considerado neutro o incondicionado, es decir,
con independencia de que tenga valor de incentivo.
d) calcule la asociación inhibitoria de un EC si habiendo calculado alguna
vez para dicho estímulo la asociación excitatoria no se presenta ningún
otro estímulo en el periodo en el que el EC está activado.
e) genere una estimación de la RC en función de la activación del EC en el
momento en que este se presenta y del grado de asociación total con el EI
en dicho momento.
17
El sistema dinámico de ecuaciones en diferencias que se ha implementado en el
agente incluye la función de activación de E que da cuenta de los fenómenos
estudiados bajo el epígrafe de habituación y las funciones de asociación
excitatoria e inhibitoria que contemplan como una de las variables para su
cálculo el nivel de activación de cada estímulo en todo momento. El hecho de
generar un sistema inclusivo de funciones integrado, abandonando la postura de
generar una función que de cuenta de los fenómenos de condicionamiento clásico
ha sido clave para el éxito de la simulación. Sin duda la clave ha sido tener en
cuenta que un agente que condiciona (asocia) necesariamente también habitúa y,
en consecuencia, tales procesos han de estar integrados formalmente.
Por otra parte y, como ya hemos apuntado anteriormente, la forma de las
funciones que hemos utilizado se corresponden con aquellas que han obtenido
mayor éxito en la simulación de cada uno de los procesos de habituación y
condicionamiento en la medida en que son capaces de reproducir el mayor número
de fenómenos con una razonable simplicidad. En el caso de la activación hemos
tomado como referencia la función desarrollada por Wang (1994) y en el caso del
condicionamiento hemos tenido en cuenta los supuestos teóricos que desde Pavlov,
asumen que en el proceso de extinción se pone en marcha un proceso activo
inhibitorio distinto del excitatorio, de menor intensidad que este último pero
que se puede representar por una función similar (véase Pearce y Hall, 1980;
Wagner, 1981; Bouton, 1994 Robbins, 1990). Ambas funciones asociativas son
funciones sigmoidales una creciente y otra decreciente expresadas mediante una
ecuación en diferencias.
Sin duda el procedimiento diseñado para simular la recuperación espontánea de
la RC es muy simple, aunque cumple con los requerimientos de los trabajos
empíricos para probar dicho fenómeno sin embargo, impide probar algunas de las
18
hipótesis en torno al papel del contexto, planteadas por Bouton (1993), Rosas y
Bouton (1997 y 1998) y Boston (2004) para explicar la recuperación espontánea de
la RC. El planteamiento de estos autores surge del dato empírico de que los
efectos de la extinción no se generalizan del mismo modo que los efectos de la
adquisición de manera que un pequeño cambio en el contexto permite que la
inhibición de la RC lograda con los ensayos de extinción (EC-noEI) produzca una
recuperación inmediata de lo adquirido anteriormente. En este sentido, Brooks y
Bouton (1993) plantean que la recuperación espontánea de la RC es debida a que
los sujetos discriminan que la nueva presentación de EC, aislado, mucho tiempo
después de los ensayos de una serie de extinción (la fase 3 de nuestro
procedimiento), ya no corresponden al mismo contexto de extinción en el que se
presentó la anterior serie de ensayos. Del mismo modo pequeños cambios en los
estímulos del contexto, estímulos que previamente estaban habituados podrían
alterar la producción de la RC.
Sin duda constituye un reto para la simulación, probar estas hipótesis ya que
exige una arquitectura capaz de procesar un gran número de estímulos
independientemente, aunque creemos que es asumible desde nuestro planteamiento.
El procedimiento exige que el agente se enfrente a un contexto en el que se
presente de manera continuada una serie de estímulos hasta que se habitúen y,
posteriormente, seguir el procedimiento seguido en la presente simulación en sus
fases de adquisición, extinción y reextinción con un nuevo estimulo (EC), de
manera que entre la fase 2 y 3, en lugar de esperar un tiempo largo,
introduzcamos un nuevo estímulo en el contexto y comprobar si como aseguran
estos autores nuestro modelo simula el fenómeno de recuperación que señalan los
datos empíricos.
19
No se nos escapa que el planteamiento de este trabajo constituye una descripción
formal del condicionamiento clásico cuya potencia descansa en la formulación de
ecuaciones en diferencias programadas en el contexto de una agente autónomo que
generan en tiempo real los datos de simulación pero que adquirirán toda su
importancia teórica en la medida en que sean capaces de reproducir, con los
mismos parámetros de las funciones, la totalidad de los fenómenos del
condicionamiento clásico y en especial los relacionados con la adquisición y
extinción, que exigen no solo reproducir la recuperación espontánea de la
respuesta post extinción sino la extinción cada vez mas rápida de las series de
extinción y la readquisición más rápida post adquisición y en general los
fenómenos del condicionamiento clásico descritos en la literatura (Rosas, 2002
y Bouton, 2004)
20
Referencias
Alonso, L., Moreno, R. Vazquez, M. Santacreu, J. (en prensa) Simulación de la
función de filtro de la habituación a estímulos. Aceptado en The Spanish
Journal of Psychology, febrero-2005.
Bouton, M. E. (2004) Context and Behavioral Processes in Extinction. Learning
&Memory,11:485-494
Bouton, M. E. (1993). Context, time, and memory retrieval in the interference
paradigms of Pavlovian learning. Psychological Bulletin, 114, 80–99.
Bouton, M. E. (1994). Conditioning, remembering, and forgetting. Journal of
Experimental Psychology: Animal Behavior Processes, 20, 219–231.
Bouton, M. E., y King, D. A. (1983). Effect of context with mixed histories of
reinforcement and nonreinforcement. Journal of Experimental Psychology:
Animal Behavior Processes, 12, 4–15.
Brooks, D. C. y Bouton, M. E. (1993). A retrieval cue for extinction attenuates
spontaneous recovery. Journal of Experimental Psychology: Animal Behavior
Processes, 19, 77-89.
Bouton, M. E., y Nelson, J. B. (1998). Mechanisms of feature-positive and
feature negative discrimination learning in an appetitive conditioning
paradigm. En N. A. Schmajuk y P. C. Holland (Eds.), Occasion Setting:
Associative Learning and Cognition in Animals (pp. 69-112). Washington, DC:
Americal Psychological Association.
Brooks, D. C. y Bouton, M. E. (1993). A retrieval cue for extinction attenuates
spontaneous recovery. Journal of Experimental Psychology: Animal Behavior
Processes, 19, 77-89.
21
Bush, R. R. y Mosteller, F. (1955). Stochastic Models for Learning. Nueva York:
Wiley.
Devenport, L. D. (1998). Spontaneous recovery without interference: why
remembering is adaptive. Animal Learning and Behavior, 26, 172-181.
Dickinson, A. y Burke, J. (1996). The essentials of conditioning and learning.
Pacific Grove: Brooks/Cole Publishing.
Goddard, M. J. (1997). Spontaneous recovery in US extinction. Learning and
motivation, 28, 118-128.
Hull, C. L. (1943). Principles of behavior. New York: Appleton-Century-Crofts.
Klopf, A. H. (1988). A neuronal model of classical conditioning. Psychobiology,
16 (2), 85-125.
Konorski, J. (1948). Conditioned reflex and neuron organisation. Cambridge:
Cambridge University Press.
Mackintosh, N.J. (1975). A theory of attention: Variations in the associability
of stimuli with reinforcement. Psychological Review, 82, 276-298.
Maes, J. H. R. y Vossen J. M. H. (2000). Training history affects magnitude of
spontaneous recovery from extinction of appetitive conditioned responding.
Behavioural Processes, 50, 43-57.
Miller, R. R., Kasprow, W. J. & Schachtman, T. R. (1986). Retrieval variability:
Sources and consequences. American Journal of Psychology, 99, 145-218.
Pavlov, I. P. (1927). Conditioned reflexes. London: Oxford University Press.
Pearce, J.M. (1987). A model for stimulus generalization in Pavlovian
conditioning. Psychological Review, 94, 61-73.
22
Pearce, J.M. y Hall, G. (1980). A model for Pavlovian learning: Variations in
the effectiveness of conditioned but not of unconditioned stimuli.
Psychological Review, 87, 532-552.
Rachlin, H. (1979). Comportamiento y aprendizaje. Barcelona: Ediciones Omega.
Rescorla, R. A. (1979). Conditioned inhibition and extinction. En A. Dickinson y
R. A. Boakes (Eds.), Mechanisms of learning and motivation: A memorial volume
to Jerzy Konorski (pp. 83–110). Hillsdale, NJ: Erlbaum.
Rescorla, R. A. (1997a). Spontaneous recovery after Pavlovian conditioning with
multiple outcomes. Animal Learning and Behavior, 25, 99-107.
Rescorla, R. A. (1997b). Spontaneous recovery of instrumental discriminative
responding. Animal Learning and Behavior, 25, 485-497.
Rescorla, R. A., y Cunningham, C. L. (1977). The erasure of reinstated fear.
Animal Learning and Behavior, 5, 386–394.
Rescorla, R. A., y Cunningham, C. L. (1978). Recovery of the US representation
over time during extinction. Learning and Motivation, 9, 373–391.
Rescorla, R. A., y Heth, C. D. (1975). Reinstatement of fear to an extinguished
conditioned stimulus. Journal of Experimental Psychology: Animal Behavior
Processes, 104, 88–96.
Rescorla, R. A. y Wagner, A. R. (1972). A theory of Pavlovian conditioning:
Variations in the effectiveness of reinforcement and nonreinforcement. En:
A.H. Black y W.F. Prokasy (Eds.), Classical conditioning II: Current
research and theory (pp. 64-99). Nueva York: Appleton-Century-Crofts.
Robbins, S. J. (1990). Mechanisms underlying spontaneous recovery in
autoshaping. Journal of Experimental Psychology: Animal Behavior Processes,
16, 235–249.
23
Rosas, J. M. y Bouton, M. E. (1996). Spontaneous recovery after extinction of a
conditioned taste aversion. Animal Learning and Behavior, 24, 341-348.
Rosas, J.M. (Ed) Teorías asociativas del aprendizaje. Ed Del Lunar. 2002.
Sandoz, J. C. (1998). Apprentissage olfactif chez l’abeille domestique (Apis
mellifera L.): étude comportamentelle et sensorielle. Ph.D. thesis,
University of Paris 13.
Schmajuk, N. A. y DiCarlo, J. J. (1992). Stimuli configuration, classical
conditioning, and hippocampal function. Psychological Review, 99, 268–305.
Schneiderman, N., Fuentes, I. y Gormezano, I. (1962). Acquisition and extinction
of the classically conditioned eyelid response in the albino rabbit.
Science, 136, 650-652.
Sutton, R. S. y Barto, A. G. (1981). Toward a modern theory of adaptive
networks: expectation and prediction. Psychological Review, 88, 135-170.
Sutton, R. S. y Barto, A. G. (1987). A temporal-difference model of classical
conditioning. Proceedings of the ninth conference of the cognitive science
society. Seattle, WA: Erlbaum.
Van Hamme, L. J. y Wasserman, E. A. (1994). Cue competition in causality
judgements: The role of nonpresentation of compound stimulus elements.
Learning and Motivation, 25, 127-151.
Wagner, A. R. (1981). SOP: A model of automatic memory processing in animal
behavior. En: N.E. Spear y R.R. Miller (Eds.), Information processing in
animals: Memory mechanisms (pp. 5-47). Hillsdale, NJ: Erlbaum.
Wagner, A. R. & Rescorla, R. A. (1972). Inhibition in Pavlovian conditioning:
Application of a theory.( In R. A. Boakes & M. S. Halliday (Eds.), Inhibition
and learning (pp. 301-336). New York: Academic Press.)
24
Wang, D. L. (1994). A neural model of synaptic plasticity underlying short-term
and long-term habituation. Adaptive Behavior, 2, 111-129.
25
Figura 1. Activación del estímulo condicionado a lo largo de 2 horas y media de
simulación. Nótese el corte que se produce durante las dos horas de descanso en
que no se presentan ni EC ni EI. Las tres fases implican 12 presentaciones del
EC. En adquisición se presenta EC-EI con intervalo entre estimulos de 2 seg.
26
Figura 2. Fuerza asociativa excitatoria ganada por el EC en la preparación
experimental descrita en el texto. Obsérvese que la ganancia en esta función
sólo se produce en la fase de adquisición.
27
Figura 3. Fuerza asociativa inhibitoria del estímulo condicionado (EC-no EI) a
lo largo de 2 horas y media de simulación. La ganancia en esta función se
produce sólo en las fases de extinción, permaneciendo invariable en los ensayos
EC-EI.
28
Figura 4. Fuerza asociativa total (neta) ganada por el estímulo condicionado a
lo largo de las 2 horas y media de simulación.
29