recuperación espontánea de la respuesta condicionada en un agente autónomo spontaneous recovery...

Madrid, Borrador de Santa: 21/10/2022

Recuperación Espontánea de la Respuesta Condicionada en un Agente Autónomo

Spontaneous Recovery of the Conditioned Response in an Autonomous Agent

Lola Alonso, Rafael Moreno*, Manuel Vázquez, Emilio del Rosal y José Santacreu

Universidad Autónoma de Madrid

*Universidad de Sevilla

Dirección de contacto:

José Santacreu Mas

Departamento de Psicología Biológica y de la Salud.

Universidad Autónoma de Madrid.

1

Ciudad Universitaria de Cantoblanco. 28049 Madrid. España

Correo-e: [email protected]

Recuperación Espontánea de la Respuesta Condicionada en un Agente Autónomo

Resumen

Los modelos formales expuestos en la literatura para explicar el

condicionamiento clásico tienen especial dificultad en exhibir la recuperación

espontánea de la respuesta condicionada. Se presenta un modelo matemático de

ecuaciones en diferencias capaz de exhibir muchos fenómenos de condicionamiento

clásico, y entre ellos, la recuperación espontánea, gracias a que cuenta con la

variable “activación del estímulo” que permite que tras el paso del tiempo

después de la extinción, la respuesta condicionada vuelva a manifestarse al

presentar el EC en la fase de test. Además, también cuenta con una asociación

inhibitoria, que es calculada cuando se produce la extinción, que explica parte

del proceso de extinción. El modelo integra en un único sistema de ecuaciones

las dos ideas clave que se han expuesto en la literatura para dar cuenta de la

recuperación espontánea, a saber, la extinción como un proceso: a) inhibitorio

producido por presentaciones del EC sin reforzar, y, b) transitorio, cuyos

efectos dejan de manifestarse con el paso del tiempo.

Palabras clave: modelos computacionales, simulación de procesos de aprendizaje,

condicionamiento clásico, extinción, recuperación espontánea.

2

Spontaneous Recovery of the Conditioned Response in an Autonomous Agent

Abstract

Key words: computational models, simulation of learning processes, classical

conditioning, extinction, spontaneous recovery.

3

El condicionamiento clásico ha sido un área de gran interés para la ciencia de

la conducta y muchos estudiosos del campo han desarrollado modelos que intentan

dar cuenta de los diversos fenómenos que tan amplio término engloba. El objetivo

del presente estudio es exponer un modelo formal que explica algunos de estos

fenómenos, centrándose principalmente en el logro de uno de los más difíciles de

conseguir mediante este tipo de modelos: la recuperación espontánea de la

respuesta condicionada. Recientemente, el fenómeno de la recuperación espontánea

ha recibido una notable atención en la literatura del aprendizaje animal (Brooks

y Bouton, 1993; Devenport, 1998; Goddard, 1997; Maes y Vossen, 2000; Rescorla,

1997; Rosas y Bouton, 1996).

La recuperación espontánea se refiere a la reaparición de una respuesta

condicionada (RC) ante un estímulo condicionado (EC) en una prueba realizada un

tiempo relativamente largo después de que la respuesta ha sido extinguida a lo

largo de presentaciones del EC sin ser acompañado de estímulo incondicionado

(EI). Desde la observación original de Pavlov (1927) está claro que durante la

extinción ocurre algo que no es la la eliminación de lo aprendido, puesto que

algunas de las asociaciones aprendidas durante el entrenamiento persisten

después de la extinción.

Se puede interpretar que lo que sucede en este fenómeno implica un proceso

inhibitorio de alguna clase, puesto que después de transformar un estímulo

neutro en un EC excitatorio tras haberlo emparejado con un EI, la retirada de

éste en la extinción da lugar, o bien a una asociación inhibitoria entre el EC y

el EI, o bien a la inhibición de la RC en presencia del EC. Esta asociación

inhibitoria EC-noEI interfiere con la asociación excitatoria, debilitando la RC.

Esta interpretación la mantienen las llamadas “teorías inhibitorias” (Konorski,

1948; Wagner, 1981; Bouton, 1993, 1994), que también sugieren que las

4

asociaciones inhibitorias tienen un carácter más lábil que las excitatorias. El

propio Pavlov (1927) atribuyó la recuperación espontánea a la disipación de un

proceso inhibitorio transitorio que suprimía la excitabilidad del nodo del EC.

Si el EC ya no es capaz de activar su representación central, no cabe esperar

ninguna RC, incluso si la asociación EC-EI permanece intacta. A los efectos de

representación formal, la teoría del proceso inhibitorio significaría que el

condicionamiento clásico no puede ser explicado mediante una sola función de

asociación, en la que, la presentación conjunta del EC-EI, contribuyera a la

asociación y la presentación del EC-noEI junto a la presentación de noEC-EI,

redujeran el grado de asociación, dado que si así fuera al final del

procedimiento adquisición-extinción el grado de asociación sería nulo. Las

teorías inhibitorias exigen que la función excitatoria sea diferente y mas

potente que la inhibitoria.

Si asumimos que el fenómeno de la recuperación espontánea de la RC tras un

período de descanso, se puede interpretar como un proceso transitorio que inhibe

las respuestas (RCs) al estímulo condicionado pero no produce un deterioro de lo

aprendido, puesto que después de un período de descanso esta inhibición

desaparece y las respuestas al EC reaparecen (Rescorla, 1997a; Sandoz, 1998)

entonces tenemos que asumir que la producción de la RC es función de la fuerza

asociativa pero también de una variable que se recupera (aumenta con el paso del

tiempo sin estimulación). Esto significa que cualquier modelo formal que trate

de reproducir el fenómeno de condicionamiento clásico habrá de contemplar que:

a) se producen tanto asociaciones excitatorias como inhibitorias y b) que el

grado de activación de los estímulos (una variable sensible al paso del tiempo

en función de la última presentación) ha de estar implicada en la producción de

la RC.

5

De acuerdo con este planteamiento, los modelos que no contemplan el paso

del tiempo, no pueden a) exhibir el fenómeno de la recuperación espontánea; b)

la dependencia de la RC del intervalo entre estímulos (mayor magnitud de la RC

cuanta mayor contigüidad entre estímulos); c) el efecto de la práctica

distribuida (el hecho de que, a igualdad de ensayos y probabilidades, cuanto más

distanciados entre ellos aparezcan los emparejamientos, más condicionamiento se

produce), etc. como ocurre con los modelos de Rescorla y Wagner, 1972;

Mackintosh, 1975; Pearce y Hall, 1980; Pearce, 1987; Van Hamme y Wasserman,

1994; Dickinson y Burke, 1996.Además, dichos modelos, que sin duda constituyen

la historia del progreso de la simulación del aprendizaje asociativo, no generan

sus soluciones en tiempo real como sería deseable, como lo hacen los planteados

por Sutton y Barto (1981), el modelo SOP de Wagner (1981), Klopf (1988), el

modelo TD de Sutton y Barto (1987), y Schmajuk-DiCarlo (1992). Sin embargo,

estos modelos tienen el inconveniente de no explicar la recuperación espontánea

de la RC. Así pues nos encontramos ante un fenómeno que no es fácil de

reproducir mediante modelos formales.

La solución a este problema ha surgido como un fenómeno emergente al tratar

de construir un agente autónomo con capacidad de aprendizaje en el que los

distintos procesos de aprendizaje (Habituación, sensibilización, C. Clásico:

asociación entre eventos contextuales y C. instrumental: asociación entre

acciones del agente y eventos del contexto) funcionaran simultáneamente ante

cualquier estimulación del contexto. No hemos tratado de generar un modelo para

explicar un fenómeno de aprendizaje específico de condicionamiento clásico sino

de contemplar un agente que habitúa ante la presentación repetida de un evento

y, si se dan las circunstancias adecuadas, aprende, extingue o recupera

espontáneamente la respuesta condicionada.

6

El modelo que se presenta fusiona los planteamientos hasta aquí expuestos

de la siguiente manera:

a) Cuenta con un proceso de control de la activación del EC que se ajusta

al proceso de habituación readuciéndose ésta cuando dicho estimulo se

presenta repetidamente y recuperándose cuando pasa cierto tiempo. La

función de habituación se fusiona con las funciones de

condicionamiento de manera que éstas contienen a las primeras,

b) Incluye dos funciones de asociación que son función tanto de la

contingencia entre ambos estímulos como de la contigüidad temporal entre

los mismos. Una asociación excitatoria del EC en la fase de adquisición

y una asociación inhibitoria EC-no EI en la extinción, de manera que la

producción de la RC es función de la asociación total (la suma de las

excitatoria e inhibitoria) y de la activación del EC que se presente.

Por ello, el objetivo fundamental de este trabajo consiste en mostrar los

mecanismos por los cuales se produce el fenómeno de la recuperación espontánea a

través de las ecuaciones en diferencias que componen el modelo, tomando las dos

ideas clásicas mencionadas en la literatura, a saber, la extinción de la

respuesta condicionada como un proceso inhibitorio, por un lado, y como un

proceso transitorio, por otro,

Alternativamente a la descripción de la extinción como un proceso

inhibitorio y transitorio, Brooks y Bouton (1993) plantean que la extinción no

es un condicionamiento inhibitorio en el que hay una asociación EC-no EI, sino

que en ella desempeña un papel fundamental el contexto, pues constituye el medio

que permite la recuperación de lo aprendido. Un hecho que sostiene este

planteamiento es que al contrario que en la adquisición de la respuesta, la

extinción no se generaliza a nuevos contextos: lo que se ha extinguido en un

7

contexto no se mantendrá inhibido en otro distinto. De hecho pequeños cambios en

los elementos del contexto en el que una RC está habituada facilitan la

recuperación de dicha respuesta (Bouton y Nelson, 1998; Bouton, 2004). Del mismo

modo un largo periodo de tiempo post la sesión de extinción puede reinstaurar la

RC, lo que se ha explicado como el efecto de un cambio en el contexto temporal

de la extinción (Rosas y Bouton, 19971998) . Esta propiedad es muy similar a la

descrita para la habituación, lo que sugiere que ambos procesos pueden ser

explicados en términos de un sistema de aprendizaje que adquiere, finalmente,

una influencia inhibitoria en la respuesta de orientación o en la RC. Así lo

plantea Robbins (1990), como una de las alternativas plausibles en la

explicación de la extinción. Este autor sugiere que un descenso temporal en la

atención que se presta a un EC contribuye a la extinción (reacuérdese que el

procedimiento de extinción es similar al procedimiento de habituación) y que la

recuperación de la atención que se da después de pasado un cierto tiempo sin

presentar el EC puede explicar la recuperación espontánea de la RC.

Precisamente, el modelo implementado en el agente que presentamos en el

siguiente apartado, es capaz de integrar los fenómenos de habituación (Alonso,

en prensa) con los de condicionamiento clásico, y, en particular, la

recuperación espontánea de la respuesta de orientación se produce a través del

mismo mecanismo que la recuperación espontánea de la RC, por lo que la

“sinergia” al considerar ambos tipos de aprendizaje como partes indisolubles de

un único sistema de aprendizaje puede ser la clave de la explicación del

fenómeno de la recuperación espontánea.

8

Método

Para simular el fenómeno de la recuperación espontánea de la RC en hemos

dispuesto un agente autónomo que se relaciona con un contexto a través de un

programa de comunicaciones TCP/IP. El contexto genera los estímulos apropiados

de acuerdo con un programa temporal que permiten reproducir el procedimiento de

adquisición, posterior extinción y pasado un amplio periodo de descanso de nuevo

extinción. El agente autónomo calcula para cada elemento una serie de funciones

que permiten la habituación y el condicionamiento.

Funciones del modelo

Todas las funciones propuestas funcionan en tiempo real (cada una de sus

iteraciones representa 1 segundo de tiempo real) y están formuladas en forma de

ecuaciones en diferencias, en las que el valor para el momento actual se calcula

basándose en alguna transformación del valor en el momento inmediatamente

anterior. Asimismo, todas las funciones comienzan teniendo valor 0 y están

definidas entre 0 y 1 excepto la correspondiente a la asociación inhibitoria

definida entre 0 y –1. En cuanto a la notación general que será usada de ahora

en adelante, el subíndice j hace referencia a los estímulos condicionados, i a

los incondicionados y k a las respuestas condicionadas. Nótese que las

ecuaciones forman parte de un sistema acoplado aunque se describen por separado

para simplificar la explicación.

En primer lugar, la función , da cuenta del grado de activación en el

agente de cualquier evento del contexto en todo momento. Está definida como:

(ec. 1)

9

donde es un parámetro que determina la velocidad de decaimiento de la

activación del elemento j, es la intensidad del estímulo j (y de hecho, en la

primera presentación del estímulo, ), que puede oscilar entre 0 y 1. La

ecuación 1 incluye otra ecuación en diferencias, , llamada función de

disponibilidad del estímulo. Dicha función que determina la potencial activación

de un estimulo particular si se presentara en el momento t, es un función

sigmoidal creciente como la propuesta en el modelo de la habituación de Wang

(1994) con la particularidad de que es sensible (aumenta su tasa de crecimiento)

cuando el estímulo en cuestión se asocia con cualquier otro estímulo debido a la

contigüidad temporal del mismo. Esta función permite que se recupere la

potencial activación ( ) del E en función no solo del paso del tiempo sino

tambien de la presentación de otro estímulo, lo que contribuye a deshabituar la

respuesta de orientación (RO) y, por consiguiente, a impedir la habituación de

un estímulo que se está condicionando. La función es la responsable directa

del decaimiento exponencial de la huella del estímulo, da cuenta de los

fenómenos de habituación y sensibilización y, por tanto, de la asociabilidad del

mismo a lo largo del tiempo. La dinámica de la ecuación puede observarse en

la Figura 1.

Al igual que en el modelo de Mackintosh (1975), pero a diferencia del de

Rescorla y Wagner (1972), en el que aquí se presenta, el procesamiento

(activación) del EI es independiente y no depende de lo que ocurra con otros ECs

presentes en la situación. En el modelo propuesto, se calcula la activación del

EI del mismo modo que la de cualquier evento teniendo en cuenta que la

10

intensidad del estímulo se considera máxima y la disponibilidad del mismo se

alcanza totalmente en el ciclo siguiente a una presentación.

Para modelizar los fenómenos de condicionamiento clásico, al igual que en

el modelo SOP de Wagner, (1981) proponemos tres funciones asociativas: la

excitatoria, la inhibitoria, de carácter opuesto a la excitatoria y la total

(suma de las dos anteriores). En primer lugar, la función asociativa excitatoria

es sigmoidal creciente y se define como:

(ec. 2)

donde es la tasa de aprendizaje que es un parámetro libre; es un parámetro

que señala el valor mínimo inicial. La función de crecimiento de

sigmoidal, permite una simulación mas adecuada de la curva de adquisición que la

exponencial negativamente acelerada (más sencilla) que se ha propuesto en

anteriores modelos. En ella, se incluyen las activaciones del EC ( ) y del EI

( ) como representantes de la asociabilidad de dichos estímulos, así como de

su contigüidad temporal, de forma que, cuanto más cercanos en el tiempo

aparezcan, más activos estarán y más asociación se gana en un ensayo concreto.

De esta forma se acoplan las funciones de activación estimular (construidas para

la habituación estimular) con las propias de la asociación.

Además, la estructura del agente permite el calculo de la función

asociativa excitatoria a cualquier par de eventos del contexto sean estos dos

estímulos neutros, o dos estímulos ya condicionados, lo que permite el

desarrollo de condicionamiento de segundo orden.

Hace mucho tiempo se ha propuesto el establecimiento de una asociación

inhibitoria durante la extinción (Konorski, 1948; vease la revisión de Boston,

11

1993) y se ha incorporado a modelos formales como el de Pearce y Hall, (1980).

En nuestro caso al igual que en el modelo de Pearce y Hall (1980), se supone que

el condicionamiento inhibitorio se produce por la formación de una asociación

EC-noEI, pero, a diferencia de estos autores, contemplamos la ausencia de EI en

general, en lugar de omisión de un EI esperado ya predicho por el EC. En este

modelo, se define la fuerza asociativa inhibitoria a través de la siguiente

ecuación:

(ec. 3)

donde los parámetros tienen idéntico significado al que tenían en la ecuación 2,

aunque hay algunos cambios. En primer lugar, nótese que esta función adquiere

valores negativos conforme se va calculando en los ensayos pertinentes de EC-

noEI y que su decremento es más lento que el de la función excitatoria al

dividir por un número (α/2) al igual que en el modelo SOP de Wagner (1981, p.

21).

En este modelo, como en Pearce y Hall (1980) y Wagner (1981), no se asume

que los procesos excitatorios sean cualitativamente diferentes de los

inhibitorios, por lo que la fuerza asociativa total es la suma de las fuerzas

excitatoria e inhibitoria y, a diferencia de las anteriores, se calcula para

todo momento t, como se muestra en la siguiente ecuación:

(ec. 4)

De esta manera, para un mismo EC j, su poder predictivo respecto a un EI i, es

una “suma” de las veces en que lo ha predicho y de las veces en que no. Este

término se utiliza para el cálculo de la estimación de la probabilidad de

emisión de RC, como se indica en:

12

(ec. 5)

Esta ecuación permite la aparición de respuestas condicionadas, tanto en función

del proceso de adquisición y por tanto cuando , como en función de la

activación del EC y, por tanto, cuando .

Una ventaja del modelo es que permite simular una relación no lineal entre

la fuerza asociativa y la RC, puesto que aquélla interactúa con la activación

para producir la respuesta (ec.5). Otros modelos, como el de Dickinson y Burke

(1996), sin embargo, basan sus predicciones únicamente en la fuerza asociativa,

como sinónimo de fuerza de respuesta perdiendo el efecto del intervalo EC-EI

que recoge la variable Atj de la ecuación 5.

Procedimiento

Todas gráficas que se presentan en este trabajo son el resultado de la

siguiente preparación experimental:

a) Adquisición: se hacen 12 emparejamientos (hasta la asíntota de emisión de

RCs) EC-EI, ambos con la máxima intensidad, en intervalos

de un minuto cada uno. El desfase entre la aparición del EC y la aparición

del EI es de 2 segundos, y ambos tienen una duración de 1 segundo.

b) Extinción: 5 minutos después de la fase anterior se presenta el EC otras

12 veces en iguales condiciones que en la fase de adquisición, excepto

que no se presenta en ningún momento el estímulo incondicionado.

c) Test de recuperación espontánea y extinción: 2 horas después de la fase

anterior, se vuelve a presentar el EC en las mismas condiciones que en la

primera fase de extinción. El test supondría únicamente la primera

13

presentación de esta tanda, pero la simulación se efectuó repitiendo el

procedimiento de extinción para observar si, como señalan los datos

empíricos, la segunda sesión de extinción es más rápida que la primera.

La duración total de la simulación es de 9350 segundos (más de dos horas y

media). Se lanzó la misma simulación 10 veces (es decir, para 10 agentes

ingenuos e independientes) con el fin de obtener un promedio representativo de

la emisión de la RC, puesto que ésta es un valor probabilístico que depende de

la ecuación 5.

Los valores de los parámetros utilizados para todas las simulaciones son

los siguientes:

Resultados

El objetivo de la preparación experimental empleada era mostrar los fenómenos

paradigmáticos del condicionamiento clásico, como son la adquisición de la

respuesta condicionada, su extinción y la recuperación espontánea. En las

figuras 1 a 6 se presentan los datos de la simulación, es decir, la dinámica de

cada una de las funciones del agente con respecto al EC que fue condicionado. El

agente muestra la activación del EC , en la figura 1; la asociación

excitatoria del EC con respecto al EI particular al que fue condicionado,

en la figura 2; la asociación inhibitoria del EC con respecto al EI Ntj en la

figura 3; la asociación total como la suma de fuerzas excitatorias e inhibitorias

del EC que estamos estudiando con independencia de las asociaciones de cualquier

conjunto de estímulos con los que el agente hubiera tenido experiencia Ttj en la

figura 4; la probabilidad de RC en cada presentación del EC, P(Rk)t en la figura

5 y finalmente, en la figura 6, una estimación de la emisión de la RC promedio

14

de 10 agentes ingenuos con respecto a la tarea de condicionamiento en cada una

de las tres fases del procedimiento.

(INTRODUCIR AQUÍ LAS FIGURAS 1 y 2)

Respecto a la adquisición, en la figura 1 se puede observar la evolución de la

activación del EC que aunque decrece (se va habituando) debido a la repetida la

presentación del EC, mantiene una respuesta (RO) aceptable superior al 70% alo

largo de los ensayos de condicionamiento. Obviamente, para ese número de

presentaciones, si el EC no fuera seguido del EI como corresponde a la a la fase

de adquisición, se hubiera habituado totalmente. En esta fase la función

asociativa excitatoria (figura 2) y la asociación total (figura 4) son

idénticas, dado que la función inhibitoria no se calcula cuando no hay ensayos

EC-noEI. Es decir, en la fase de adquisición, el EI aparece antes de que el EC

pierda su activación ( ec. 1, ) La probabilidad de emisión de la RC y el

promedio de emisión de la RC de 10 agentes muestran la típica curva de

adquisición sigmoidal creciente del condicionamiento clásico (figuras 5 y 6).


Respecto a la extinción, en la segunda fase del procedimiento, la activación del

EC en los primeros ensayos se recupera, después de los 5 minutos de inactividad

interfase, tal como cabía esperar y, dado que la segunda fase consiste en la

presentación exclusivamente del EC, éste se va habituando aunque no tanto ni tan

rápido como lo haría si tal EC no hubiera sido previamente condicionado. En

definitiva la evolución de la activación en la fase 2 (figura 1) funciona

normalmente tanto para lo que sería esperable desde la perspectiva de la

habituación como desde la perspectiva del condicionamiento. Con respecto a la

función excitatoria en esta fase de extinción, el sistema muestra que no hay

cambios en tal función (dado que no se presentan juntos EC-EI por lo que la

15

curva muestra estabilidad (figura 2). Por el contrario, la función inhibitoria,

con el comienzo de la primera fase de extinción, en los ensayos de presentación

EC-NADA y en particular EC-noEI, se activa (figura 3) lo cuan incide en la

asociación total (figura 4) y, naturalmente, en las funciones que controlan la

RC (figura 5 y 6). En consecuencia, la estimación de la RC en esta fase de

extinción, disminuye tanto porque disminuye la asociación total como porque

disminuye la activación del EC.


Los primeros ensayos de la fase 3, constituyen el procedimiento de evaluación

del fenómeno de la recuperación espontánea de la respuesta. En nuestro modelo se

produce este fenómeno fundamentalmente por la reactivación del EC (figura 1) que

a su vez es coincidente con los datos empíricos que conocemos de la habituación,

es decir, pasado un cierto tiempo después de la serie de presentaciones del EC

se recupera la RO. El paso del tiempo no afecta a las funciones asociativas

sino exclusivamente a la activación del EC. Sin embargo, el conjunto de ensayos

de extinción de la fase 3, es decir la segunda extinción muestra como la función

inhibitoria se pone en marcha de nuevo (figura 4) y ello contribuye junto a la

natural reducción de la activación del EC (serie de presentaciones del EC

aislado) a conseguir como efecto emergente una mas rápida extinción (figuras 5

y 6).

Discusión

El modelo presentado e implementado en la arquitectura de un agente autónomo que

se comunica con un contexto mediante un protocolo de comunicación TCP/IP da

cuenta de los fenómenos de condicionamiento clásico adquisición, extinción y

reextinción mayor y más rápida de la RC y, muy especialmente, de la recuperación

16

espontánea de la respuesta, fenómeno que como hemos señalado, ha resultado muy

difícil de reproducir en el contexto de la modelización formal.

Desde nuestra perspectiva la razón del éxito en la simulación de tales fenómenos

tiene dos fuentes de explicación. De una parte, la arquitectura del agente y,

de otra, el sistema dinámico de ecuaciones en diferencias que constituye el

modelo.

La arquitectura del agente permite que este:

a) procese cualquier evento generado por el contexto como independiente con

su propia línea de proceso, realizando los cálculos en tiempo real para

cada estímulo de las funciones mencionadas, de tal manera que la función

de activación se inicializa para cada estímulo nuevo, del que no se tengan

datos.

b) calcule el nivel de activación de cualquier estimulo del que se tengan

datos en función de su nivel de activación anterior.

c) calcule la asociación de un E con cualquier otro subsiguiente si coincide

que ambos tienen un valor de activación distinto de cero ( ) con

independencia de que sea considerado neutro o incondicionado, es decir,

con independencia de que tenga valor de incentivo.

d) calcule la asociación inhibitoria de un EC si habiendo calculado alguna

vez para dicho estímulo la asociación excitatoria no se presenta ningún

otro estímulo en el periodo en el que el EC está activado.

e) genere una estimación de la RC en función de la activación del EC en el

momento en que este se presenta y del grado de asociación total con el EI

en dicho momento.

17

El sistema dinámico de ecuaciones en diferencias que se ha implementado en el

agente incluye la función de activación de E que da cuenta de los fenómenos

estudiados bajo el epígrafe de habituación y las funciones de asociación

excitatoria e inhibitoria que contemplan como una de las variables para su

cálculo el nivel de activación de cada estímulo en todo momento. El hecho de

generar un sistema inclusivo de funciones integrado, abandonando la postura de

generar una función que de cuenta de los fenómenos de condicionamiento clásico

ha sido clave para el éxito de la simulación. Sin duda la clave ha sido tener en

cuenta que un agente que condiciona (asocia) necesariamente también habitúa y,

en consecuencia, tales procesos han de estar integrados formalmente.

Por otra parte y, como ya hemos apuntado anteriormente, la forma de las

funciones que hemos utilizado se corresponden con aquellas que han obtenido

mayor éxito en la simulación de cada uno de los procesos de habituación y

condicionamiento en la medida en que son capaces de reproducir el mayor número

de fenómenos con una razonable simplicidad. En el caso de la activación hemos

tomado como referencia la función desarrollada por Wang (1994) y en el caso del

condicionamiento hemos tenido en cuenta los supuestos teóricos que desde Pavlov,

asumen que en el proceso de extinción se pone en marcha un proceso activo

inhibitorio distinto del excitatorio, de menor intensidad que este último pero

que se puede representar por una función similar (véase Pearce y Hall, 1980;

Wagner, 1981; Bouton, 1994 Robbins, 1990). Ambas funciones asociativas son

funciones sigmoidales una creciente y otra decreciente expresadas mediante una

ecuación en diferencias.

Sin duda el procedimiento diseñado para simular la recuperación espontánea de

la RC es muy simple, aunque cumple con los requerimientos de los trabajos

empíricos para probar dicho fenómeno sin embargo, impide probar algunas de las

18

hipótesis en torno al papel del contexto, planteadas por Bouton (1993), Rosas y

Bouton (1997 y 1998) y Boston (2004) para explicar la recuperación espontánea de

la RC. El planteamiento de estos autores surge del dato empírico de que los

efectos de la extinción no se generalizan del mismo modo que los efectos de la

adquisición de manera que un pequeño cambio en el contexto permite que la

inhibición de la RC lograda con los ensayos de extinción (EC-noEI) produzca una

recuperación inmediata de lo adquirido anteriormente. En este sentido, Brooks y

Bouton (1993) plantean que la recuperación espontánea de la RC es debida a que

los sujetos discriminan que la nueva presentación de EC, aislado, mucho tiempo

después de los ensayos de una serie de extinción (la fase 3 de nuestro

procedimiento), ya no corresponden al mismo contexto de extinción en el que se

presentó la anterior serie de ensayos. Del mismo modo pequeños cambios en los

estímulos del contexto, estímulos que previamente estaban habituados podrían

alterar la producción de la RC.

Sin duda constituye un reto para la simulación, probar estas hipótesis ya que

exige una arquitectura capaz de procesar un gran número de estímulos

independientemente, aunque creemos que es asumible desde nuestro planteamiento.

El procedimiento exige que el agente se enfrente a un contexto en el que se

presente de manera continuada una serie de estímulos hasta que se habitúen y,

posteriormente, seguir el procedimiento seguido en la presente simulación en sus

fases de adquisición, extinción y reextinción con un nuevo estimulo (EC), de

manera que entre la fase 2 y 3, en lugar de esperar un tiempo largo,

introduzcamos un nuevo estímulo en el contexto y comprobar si como aseguran

estos autores nuestro modelo simula el fenómeno de recuperación que señalan los

datos empíricos.

19

No se nos escapa que el planteamiento de este trabajo constituye una descripción

formal del condicionamiento clásico cuya potencia descansa en la formulación de

ecuaciones en diferencias programadas en el contexto de una agente autónomo que

generan en tiempo real los datos de simulación pero que adquirirán toda su

importancia teórica en la medida en que sean capaces de reproducir, con los

mismos parámetros de las funciones, la totalidad de los fenómenos del

condicionamiento clásico y en especial los relacionados con la adquisición y

extinción, que exigen no solo reproducir la recuperación espontánea de la

respuesta post extinción sino la extinción cada vez mas rápida de las series de

extinción y la readquisición más rápida post adquisición y en general los

fenómenos del condicionamiento clásico descritos en la literatura (Rosas, 2002

y Bouton, 2004)

20

Referencias

Alonso, L., Moreno, R. Vazquez, M. Santacreu, J. (en prensa) Simulación de la

función de filtro de la habituación a estímulos. Aceptado en The Spanish

Journal of Psychology, febrero-2005.

Bouton, M. E. (2004) Context and Behavioral Processes in Extinction. Learning

&Memory,11:485-494

Bouton, M. E. (1993). Context, time, and memory retrieval in the interference

paradigms of Pavlovian learning. Psychological Bulletin, 114, 80–99.

Bouton, M. E. (1994). Conditioning, remembering, and forgetting. Journal of

Experimental Psychology: Animal Behavior Processes, 20, 219–231.

Bouton, M. E., y King, D. A. (1983). Effect of context with mixed histories of

reinforcement and nonreinforcement. Journal of Experimental Psychology:

Animal Behavior Processes, 12, 4–15.

Brooks, D. C. y Bouton, M. E. (1993). A retrieval cue for extinction attenuates

spontaneous recovery. Journal of Experimental Psychology: Animal Behavior

Processes, 19, 77-89.

Bouton, M. E., y Nelson, J. B. (1998). Mechanisms of feature-positive and

feature negative discrimination learning in an appetitive conditioning

paradigm. En N. A. Schmajuk y P. C. Holland (Eds.), Occasion Setting:

Associative Learning and Cognition in Animals (pp. 69-112). Washington, DC:

Americal Psychological Association.

Brooks, D. C. y Bouton, M. E. (1993). A retrieval cue for extinction attenuates

spontaneous recovery. Journal of Experimental Psychology: Animal Behavior

Processes, 19, 77-89.

21

Bush, R. R. y Mosteller, F. (1955). Stochastic Models for Learning. Nueva York:

Wiley.

Devenport, L. D. (1998). Spontaneous recovery without interference: why

remembering is adaptive. Animal Learning and Behavior, 26, 172-181.

Dickinson, A. y Burke, J. (1996). The essentials of conditioning and learning.

Pacific Grove: Brooks/Cole Publishing.

Goddard, M. J. (1997). Spontaneous recovery in US extinction. Learning and

motivation, 28, 118-128.

Hull, C. L. (1943). Principles of behavior. New York: Appleton-Century-Crofts.

Klopf, A. H. (1988). A neuronal model of classical conditioning. Psychobiology,

16 (2), 85-125.

Konorski, J. (1948). Conditioned reflex and neuron organisation. Cambridge:

Cambridge University Press.

Mackintosh, N.J. (1975). A theory of attention: Variations in the associability

of stimuli with reinforcement. Psychological Review, 82, 276-298.

Maes, J. H. R. y Vossen J. M. H. (2000). Training history affects magnitude of

spontaneous recovery from extinction of appetitive conditioned responding.

Behavioural Processes, 50, 43-57.

Miller, R. R., Kasprow, W. J. & Schachtman, T. R. (1986). Retrieval variability:

Sources and consequences. American Journal of Psychology, 99, 145-218.

Pavlov, I. P. (1927). Conditioned reflexes. London: Oxford University Press.

Pearce, J.M. (1987). A model for stimulus generalization in Pavlovian

conditioning. Psychological Review, 94, 61-73.

22

Pearce, J.M. y Hall, G. (1980). A model for Pavlovian learning: Variations in

the effectiveness of conditioned but not of unconditioned stimuli.

Psychological Review, 87, 532-552.

Rachlin, H. (1979). Comportamiento y aprendizaje. Barcelona: Ediciones Omega.

Rescorla, R. A. (1979). Conditioned inhibition and extinction. En A. Dickinson y

R. A. Boakes (Eds.), Mechanisms of learning and motivation: A memorial volume

to Jerzy Konorski (pp. 83–110). Hillsdale, NJ: Erlbaum.

Rescorla, R. A. (1997a). Spontaneous recovery after Pavlovian conditioning with

multiple outcomes. Animal Learning and Behavior, 25, 99-107.

Rescorla, R. A. (1997b). Spontaneous recovery of instrumental discriminative

responding. Animal Learning and Behavior, 25, 485-497.

Rescorla, R. A., y Cunningham, C. L. (1977). The erasure of reinstated fear.

Animal Learning and Behavior, 5, 386–394.

Rescorla, R. A., y Cunningham, C. L. (1978). Recovery of the US representation

over time during extinction. Learning and Motivation, 9, 373–391.

Rescorla, R. A., y Heth, C. D. (1975). Reinstatement of fear to an extinguished

conditioned stimulus. Journal of Experimental Psychology: Animal Behavior

Processes, 104, 88–96.

Rescorla, R. A. y Wagner, A. R. (1972). A theory of Pavlovian conditioning:

Variations in the effectiveness of reinforcement and nonreinforcement. En:

A.H. Black y W.F. Prokasy (Eds.), Classical conditioning II: Current

research and theory (pp. 64-99). Nueva York: Appleton-Century-Crofts.

Robbins, S. J. (1990). Mechanisms underlying spontaneous recovery in

autoshaping. Journal of Experimental Psychology: Animal Behavior Processes,

16, 235–249.

23

Rosas, J. M. y Bouton, M. E. (1996). Spontaneous recovery after extinction of a

conditioned taste aversion. Animal Learning and Behavior, 24, 341-348.

Rosas, J.M. (Ed) Teorías asociativas del aprendizaje. Ed Del Lunar. 2002.

Sandoz, J. C. (1998). Apprentissage olfactif chez l’abeille domestique (Apis

mellifera L.): étude comportamentelle et sensorielle. Ph.D. thesis,

University of Paris 13.

Schmajuk, N. A. y DiCarlo, J. J. (1992). Stimuli configuration, classical

conditioning, and hippocampal function. Psychological Review, 99, 268–305.

Schneiderman, N., Fuentes, I. y Gormezano, I. (1962). Acquisition and extinction

of the classically conditioned eyelid response in the albino rabbit.

Science, 136, 650-652.

Sutton, R. S. y Barto, A. G. (1981). Toward a modern theory of adaptive

networks: expectation and prediction. Psychological Review, 88, 135-170.

Sutton, R. S. y Barto, A. G. (1987). A temporal-difference model of classical

conditioning. Proceedings of the ninth conference of the cognitive science

society. Seattle, WA: Erlbaum.

Van Hamme, L. J. y Wasserman, E. A. (1994). Cue competition in causality

judgements: The role of nonpresentation of compound stimulus elements.

Learning and Motivation, 25, 127-151.

Wagner, A. R. (1981). SOP: A model of automatic memory processing in animal

behavior. En: N.E. Spear y R.R. Miller (Eds.), Information processing in

animals: Memory mechanisms (pp. 5-47). Hillsdale, NJ: Erlbaum.

Wagner, A. R. & Rescorla, R. A. (1972). Inhibition in Pavlovian conditioning:

Application of a theory.( In R. A. Boakes & M. S. Halliday (Eds.), Inhibition

and learning (pp. 301-336). New York: Academic Press.)

24

Wang, D. L. (1994). A neural model of synaptic plasticity underlying short-term

and long-term habituation. Adaptive Behavior, 2, 111-129.

25

Figura 1. Activación del estímulo condicionado a lo largo de 2 horas y media de

simulación. Nótese el corte que se produce durante las dos horas de descanso en

que no se presentan ni EC ni EI. Las tres fases implican 12 presentaciones del

EC. En adquisición se presenta EC-EI con intervalo entre estimulos de 2 seg.

26

Figura 2. Fuerza asociativa excitatoria ganada por el EC en la preparación

experimental descrita en el texto. Obsérvese que la ganancia en esta función

sólo se produce en la fase de adquisición.

27

Figura 3. Fuerza asociativa inhibitoria del estímulo condicionado (EC-no EI) a

lo largo de 2 horas y media de simulación. La ganancia en esta función se

produce sólo en las fases de extinción, permaneciendo invariable en los ensayos

EC-EI.

28

Figura 4. Fuerza asociativa total (neta) ganada por el estímulo condicionado a

lo largo de las 2 horas y media de simulación.

29

Figura 5. Probabilidad de emisión de la respuesta condicionada, , a

lo largo del tiempo.

30

Figura 6. Perfil de la probabilidad de emisión de la respuesta condicionada.

obtenido con los valores de la misma en el momento de aparición del EC, y media

de las respuestas condicionadas emitidas por 10 simulaciones independientes.

31

recuperación espontánea de la respuesta condicionada en un agente autónomo spontaneous recovery...

Documents