tema5aprendizaje
DESCRIPTION
Tema 5 Psicología del Aprendizaje UNED - 2015TRANSCRIPT
TEMA 5
PROGRAMAS DE Y TEORÍAS DE REFORZAMIENTO
1. PROGRAMAS DE REFORZAMIENTO
En los programas de reforzamiento se puede apreciar la relación funcional existente entre el
estímulo discriminativo, la respuesta operante y el reforzador.
1.1 Programas básicos de reforzamiento
Es la forma en que se programan los reforzadores contingentemente con la emisión de una
respuesta operante. A un nivel básico podemos distinguir el reforzamiento parcial y el
reforzamiento continuo, produciendo el primero un aprendizaje más duradero, que
posteriormente resulta más difícil de extinguir.
En cuanto a la forma de programar los reforzadores podemos clasificarlos en dos grandes
bloques:
Los programas de razón: donde se estipula que se debe emitir un determinado número
de respuestas antes de que la última de ellas sea reforzada (por ejemplo, que la rata
pulse 50 veces la palanca). A su vez , los programa de razón se subdividen:
Programas de razón fija: el número de respuestas requerido para que se
administre el reforzador siempre es el mismo, de manera que consistentemente
se tiene que dar el mismo número de respuestas para conseguir cada reforzador.
Nos referiremos a ellos como RF. (un ejemplo, el mismo de antes, cada 50 veces
que la rata pulse la palanca, obtendrá una bolita de comida)
Programas de razón variable: requiere un número de respuestas que varía de
una ocasión a la siguiente de manera irregular alrededor de un número promedio
de respuestas por cada reforzador. Se abrevia como RV. (por ejemplo, RV50,
significa que de media deberá pulsarse la palanca 50 veces para conseguir la
bolita, es decir, en un experimento basado en 3 ensayos deberá pulsar la
primera vez en 75 ocasiones la palanca, en el segundo 25 y en el tercero 50,
pero la media entre todos los ensayos será de 50 veces)
Los programas de intervalo: establecen que debe pasar un determinado tiempo desde
la consecución del reforzador anterior antes de que la respuesta requerida sea de nuevo
reforzada( por ejemplo, la rata pulsa la palanca y obtiene una bolita, pues hasta que
hayan pasado 20 minutos aunque la rata pulse no saldrá más comida; a partir del
minuto 20, cuando pulse la palanca obtendrá una bolita). Lo podemos subdividir
también:
Programas de intervalo fijo: se mantiene constante el tiempo requerido para que
se entregue el siguiente reforzador (la rata pulsa, obtiene bolita, hasta que
pasen 20 minutos no obtendrá recompensa aunque pulse la palanca, pasado los
20 minutos si pulsa obtendrá la bolita; de nuevo, deberá esperar 20 minutos
para que al pulsar la palanca salga comida y así sucesivamente). Lo abreviamos
Pág. 1
como IF.
Programas de intervalo variable: son aquellos donde varía la cantidad de tiempo
necesaria que debe transcurrir entre un reforzador y el siguiente antes de que
una respuesta sea reforzada, dando lugar a un valor promedio de intervalo entre
reforzadores (primero la rata debe esperar 25 minutos, en el segundo ensayo
50 , en el tercero 75,etc...). Se abrevia como IV.
En los programs de intervalo se puede establecer una duración limitada durante la cual se
pueda conseguir el reforzador (han pasado los 20 minutos estipulados para que la rata pueda
conseguir el reforzador si pulsa la palanca, pues bien, tiene 5 minutos para pulsarla sino los 20
minutos volverán a contarse sin dar la posibilidad de conseguir el reforzador)
En todo caso, el requisito del número de respuestas o del tiempo transcurrido es a partir de la
ocurrencias del reforzador anterior.
A continuación, vamos a exponer las diferencias conductuales que se consiguen con uno u otro
tipo de reforzamiento:
Programas de RV: proporcionan tasas de respuesta muy altas y constantes
Programas de IV: proporciona también tasas constantes de respuesta, aunque son de un
valor inferior a los programas RV
Programas RF: se caracteriza inicialmente por una tasa elevada de respuesta, que se
mantiene desde la primera respuesta después de haber obtenido el reforzador hasta la
siguiente respuesta reforzada. Esta ejecución alta y estable de conducta se desarrolla
rápidamente cuando la razón es relativamente pequeña. Pueden observarse dos
fenómenos:
(1) Carrera de la razón: es la pausa pos-reforzamiento que se sigue de una
transición casi instantánea a una tasa alta de respuesta posterior que se produce
en razones altos (cuando la rata debe pulsar la palanca 50 veces o más)
(2) Tensión de la razón: es cuando el sujeto deja de responder por completo debido
a que el requisito de la razón es muy elevado
La duración de la pausa post-reforzamiento se incrementa sistemáticamente a medida
que aumenta el requisito de la razón.
Programas IF: se caracteriza por una pausa post-reforzamiento más o menos prolongada
en función de la duración del intervalo y una progresiva aceleración posterior de la tasa
de respuesta en cada uno de los intervalos, de manera que la tasa mayor de respuesta
se produce cerca del final del intervalo. Se denomina a este efecto festoneado.
La duración de la pausa está directamente relacionada con la longitud del programa de IF,
mayor duración mayor será la pausa
Resumiendo, la diferencia entre programas fijo y variables, es que en los primero se suele
producir una pausa tras cada reforzamiento. Por otro lado entre RF e IF la diferencia es que en
el primero se pasa de la pausa post-reforzamiento a una tasa alta y estable y en el segundo se
pasa de la pausa a una aceleración gradual en la tasa de respuesta hasta alcanzar una tasa
alta al final del intervalo (cuando el sujeto piensa que el tiempo especificado ha llegado a su
Pág. 2
fin).
Es necesario reseñar que en los programas de razón la duración de la pausa está determinada
más por el programa que se va a completar que por el que ha ocurrido inmediatamente antes.
Por ejemplo, en programas múltiples (que luego veremos) donde primero se refuerza cada 5
respuestas, luego cada 50, luego 5, después 50,etc... lo que viene a decir esta idea es que la
pausa larga se dará entre el programa de 5 y el de 50 y no entre el de 50 y el de 5 (dicho de
otro modo RF5 pausa larga RF50 pausa corta RF5 pausa larga RF50 pausa corta,etc...).
En los programas de intervalo, la pausa tiende a ajustarse proporcional y rápidamente a los
cambios en la frecuencia de reforzamiento.
1.1.1 Programas de razón frente a programas de intervalo: funciones de
retroalimentación
Cuando se igualan las tasas y patrones de reforzamiento, la tasa de respuesta suele ser mayor
en los programas de razón que en los de intervalo.
Como es lógico en los programas de intervalo la tasa de respuesta no influye directamente
sobre la frecuencia de administración de los reforzadores, mientras que la tasa de
reforzamiento varía de manera directa con los cambios en la tasa de respuesta en los
programas de razón. La explicación es que los programas de intervalo refuerzan tiempo entre
respuestas (TER) largos. Otra explicación que se ha dado es que en los programas de intervalo
no existe relación entre la tasa de respuesta y la tasa de reforzamiento, es lo que se le ha
denominado explicación molar.
Una función de retroalimentación es una descripción de la forma en que actúa el ambiente,
como la frecuencia de reforzamiento, la magnitud del reforzador, o la demora al reforzador, en
función de algún aspecto de la ejecución conductual. Las relaciones entre la conducta y el
ambiente, como las establecidas por los programas de reforzamiento, se pueden describir en
términos de funciones de retroalimentación. La función de retroalimentación de la tasa de
reforzamiento para la tasa de respuesta en un programa de RF que requiera N respuestas por
reforzador es R=B/N, donde R es la tasa de reforzamiento obtenido y B es la tasa de respuesta
emitida.
En los programas de intervalo las funciones de retroalimentación son más difíciles de calcular,
se representarían con una forma de la función hiperbólica. Las funciones se aplanan a partir de
una tasa de respuesta, porque por mucho que se responda la tasa máxima de reforzamietno no
puede aumentar más que el valor especificado por el programa de intervalo.
El control diferencial de la conducta en los programas de intervalo es bastante débil, las
contingencias de reforzamiento no empujan la conducta en ninguna dirección. Además, estos
programas generan una mayor variabilidad entre sujetos en la tasa de respuesta, es decir, se
encontrarán más diferencias individuales en la tasa de respuesta entre unos animales y otros
bajo programas de intervalo que de razón.
El ejemplo paradigmático de una función de retroalimentación plana es el experimento de
superstición.
Pág. 3
1.2 Programas de reforzamiento diferencial de tiempos entre respuestas
Reforzamiento diferencial de tasas bajas de respuesta (RDB): sólo se refuerza la
respuesta si ha transcurrido un tiempo especificado desde la anterior respuesta ( en los
de IF el tiempo es desde el anterior reforzador). Se produce, pues, una contingencia de
castigo para las respuestas que ocurren con anterioridad al tiempo especificado por el
programa RDB.
Reforzamiento diferencial de tasas altas de respuesta (RDA):el reforzador se hace
contingente con la respuesta si ésta ocurre antes de que haya transcurrido una tiempo
determinado. Se refuerzan TER cortos. Se obtendrá el reforzador si se responde antes
de que transcurra un tiempo determinado, y las respuestas que ocurran después de ese
intervalo temporal simplemente reinician el intervalo
1.2.1 Teoría del reforzamiento diferencial de los tiempos entre respuestas
Mediante estos reforzamiento diferenciales lo que se hace es reforzar la ejecución a un
determinado ritmo. La teoría del reforzamiento diferencial de los TER afirma que en todos los
programas de condicionamiento operante se refuerzan específicamente TER de una duración
determinada.
Los programas RV e IV consiguen una tasa de respuesta muy constante, esto es, sin pausas
postreforzamiento, con lo que la duración de los TER es muy homogénea y es fácil atribuir
dicha ejecución al reforzamiento diferencial de los TER de una duración determinada (más
largos en los programas de intervalo que en los de razón).
La ejecución en los programas RF e IF, sin embargo, no es tan homogénea como en los
programas variables y normalmente se obtienen acusadas pausas post-reforzamiento. Por ello,
los TER reforzados en estos programas deberían ser siempre muy cortos.
1.3 Programas compuestos de reforzamiento
Los programas compuestos resultan de la aplicación de dos o más programas básicos de
reforzamiento y pueden dividirse en dos grandes bloques, aquellos donde la presentación de
los programas componentes es secuencial y aquellos donde los componentes se presentan de
forma simultánea.
1.3.1 Programas alternantes y secuenciales: el control por el estímulo y el
reforzamiento condicionado
Programas alternantes
Programa mixto
Se presentan dos o más programas básico alternándose al azar. El cambio de uno a otro de los
programas es independiente de la conducta del sujeto en experimentación. Depende, sin
embargo, de la duración de un tiempo establecido con anterioridad por el experimentador
Programa múltiple
Es igual que el mixto con la diferencia de que cada componente se señala con una clave
discriminativa distinta, y el sujeto es informado en todo momento de en qué parte del
programa múltiple se encuentra
Programas secuenciales
Pág. 4
Programa tándem
Consta al menos de dos programas simples que se presentan siempre en el mismo orden. Los
sujetos deben completar el primer programa para poder iniciar el segundo, al final del cual
consiguen la administración del reforzador. Sólo es posible conseguir el reforzador si se
cumplen en sucesión los programas componentes, el cumplimiento del primero de ellos sólo
dará lugar a la posibilidad de realizar el siguiente, pero el reforzador sólo se conseguirá al
terminar de completar todos.
Programa encadenado
Es igual que el tándem pero cada uno de los programas simples está señalado de manera
diferente, de forma que el sujeto experimental conoce en qué componente del programa se
encuentra en cada momento. Estos programas se han utilizado para estudiar el reforzamiento
condicionado, que hace referencia al hecho de que algunos estímulos adquieren capacidades
reforzantes por su asociación con los reforzadores primarios
1.2.3 Programas simultáneo: programas concurrentes y programas combinados
Programas concurrentes
Se disponen simultáneamente al menos dos programas básicos de reforzamiento. Se puede
cambiar de un programa a otro sin que normalmente haya sido necesario haber completado un
tiempo o un número de respuestas en cada uno de los programas. Los sujetos deben elegir
entre responder a uno u otro de los programas que componen el programa concurrente (por
ejemplo, hay dos palancas una RF20 y otra RF60)
Programas combinados
Consisten en combinaciones de un programa de razón y otro de intervalo, podemos distinguir:
Programa alternativo
Se refuerza una respuesta cada vez que se cumple con el requisito del programa de razón o el
de intervalo, existiendo así dos formas de conseguir el reforzamiento
Programa conjuntivo
Se refuerza una respuesta cada vez que se cumplen al mismo tiempo con el requisito de la
razón y del intervalo
Programa entrelazado
La respuesta que se fuerza viene determinada por dos programas, pero la disposición de uno
de ellos se latera por el desarrollo del otro
2. CONDUCTA DE ELECCIÓN
En los programas concurrentes, la elección o preferencia entre las alternativas de respuesta se
calcula por la tasa relativa de respuesta y se representa Ra/Ra+Rb, donde Ra y Rb representan
la tasa de respuesta en la alternativa a y la tasa de respuesta en la alternativa b.
Debemos distinguirlo de los premios concurrentes, donde se da a elegir al sujeto entre dos
actividades diferentes (correr y beber p ejem.), pero este modelo no es el más adecuado
porque implican respuestas consumatorias distintas. El procedimiento que se usa actualmente
podemos denominarlo de elección entre respuestas instrumentales concurrentes.
Pág. 5
2.1 La ley de igualación
La ley de igualación afirma que la tasa relativa de respuesta entre dos alternativas de
respuestas concurrentes es igual a la tasa (frecuencia) relativa de reforzamiento asocaida con
cada una de dichas alternativas de respuesta
Ra/Ra+Rb=Fa/Fa+Fb
Donde Ra y Rb representan las tasas de respuesta en las alternativas a y b; y Fa y Fb
representan la tasa (frecuencia) de reforzamiento asociada a las alternativas a y b
respectivamente.
Posteriormente se añadieron a la fórmula todos los parámetro de reforzamiento:
Ra/Ra+Rb= Fa/Fa+Fb x Ma/Ma+Mb x 1/Da/1Da+1/Db
Siendo M las magnitudes de reforzamiento y D las demoras.
Esta fórmula lo que establece es que todos los factores de reforzamiento influyen de forma
igual en la elección, y en concreto, de forma multiplicativa, de manera que cualquiera de esos
factores puede reducir la elección por una alternativa de respuesta aunque los otros factores
sean altamente favorables.
Lo esencial de la ley de igualación es que establece una igualdad entre la tasa relativa de
respuesta y la tasa relativa de reforzamiento, de manera que la proporción entre las respuestas
emitidas en las alternativas debe ser igual a la proporción de los reforzadores obtenidos en
dichas alternativas.
2.2 Maximización: elección entre programas concurrentes de razón
El intento de generalizar la ley de igualación a situaciones diferentes que la originalmente
descrita por Herrnstein, ha llevado a los investigadores a variar el tipo de programa de
reforzamiento asociados a las alternativas de respuesta. Estos investigadores usaron
programas de razón diferentes ( un programa concurrente RF-RF o uno RV-RV) los sujetos
tienden a elegir la alternativa de respusta que tiene una razón más baja, describiéndose dicho
resultado como maximización.
La maximización es un componente adaptativo pues no tiene mucha ventaja dedicar esfuerzo
a responder en una alternativa menos favorable. Además, la maximización, que implica elegir
en exclusiva la alternativa más favorable, no contradice la ley de igualación.
Se han utilizado también combinaciones de programas de intervalo con programas de razón
( un programa RV en uno y en otra palanca de IV). Lo óptimo en este caso sería que los
animales se dedicasen a responder casi en exclusiva en el programa de razón y probar
esporádicamente en el de intervalo.
En otras palabras, la maximización se da cuando los sujetos tienden a elegir la alternativa de
respuesta que tiene una razón más baja, siendo éste un comportamiento adaptativo pues no
tiene mucha ventaja dedicar esfuerzo a responder en una alternativa menos favorable a
expensas de perder la oportunidad de reforzamiento en la más ventajosa
2.3 Igualación temporal
Viene a decir que al mismo tiempo que se iguala la tasa relativa de respuesta con la tasa
relativa de reforzamiento, se iguala el tiempo de estancia en las alternativas de respuesta con
Pág. 6
la tasa relativa de reforzamiento en dichas alternativas de respuesta.
Ta/Ta+Tb=Fa/Fa+Fb
Donde Ta y Tb son los tiempos de permanencia en las alternativas a y b; y Fa y Fb son las tasas
de reforzamiento de dichas alternativas de respuesta.
2.4 Ley generalizada de igualación
Para evitar que los animales cambien de programa por variables diferentes a las consecuencias
del reforzamiento, los investigadores añaden la limitación de que no se refuerce la respuesta
de cambio de alternativa por un tiempo. El denominado demora por el cambio (DPC)y consiste
en introducir un período temporal breve, de aproximadamente 2 ó 3 segundos, después de la
primera respuesta a una de las alternativas para que pueda entrar en funcionamiento el
programa de reforzamiento asociado a dicha alternativa de respuesta. Las consecuencia
normal de haber introducido la contingencia DPC es que los sujetos enfrentados con una
situación de elección abandonan su comportamiento de alternancia y realizan la elección en
base exclusivamente a las contingencias de reforzamiento asociadas con cada una de las
alternativas de respuesta.
Existen otras muchas fuentes potenciales de influencia no deseables en los experimentos de
elección, y genéricamente estas influencias se han denominado sesgos ( un sesgo es la
conducta de alternancia antes descrita, la disposición espacial de las alternativas de respuesta,
el color, etc...).
Todos estos elementos los recoge Baum en la siguiente fórmula:
Ra/Ra+Rb=Fa/Fa+Fb X Sa/Sa+Sb
Donde R son las tasas de respuesta, F las tasas de reforzamiento y S los sesgos
Otros fenómenos son:
La sobreigulación: cuando la mejor alternativa es valorada por encima de la preferencia
establecida por la igualación perfecta (ej. un programa concurrente IV30-IV60, la
igualación perfecta sería el pulsar el doble en la primera palanca, la sobreigualación
sería pulsar más del doble)
Infraigualación: cuando la mejor alternativa es valroada por debajo de la preferencia
establecida por la igualación perfecta ( siguiendo el ejemplo anterior que en la palanca
IV30 se pulsará menos del doble que IV60)
Es más común encontrar infraigualación que sobreigualación, debido principalmente a la
tendencia a cambiar de alternativa cuando se ha obtenido reforzamiento en una de ellas.
Hay que reseñar que cuando se habla de estos fenómenos siempre se hace referencia a la tasa
de respuesta en la alternativa más favorable.
Si entre dos alternativas igualmente favorable, los animales eligen una más que otra, esa
desviación de la ley de igualación no puede decirse que sea producida por uno de estos
fenómenos, sino por la existencia de sesgos de respuesta.
Toda esta fenomenología la recogió Baum en otra fórmula:
Ra/Rb=k(Fa/Fb)elevado a s
Donde k representa los segos relativos y l s, la sensibilidad hacia los programas de
Pág. 7
reforzamiento
2.5 Teorías de la igualación
1.- Teoría molecular: afirma que el cambio de una alternativa de respuesta a otras se realiza en
el momento en que la probabilidad momentánea de reforzamiento sea mayor en la otra
alternativa. . Basa su análisis en el cálculo de probabilidades relativas de reforzamiento en
cada momento.
2.- Teoría molar: afirma que los animales distribuyen sus respuestas de acuerdo a un cálculo
global de las tasas relativas de reforzamiento entre las dos alternativas de respuesta ,
eligiendo más aquella alternativa que proporciona una mayor tasa de reforzamiento.
3.- Teoría del mejoramiento: es una síntesis de las dos anteriores. Según esta idea, los
organismos eligen entre dos fuentes de premio de manera que se iguales las tasas locales de
reforzamiento, respondiendo a la alternativa que en un momento dado presenta una mejor
tasa local de reforzamiento. Existe pues una igualación temporal, las tasas locales de respuesta
y de reforzamiento serán iguales, por cuanto se responderá menos a la alternativa menos
favorable, se obtendrán menos reforzadores en ella, pero también se le dedicará menos
tiempo.
2.6 Impulsividad y autocontrol: la elección con compromiso
Mediante las cadenas concurrentes de respuesta se mide la elección entre diferentes fuentes
de premio.
Éstos se componen como mínimo de dos pasos, un eslabón inicial donde el sujeto elige entre
dos alternativas de respuesta, y un eslabón terminal donde se proporcionan los reforzadores
por responder en la alternativa de respuesta elegida durante el eslabón inicial.
En un experimento se demostró, que cuando la elección era directa, como en el caso del
programa concurrente simple, se prefería la opción que llevaba al premio pequeño inmediato
aún cuando dicha opción no fuese la más ventajosa en términos de obtención del máximo
reforzamiento.
Cuando usaron un programa concurrente encadenado e introdujeron un tiempo constante de
espera para poder acceder a la oportunidad de que las respuestas fueran reforzadas, las
preferencias cambiaron y los animales preferían la opción que llevaba al reforzador mayor pero
más demorado
Impulsividad: la preferencia por una recompensa pequeña pero inmediata
Autocontrol: preferencia pro una recompensa mayor demorada
Demorar un poco la entrega del reforzador pequeño hace que su fuerza se debilite y se prefiera
esperar a uno de mayor magnitud
2.7 La noción de valor de los reforzadores
El valor de alternativa aumentará con la magnitud del reforzador y disminuirá con la demora
para la entrega del reforzador.
Mazur ha propuesto que el cambio de un comportamiento impulsivo a uno autocontrolado se
Pág. 8
puede explicar mediante una función hiperbólica que podría expresarse así:
Va=Ma/1+kDa
Donde, Va es el valor del reforzador; Ma la magnitud; Da la demora y k es una constante que
representa la tasa de descuento de la demora para cada individuo
2.8 La tasa de respuesta en relación a la ley de igualación
Herrstein amplió la ley de igualación al considerar que cualquier situación implica
necesariamente una elección, incluso cuando sólo se ofrezca una alternativa de respuesta,
como en los programas básicos de reforzamiento. En este caso, la elección estaría entre
responder o no.
La fórmula que recoge este principio es la siguiente:
Ra/Ra+Ro=Fa/Fa+Fo
Donde Ra es la tasa de respuesta operante específica del programa;Ro la tasa de otras
actividades del animal; Fa la frecuencia de reforzamiento explícito programado y Fo la
frencuencia de reforzamiento intrínseco de otras actividades.
La tasa absoluta de una conducta (Ra) está en función de la tasa relativa de reforzamiento de
esa conducta en relación con otras. Se puede aumentar la tasa de respuesta aumentando el
refozamiento de esa conducta (Fa mayor) o disminuyendo la tasa de reforzamiento alternativo
(F0 menor)
Esta ecuación es la cuantificación de la ley del efecto de Thorndike.
3. LA NATURALEZA DE LA ASOCIACIÓN EN EL APRENDIZAJE INSTRUMENTAL
Siguiendo a Skinner y a Hull, la formulación de la ley de igualación y de la teoría de la
igualación por Herrstein se basaron en el constructo de fuerza de la respuesta.
Para Thorndike, en su formulación de la ley del efecto, la fuerza de la respuesta se desarrolla
de naturaleza asociativa, concretamente entre estímulos y respuestas.
Hull es quien mejor representa la teoría de que el aprendizaje es fruto de la formación de
asociaciones estímulo-respuesta (E-R). Según este punto de vista, los estímulos ambientales
elicitan respuestas y su asociación se ve estampada por la ocurrencia del reforzador. En el
futuro, ante la presentación de tales estímulos será más probable la ocurrencia de las
respuesta que han sido reforzadas.
Otro seguidor de la teoría E-R es Guthrie, quien fue el primero en distinguir entre actos y
movimientos.
Hull, como ya hemos mencionado, era defensor de la asociación E-R, pero argumentaba que el
refuerzo de la formación de esa asociación era debido a una reducción del impulso,
introduciendo así el concepto de motivación en la teoría del aprendizaje.
Hull también introdujo los conceptos de hábito y el de incentivo. Para Hull la consecución del
reforzador, reduce las necesidades del organismo (impulso) al tiempo que incita a la acción
(incentivo), distinguiendo estos dos aspectos motivacionales de los reforzadore.
Por otro lado, Tolman es generalmente descrito como defensor de un esquema estímulo-
Pág. 9
estímulo (E-E). Para él, los animales aprenden “mapas cognitivos”, demostrando que los
cambios en la conducta atribuidos al aprendizaje son el resultado de la intervención de
procesos como la expectativa de recompensa, y demostrando al mismo tiempo que
aprendizaje y ejecución no es lo mismo, no resultando necesario el reforzador para el
aprendizaje pero sí para la ejecución.
Esto queda demostrado, por ejemplo, en el denominado aprendizaje latente, donde se aprende
una determinada tarea pero no se premia por hacerla. Posteriormente, se realiza de forma
correcta y sí se premia la tarea
4. REGLAS DE EJECUCIÓN OPERANTE
También existen otras teorías para explicar la fuerza de la respuesta que no apelan a la
asociación. Es el caso de Skinner que propuso que en el condicionamiento operante los
reforzadores seleccionan las respuestas, no otorgando un papel necesario a la formación de
ningún tipo de asociación concreta, ni E-R ni E-E sino de señalizadores de que la respuesta
puede ser recompensada.
4.1 Teoría de la probabilidad diferencial
Premack sostuvo que “Dadas dos respuesta en un procedimiento de condicionamiento
instrumental, la respuesta más probable reforzará a la menos probable y la respuesta menos
probable no reforzará a la más probable”
Según el principio de reforzamiento de Premack los reforzadores derivan su efecto de las
disposiciones experimentales en forma de relaciones de contingencia y que cualquier evento,
sea un estímulo o una respuesta, potencialmente puede convertirse en un reforzador eficaz.
Para que una actividad pueda convertirse en reforzador deben cumplirse dos supuestos
fundamentales:
1.- Dicha actividad debe ser preferida en la línea base (por defecto)
2.- La probabilidad de ocurrencia de la actividad preferida debe restringirse y ocurrir de forma
contingente con la realización de una actividad menos preferida,fruto de la cual la actividad
menos preferida se convierte en instrumental.
Por tanto, la actividad reforzadora ocurre a menor probabilidad que en condiciones de libre
acceso y la actividad instrumental aumenta su probabilidad de ocurrencia
En el plano punitivo, Premack argumentó que la actividad de más baja probabilidad puede
castigar a la de mayor probabilidad siempre y cuando se aumente su probabilidad de
ocurrencia y suceda contingentemente con la actividad preferida, que como resultado de dicha
operación disminuirá su frecuencia de aparición en relación con su ocurrencia en la línea base.
De aquí se desprende que las actividades más preferidas nunca podrán castigar a las
actividades menos preferidas.
Para medir la probabilidad de respuesta, Premack sugirió que la medida de respuesta más
apropiada es la probabilidad momentánea.
Pág. 10
4.2 Teoría de la privación de respuesta
Según esta propuesta, para que una actividad pueda funcionar como un reforzador eficaz sólo
es necesario restringir la realización de dicha actividad en relación con su ocurrencia en el
punto de bienestar ( o línea de base con acceso ilimitado a todas las actividades), pero no es
necesario que dicha actividad tenga que ser más preferida que la que se va a convertir en
actividad instrumental.
La hipótesis de privación de la respuesta predice que la tasa de respuesta y la tasa de
reforzamiento deben relacionar en forma de U invertida y no lineal.
Pág. 11