tema5aprendizaje

TEMA 5

PROGRAMAS DE Y TEORÍAS DE REFORZAMIENTO

1. PROGRAMAS DE REFORZAMIENTO

En los programas de reforzamiento se puede apreciar la relación funcional existente entre el

estímulo discriminativo, la respuesta operante y el reforzador.

1.1 Programas básicos de reforzamiento

Es la forma en que se programan los reforzadores contingentemente con la emisión de una

respuesta operante. A un nivel básico podemos distinguir el reforzamiento parcial y el

reforzamiento continuo, produciendo el primero un aprendizaje más duradero, que

posteriormente resulta más difícil de extinguir.

En cuanto a la forma de programar los reforzadores podemos clasificarlos en dos grandes

bloques:

Los programas de razón: donde se estipula que se debe emitir un determinado número

de respuestas antes de que la última de ellas sea reforzada (por ejemplo, que la rata

pulse 50 veces la palanca). A su vez , los programa de razón se subdividen:

Programas de razón fija: el número de respuestas requerido para que se

administre el reforzador siempre es el mismo, de manera que consistentemente

se tiene que dar el mismo número de respuestas para conseguir cada reforzador.

Nos referiremos a ellos como RF. (un ejemplo, el mismo de antes, cada 50 veces

que la rata pulse la palanca, obtendrá una bolita de comida)

Programas de razón variable: requiere un número de respuestas que varía de

una ocasión a la siguiente de manera irregular alrededor de un número promedio

de respuestas por cada reforzador. Se abrevia como RV. (por ejemplo, RV50,

significa que de media deberá pulsarse la palanca 50 veces para conseguir la

bolita, es decir, en un experimento basado en 3 ensayos deberá pulsar la

primera vez en 75 ocasiones la palanca, en el segundo 25 y en el tercero 50,

pero la media entre todos los ensayos será de 50 veces)

Los programas de intervalo: establecen que debe pasar un determinado tiempo desde

la consecución del reforzador anterior antes de que la respuesta requerida sea de nuevo

reforzada( por ejemplo, la rata pulsa la palanca y obtiene una bolita, pues hasta que

hayan pasado 20 minutos aunque la rata pulse no saldrá más comida; a partir del

minuto 20, cuando pulse la palanca obtendrá una bolita). Lo podemos subdividir

también:

Programas de intervalo fijo: se mantiene constante el tiempo requerido para que

se entregue el siguiente reforzador (la rata pulsa, obtiene bolita, hasta que

pasen 20 minutos no obtendrá recompensa aunque pulse la palanca, pasado los

20 minutos si pulsa obtendrá la bolita; de nuevo, deberá esperar 20 minutos

para que al pulsar la palanca salga comida y así sucesivamente). Lo abreviamos

Pág. 1

como IF.

Programas de intervalo variable: son aquellos donde varía la cantidad de tiempo

necesaria que debe transcurrir entre un reforzador y el siguiente antes de que

una respuesta sea reforzada, dando lugar a un valor promedio de intervalo entre

reforzadores (primero la rata debe esperar 25 minutos, en el segundo ensayo

50 , en el tercero 75,etc...). Se abrevia como IV.

En los programs de intervalo se puede establecer una duración limitada durante la cual se

pueda conseguir el reforzador (han pasado los 20 minutos estipulados para que la rata pueda

conseguir el reforzador si pulsa la palanca, pues bien, tiene 5 minutos para pulsarla sino los 20

minutos volverán a contarse sin dar la posibilidad de conseguir el reforzador)

En todo caso, el requisito del número de respuestas o del tiempo transcurrido es a partir de la

ocurrencias del reforzador anterior.

A continuación, vamos a exponer las diferencias conductuales que se consiguen con uno u otro

tipo de reforzamiento:

Programas de RV: proporcionan tasas de respuesta muy altas y constantes

Programas de IV: proporciona también tasas constantes de respuesta, aunque son de un

valor inferior a los programas RV

Programas RF: se caracteriza inicialmente por una tasa elevada de respuesta, que se

mantiene desde la primera respuesta después de haber obtenido el reforzador hasta la

siguiente respuesta reforzada. Esta ejecución alta y estable de conducta se desarrolla

rápidamente cuando la razón es relativamente pequeña. Pueden observarse dos

fenómenos:

(1) Carrera de la razón: es la pausa pos-reforzamiento que se sigue de una

transición casi instantánea a una tasa alta de respuesta posterior que se produce

en razones altos (cuando la rata debe pulsar la palanca 50 veces o más)

(2) Tensión de la razón: es cuando el sujeto deja de responder por completo debido

a que el requisito de la razón es muy elevado

La duración de la pausa post-reforzamiento se incrementa sistemáticamente a medida

que aumenta el requisito de la razón.

Programas IF: se caracteriza por una pausa post-reforzamiento más o menos prolongada

en función de la duración del intervalo y una progresiva aceleración posterior de la tasa

de respuesta en cada uno de los intervalos, de manera que la tasa mayor de respuesta

se produce cerca del final del intervalo. Se denomina a este efecto festoneado.

La duración de la pausa está directamente relacionada con la longitud del programa de IF,

mayor duración mayor será la pausa

Resumiendo, la diferencia entre programas fijo y variables, es que en los primero se suele

producir una pausa tras cada reforzamiento. Por otro lado entre RF e IF la diferencia es que en

el primero se pasa de la pausa post-reforzamiento a una tasa alta y estable y en el segundo se

pasa de la pausa a una aceleración gradual en la tasa de respuesta hasta alcanzar una tasa

alta al final del intervalo (cuando el sujeto piensa que el tiempo especificado ha llegado a su

Pág. 2

fin).

Es necesario reseñar que en los programas de razón la duración de la pausa está determinada

más por el programa que se va a completar que por el que ha ocurrido inmediatamente antes.

Por ejemplo, en programas múltiples (que luego veremos) donde primero se refuerza cada 5

respuestas, luego cada 50, luego 5, después 50,etc... lo que viene a decir esta idea es que la

pausa larga se dará entre el programa de 5 y el de 50 y no entre el de 50 y el de 5 (dicho de

otro modo RF5 pausa larga RF50 pausa corta RF5 pausa larga RF50 pausa corta,etc...).

En los programas de intervalo, la pausa tiende a ajustarse proporcional y rápidamente a los

cambios en la frecuencia de reforzamiento.

1.1.1 Programas de razón frente a programas de intervalo: funciones de

retroalimentación

Cuando se igualan las tasas y patrones de reforzamiento, la tasa de respuesta suele ser mayor

en los programas de razón que en los de intervalo.

Como es lógico en los programas de intervalo la tasa de respuesta no influye directamente

sobre la frecuencia de administración de los reforzadores, mientras que la tasa de

reforzamiento varía de manera directa con los cambios en la tasa de respuesta en los

programas de razón. La explicación es que los programas de intervalo refuerzan tiempo entre

respuestas (TER) largos. Otra explicación que se ha dado es que en los programas de intervalo

no existe relación entre la tasa de respuesta y la tasa de reforzamiento, es lo que se le ha

denominado explicación molar.

Una función de retroalimentación es una descripción de la forma en que actúa el ambiente,

como la frecuencia de reforzamiento, la magnitud del reforzador, o la demora al reforzador, en

función de algún aspecto de la ejecución conductual. Las relaciones entre la conducta y el

ambiente, como las establecidas por los programas de reforzamiento, se pueden describir en

términos de funciones de retroalimentación. La función de retroalimentación de la tasa de

reforzamiento para la tasa de respuesta en un programa de RF que requiera N respuestas por

reforzador es R=B/N, donde R es la tasa de reforzamiento obtenido y B es la tasa de respuesta

emitida.

En los programas de intervalo las funciones de retroalimentación son más difíciles de calcular,

se representarían con una forma de la función hiperbólica. Las funciones se aplanan a partir de

una tasa de respuesta, porque por mucho que se responda la tasa máxima de reforzamietno no

puede aumentar más que el valor especificado por el programa de intervalo.

El control diferencial de la conducta en los programas de intervalo es bastante débil, las

contingencias de reforzamiento no empujan la conducta en ninguna dirección. Además, estos

programas generan una mayor variabilidad entre sujetos en la tasa de respuesta, es decir, se

encontrarán más diferencias individuales en la tasa de respuesta entre unos animales y otros

bajo programas de intervalo que de razón.

El ejemplo paradigmático de una función de retroalimentación plana es el experimento de

superstición.

Pág. 3

1.2 Programas de reforzamiento diferencial de tiempos entre respuestas

Reforzamiento diferencial de tasas bajas de respuesta (RDB): sólo se refuerza la

respuesta si ha transcurrido un tiempo especificado desde la anterior respuesta ( en los

de IF el tiempo es desde el anterior reforzador). Se produce, pues, una contingencia de

castigo para las respuestas que ocurren con anterioridad al tiempo especificado por el

programa RDB.

Reforzamiento diferencial de tasas altas de respuesta (RDA):el reforzador se hace

contingente con la respuesta si ésta ocurre antes de que haya transcurrido una tiempo

determinado. Se refuerzan TER cortos. Se obtendrá el reforzador si se responde antes

de que transcurra un tiempo determinado, y las respuestas que ocurran después de ese

intervalo temporal simplemente reinician el intervalo

1.2.1 Teoría del reforzamiento diferencial de los tiempos entre respuestas

Mediante estos reforzamiento diferenciales lo que se hace es reforzar la ejecución a un

determinado ritmo. La teoría del reforzamiento diferencial de los TER afirma que en todos los

programas de condicionamiento operante se refuerzan específicamente TER de una duración

determinada.

Los programas RV e IV consiguen una tasa de respuesta muy constante, esto es, sin pausas

postreforzamiento, con lo que la duración de los TER es muy homogénea y es fácil atribuir

dicha ejecución al reforzamiento diferencial de los TER de una duración determinada (más

largos en los programas de intervalo que en los de razón).

La ejecución en los programas RF e IF, sin embargo, no es tan homogénea como en los

programas variables y normalmente se obtienen acusadas pausas post-reforzamiento. Por ello,

los TER reforzados en estos programas deberían ser siempre muy cortos.

1.3 Programas compuestos de reforzamiento

Los programas compuestos resultan de la aplicación de dos o más programas básicos de

reforzamiento y pueden dividirse en dos grandes bloques, aquellos donde la presentación de

los programas componentes es secuencial y aquellos donde los componentes se presentan de

forma simultánea.

1.3.1 Programas alternantes y secuenciales: el control por el estímulo y el

reforzamiento condicionado

Programas alternantes

Programa mixto

Se presentan dos o más programas básico alternándose al azar. El cambio de uno a otro de los

programas es independiente de la conducta del sujeto en experimentación. Depende, sin

embargo, de la duración de un tiempo establecido con anterioridad por el experimentador

Programa múltiple

Es igual que el mixto con la diferencia de que cada componente se señala con una clave

discriminativa distinta, y el sujeto es informado en todo momento de en qué parte del

programa múltiple se encuentra

Programas secuenciales

Pág. 4

Programa tándem

Consta al menos de dos programas simples que se presentan siempre en el mismo orden. Los

sujetos deben completar el primer programa para poder iniciar el segundo, al final del cual

consiguen la administración del reforzador. Sólo es posible conseguir el reforzador si se

cumplen en sucesión los programas componentes, el cumplimiento del primero de ellos sólo

dará lugar a la posibilidad de realizar el siguiente, pero el reforzador sólo se conseguirá al

terminar de completar todos.

Programa encadenado

Es igual que el tándem pero cada uno de los programas simples está señalado de manera

diferente, de forma que el sujeto experimental conoce en qué componente del programa se

encuentra en cada momento. Estos programas se han utilizado para estudiar el reforzamiento

condicionado, que hace referencia al hecho de que algunos estímulos adquieren capacidades

reforzantes por su asociación con los reforzadores primarios

1.2.3 Programas simultáneo: programas concurrentes y programas combinados

Programas concurrentes

Se disponen simultáneamente al menos dos programas básicos de reforzamiento. Se puede

cambiar de un programa a otro sin que normalmente haya sido necesario haber completado un

tiempo o un número de respuestas en cada uno de los programas. Los sujetos deben elegir

entre responder a uno u otro de los programas que componen el programa concurrente (por

ejemplo, hay dos palancas una RF20 y otra RF60)

Programas combinados

Consisten en combinaciones de un programa de razón y otro de intervalo, podemos distinguir:

Programa alternativo

Se refuerza una respuesta cada vez que se cumple con el requisito del programa de razón o el

de intervalo, existiendo así dos formas de conseguir el reforzamiento

Programa conjuntivo

Se refuerza una respuesta cada vez que se cumplen al mismo tiempo con el requisito de la

razón y del intervalo

Programa entrelazado

La respuesta que se fuerza viene determinada por dos programas, pero la disposición de uno

de ellos se latera por el desarrollo del otro

2. CONDUCTA DE ELECCIÓN

En los programas concurrentes, la elección o preferencia entre las alternativas de respuesta se

calcula por la tasa relativa de respuesta y se representa Ra/Ra+Rb, donde Ra y Rb representan

la tasa de respuesta en la alternativa a y la tasa de respuesta en la alternativa b.

Debemos distinguirlo de los premios concurrentes, donde se da a elegir al sujeto entre dos

actividades diferentes (correr y beber p ejem.), pero este modelo no es el más adecuado

porque implican respuestas consumatorias distintas. El procedimiento que se usa actualmente

podemos denominarlo de elección entre respuestas instrumentales concurrentes.

Pág. 5

2.1 La ley de igualación

La ley de igualación afirma que la tasa relativa de respuesta entre dos alternativas de

respuestas concurrentes es igual a la tasa (frecuencia) relativa de reforzamiento asocaida con

cada una de dichas alternativas de respuesta

Ra/Ra+Rb=Fa/Fa+Fb

Donde Ra y Rb representan las tasas de respuesta en las alternativas a y b; y Fa y Fb

representan la tasa (frecuencia) de reforzamiento asociada a las alternativas a y b

respectivamente.

Posteriormente se añadieron a la fórmula todos los parámetro de reforzamiento:

Ra/Ra+Rb= Fa/Fa+Fb x Ma/Ma+Mb x 1/Da/1Da+1/Db

Siendo M las magnitudes de reforzamiento y D las demoras.

Esta fórmula lo que establece es que todos los factores de reforzamiento influyen de forma

igual en la elección, y en concreto, de forma multiplicativa, de manera que cualquiera de esos

factores puede reducir la elección por una alternativa de respuesta aunque los otros factores

sean altamente favorables.

Lo esencial de la ley de igualación es que establece una igualdad entre la tasa relativa de

respuesta y la tasa relativa de reforzamiento, de manera que la proporción entre las respuestas

emitidas en las alternativas debe ser igual a la proporción de los reforzadores obtenidos en

dichas alternativas.

2.2 Maximización: elección entre programas concurrentes de razón

El intento de generalizar la ley de igualación a situaciones diferentes que la originalmente

descrita por Herrnstein, ha llevado a los investigadores a variar el tipo de programa de

reforzamiento asociados a las alternativas de respuesta. Estos investigadores usaron

programas de razón diferentes ( un programa concurrente RF-RF o uno RV-RV) los sujetos

tienden a elegir la alternativa de respusta que tiene una razón más baja, describiéndose dicho

resultado como maximización.

La maximización es un componente adaptativo pues no tiene mucha ventaja dedicar esfuerzo

a responder en una alternativa menos favorable. Además, la maximización, que implica elegir

en exclusiva la alternativa más favorable, no contradice la ley de igualación.

Se han utilizado también combinaciones de programas de intervalo con programas de razón

( un programa RV en uno y en otra palanca de IV). Lo óptimo en este caso sería que los

animales se dedicasen a responder casi en exclusiva en el programa de razón y probar

esporádicamente en el de intervalo.

En otras palabras, la maximización se da cuando los sujetos tienden a elegir la alternativa de

respuesta que tiene una razón más baja, siendo éste un comportamiento adaptativo pues no

tiene mucha ventaja dedicar esfuerzo a responder en una alternativa menos favorable a

expensas de perder la oportunidad de reforzamiento en la más ventajosa

2.3 Igualación temporal

Viene a decir que al mismo tiempo que se iguala la tasa relativa de respuesta con la tasa

relativa de reforzamiento, se iguala el tiempo de estancia en las alternativas de respuesta con

Pág. 6

la tasa relativa de reforzamiento en dichas alternativas de respuesta.

Ta/Ta+Tb=Fa/Fa+Fb

Donde Ta y Tb son los tiempos de permanencia en las alternativas a y b; y Fa y Fb son las tasas

de reforzamiento de dichas alternativas de respuesta.

2.4 Ley generalizada de igualación

Para evitar que los animales cambien de programa por variables diferentes a las consecuencias

del reforzamiento, los investigadores añaden la limitación de que no se refuerce la respuesta

de cambio de alternativa por un tiempo. El denominado demora por el cambio (DPC)y consiste

en introducir un período temporal breve, de aproximadamente 2 ó 3 segundos, después de la

primera respuesta a una de las alternativas para que pueda entrar en funcionamiento el

programa de reforzamiento asociado a dicha alternativa de respuesta. Las consecuencia

normal de haber introducido la contingencia DPC es que los sujetos enfrentados con una

situación de elección abandonan su comportamiento de alternancia y realizan la elección en

base exclusivamente a las contingencias de reforzamiento asociadas con cada una de las

alternativas de respuesta.

Existen otras muchas fuentes potenciales de influencia no deseables en los experimentos de

elección, y genéricamente estas influencias se han denominado sesgos ( un sesgo es la

conducta de alternancia antes descrita, la disposición espacial de las alternativas de respuesta,

el color, etc...).

Todos estos elementos los recoge Baum en la siguiente fórmula:

Ra/Ra+Rb=Fa/Fa+Fb X Sa/Sa+Sb

Donde R son las tasas de respuesta, F las tasas de reforzamiento y S los sesgos

Otros fenómenos son:

La sobreigulación: cuando la mejor alternativa es valorada por encima de la preferencia

establecida por la igualación perfecta (ej. un programa concurrente IV30-IV60, la

igualación perfecta sería el pulsar el doble en la primera palanca, la sobreigualación

sería pulsar más del doble)

Infraigualación: cuando la mejor alternativa es valroada por debajo de la preferencia

establecida por la igualación perfecta ( siguiendo el ejemplo anterior que en la palanca

IV30 se pulsará menos del doble que IV60)

Es más común encontrar infraigualación que sobreigualación, debido principalmente a la

tendencia a cambiar de alternativa cuando se ha obtenido reforzamiento en una de ellas.

Hay que reseñar que cuando se habla de estos fenómenos siempre se hace referencia a la tasa

de respuesta en la alternativa más favorable.

Si entre dos alternativas igualmente favorable, los animales eligen una más que otra, esa

desviación de la ley de igualación no puede decirse que sea producida por uno de estos

fenómenos, sino por la existencia de sesgos de respuesta.

Toda esta fenomenología la recogió Baum en otra fórmula:

Ra/Rb=k(Fa/Fb)elevado a s

Donde k representa los segos relativos y l s, la sensibilidad hacia los programas de

Pág. 7

reforzamiento

2.5 Teorías de la igualación

1.- Teoría molecular: afirma que el cambio de una alternativa de respuesta a otras se realiza en

el momento en que la probabilidad momentánea de reforzamiento sea mayor en la otra

alternativa. . Basa su análisis en el cálculo de probabilidades relativas de reforzamiento en

cada momento.

2.- Teoría molar: afirma que los animales distribuyen sus respuestas de acuerdo a un cálculo

global de las tasas relativas de reforzamiento entre las dos alternativas de respuesta ,

eligiendo más aquella alternativa que proporciona una mayor tasa de reforzamiento.

3.- Teoría del mejoramiento: es una síntesis de las dos anteriores. Según esta idea, los

organismos eligen entre dos fuentes de premio de manera que se iguales las tasas locales de

reforzamiento, respondiendo a la alternativa que en un momento dado presenta una mejor

tasa local de reforzamiento. Existe pues una igualación temporal, las tasas locales de respuesta

y de reforzamiento serán iguales, por cuanto se responderá menos a la alternativa menos

favorable, se obtendrán menos reforzadores en ella, pero también se le dedicará menos

tiempo.

2.6 Impulsividad y autocontrol: la elección con compromiso

Mediante las cadenas concurrentes de respuesta se mide la elección entre diferentes fuentes

de premio.

Éstos se componen como mínimo de dos pasos, un eslabón inicial donde el sujeto elige entre

dos alternativas de respuesta, y un eslabón terminal donde se proporcionan los reforzadores

por responder en la alternativa de respuesta elegida durante el eslabón inicial.

En un experimento se demostró, que cuando la elección era directa, como en el caso del

programa concurrente simple, se prefería la opción que llevaba al premio pequeño inmediato

aún cuando dicha opción no fuese la más ventajosa en términos de obtención del máximo

reforzamiento.

Cuando usaron un programa concurrente encadenado e introdujeron un tiempo constante de

espera para poder acceder a la oportunidad de que las respuestas fueran reforzadas, las

preferencias cambiaron y los animales preferían la opción que llevaba al reforzador mayor pero

más demorado

Impulsividad: la preferencia por una recompensa pequeña pero inmediata

Autocontrol: preferencia pro una recompensa mayor demorada

Demorar un poco la entrega del reforzador pequeño hace que su fuerza se debilite y se prefiera

esperar a uno de mayor magnitud

2.7 La noción de valor de los reforzadores

El valor de alternativa aumentará con la magnitud del reforzador y disminuirá con la demora

para la entrega del reforzador.

Mazur ha propuesto que el cambio de un comportamiento impulsivo a uno autocontrolado se

Pág. 8

puede explicar mediante una función hiperbólica que podría expresarse así:

Va=Ma/1+kDa

Donde, Va es el valor del reforzador; Ma la magnitud; Da la demora y k es una constante que

representa la tasa de descuento de la demora para cada individuo

2.8 La tasa de respuesta en relación a la ley de igualación

Herrstein amplió la ley de igualación al considerar que cualquier situación implica

necesariamente una elección, incluso cuando sólo se ofrezca una alternativa de respuesta,

como en los programas básicos de reforzamiento. En este caso, la elección estaría entre

responder o no.

La fórmula que recoge este principio es la siguiente:

Ra/Ra+Ro=Fa/Fa+Fo

Donde Ra es la tasa de respuesta operante específica del programa;Ro la tasa de otras

actividades del animal; Fa la frecuencia de reforzamiento explícito programado y Fo la

frencuencia de reforzamiento intrínseco de otras actividades.

La tasa absoluta de una conducta (Ra) está en función de la tasa relativa de reforzamiento de

esa conducta en relación con otras. Se puede aumentar la tasa de respuesta aumentando el

refozamiento de esa conducta (Fa mayor) o disminuyendo la tasa de reforzamiento alternativo

(F0 menor)

Esta ecuación es la cuantificación de la ley del efecto de Thorndike.

3. LA NATURALEZA DE LA ASOCIACIÓN EN EL APRENDIZAJE INSTRUMENTAL

Siguiendo a Skinner y a Hull, la formulación de la ley de igualación y de la teoría de la

igualación por Herrstein se basaron en el constructo de fuerza de la respuesta.

Para Thorndike, en su formulación de la ley del efecto, la fuerza de la respuesta se desarrolla

de naturaleza asociativa, concretamente entre estímulos y respuestas.

Hull es quien mejor representa la teoría de que el aprendizaje es fruto de la formación de

asociaciones estímulo-respuesta (E-R). Según este punto de vista, los estímulos ambientales

elicitan respuestas y su asociación se ve estampada por la ocurrencia del reforzador. En el

futuro, ante la presentación de tales estímulos será más probable la ocurrencia de las

respuesta que han sido reforzadas.

Otro seguidor de la teoría E-R es Guthrie, quien fue el primero en distinguir entre actos y

movimientos.

Hull, como ya hemos mencionado, era defensor de la asociación E-R, pero argumentaba que el

refuerzo de la formación de esa asociación era debido a una reducción del impulso,

introduciendo así el concepto de motivación en la teoría del aprendizaje.

Hull también introdujo los conceptos de hábito y el de incentivo. Para Hull la consecución del

reforzador, reduce las necesidades del organismo (impulso) al tiempo que incita a la acción

(incentivo), distinguiendo estos dos aspectos motivacionales de los reforzadore.

Por otro lado, Tolman es generalmente descrito como defensor de un esquema estímulo-

Pág. 9

estímulo (E-E). Para él, los animales aprenden “mapas cognitivos”, demostrando que los

cambios en la conducta atribuidos al aprendizaje son el resultado de la intervención de

procesos como la expectativa de recompensa, y demostrando al mismo tiempo que

aprendizaje y ejecución no es lo mismo, no resultando necesario el reforzador para el

aprendizaje pero sí para la ejecución.

Esto queda demostrado, por ejemplo, en el denominado aprendizaje latente, donde se aprende

una determinada tarea pero no se premia por hacerla. Posteriormente, se realiza de forma

correcta y sí se premia la tarea

4. REGLAS DE EJECUCIÓN OPERANTE

También existen otras teorías para explicar la fuerza de la respuesta que no apelan a la

asociación. Es el caso de Skinner que propuso que en el condicionamiento operante los

reforzadores seleccionan las respuestas, no otorgando un papel necesario a la formación de

ningún tipo de asociación concreta, ni E-R ni E-E sino de señalizadores de que la respuesta

puede ser recompensada.

4.1 Teoría de la probabilidad diferencial

Premack sostuvo que “Dadas dos respuesta en un procedimiento de condicionamiento

instrumental, la respuesta más probable reforzará a la menos probable y la respuesta menos

probable no reforzará a la más probable”

Según el principio de reforzamiento de Premack los reforzadores derivan su efecto de las

disposiciones experimentales en forma de relaciones de contingencia y que cualquier evento,

sea un estímulo o una respuesta, potencialmente puede convertirse en un reforzador eficaz.

Para que una actividad pueda convertirse en reforzador deben cumplirse dos supuestos

fundamentales:

1.- Dicha actividad debe ser preferida en la línea base (por defecto)

2.- La probabilidad de ocurrencia de la actividad preferida debe restringirse y ocurrir de forma

contingente con la realización de una actividad menos preferida,fruto de la cual la actividad

menos preferida se convierte en instrumental.

Por tanto, la actividad reforzadora ocurre a menor probabilidad que en condiciones de libre

acceso y la actividad instrumental aumenta su probabilidad de ocurrencia

En el plano punitivo, Premack argumentó que la actividad de más baja probabilidad puede

castigar a la de mayor probabilidad siempre y cuando se aumente su probabilidad de

ocurrencia y suceda contingentemente con la actividad preferida, que como resultado de dicha

operación disminuirá su frecuencia de aparición en relación con su ocurrencia en la línea base.

De aquí se desprende que las actividades más preferidas nunca podrán castigar a las

actividades menos preferidas.

Para medir la probabilidad de respuesta, Premack sugirió que la medida de respuesta más

apropiada es la probabilidad momentánea.

Pág. 10

4.2 Teoría de la privación de respuesta

Según esta propuesta, para que una actividad pueda funcionar como un reforzador eficaz sólo

es necesario restringir la realización de dicha actividad en relación con su ocurrencia en el

punto de bienestar ( o línea de base con acceso ilimitado a todas las actividades), pero no es

necesario que dicha actividad tenga que ser más preferida que la que se va a convertir en

actividad instrumental.

La hipótesis de privación de la respuesta predice que la tasa de respuesta y la tasa de

reforzamiento deben relacionar en forma de U invertida y no lineal.

Pág. 11

tema5aprendizaje

Documents