Sei sulla pagina 1di 8

http://apuntesgradopsicologia.wordpress.

com Principios de Aprendizaje y Conducta


2
ER
SEMESTRE Miguel ngel Llamas Romero Pgina 1
PRINCIPIOS DE APRENDIZAJE Y CONDUCTA
TEMA 6 PROGRAMAS DE REFORZAMIENTO Y CONDUCTA DE ELECCIN

Objetivo

Los programas de reforzamiento son importantes porque determinan la tasa y el patrn
de las respuestas instrumentales. En primer lugar se describen los programas simples de
razn fija y variable, y los de intervalo fijo y variable, as como los patrones de
respuesta instrumental producidos por estos programas. Despus se describen los
programas de reforzamiento de tasas de respuesta, para continuar con el anlisis de la
conducta de eleccin.

INTRODUCCIN
Una forma particularmente interesante de eleccin es la que se da entre beneficios modestos a
corto plazo frente a beneficios mayores a largo plazo, debido a que estas alternativas representan el
dilema del autocontrol.
Un programa de reforzamiento es un programa, o regla que determina cmo y cundo la
ocurrencia de una respuesta ir seguida de un reforzador. Los programas de reforzamiento que
incluyen relaciones similares entre los estmulos, las respuestas y los reforzadores, normalmente
producen patrones similares de conducta.
Los programas de reforzamiento influyen tanto en la forma de aprender una respuesta
instrumental como en la forma en que se mantiene por el reforzamiento. Los programas de
reforzamiento se investigan normalmente en cajas de Skinner que permiten una observacin continua
de la conducta, por lo que pueden observarse y analizarse realmente los cambios en la tasa de
respuesta.

PROGRAMAS SIMPLES DE REFORZAMIENTO INTERMITENTE
En los programas simples, un factor determina qu ocurrencia de la respuesta instrumental se
refuerza.
PROGRAMAS DE RAZN
La caracterstica definitoria de un programa de razn es que el reforzamiento depende slo del
nmero de respuestas que el organismo realiza. Si este nmero es uno, cada ocurrencia de la respuesta
instrumental provocar la entrega del reforzador. Este tipo de programa se denomina tcnicamente
Reforzamiento Continuo RFC.
El reforzamiento continuo no suele suceder fuera del laboratorio. Las situaciones en las que la
respuesta se refuerza slo alguna vez involucran un Reforzamiento Parcial o Intermitente.
Razn Fija.
En un programa como ste, hay una razn fija entre el nmero de respuestas que la rata
realiza y el nmero de reforzadores que consigue. Por ejemplo, siempre se dan 10 respuestas
por cada reforzador.
http://apuntesgradopsicologia.wordpress.com Principios de Aprendizaje y Conducta
2
ER
SEMESTRE Miguel ngel Llamas Romero Pgina 2
Los programas de razn fija se dan en la vida cotidiana siempre que es necesario un
nmero fijo de respuestas para conseguir el reforzamiento.
Un programa de reforzamiento continuo constituye tambin un programa de razn fija. El
reforzamiento continuo es una razn fija de una respuesta por reforzador.
En un programa de reforzamiento intermitente de razn fija se da una tasa constante y
alta, una vez que la conducta se ha iniciado, pero se puede tardar un tiempo antes de
comenzar el nmero requerido de respuestas.
La tasa cero de respuesta que se observa justo despus del reforzamiento se denomina
Pausa Posreforzamiento. La tasa de respuesta alta y estable que completa cada requerimiento
de la razn se denomina Carrera de la Razn.
El efecto Tensin de la Razn, hace referencia al deterioro en la respuesta que sucede
cuando el requerimiento de respuesta de una razn fija se incremente demasiado rpido.
La pausa Posreforzamiento podra recibir la etiqueta ms apropiada de pausa prerazn.
Razn Variable.
Un procedimiento en que se necesita un nmero de respuestas distinto para la entrega de
cada recompensa se denomina Procedimiento de Razn Variable RV. Los investigadores pueden,
por ejemplo, entrenar a una paloma para realizar 10 respuestas para conseguir la primera
recompensa, 13 para conseguir la segunda, y as sucesivamente. El valor numrico del programa
de razn variable indica el nmero medio de respuestas requerido para conseguir el
reforzador.
Los programas de razn variable se encuentran en la vida cotidiana siempre y cuando se
requiera una cantidad impredecible de esfuerzo para obtener un reforzador. Los jugadores
empedernidos tienen que jugar a la mquina para ganar, pero nunca saben cuntas jugadas
producirn la combinacin ganadora.
Debido a que el nmero de respuestas necesario para conseguir el reforzamiento no es
predecible, las pausas predecibles en la tasa de respuesta son menos probables con los
programas de RV que con los programas de RF.
PROGRAMAS DE INTERVALO
En los programas de razn, el reforzamiento depende slo del nmero de respuestas que el
organismo ha realizado. En los programas de intervalo, las respuestas son reforzadas slo si ocurren
cuando ha transcurrido una cierta cantidad de tiempo y el sujeto ha realizado la conducta instrumental
requerida.
Intervalo Fijo.
En un programa simple de intervalo, una respuesta se refuerza slo si se da despus de
que haya transcurrido un tiempo desde la ltima entrega del reforzador. En un Programa de
Intervalo Fijo IF, el tiempo establecido no vara de una ocasin a la siguiente.
A medida que el tiempo para la disponibilidad del prximo reforzador se acerca, la tasa
de respuesta aumenta. Este aumento en la tasa de respuesta se manifiesta como una
aceleracin en el registro acumulativo hacia el final del IF. El patrn de respuesta que se
desarrolla con los programas de reforzamiento de IF se denomina Festn del Intervalo Fijo.
http://apuntesgradopsicologia.wordpress.com Principios de Aprendizaje y Conducta
2
ER
SEMESTRE Miguel ngel Llamas Romero Pgina 3
Es importante darse cuenta de que un programa de IF no garantiza que el reforzador se
proporcionar en algn momento a lo largo del intervalo de tiempo. Se requieren respuestas
instrumentales para conseguir el reforzador en los programas de intervalo, del mismo modo que
en los programas de razn. El intervalo determina slo cundo el reforzador est disponible, no
cundo se entrega.
Intervalo Variable.
En un Programa de Intervalo Variable IV, las respuestas se refuerzan si se dan tras haber
transcurrido un intervalo variable desde la administracin del reforzador previo o desde el
comienzo del programa.
Los programas de intervalo variable se hallan en situaciones donde se requiere una
cantidad de tiempo impredecible para preparar o dispensar el reforzador. Un mecnico que no
dice cundo tendr a punto el coche impone un programa de IV. El tiempo que tiene que pasar
antes de que el coche est listo es impredecible.
Como en los programas de intervalo fijo, el sujeto tiene que realizar la respuesta
instrumental para obtener el reforzador.
COMPARACIN DE LOS PROGRAMAS DE RAZN Y DE INTERVALO
Existen notables similitudes, tanto los programas de razn fija como los de intervalo fijo
producen una pausa Posreforzamiento despus de la administracin de cada reforzador. Adems,
tanto los programas de RF como los de IF producen altas tasas de respuesta justo antes de la
administracin del siguiente reforzador. Por el contrario, los programas de razn variable y de
intervalo variable mantienen tasas estables de respuesta, sin pausas predecibles.
En cambio, los programas de intervalo y de razn activan diferentes cambios neuroqumicos en
el cerebro. La conducta mantenida por programas de intervalo est mediada por el sentido temporal
del organismo, mientras que los mecanismos temporales no estn involucrados en la actuacin con los
programas de razn.
La primera evidencia sobre las diferencias fundamentales entre los programas de razn y de
intervalo fue proporcionada por un importante experimento de Reynolds. La paloma reforzada con el
programa de RV respondi a una tasa mucho ms alta que la paloma reforzada con el programa de
IV. El programa de RV motiv una conducta instrumental mucho ms vigorosa.
Reforzamiento Diferencial del Tiempo Interrespuesta.
Por qu los programas de razn son capaces de producir tasas de respuesta ms altas
que los programas de intervalo? El factor crtico es el espaciamiento entre respuestas que se da
justo antes del reforzamiento. El intervalo entre una respuesta y la siguiente se denomina Tiempo
Interrespuesta o TIR. El intervalo entre sucesivas respuestas es tambin un parmetro conductual
que puede moldearse mediante el reforzamiento. Si se refuerzan TIRs cortos, ser ms probable
que el sujeto realice TIRs cortos. Un sujeto que produce sobre todo tiempos Interrespuesta cortos
responder a una tasa alta. Por el contrario, un sujeto que produce sobre todo tiempos
Interrespuesta largos, responder a una tasa baja.
Cmo determinan los programas de intervalo y de razn el reforzamiento de los tiempos
Interrespuesta? En un programa de razn, no existen restricciones acerca de cundo cuentan las
respuestas para conseguir el reforzador. De hecho, cuanto ms rpido complete el sujeto el
requerimiento de la razn, ms rpido recibir el reforzador. Un programa de razn favorece
tiempos interrespuesta cortos. Contrariamente, los programas de intervalo no favorecen los
http://apuntesgradopsicologia.wordpress.com Principios de Aprendizaje y Conducta
2
ER
SEMESTRE Miguel ngel Llamas Romero Pgina 4
tiempos Interrespuesta cortos, sino una ejecucin con TIRs largos. Esto deriva en tasas de
respuesta ms bajas que las que se observan en los programas de razn.
PROGRAMAS DE REFORZAMIENTO DE TASAS DE RESPUESTA
A pesar de que los programas de razn producen tasas de respuesta mayores que los
programas de intervalo comparables, ni uno ni otro requieren una tasa especfica d respuesta para
conseguir el reforzamiento. Por el contrario, los Programas de Tasas de Respuesta requieren
especficamente que el organismo responda a una tasa particular para obtener el reforzador.
En los programas de tasas de respuesta, el reforzamiento de una respuesta particular depende
de cun pronto ocurra tras la respuesta precedente. Puede establecerse un programa de
reforzamiento, por ejemplo, en el que una respuesta se refuerce slo si ocurre dentro de los 5
segundos siguientes a la respuesta precedente. Si el animal realiza una respuesta cada 5 segundos, su
tasa de respuesta ser de 12 por minuto. Por tanto, el programa proporciona reforzamiento si la tasa
de respuesta es de 12 por minuto o mayor. El organismo no ser reforzado si su tasa de respuesta se
encuentra por debajo de 12 por minuto. Este procedimiento fomenta tasas altas de respuesta. Se
denomina Reforzamiento Diferencial de Tasas Altas, o RDA.
En los programas de RDA, una respuesta se refuerza slo si ocurre antes de que haya
transcurrido cierta cantidad de tiempo tras la respuesta precedente. Se consigue el resultado opuesto
si se refuerza una respuesta slo si ocurre despus de que haya trascurrido cierta cantidad de tiempo
desde la respuesta previa. Este tipo de procedimiento se denomina Reforzamiento Diferencial de Tasas
Bajas, o RDB. Los programas RDB fomentan que los sujetos respondan lentamente. Los programas de
tasas de respuestas se encuentran fuera del laboratorio.

CONDUCTA DE ELECCIN: PROGRAMAS CONCURRENTES
Los programas de reforzamiento que se han descrito hasta ahora, incluyen una nica respuesta y
el reforzamiento de esa respuesta. La conducta es algo ms que la repeticin de respuestas
individuales. Las situaciones de eleccin pueden ser bastante complicadas. La situacin de eleccin
ms simple consta de dos respuestas alternativas, cada una de stas seguida por un reforzador de
acuerdo con su propio programa de reforzamiento.
Las aproximaciones recientes al estudio de la conducta de eleccin utilizan cajas de Skinner
equipadas con dos manipulandos, como dos teclas. En el experimento tpico, responder en cada tecla
es reforzado segn algn programa de reforzamiento. Los dos programas funcionan al mismo tiempo,
y el sujeto es libre de cambiar de una tecla de respuesta a la otra. Este tipo de procedimiento se
denomina Programa Concurrente.
MEDIDAS DE LA CONDUCTA DE ELECCIN
La conducta de eleccin de un individuo en un programa concurrente se refleja en la distribucin
de su conducta entre dos respuestas alternativas. Esto se puede medir de varias formas. Una tcnica
comn es calcular la Tasa Relativa de Respuesta de cada alternativa. La tasa relativa de respuesta en
la tecla A, por ejemplo, se calcula dividiendo la tasa de respuesta en la tecla A por la tasa total de
respuesta, donde RA es la tasa de respuesta en la tecla A y RB es la tasa en la tecla B.


RA/(RA + RB)
http://apuntesgradopsicologia.wordpress.com Principios de Aprendizaje y Conducta
2
ER
SEMESTRE Miguel ngel Llamas Romero Pgina 5
La tasa relativa de reforzamiento conseguido para cada alternativa de respuesta pude
calcularse de una manera semejante a la tasa relativa de respuesta. Por ejemplo, la tasa relativa de
reforzamiento para la alternativa A es la tasa de reforzamiento de la respuesta A dividida por la
tasa total de reforzamiento (la suma de la tasa de recompensa conseguida en el lado A ms la tasa
de recompensa conseguida en el lado B), donde rA y rB representan las tasas de reforzamiento
obtenidas en cada alternativa de respuesta.


LA LEY DE LA IGUALACIN
La tasa relativa de respuesta en una alternativa se iguala con la tasa relativa de reforzamiento en
esa alternativa. Herrnstein estableci la Ley de la Igualacin.
Hay dos expresiones matemticas comunes de la ley de la igualacin. En una formulacin, las
tasas de respuesta y de reforzamiento en una alternativa se expresan como una proporcin de las
tasas de respuesta y de reforzamiento totales, como sigue:


Como antes, RA y RB en esta ecuacin representan las tasas de respuesta en las teclas A y B, y rA
y rB representan las tasas de reforzamiento conseguidas en cada alternativa de respuesta.
La segunda formulacin de la ley de la igualacin es ms simple, las tasas de respuesta y de
reforzamiento en una alternativa se expresan como una proporcin de las tasas de respuesta y
reforzamiento en la otra alternativa, como sigue:


Ambas expresiones matemticas representan el mismo principio bsico, que las tasas relativas de
respuesta se igualan con las tasas relativas de reforzamiento.
Infraigualacin, Supraigualacin y Sesgo de Respuesta
La ley de igualacin indica que las elecciones son una funcin ordenada de las tasas de
reforzamiento. Las tasas relativas de respuesta no siempre se igualan exactamente con las tasas
relativas de reforzamiento.
La mayora de los ejemplos en los que la conducta de eleccin no se corresponde
perfectamente con la relacin de igualacin pueden acomodarse aadiendo los parmetros, b y
s.

El parmetro s representa la sensibilidad de la conducta de eleccin a las tasas relativas
de reforzamiento para las alternativas de respuesta. Cuando ocurre una igualacin perfecta, s
es igual a 1,0, en cuyo caso las tasas relativas de respuesta son una funcin directa de las tasas
relativas de reforzamiento.
Un tipo de desviacin de la igualacin perfecta incluye una sensibilidad reducida de la
conducta de eleccin a las tasas relativas de reforzamiento. Estos resultados se refieren a la
rA/(rA + rB)
RA/(RA + RB) = rA/(rA + rB)
RA/RB = rA/rB
RA/RB = b (rA/rB)
s

http://apuntesgradopsicologia.wordpress.com Principios de Aprendizaje y Conducta
2
ER
SEMESTRE Miguel ngel Llamas Romero Pgina 6
Infraigualacin y pueden acomodarse mediante la ecuacin anterior dotando al exponente s de
un valor menor que 1,0.
En otros ejemplos, la tasa relativa de respuesta es ms sensible a la tasa relativa de
reforzamiento de lo que se predice para una igualacin perfecta. stos resultados se denominan
Supraigualacin y pueden acomodarse en la ecuacin anterior dotando al exponente de un
valor mayor que 1,0.
Es ms probable que las elecciones muestren sensibilidad reducida a las tasas relativas de
reforzamiento que sensibilidad elevada las mismas. En consecuencia, la infraigualacin se
encuentra ms a menudo que la supraigualacin. El parmetro de sensibilidad puede estar
influido por numerosas variables, incluyendo la especie animal, el esfuerzo o la dificultad
incluida en el cambio de una alternativa a la otra, y los detalles de cmo se construyen las
alternativas del programa. En general, hacer ms difcil el cambio de una alternativa de
respuesta a la otra incrementa el parmetro de sensibilidad; cuando cambiar es ms difcil, los
organismos son ms sensibles a las tasas relativas de reforzamiento para las alternativas de
respuesta.
El parmetro b de la ecuacin anterior representa el sesgo de respuesta. En el
experimento original de Herrnstein, los animales eligen entre dos respuestas del mismo tipo
(picotear una tecla de respuesta), y cada respuesta se refuerza con el mismo tipo de reforzador
(un corto periodo de acceso a la comida). Los sesgos de respuesta influyen en la eleccin
cuando las alternativas de respuesta son diferentes (por ejemplo, picotear una tecla y presionar
con la pata en un pedal). El parmetro b es tambin importante cuando el reforzador
proporcionado para las dos respuestas es diferente. Una preferencia (o sesgo) por una
respuesta o un reforzador sobre la otra influye en el parmetro del sesgo b. En ausencia de
sesgos, b es igual a 1,0.
La Ley de la Igualacin y el Valor del Reforzador
Se ha encontrado que la tasa relativa de respuesta es una funcin de la cantidad relativa
de cada reforzador, as como la demora relativa de reforzamiento. Tambin se ha hallado que
las tasas relativas de respuesta estn determinadas por la patabilidad de los reforzadores.
La Ley de la Igualacin en los Programas Simples de Reforzamiento
Cmo puede una ley que describe la distribucin de respuesta entre varias alternativas
ser aplicada una sola respuesta?
Incluso las situaciones de respuesta nica pueden involucrar una eleccin. En un programa
simple, el sujeto recibe no slo reforzamiento explcito por realizar una respuesta operante
especfica, sino tambin recompensas intrnsecas de las otras actividades que puede realizar.
Por tanto, el reforzamiento total incluye las recompensas extrnsecas programadas tanto como
las fuentes de reforzamiento no programadas. Este tipo de anlisis permite la aplicacin de la
ley de la igualacin a programas de reforzamiento de respuesta nica.
La tasa de respuesta estar directamente relacionada con la tasa de reforzamiento para
esa respuesta de una forma negativamente acelerada. La tasa de respuesta disminuir a
medida que aumente la tasa de las otras fuentes de reforzamiento. Dos maneras de modificar
la tasa de una respuesta son mediante el cambio de su tasa de reforzamiento o mediante el
cambio de la tasa de las otras fuentes de reforzamiento.
Es ampliamente aceptado que responder en una situacin de respuesta nica es una
funcin negativamente acelerada de la tasa de reforzamiento para esa respuesta. La utilidad
http://apuntesgradopsicologia.wordpress.com Principios de Aprendizaje y Conducta
2
ER
SEMESTRE Miguel ngel Llamas Romero Pgina 7
de la igualacin como una teora de la conducta en situaciones operantes de respuesta nica se
ha puesto recientemente en duda.
MECANISMOS DE LA LEY DE LA IGUALACIN
La ley de la igualacin est establecida en funcin de las tasas de respuesta y de
reforzamiento prometidas sobre la duracin total de las sesiones experimentales. Ignora cuando se
realizan las respuestas individuales. Igualmente, las teoras molares de la igualacin ignoran qu
podra ocurrir a nivel de las respuestas individuales. Las teoras molares explican agregados de
respuesta y se relacionan con la distribucin total de respuestas y reforzadores en las situaciones de
eleccin.
En contraste con las teoras molares, las teoras moleculares se centran en lo que ocurre a nivel
de las respuestas individuales y consideran la relacin de igualacin como resultado neto de estas
elecciones individuales. Otras teoras proporcionan caracterizaciones de la conducta que no son
molares ni moleculares, sino algo intermedio entre ellas; una de estas teoras es el mejoramiento.
Igualacin y Maximizacin de las Tareas de Reforzamiento
Los animales cambian una y otra vez entre las alternativas para recibir tantos
reforzadores como le sea posible. La idea de que los organismos maximizan el reforzamiento
ha sido utilizada para explicar la conducta de eleccin en los niveles de anlisis tanto molecular
como molar.
Maximizacin Molecular: los organismos siempre eligen cualquier alternativa de respuesta
con mejores probabilidades de que sea reforzada en ese momento. Consideremos, por
ejemplo, una paloma. Cuanto ms tiempo permanezca la paloma en la tecla A, ms
probabilidad habr de que transcurra el requisito de intervalo para la tecla B, y que el
reforzamiento est disponible por el picoteo de B. Al alternar, la paloma puede obtener
el reforzador en la tecla B. Ahora, cuanto ms tiempo continu picoteando en la tecla B,
ms probable ser que la tecla A est lista para el reforzamiento. Shimp propuso que la
relacin de igualacin es un subproducto de una alternancia prudente cuando la
probabilidad de reforzamiento en la tecla de respuesta alternativa es mayor que la
probabilidad de reforzamiento en la tecla de respuesta actual.
Maximizacin Molar: las teoras molares de la maximizacin presuponen que el organismo
distribuye sus respuestas entre las varias alternativas a fin de maximizar la cantidad de
reforzamiento que consiguen a la larga. Las teoras molares se centran en agregados de
conducta sobre algn perodo de tiempo ms que en las respuestas de eleccin individual.
La teora de la maximizacin molar fue originalmente formulada para explicar la
eleccin en programas concurrentes construidos con componentes de razn. En los
programas concurrentes de razn, los animales responden exclusivamente en el
componente de razn que requiere el menor nmero de respuestas.
Debido a que otras distribuciones de respuesta pueden dar como resultado
cantidades semejantes de recompensa, la maximizacin molar no puede explicar por qu
la conducta de eleccin se distribuye de forma tan cercana la relacin de igualacin en
los programas concurrentes IV-IV y no de otras formas igualmente efectivas.
Otro desafo para la igualacin molar lo proporcionan los resultados de estudios en
los cuales hay una eleccin entre un programa de razn variable y uno de intervalo
variable. En un programa de razn variable, el organismo puede obtener reforzamiento
en cualquier momento realizando el nmero requerido de respuestas. Por contra, en un
http://apuntesgradopsicologia.wordpress.com Principios de Aprendizaje y Conducta
2
ER
SEMESTRE Miguel ngel Llamas Romero Pgina 8
programa de intervalo variable, el sujeto tiene que responder slo de vez en cuando para
obtener casi el mximo nmero de recompensas posibles. Dadas estas diferencias, para el
mximo beneficio de un programa concurrente RV-IV, los sujetos deberan concentrar sus
respuestas en la alternativa de razn variable y responder slo ocasionalmente en el
componente de intervalo variable. La evidencia muestra que los animales favorecen el
componente de RV pero no de forma tan fuerte como predice la maximizacin molar.
Mejoramiento: los mecanismos de mejoramiento operan en una escala temporal que est
entre la escala temporal de las teoras molar y molecular.
Advirtase que el mejoramiento no se refiere a elegir la mejor alternativa en ese
momento (maximizacin molecular) o hacer que a largo plazo algo sea tan bueno como se
pueda (maximizacin molar). El mejoramiento se refiere a la meta ms modesta (o
"inocente") de slo hacer que la situacin sea mejor.
Las teoras molares se centran en las tasas globales de respuesta y reforzamiento,
calculadas sobre la duracin total de una sesin experimental. Por contra, las tasas locales
estn calculadas slo sobre el periodo de tiempo que un sujeto dedica a una alternativa
particular de respuesta. Por ejemplo, si la situacin incluye dos opciones, A y B, la tasa
local de respuesta en A se calcula dividiendo la frecuencia de respuesta en A por el
tiempo que el sujeto dedica a responder en A.
La tasa local de una respuesta es siempre mayor que su tasa global.
La teora del mejoramiento asume que los organismos cambian de una alternativa
de respuesta a otra para mejorar la tasa local de reforzamiento que estn recibiendo. Se
asume que los ajustes de la distribucin de la conducta entre las alternativas continan
hasta que el organismo est obteniendo la misma tasa local de recompensa en todas las
alternativas.

Potrebbero piacerti anche