Sei sulla pagina 1di 7

TEMA 5 P: PROGRAMAS Y TEORIAS DEL REFORZAMIENTO

PSICOLOGIA APRENDIZAJE ADELINE TEMA 5

2014

2014

I PROGRAMAS DE REFORZAMIENTO

A PROGRAMAS BASICOS DE REFORZAMIENTO

Cada programa => regla que especifica condiciones de reforzamiento.

REFORZAMIENTO PARCIAL: aprendizaje más duradero y con mayor resistencia a la extinción que REFORZAMIENTO CONTINUO.

RAZON

INTERVALO

FIJA

VARIABLE

FIJO

VARIABLE

 

Mismo num de respuestas requerido para conseguir reforzador

Num

de respuestas

Mismo

tiempo

Tiempo

transcurrido

requerido varia de manera

transcurrido requerido para conseguir reforzador

variable

alrededor

de

irregular alrededor de promedio

promedio

RF

RV

IF

IV

 
 
 
 
 

Desarrollo rapido si razon pequeña Break and Run

Altas, constantes, se aproximan a limites cap Perseverancia elevada

Tasa mayor cerca del final del intervalo, aumenta progresivament Festoneado

Constantes pero < RV Perseverancia elevada

 

Registrador acumulativo: se puede medir

Numero de respuestas (pluma hacia arriba)

Numero de pausas (pluma no se mueve)

Tiempo Entre Respuestas (TER)

Tiempo total en responder o en estar sin responder

Perseverancia (responder/estar sin responder)

Ocurrencia de otros sucesos ambientales

Ventajas frente a otras técnicas:

Medir respuestas que ocurren muy rápidamente

Registrar estructuras complejas de comportamiento sin perder detalles de cambios pequeños

Medición no contaminada

detalles de cambios pequeños  Medición no contaminada  En los programas RF, si razón elevada,

En los programas RF, si razón elevada, se observa una pausa post-reforzamiento que se sigue de una transición casi instantánea a una tasa alta de respuesta posterior (carrera de la razón)

Si el requisito de la razón es muy alto, se puede dejar de responder por completo: tensión de la razón

En los programas de IF, proceso de discriminación temporal, responden cuando “subjetivamente” consideran que es altamente probable la consecución del reforzador.

Aparece una pausa tras cada reforzamiento en los programas FIJOS.

RF => se pausa de la pausa a una tasa alta y estable

IF => se pausa de la pausa a una aceleración gradual

En un programa de INTERVALO, la disponibilidad del reforzador suele estar limitada en el tiempo => DURACION LIMITADA.

1
1

PSICOLOGIA APRENDIZAJE ADELINE TEMA 5

2014
2014

La duración de la pausa post reforzamiento en los RF se incrementa sistemáticamente a medida que aumenta el requisito de la razón. Igualmente, a mayor duración del intervalo, mayor pausa.

Según Killeen, en RF depende más de la frecuencia de reforzamiento (determinada por intervalo)

En programas de razón, pausa más determinada por el programa que se va a completar que por el ocurrido antes. Ej: pausas más largas en transiciones L-L y C-L. En programas de intervalo, pausa se ajusta proporcional y rápidamente a los cambios en la frecuencia del reforzamiento.

Las variables de control sobre la longitud de la pausa post-reforzamiento no son tan diferentes entre I y R.

1 PROGRAMAS DE RAZON FRENTE A DE INTERVALO: FUNCIONES DE RETROALIMENTACION

 

A iguales tasas y patrones de reforzamiento, tasa de respuesta mayor en programas de razón.

 
 

Para igualar, usan como base el tiempo necesario para dar todas las respuestas en el programa de razón, y así se equiparan los programas en cuento al número de reforzadores y su distribución.

En PI, tasa respuesta no influye directamente sobre frecuencia admin # PR.

 
 

PI tienden a reforzar TER largos (mero paso tiempo aumenta proba reforzamiento) lo que reduce tasa respuesta.

PR no refuerzan diferencialmente unos TER (aunque con tendencia a resp en ráfagas, + proba de reforzar TER cortos)

Baum:

 

Explicación MOLECULAR: un acontecimiento es suficiente para producir un efecto. Meca explicativo:

variaciones momento a momento en la contigüidad respuesta-reforzador. Reforzamiento diferencial TER

Explicación MOLAR: en RV hay una correlación directa entre tasa respuesta y reforzamiento # IV. Meca explicativo: variables explicativas son fenómenos temporalmente extensos, énfasis en correlación. Funciones de retroalimentación que relacionan la conducta con el reforzador.

 

FUNCION DE RETROALIMENTACION: descripción de la forma en que actúa el ambiente en función de algún aspecto de la ejecución conductual. Asume que la conducta afectará a algún aspecto del ambiente pero no necesariamente es una relación causal (correlación).

 

En programa R => R = B/N (N = num de respuestas requeridas por reforzador, R = tasa de reforzamiento y B = tasa de respuesta emitida) Cuanto más rápido se responda, mayor R.

En programa I => más difícil calcular. Función hiperbólica.

Cambios tasa baja => afecta mucho reforzamiento pero cambios tasa alta => no afecta (efecto techo)

Cuanto más corto el intervalo más es cierto (IV 30 # IV 240).

cambios tasa alta => no afecta ( efecto techo )  Cuanto más corto el intervalo
tasa alta => no afecta ( efecto techo )  Cuanto más corto el intervalo más

Áreas aplanadas hipérbola => control diferencial bastante débil lo que explica la mayor variabilidad entre sujetos.

Ej. De función de retroalimentación plana: experimento de superstición (no contingencia).

B

PROGRAMAS

DE

REFORZAMIENTO

DIFERENCIAL

DE

TIEMPOS

ENTRE

RESPUESTAS

Reforzamiento diferencial de tasas bajas de respuesta (RDB): reforzar únicamente los TER superiores a tiempo determinado.

Diferencia con IF: en RDB solo se refuerza la respuesta si ha transcurrido cierto tiempo desde ultima respuesta, mientras que en IF se refuerza si ha transcurrido cierto tiempo desde anterior reforzador.

Contingencia de castigo para respuestas que ocurren antes del tiempo especificado, pero la respuesta criterio sigue siendo necesaria (# entrenamiento de omisión).

Más difícil que RDA (se puede deber a inducción de respuestas por reforzamiento espaciado / degradación valor reforzador por encontrarse demorado)

Reforzamiento diferencial de tasas altas de respuesta (RDA): reforzar únicamente los TER inferiores a tiempo determinado.

Castigo diferencial de las respuestas que ocurren después del tiempo (reinicializa intervalo).

1 TEORIA DE REFORZAMIENTO DIFERENCIAL DE LOS TER En todos los programas de CO se refuerzan específicamente TER de una duración determinada.

RV e IV

Tasa de respuesta muy constante, TER homogéneos, reforzamiento diferencial TER (más largos en IV)

RF e IF

No constancia, pausas largas. TER cortos deberían ser reforzados, pero no debería darse pausa. Otros meca

2
2

PSICOLOGIA APRENDIZAJE ADELINE TEMA 5

2014
2014

Meca de discriminación temporal: competición entre respuestas en función del momento en el intervalo.

Tanno y Silberberg: influencia del TER en la tasa de respuesta depende de manera exponencial a su distancia relativamente a la ocurrencia del reforzador (TER más alejados pesan menos). Mayor sensibilidad de emparejamientos locales respuesta-reforzador.

C

PROGRAMAS COMPUESTOS DE REFORZAMIENTO

 

1

PROGRAMAS

ALTERNANTES

Y

SECUENCIALES:

EL

CONTROL

POR

ESTIMULO

Y

REFORZAMIENTO CONDICIONADO

CONTROL POR ESTIMULO Y REFORZAMIENTO CONDICIONADO  Mixto : se presentan dos o más programas básicos

Mixto: se presentan dos o más programas básicos alternándose al azar. Cambio de uno al otro depende de tiempo preestablecido.

Múltiple: igual pero con señales de cada programa.

Tándem: al menos dos programas simples que se presentan siempre en el mismo orden. Los sujetos deben completar el primero para acceder al secundo, al final del cual consiguen el reforzador.

Encadenado: igual pero con señales de cada programa.

2 PROGRAMAS SIMULTANEOS: PROGRAMAS CONCURRENTES Y PROGRAMAS COMBINADOS

Concurrentes: disponer simultáneamente de al menos dos programas básicos del mismo tipo. Se puede cambiar de uno al otro libremente. Los sujetos tienen que elegir.

Alternativo: disponer simultáneamente de al menos dos programas básicos de tipo distinto (I y R). Se refuerza cuando se cumple con el requisito de cada programa de manera independiente.

Conjuntivo: igual pero se refuerza respuesta cuando se cumple al mismo tiempo con requisito de R e I, es decir, dar un numero de respuestas en un tiempo determinado.

Entrelazado: la disposición de uno de los programas se altera por el desarrollo del otro, es decir, cumplir con un criterio repartido entre tiempo y numero de respuestas (no los dos a la vez)

Mixtos y Multiples

Tandem y Encadenado

Concurrentes

Estudio control estimular

Estudio reforzamiento condicionado

Estudio conducta elección

II CONDUCTA DE ELECCION

Estudio conducta elección II – CONDUCTA DE ELECCION Ra y Rb = tasas de respuestas en

Ra y Rb = tasas de respuestas en a y b. = Tasas relativa de respuesta

Elección de Premios concurrentes: usados antes. Se elige entre 2 RO diferentes (correr o beber por ej.)

No es el mas adecuado

Elección de Respuestas Instrumentales concurrentes: se elige entre 2 RO idénticas pero que pueden llevar a # premios.

A LA LEY DE IGUALACION

Herrnstein: programa concurrente donde alternativas diferían en la frecuencia de reforzamiento, programa independiente de IV.

Ley de igualación: la tasa relativa de respuestas entre dos alternativas concurrentes es igual a la frecuencia relativa de reforzamiento asociada con cada alternativa.

relativa de reforzamiento asociada con cada alternativa. Fa y Fb = frecuencias de reforzamiento de a
relativa de reforzamiento asociada con cada alternativa. Fa y Fb = frecuencias de reforzamiento de a

Fa y Fb = frecuencias de reforzamiento de a y b.

Relación LINEAL

Tambien se iguala con otros parámetros:

LINEAL  Tambien se iguala con otros parámetros: Ma y Mb = magnitud reforzador Da y

Ma y Mb = magnitud reforzador Da y Db = demora reforzador

3
3

PSICOLOGIA APRENDIZAJE ADELINE TEMA 5

2014
2014

B

MAXIMIZACION:

ELECCION

ENTRE

PROGRAMAS

CONCURRENTES

DE

RAZON

En programas concurrentes de razón: se tiende a elegir la alternativa que tiene la razón más baja

Comportamiento adaptativo

Único componente que cumple con la ley de igualación en un programa concurrente de razón (tasa relativa respuesta = 1 y tasa relativa reforzamiento = 1).

En programas concurrentes de ambos tipos: se tiende a preferir alternativa programa razón pero preferencia no es tan marcada como se esperaría (dedicación extra al programa de intervalo).

C IGUALACION TEMPORAL

Se iguala el tiempo de estancia en las alternativas de respuesta con la tasa relativa de reforzamiento.

Findley: variante programa concurrente intervalo (parecido a múltiple).

Una misma tecla para los dos programas

Una tecla de cambio

Permite distinción entre respuesta de cambio y respuesta instrumental.

Brownstein y Pliskoff: programa tipo Findley sin la tecla de RI. A mayor permanencia, mayor preferencia.

Igualación temporal:

permanencia, mayor preferencia .  Igualación temporal : Ta y Tb = tiempos de permanencia en

Ta y Tb = tiempos de permanencia en a y b.

Se encuentra en procedimientos concurrentes con o sin RI,

D LEY GENERALIZADA DE LA IGUALACION

Influencias no deseables:

Comportamiento de alternancia: cambio intermitente de una alternativa a otra sin que guarde relación con reforzadores asociados a cada alternativa. Tendencia natural en animales. Reforzamiento accidental en los programas de I que fortalece este comportamiento.

DEMORA POR EL CAMBIO: introducir breve periodo después de la primera respuesta para que pueda entrar en funcionamiento el programa asociado. Sujetos abandonan conducta alternancia. DPC garantiza independencia de operantes de respuesta.

Sesgos: disposición espacial de las alternativas, color, iluminación fuerza requerida para responder…

Igualación factores secundarios no siempre posible

Baum: método para corregir influencia sesgos (Sa y Sb)

Baum : método para corregir influencia sesgos (Sa y Sb) 1. Equiparar factores de reforzamiento entre

1. Equiparar factores de reforzamiento entre alternativas

2. Medir preferencias relativas sujetos (si desviación => contribución sesgo)

3. Una vez conocido el valor de los sesgos relativos, se varian los factores de reforzamiento

4. Se deberá observar una desviación paralela a la igualación en dirección del sesgo.

Idea de que calculo auto en cerebro => los ajustes tan exactos como predichos no se cumplen.

Sobreigualación: cuando mejor alternativa valorada por encima (cuando DPC larga o cambio muy costoso)

Infraigualación: cuando mejor alternativa valorada por debajo (más común)

Siempre se habla de la tasa de respuesta en la alternativa más favorable

de la tasa de respuesta en la alternativa más favorable Ampliación de la ecuación:  k

Ampliación de la ecuación:

k = sesgos relativos

s

=

exponente

de

programas del reforzamiento

s < 1 = infraigualacion

s > 1 = sobreigualacion

s < 1 = infraigualacion  s > 1 = sobreigualacion sensibilidad hacia  s =

sensibilidad

hacia

s = 0 tasas de respuestas siempre iguales (insensibilidad a contingencias total).

4
4

PSICOLOGIA APRENDIZAJE ADELINE TEMA 5

2014
2014

E TEORIAS DE LA IGUALACION

Aproximación molecular: cambio de una alternativa a otra cuando PROBA MOMENTANEA DE REFORZAMIENTO sea mayor en la otra alternativa. Se elige la que proporciona mayor proba relativa de reforzamiento.

Explica bastante bien distribución en programas concurrentes de intervalo

Explica preferencia reforzadores variables: se aumenta proba de mayor contigüidad entre respuesta y consecución reforzador

Aproximación molar: se distribuyen las respuestas de acuerdo con un cálculo GLOBAL DE TASAS RELATIVAS DE REFORZAMIENTO entre las dos alternativas. Se elige la que proporciona mayor frecuencia de reforzamiento.

Problemas para explicar no preferencia casi exclusiva por programa de razón en RV-IV, el por qué los animales prefieren reforzadores variables a fijos

Aproximación del mejoramiento: síntesis. Eligen entre 2 alternativas de manera que se IGUALEN TASAS LOCALES DE REFORZAMIENTO. Alcance a más largo plazo pero en términos de tasa local. Con la igualación temporal, las tasas locales de respuesta y reforzamiento serán muy parecidas (consecuencia de elegir alternativa que presente mejor tasa local de reforzamiento)

Cuidado: tasa de respuesta/reforzamiento = número de respuestas o reforzadores por tiempo de estancia en la alternativa

F IMPULSIVIDAD Y AUTOCONTROL: LA ELECCION CON COMPROMISO

Cadenas concurrentes de respuesta: se mide la elección entre diferentes fuentes de premios.

se mide la elección entre diferentes fuentes de premios.  Procedimiento que permite que los sujetos

Procedimiento que permite que los sujetos sean más

consecuentes al decidir sus respuestas de elección.

Permite separar aprendizaje de responder / aprendizaje

de elección

Los sujetos igualan la tasa relativa de respuesta en

eslabones terminales con la tasa relativa de reforzamiento

También igualan tasa relativa de respuesta en eslabón

inicial con tasa relativa de reforzamiento en eslabones terminales.

Los programas CONCURRENTES encadenados se

parecen más a la realidad.

Trabajo de Rachlin y Green:

Dos opciones: recompensa pequeña inmediata o

recompensa mayor demorada.

Elección directa (programa concurrente simple): se

prefiere la opción de recompensa pequeña aunque no es mas ventajosa

Elección en programa concurrente encadenado: tiempo

constante de esperar para poder acceder al refuerzo => se prefiere la opción de recompensa mayor.

La fuerza de la inmediatez del reforzador se debilitó y elección guida por magnitud

IMPULSIVIDAD = preferencia por recompensa pequeña inmediata

AUTOCONTROL = preferencia por recompensa mayor demorada

Así, ¡los diferentes factores del reforzador no influyen todos de la misma manera!

Extensión de la ley generalizada de igualación (incorporando frecuencia y magnitud)

de igualación (incorporando frecuencia y magnitud) G – LA NOCION DE VALOR DE LOS REFORZADORES 

G LA NOCION DE VALOR DE LOS REFORZADORES

Valor de la alternativa: aumenta con la magnitud y disminuye con la demora del reforzador.

V = M / D (V = valor, M = magnitud, D = demora)

Ej.: IV-30 / IV-20 con magnitud doble en IV-30 y IV-40 / IV-15 con magnitud doble en IV-40

V de IV-30 = 2/30 = 0.07 y V de IV-20 = 2/20 = 0.05 => muestran comportamiento autocontrolado

V de IV-40 = 2/40 = 0.05 y V de IV-15 = 1/15 = 0.07 => muestran comportamiento de impulsividad

5
5

PSICOLOGIA APRENDIZAJE ADELINE TEMA 5

2014
2014

Añadir un retraso constante a la entrega de los dos reforzadores vuelve un comportamiento “impulsivo” en “autocontrolado”.

Explicación de Mazur:

en “autocontrolado”.  Explicación de Mazur :  Función hiperbólica  Va = valor reforzador a,

Función hiperbólica

Va = valor reforzador a, Ma = magnitud, Da = demora, k = tasa de descuento demora (que indica a qué punto se aprecian los reforzadores demorados, depende del indiv y situación)

Cuando reforzador grande y otro peque son demorados, aunque el primero lo sea mas, el valor del grande será superior. Ej: Va = 5 / 1 + 50 = 0.1 y Vb = 2 / 1 + 30 =0.06

El valor del pequeño será mayor cuando la espera para el pequeño sea relativamente pequeña. Ej:

Va = 5 / 1 + 30 = 0.16 y Vb = 2 / 1+5 = 0.33

Valor castigo también cambio según función semejante

Si muy demorados: incide más la diferencia de magnitud (se prefiere castigo pequeño inmediato)

Si menos intenso inmediato: incide más la demora (se prefiere castigo grande demorado)

H LA TASA DE RESPUESTA EN RELACION A LA LEY DE IGUALACION

Herrnstein: considera que cualquier situación implica elección.

 

Pero también existen recompensas implícitas, así, el reforzamiento total es la suma de los reforzadores programados y de los no programados

 con Ro = tasa de otras actividades, Ra = tasa de respuestas operantes, Fa =

con Ro = tasa de otras actividades, Ra = tasa de respuestas operantes, Fa = frecuencia de reforzamiento explicito programado y Fo = frecuencia de reforzamiento intrínseco otras actividades.

Tasa total (Ra + Ro) debería ser una constante puesto que al cambiar una se redistribuye entre las alternativas disponibles

 con k = Ra + Ro

con k = Ra + Ro

Así la tasa absoluta de respuesta (Ra) está en función de la tasa relativa de reforzamiento de esa conducta en relación con otras.

Par aumentar Ra, podemos aumentar Fa o disminuir Fo.

Cuantificación de la ley del efecto de Thorndike.

III

LA

NATURALEZA

DE

LA

ASOCIACION

EN

EL

APRENDIZAJE

INSTRUMENTAL

¿Cómo se desarrolla fuerza respuesta? Respuesta asociativa.

THORNDIKE

E-R

Asociaciones E-R dependen propia consecuencia acción. Ley teórica del efecto.

Reemplazó principio de Spencer-Bain (acción espontánea seguida placer más probable q vuelva a occurir) e inauguró investigación expe en condicionamiento instrumental.

GUTHRIE

E-R

Reforzador facilita formación asociación.

Distinguió entre actos y movimientos

Guthrie y Horton => cada gato escapaba de una forma diferente

HULL

E-R

Refuerzo E-R debido a reducción impulso

Introduce concepto motivación e incentivo

Psi hipotético deductivo y neoconductista

 H = fuerza habito, D = impulso, I = incentivo, E = ejecución

H = fuerza habito, D = impulso, I = incentivo, E = ejecución

TOLMAN

E-E

Expe con ratas nadando en laberinto: consiguen escapar corriendo.

Aprenden un “mapa cognitivo” (resultado opuesto a E-R)

Cambios en conducta resultados de procesos como expectativa recompensa

Distinguir entre aprendizaje y ejecución

IV REGLAS DE EJECUCION OPERANTE

Herederas del planteamiento conceptual de Skinner. Ley empírica del efecto o ley del refuerzo.

6
6

PSICOLOGIA APRENDIZAJE ADELINE TEMA 5

2014
2014

Los reforzadores seleccionan la respuesta, no otorga papel necesario a la formación de ningún tipo de asociación concreta, los estímulos ambientales son señalizadores

A TEORIA DE LA PROBABILIDAD DIFERENCIAL

Premarck: las respuestas que acompañan a estímulos reforzadores son altamente probables

La razón de que una respuesta se convierta en reforzadora depende de su proba de ocurrencia en línea de base

La respuesta más probable reforzará a la menos probable, pero la menos probable no reforzará a la mas probable

PRINCIPIO DEL REFORZAMIENTO: reforzadores derivan su efecto de las disposiciones experimentales en forma de relaciones de contingencia y cualquier evento puede convertirse en un reforzador eficaz.

Actividad debe ser preferida en línea de base (donde conductas libremente disponibles sin limitación)

Proba de ocurrencia de actividad preferida debe restringirse y ocurrir de forma contingente con la realización de actividad menos preferida

La actividad menos preferida se convierte en instrumental

Es lo que ocurre normalmente en los experimentos de CO.

Ej. Expe de Premarck: si beber es más probable que correr (por privación de bebida), entonces beber puede reforzar conducta de correr / si correr es más probable que beber (condición sin privación) entonces correr puede reforzar conducta de beber.

Ej. Expe con niños: según preferencia de comer golosinas o jugar a maquinitas del millón y según las contingencias, comer golosinas puede reforzar el juego o al revés.

PRINCIPIO DEL CASTIGO: una actividad de baja proba puede castigar una de alta proba si se aumenta su proba de ocurrencia y suceda en contingencia con la de alta proba.

Esta concepción siempre estará limitada por no saber el por qué se tiene preferencia por una actividad.

Problema de medir la probabilidad: frecuencia de ocurrencia respuesta (solo si respuestas parecidas topográficamente) => considerar proba en una dimensión temporal (tiempo dedicado a una actividad / tiempo total) y medir proba momentánea (varían con el tiempo)

B TEORIA DE LA PRIVACION DE RESPUESTA

No basta con la proba diferencial, la eficacia del reforzador depende de que estén limitadas las posibilidades de ejecutar la respuesta (restricción).

Eisenberger, Karpman y Trattner => los programas de reforzamiento incrementarán la frecuencia de ocurrencia de la respuesta operante por encima de su línea base dichos programas privan al individuo de realizar la resp.

Timberlake y Allison => HIPOTESIS DE LA PRIVACION DE RESPUESTA: para que actividad sea reforzador eficaz solo es necesario restringir la realización de dicha actividad en relación con su ocurrencia en el punto de bienestar. No es necesario que sea preferida # Premarck.

I/R > Oi / Or (I = Resp Instrumental, R = Reforzador, Oi = actividad que será instrumental, Or =

actividad que será reforzadora) La frecuencia de la resp se estabiliza en el punto en que el coste de incrementos mayores sobrepase el beneficio de obtener el reforzador lo más cerca posible del nivel alcanzado en la línea de base. Minimiza la distancia al punto de bienestar cumpliendo con la contingencia.

Cuando la actividad se restringe, es la reforzadora.

Esta hipótesis predice tasa de reforzamiento y de respuesta se relacionan en forma de U invertida (bitonica)

A medida que el requerimiento del programa sea mayor, el número de respuestas debe aumentar inicialmente porque el beneficio de obtener el reforzador compensa el coste, pero llega un punto en el que ya no compensa más.

Función lineal o bitonica depende de la longitud de sesión expe (contingencias se separan más a medida que se aumente num de reforzadores)

depende de la longitud de sesión expe (contingencias se separan más a medida que se aumente
7
7