Sei sulla pagina 1di 3

Los Fundamentos del Entrenamiento con Clicker (ClickerTraining) (1)

El Condicionamiento Operante
En psicologa, el condicionamiento operante es una forma de aprendizaje en la que la consecuencia (el estmulo reforzador) es contingente a la respuesta que previamente ha emitido el sujeto. El condicionamiento operante implica la ejecucin de conductas que operan sobre el ambiente. El condicionamiento operante es un tipo de aprendizaje que tiene que ver con el desarrollo de nuevas conductas, y no con la asociacin entre estmulos y conductas reflejas existentes como ocurre en el condicionamiento clsico. Tambin llamado condicionamiento instrumental o aprendizaje instrumental, fue estudiado inicialmente por Edward Thorndike (1874-1949), quien observ la conducta de los gatos tratando de escapar de una especie de laberinto. La primera vez que eran encerrados en la caja, los gatos tardaban un cierto tiempo en escapar. Con el tiempo y la experiencia, las respuestas inefectivas ocurran menos frecuentemente, y las exitosas ms frecuentemente, permitiendo a los gatos escapar en perodos ms breves. En su denominada Ley del Efecto, Thorndike plante la hiptesis de que las respuestas exitosas, es decir aquellas que producan consecuencias satisfactorias, eran estampadas por la experiencia y as ocurran ms frecuentemente. Por su parte, las respuestas fallidas, aquellas que producan resultados insatisfactorios, eran desechadas y por lo tanto tendan a ocurrir con menor frecuencia. En resumen, algunas consecuencias fortalecan una cierta conducta, y otras la debilitaban. Aos ms tarde, B.F.Skinner (1904-1990) realiz un anlisis ms detallado del condicionamiento operante basado en los conceptos de reforzamiento, castigo y extincin. Rechaz el concepto de satisfaccin de Thorndike y construy una nueva conceptualizacinde la conducta. Condicionamiento Operante vs. Patrones de Accin Fijos El concepto de aprendizaje instrumental de Skinner contrasta con lo que el bilogo ganador del Premio Nobel Konrad Lorenz denomin Patrones de Accin Fijos, o bien conductas reflejas, impulsivas, o instintivas. Segn Skinner y otros, dichas conductas existan fuera de los parmetros del condicionamiento operante, pero eran consideradas esenciales para un anlisis abarcador de la conducta. En el entrenamiento canino, el impulso de presa (prey drive), particularmente en el entrenamiento de perros de trabajo, de servicio, etc, la estimulacin de estos patrones de accin fijos, relativos al instinto predatorio del perro, son la clave para producir conductas muy difciles y persistentes, y en la mayora de los casos no implican condicionamiento operante, clsico o de cualquier otro tipo. En tanto que los procesos de la evolucin conformaron esos patrones de accin fijos, los mismos permanecieron estables y fueron conformados por la evolucin en virtud de su funcin en la supervivencia (ej: condicionamiento operante a lo largo de miles de aos). De acuerdo a las leyes del condicionamiento operante, cualquier conducta que es consistentemente recompensada, cada vez que ocurre, se extinguir ms rpido que otra conducta que es recompensada intermitentemente, la cual resultar ms

resistente a la extincin. As en los perros para deteccin, cualquier conducta correcta indicando un objeto detectado, debe ser siempre recompensada en la etapa inicial de aprendizaje para la adquisicin de la conducta. A partir de entonces, se introducen procedimientos de desvanecimiento, en los cuales la tasa de reforzamientos se diluye (es decir, no cada intento correcto es reforzado), cambiando al perro a un esquema de reforzamiento intermitente, el cual a su vez es ms resistente a la extincin de la conducta que el abandono de los reforzamientos. Neurofisiologa del Condicionamiento Operante Los primeros estudios cientficos que identificaron grupos de neuronas que respondan de manera que sugera eran capaces de codificar estmulos condicionados fueron llevados acabo por Rusty Richardson y Mahlon de Long (1,2). Ellos demostraron que grupos neuronales de los ncleos basales, que liberan acetilcolina (un neurotransmisor qumico), resultan activadas inmediatamente despus de un estmulo condicionante, o despus de una recompensa primaria, si es que no existi estmulo condicionante. Estas neuronas son igualmente activas frente a reforzamientos positivos y negativos. Existe adems evidencia de que la liberacin de dopamina (otro neurotransmisor qumico) es activada de manera similar. Los caminos de la dopamina codifican seales de reforzamiento positivo nicamente, no reforzamientos negativos, y se proyectan mucho ms densamente en la corteza frontal. En contraste, las proyecciones colinrgicas (mediadas por la acetilcolina) son densas incluso en regiones corticales posteriores, tales como la corteza visual primaria. Un estudio realizado en seres humanos afectados por la Enfermedad de Parkinson (una condicin atribuida a la falta de dopamina) ilustra el rol de la dopamina en el reforzamiento positivo. En los pacientes que no reciben medicacin de reemplazo, se demuestra que son ms capaces de realizar aprendizajes por medio de reforzamiento negativo. Por contrapartida en los pacientes bajo medicacin, el aprendizaje resulta ms fcil mediante reforzamiento positivo. Las Herramientas del Condicionamiento Operante Las herramientas clave del condicionamiento operante son el reforzamiento y el castigo, los cuales a su vez pueden ser positivos (administrados despus de una respuesta), o negativos (retirados despus de una respuesta). Esto crea un total de cuatro consecuencias bsicas, con la adicin de un quinto procedimiento conocido como extincin (ningn cambio en la consecuencia luego de una respuesta). Es importante hacer notar aqu que no se habla de organismos que estn siendo reforzados, castigados o extinguidos, sino que es la respuesta o conducta la que est siendo reforzada, castigada o extinguida. Adicionalmente, reforzamiento, castigo y extincin no son trminos cuyo uso est limitado a los laboratorios. Consecuencias que emergen naturalmente en la vida real pueden reforzar, castigar o extinguir una conducta y no siempre son administradas por las personas.

Reforzamiento: es una consecuencia que determina que una conducta ocurra con mayor frecuencia. Castigo: es una consecuencia que hace que una conducta ocurra con menor frecuencia. Extincin: es la ausencia de cualquier consecuencia luego de una conducta. Cuando una conducta es inconsecuente, es decir no produce consecuencias favorables ni desfavorables, ocurrir con menor frecuencia hasta desaparecer.

Los cuatro contextos del condicionamiento operante Aqu los trminos positivo y negativo no son empleados en su sentido popular, sino ms bien positivo se refiere a la adicin y negativo a la sustraccin. Lo que se agrega o sustrae puede ser reforzamiento o castigo. Los cuatro procedimientos son: 1.- Reforzamiento Positivo: ocurre cuando una conducta (respuesta) es seguida por un estmulo favorable, lo cual aumenta la frecuencia de dicha conducta. En los experimentos de Skinner, un terrn de azcar que la rata reciba si pulsaba la palanca correcta. 2.- Reforzamiento Negativo: ocurre cuando una conducta (respuesta) es seguida por el retiro de un estmulo aversivo (displacentero) por lo tanto aumentando la frecuencia de la conducta. En el ejemplo de Skinner un reforzamiento negativo podra ser un sonido agudo y chirriante que suena continuamente hasta que el animal da la respuesta deseada, momento en que el sonido molesto se interrumpe. 3.- Castigo Positivo: (tambin llamado castigo por estimulacin contingente) ocurre cuando una conducta (respuesta) es seguida por un estmulo aversivo o displacentero, tal como una descarga elctrica o un ruido molesto, lo cual resultar en una menor frecuencia de la conducta. 4.- Castigo Negativo: (tambin llamado castigo por supresin contingente) ocurre cuando una conducta (respuesta) es seguida por el retiro o remocin de un estmulo favorable, tal como por ejemplo retirar un juguete a un nio por una conducta indeseada, resultando en una conducta ofrecida con menor frecuencia. 5.- Extincin: ocurre cuando una conducta (respuesta) que ha reforzada, deja de ser efectiva. En el experimento de Skinner, estado recibiendo un terrn de azcar cada vez que pulsa la recibir definitivamente la recompensa, la conducta se ir desaparecer. sido previamente si la rata que ha palanca, deja de diluyendo hasta

1. [J. Neurophysiol. 34:414-27, 1971] 2. [Advances Exp. Medicine Biol. 295:233-53 1991]

Potrebbero piacerti anche