767 3163 1 PB

REVISTA BRASILEIRA DE ANLISE DO COMPORTAMENTO / BRAZILIAN JOURNAL OF BEHAVIOR ANALYSIS, 2005, VOL.1 NO.
1, 105-124
TEORIAS DE APRENDIZAGEM SO NECESSRIAS 1? ARE THEORIES OF LEARNING NECESSARY 2?

B. F. SKINNER
Algumas suposies bsicas, essenciais a qualquer atividade cientfica, s vezes so chamadas de teorias. A de que a natureza ordenada, mais do que caprichosa, um exemplo. Determinadas afirmaes tambm so teorias simplesmente, at o ponto em que ainda no so fatos. Um cientista pode supor o resultado de um experimento antes que ele seja realizado. A predio e a posterior demonstrao do resultado podem ser compostas dos mesmos termos, no mesmo arranjo sinttico, estando a diferena no grau de confiana. Nenhuma afirmao emprica completamente no-terica neste sentido, porque a evidncia nunca completa e, provavelmente, nenhuma predio feita completamente sem evidncia. O termo teoria no ir se referir aqui a afirmaes deste tipo, mas a qualquer explicao de um fato observado que apele a eventos que ocorrem em algum outro lugar, em algum outro nvel de observao, descrito em termos diferentes e medido, se tanto, em dimenses completamente diferentes. Trs tipos de teoria no campo da aprendizagem satisfazem a esta definio. A mais caracterstica encontrada no campo da psicologia fisiolgica. Ns todos estamos familiarizados com as mudanas que supostamente ocor-
rem no sistema nervoso quando um organismo aprende. Conexes sinpticas so feitas ou rompidas, os campos eltricos so desorganizados ou reorganizados, as concentraes de ons so acumuladas ou dispersas, e assim por diante. Na cincia da neurofisiologia, afirmaes deste tipo no so necessariamente teorias, no sentido presente. Mas em uma cincia do comportamento, onde estamos interessados em se um organismo saliva ou no quando um sino toca, ou pula em direo a um tringulo cinza, ou diz bik quando se l tuz em um carto, ou ama algum que se parece com sua me, todas as afirmaes sobre o sistema nervoso so teorias, no sentido de que no so expressas nos mesmos termos e no poderiam ser confirmadas com os mesmos mtodos de observao que os fatos que elas dizem explicar. Um segundo tipo de teoria de aprendizagem est em uso, no muito distante da teoria fisiolgica, embora haja menos acordo sobre o mtodo de observao direta. Teorias deste tipo sempre dominaram o campo do comportamento humano. Elas consistem de referncias a eventos mentais, como dizer que um organismo aprende a se comportar de uma determinada maneira porque acha
Skinner, B. F. (1950). Are theories of learning necessary? Psychological Review, 57, 193-216. Publicado com autorizao da American Psychological Association (o texto utilizado para esta traduo foi a reproduo publicada em Skinner, B. F. (1972). Cumulative Record: A Selection of papers (3 ed.) New York: Appleton-Century-Crofts). Traduo de Lincoln da Silva Gimenes, David Alan Eckerman e Patrcia Regina Lopes Galvo, do Departamento de Processos Psicolgicos Bsicos, da Universidade de Braslia. Contatos: lgimenes@unb.br. Algumas expresses foram traduzidas literalmente para manter a linguagem utilizada pelo autor na poca. Assim, expresses como ter em mente, nveis de fome e outras, representam fielmente as palavras utilizadas pelo autor. As notas no final do artigo so as do original. Parte do material que segue foi obtido em 1941-42, em um estudo cooperativo sobre o comportamento do pombo em que Keller Breland, Norman Guttman, e W. K. Estes colaboraram. Alguns dos experimentos relatados nesse artigo foram financiados pela General Mills, Inc. e pelo Office of Scientific Research and Development. Parte desse trabalho foi selecionado de estudo subseqente sobre o pombo, ainda no publicado, conduzido pelo autor na Indiana University e Harvard University. Tambm apresentado como Conferncia do Presidente, na Midwestern Psychological Association, em Chicago, Illinois, em maio de1949.
105
TEORIAS DE APRENDIZAGEM SO NECESSRIAS?
algo agradvel ou porque espera que algo acontea. Para o psiclogo mentalista, estes eventos explicativos no so mais tericos do que conexes sinpticas so para o neurofisiologista, mas em uma cincia do comportamento eles so teorias porque os mtodos e os termos apropriados para os eventos a serem explicados diferem dos mtodos e termos apropriados para os eventos explicativos. Em um terceiro tipo de teoria de aprendizagem, os eventos explicativos no so diretamente observados. A sugesto do autor (em O comportamento dos Organismos), de que as letras SNC sejam consideradas como representando no o Sistema Nervoso Central, mas o Sistema Nervoso Conceitual parece ter sido levada a srio. Muitos tericos indicam que no esto falando sobre o sistema nervoso como uma estrutura real que se submete s mudanas fisiolgicas ou bioqumicas, mas somente como um sistema com um certo produto dinmico. Teorias deste tipo esto se multiplicando rapidamente, assim como verses operacionais paralelas de eventos mentais. Uma definio puramente comportamental do comportamento de expectativa tem a vantagem do problema da observao mental ser evitado e, com isso, o problema de como um evento mental pode causar um evento fsico. Mas tais teorias no vo to longe ao ponto de afirmar que os eventos explicativos so idnticos aos fatos comportamentais que eles pretendem explicar. Uma afirmao sobre o comportamento pode sustentar tal teoria, mas nunca ir se assemelhar a ela nos termos ou na sintaxe. Os postulados so bons exemplos. Os postulados verdadeiros no podem se tornar fatos. Teoremas podem ser deduzidos deles os quais, como tentativas de afirmaes sobre o comportamento, podem ou no ser confirmados, mas teoremas no so teorias, no sentido corrente. Postulados continuam sendo teorias at o fim. No a proposta deste artigo mostrar que nenhuma destas teorias pode ser posta em boa ordem cientfica, ou que os eventos aos quais elas se referem podem no ocorrer realmente ou ser estudados por cincias apropriadas. Seria imprudente negar os feitos das teorias deste tipo na histria da cincia. A pergunta de se elas so necessrias,
entretanto, tem outras implicaes e vale a pena ser feita. Se a resposta for no, ento talvez seja possvel arguir efetivamente contra a teoria no campo da aprendizagem. Uma cincia do comportamento deve, eventualmente, lidar com o comportamento em sua relao com determinadas variveis manipulveis. Teorias - seja neural, mental, ou conceitual - falam sobre passos intervenientes nestas relaes. Mas em vez de nos alertar a procurar e explorar variveis relevantes, elas freqentemente tm o efeito completamente contrrio. Quando atribumos comportamento a um evento neural ou mental, real ou conceitual, provavelmente nos esquecemos de que ainda temos a tarefa de explicar o evento neural ou mental. Quando afirmarmos que um animal age de uma dada maneira porque espera receber alimento, ento o que comeou como a tarefa de explicar o comportamento aprendido torna-se a tarefa de explicar a expectativa. O problema , no mnimo, igualmente complexo e, provavelmente, mais difcil. Ns tendemos a fechar nossos olhos para isso e usamos a teoria para nos dar respostas no lugar daquelas que poderamos encontrar com mais estudos. Pode-se questionar que a principal funo da teoria de aprendizagem at agora tem sido, no a de sugerir pesquisas apropriadas, mas criar uma falsa sensao de segurana, uma satisfao no garantida com o status quo . Pesquisa planejada com respeito teoria tambm provvel de ser desperdiada. O fato de uma teoria gerar pesquisa no prova seu valor, a menos que a pesquisa seja valiosa. Muita experimentao intil resulta de teorias, e muita energia e habilidade so absorvidas por elas. A maioria das teorias eventualmente substituda e a maior parte da pesquisa associada descartada. Isto poderia ser justificado se fosse verdade que a pesquisa produtiva requer uma teoria - como geralmente defendido, claro. Discute-se que a pesquisa seria sem propsito e desorganizada sem uma teoria para gui-la. Esta viso sustentada pelos textos psicolgicos que pegam exemplos dos lgicos ao invs da cincia emprica e descrevem pensamento como necessariamente envolvendo estgios de hiptese, deduo, teste experimental, e confirmao. Mas esta no a
106
B. F . SKINNER
forma como a maioria dos cientistas realmente trabalha. possvel elaborar experimentos significativos por outras razes, e a possibilidade a ser examinada de que tal pesquisa conduzir, mais diretamente, ao tipo de informao que uma cincia geralmente acumula. As alternativas merecem, no mnimo, ser consideradas. O quanto pode ser feito sem teoria? Que outros tipos de atividade cientfica so possveis? E, que luz as prticas alternativas lanam sobre a nossa preocupao atual com teoria? Seria inconsistente tentar responder a estas perguntas em um nvel terico. Vamos, portanto, nos voltar para algum material experimental em trs reas, nas quais as teorias de aprendizagem agora florescem e levantam a questo da funo da teoria de forma mais concreta. O dado bsico na aprendizagem O que realmente acontece quando um organismo aprende no uma pergunta fcil de responder. Aqueles que esto interessados em uma cincia do comportamento insistiro que aprendizagem uma mudana no comportamento, mas eles tendem a evitar referncias explcitas a respostas ou atos como tal. Aprendizagem ajustamento ou adaptao a uma situao. Mas de que so feitos os ajustes e as adaptaes? Eles so dados ou inferncias a partir de dados? Aprendizagem melhoria. Mas melhoria em qu? E do ponto de vista de quem? Aprendizagem restaurao do equilbrio. Mas o que est em equilbrio, e como foi posto em equilbrio? Aprendizagem resoluo de problema. Mas quais so as dimenses fsicas de um problema - ou de uma soluo? Definies deste tipo mostram uma relutncia em tomar o que aparece diante dos olhos em um experimento de aprendizagem como um dado bsico. Observaes particulares parecem muito triviais. Um escore de erro diminui; mas ns no estamos prontos para dizer que isso aprendizagem e no meramente o resultado da aprendizagem. Um organismo satisfaz um critrio de dez tentativas bem sucedidas; mas um critrio arbitrrio est em discrepncia com a nossa concepo de generalidade do processo de aprendizagem.
a que entra a teoria. Se o que muda na aprendizagem no for o tempo requerido para sair de uma caixaproblema, mas a fora de uma ligao, ou a condutividade de uma via neural, ou o potencial de excitao de um hbito, ento os problemas parecem desaparecer. Sair de uma caixa cada vez mais rapidamente no aprendizagem; meramente desempenho. A aprendizagem vai mais alm, em um sistema dimensional diferente. E embora o tempo requerido dependa de condies arbitrrias, freqentemente varie descontinuamente e esteja sujeito a inverses de magnitude, ns temos certeza de que o processo de aprendizagem, propriamente, contnuo, ordenado, e est alm dos acidentes de medio. Nada poderia ilustrar melhor o uso da teoria do que um refgio dos dados. Mas devemos eventualmente nos voltar para um dado observvel. Se a aprendizagem for o processo que supomos ser, ento ela deve aparecer como tal nas situaes nas quais ns a estudamos. Mesmo se o processo bsico pertencer a algum outro sistema dimensional, nossas medidas devem ter propriedades relevantes e comparveis. Mas situaes experimentais produtivas so difceis de encontrar, particularmente se aceitarmos determinadas restries plausveis. Mostrar uma mudana ordenada no comportamento de um rato, macaco ou criana, medianos, no suficiente, j que a aprendizagem um processo no comportamento do indivduo. Registrar o comeo e o fim da aprendizagem de algumas etapas discretas no ser o bastante, j que uma srie de observaes pontuais no fornecer uma cobertura completa de um processo contnuo. As dimenses da mudana devem vir do prprio comportamento; elas no devem ser impostas por um julgamento de sucesso ou falha, externo, ou por um critrio externo de perfeio. Mas quando revemos a literatura com estas exigncias em mente, encontramos pouca justificativa para o processo terico com o qual nos sentimos to confortados. O nvel de energia ou o produto-trabalho do comportamento, por exemplo, no mudam de forma apropriada. No tipo de comportamento adaptado para o experi-
107
mento Pavloviano (comportamento respondente) pode haver um aumento progressivo na magnitude de resposta durante a aprendizagem. Mas ns no gritamos nossas respostas cada vez mais alto quando aprendemos materiais verbais, assim como um rato no pressiona uma barra cada vez mais forte medida que o condicionamento progride. No comportamento operante, a energia ou a magnitude de resposta muda significativamente somente quando algum valor arbitrrio reforado diferencialmente - quando tal mudana o que aprendido. A emergncia de uma resposta correta, em competio com respostas erradas, um outro dado usado freqentemente no estudo da aprendizagem. O labirinto e a caixa de discriminao produzem resultados que podem ser reduzidos a estes termos. Mas uma razo do comportamento certo versus errado no pode produzir uma medida de mudana contnua em um nico experimento em um nico organismo. O ponto em que uma resposta tem prioridade sobre outra no pode nos dar a histria completa da mudana em qualquer das respostas. Calcular curvas mdias para grupos de tentativas ou de organismos no resolver este problema. Recentemente tem aumentado a ateno em relao latncia, a relevncia da qual, como aquela do nvel de energia, sugerida pelas propriedades dos reflexos condicionados e incondicionados. Mas no comportamento operante, a relao com um estmulo diferente. Uma medida de latncia envolve outras consideraes, como uma inspeo de qualquer caso mostrar. A maioria das respostas operantes pode ser emitida na ausncia do que considerado um estmulo relevante. Em tal caso, a resposta tende a aparecer antes que o estmulo seja apresentado. Travar uma barra, de modo que um organismo no possa pression-la at que o estmulo seja apresentado, no nenhuma soluo para escapar deste embarao, j que raramente podemos nos contentar com relaes temporais que foram foradas a atender nossas expectativas. Latncias em aparatos do tipo runway esto sujeitas a esta objeo.
3
Em um experimento tpico, a porta de uma caixa de partida aberta e o tempo que decorre antes que um rato saia da caixa medido. Abrir a porta no somente um estmulo, uma mudana na situao, que torna a resposta possvel pela primeira vez. O tempo medido no , de forma alguma, to simples quanto uma latncia, e requer uma outra formulao. Muita coisa depende do que o rato est fazendo no momento em que o estmulo apresentado. Alguns experimentadores esperam at que o rato esteja de frente para a porta, mas fazer isso alterar a mensurao que est sendo feita. Se, por outro lado, a porta for aberta sem considerar o que o rato est fazendo, o primeiro efeito principal o condicionamento de um comportamento de espera favorvel. O rato permanece eventualmente perto e de frente para a porta. O menor tempo de partida resultante no devido a uma reduo na latncia de uma resposta, mas ao condicionamento de um comportamento preliminar favorvel. Latncias em um organismo nico no seguem um processo de aprendizagem simples. Dados relevantes sobre este ponto foram obtidos como parte de um amplo estudo de tempo de reao. Um pombo, colocado em uma caixa, condicionado a bicar um disco em uma parede. Alimento apresentado como reforamento, pela exposio de um comedouro atravs de um buraco abaixo do disco. Se as respostas forem reforadas somente depois que um estmulo tiver sido apresentado, as respostas em outros momentos desaparecem. Tempos de reao muito curtos so obtidos pelo reforamento diferencial das respostas que ocorrem logo aps o estmulo3. Mas as respostas tambm se tornam mais rpidas sem reforamento diferencial. Uma anlise mostra que isto devido ao desenvolvimento de comportamento de espera eficaz. O pssaro comea a parar em frente ao disco com sua cabea numa boa posio para bicar. Sob condies timas, sem reforamento diferencial, o tempo mdio entre o estmulo e a resposta ser da ordem de 1/3 de segundo. Isto no uma latncia verdadeira de um reflexo, j que o estmulo
Um experimento sobre reforamento diferencial em relao ao tempo foi relatado num encontro da American Psychological Association, em setembro de 1946. Um resumo apresentado em The American Psychologist, 1946, 1, 274-275.
108
B. F . SKINNER
discriminativo e no eliciador, mas este um bom exemplo de latncia usada no estudo da aprendizagem. O ponto que esta medida no varia continuamente ou de forma ordenada. Dando mais alimento ao pssaro, por exemplo, ns induzimos a uma condio na qual ele nem sempre responde. Mas as respostas que ocorrem mostram, aproximadamente, a mesma relao temporal com o estmulo (Figura 1, curva do meio). Em extino, de especial interesse aqui, h uma disperso das latncias porque a falta de reforamento gera uma condio emocional. Algumas respostas ocorrem antes e outras so atrasadas, mas o valor mais comum permanece inalterado (curva inferior na Figura 1). As latncias mais longas so facilmente explicadas por uma inspeo. O comportamento emocional, sobre o qual sero mencionados exemplos mais tarde, provvel de estar ocorrendo quando o sinal de prontido for apresentado. Ele geralmente no pra antes que o sinal v seja apresentado, e o resultado um longo tempo de partida. Comeam tambm a aparecer casos em que o pssaro simplesmente no responde de forma alguma durante um determinado tempo. Se calcularmos a mdia de um grande nmero de observaes, de um ou de muitos pssaros, podemos criar o que parece um aumento progressivo de latncia. Mas os dados para um nico organismo no mostram um processo contnuo.
Um outro dado a ser examinado a taxa em que uma resposta emitida. Felizmente a histria aqui diferente. Ns estudamos esta taxa planejando uma situao em que uma resposta pode ser livremente repetida, escolhendo uma resposta que possa ser facilmente observada e contada (por exemplo, tocar ou pressionar uma pequena barra ou disco). As respostas podem ser registradas em um polgrafo, mas uma forma mais conveniente uma curva cumulativa na qual a taxa da resposta lida imediatamente como inclinao. A taxa em que uma resposta emitida em tal situao est perto da nossa pr-concepo do processo de aprendizagem. medida que o organismo aprende, a taxa aumenta. Quando ele desaprende (por exemplo, em extino) a taxa cai. Vrios tipos de estmulos discriminativos podem ser colocados sob controle da resposta com modificaes correspondentes da taxa. As mudanas motivacionais, assim como aqueles eventos que dizemos serem geradores de emoo, alteram a taxa de forma sensvel. Os valores atravs dos quais a taxa varia significativamente podem ser to grande quanto da ordem de 1000:1. Mudanas na taxa so satisfatoriamente regulares no caso individual, de modo que no necessrio calcular a mdia dos casos. Um determinado valor geralmente muito estvel: no pombo, uma taxa de 4000 ou 5000 respostas por hora pode ser mantida sem interrupo por 15 horas. A taxa de resposta parece ser o nico dado que varia significativamente e na direo esperada sob condies que so relevantes para o processo de aprendizagem. Ns podemos, portanto, ser induzidos a aceit-la como nossa to procurada medida da fora de ligao, do potencial excitatrio, etc. Uma vez de posse de um dado efetivo, entretanto, podemos sentir pouca necessidade de qualquer constructo terico deste tipo. O progresso em um campo cientfico geralmente depende da descoberta de uma varivel dependente satisfatria. At que tal varivel seja descoberta, recorremos teoria. As entidades que figuraram to proeminentemente na teoria de aprendizagem
Figura 1
109
serviram principalmente como substitutas para um dado diretamente observvel e produtivo. Elas tm pouca razo para sobreviver quando tal dado encontrado. No acidente que a taxa de resposta seja bem sucedida como um dado, porque particularmente apropriada tarefa fundamental de uma cincia do comportamento. Se devemos predizer o comportamento (e, possivelmente, control-lo), ns devemos lidar com probabilidade de resposta. O papel de uma cincia do comportamento avaliar esta probabilidade e explorar as condies que a determinam. Fora de ligao, expectativa, potencial excitatrio, e assim por diante, carregam a noo de probabilidade de forma facilmente imaginada, mas as propriedades adicionais sugeridas por estes termos impediram a busca por medidas apropriadas. A taxa de resposta no uma medida de probabilidade, mas o nico dado apropriado em uma formulao nestes termos. Como outras disciplinas cientficas podem atestar as probabilidades no so fceis de controlar. Ns queremos fazer afirmaes sobre a possibilidade de ocorrncia de uma nica resposta futura, mas nossos dados esto na forma de freqncias de respostas que j ocorreram. Essas respostas foram, presumidamente, similares entre si e resposta a ser predita. Mas isto levanta o incmodo problema da ocorrncia de uma nica resposta versus classe de resposta. Precisamente, que respostas precisamos levar em considerao para predizer um caso futuro? Certamente no as respostas dadas por uma populao de organismos diferentes, para a qual um dado estatstico levanta mais problemas do que os resolve. Considerar a freqncia de respostas repetidas em um indivduo exige algo como a situao experimental acima descrita.
Esta soluo do problema de um dado bsico baseada na viso de que o comportamento operante essencialmente um fenmeno emissor. Latncia e magnitude da resposta falham como medidas porque no levam isso em considerao. So conceitos apropriados ao campo do reflexo, onde, o controle quase invarivel exercido pelo estmulo eliciador, torna trivial a noo de probabilidade da resposta. Considere, por exemplo, o caso da latncia. Por causa da nossa compreenso de reflexos simples, ns inferimos que uma resposta que mais provavelmente de ser emitida, ser emitida mais rapidamente. Mas isto verdade? O que a palavra rapidamente pode significar? A probabilidade da resposta, assim como a predio da resposta, trata do momento da emisso. Isto se refere a um ponto no tempo, mas no tem a dimenso temporal de uma latncia. A execuo pode levar tempo depois que a resposta foi iniciada, mas o momento de ocorrncia no tem nenhuma durao4. Ao reconhecer o carter emissor do comportamento operante e a posio central da probabilidade de resposta como um dado, a latncia parece ser irrelevante para a nossa tarefa presente. Vrias objees tm sido feitas ao uso da taxa de resposta como um dado bsico. Por exemplo, tal programa pode parecer nos impedir de lidar com muitos eventos que so ocorrncias nicas na vida do indivduo. Um homem no se decide por uma carreira, no se casa, no ganha milhes de dlares, nem morre em um acidente freqentemente o bastante para se ter uma taxa de resposta significativa. Mas estas atividades no so respostas. No so eventos unitrios simples que se prestam predio como tais. Se quisermos predizer casamento, sucesso, acidentes, e assim por diante, em nada mais do que em ter-
Isso no pode, de fato, ser reduzido ou aumentado. Onde uma latncia parece ser forada em direo a um valor mnimo pelo reforamento diferencial, uma outra interpretao requerida. Embora possamos reforar diferencialmente um comportamento mais energtico ou a execuo mais rpida do comportamento depois que ele comeou, no faz sentido falar em respostas reforadas diferencialmente com latncias curtas ou longas. O que realmente reforamos diferencialmente (a) o comportamento favorvel de espera e (b) respostas mais vigorosas. Quando pedimos a um sujeito que responda o mais rpido possvel no experimento de tempo de reao com humanos, ns pedimos essencialmente que ele (a) realize tantas respostas quantas possveis sem realmente alcanar o critrio de emisso, (b) faa qualquer outra coisa to pouco quanto possvel e, (c) responda energicamente aps a apresentao do estmulo. Isto pode produzir um tempo mensurvel mnimo entre estmulo e resposta, mas este tempo no necessariamente um dado bsico e nem nossas instrues o alterou como tal. Uma interpretao paralela do reforamento diferencial de latncias longas requerida. Isso facilmente estabelecido por inspeo. Nos experimentos com pombos, citados previamente, o comportamento preliminar condicionado, o qual adia as respostas ao disco at o momento apropriado. O comportamento que marca o tempo geralmente conspcuo.
110
B. F . SKINNER
mos estatsticos, devemos lidar com as unidades menores do comportamento que conduzem a, e compem estes episdios unitrios. Se as unidades aparecerem de forma repetida, a anlise presente pode ser aplicada. No campo da aprendizagem, uma objeo similar toma a forma da pergunta de como a anlise presente pode ser estendida a situaes experimentais nas quais impossvel observar freqncias. Isso no significa que a aprendizagem no esteja ocorrendo em tais situaes. A noo de probabilidade geralmente extrapolada para casos em que uma anlise de freqncia no pode ser realizada. No campo do comportamento, ns arranjamos uma situao em que as freqncias esto disponveis como dados, mas usamos a noo de probabilidade ao analisar e formular exemplos ou mesmo tipos de comportamento que no so suscetveis a esta anlise. Uma outra objeo comum a de que uma taxa de resposta como um grupo de latncias e, portanto, de forma alguma um dado novo. Pode-se mostrar facilmente que isso est errado. Quando medimos o tempo que decorre entre duas respostas, ns no temos dvida alguma do que o organismo estava fazendo quando disparamos o cronmetro. Ns sabemos que ele estava executando uma resposta. Este um zero natural bastante diferente do ponto arbitrrio a partir do qual as latncias so medidas. A repetio livre de uma resposta produz um dado ritmado e peridico muito diferente da latncia. Muitos processos fsicos peridicos sugerem paralelos. Ns no escolhemos taxa de resposta como um dado bsico meramente de uma anlise da tarefa fundamental de uma cincia do comportamento. O principal interesse o seu sucesso numa cincia experimental. O material que segue oferecido como uma amostra do que pode ser feito. No se pretende uma demonstrao completa, mas isso deve confirmar o fato de que, quando estamos de posse de um dado que varia de forma significativa, ns tendemos a recorrer menos a entidades tericas que carregam a noo de probabilidade da resposta. Porque a aprendizagem ocorre
Ns podemos definir aprendizagem como uma mudana na probabilidade da resposta, mas devemos tambm especificar as condies sob as quais ela acontece. Para fazer isto, devemos examinar algumas das variveis independentes de que a probabilidade da resposta uma funo. Aqui ns encontramos outro tipo de teoria de aprendizagem. Uma demonstrao efetiva da Lei do Efeito, em sala de aula, pode ser feita da seguinte maneira. Um pombo, reduzido a 80 por cento de seu peso livre, habituado a uma pequena caixa semicircular, e alimentado l por varios dias atravs de um comedouro que o experimentador aciona por meio de interruptor manual. A demonstrao consiste em estabelecer uma resposta selecionada pelo reforamento apropriado com alimento. Por exemplo, olhando uma escala na parede oposta da caixa, possvel apresentar o comedouro sempre que a cabea do pombo est acima de uma determinada altura. Pontos cada vez mais altos so escolhidos at que, dentro de alguns minutos, o pombo est andando pela gaiola mantendo sua cabea o mais alto possvel. Em uma outra demonstrao, o pssaro condicionado a empurrar uma bolinha de gude colocada no cho da caixa. Isto pode ser feito em poucos minutos reforando passos sucessivos. O alimento apresentado primeiramente quando o pssaro est meramente se movimentando perto da bolinha, depois quando ele olha em direo a bolinha, mais tarde quando ele move sua cabea na direo da bolinha e, finalmente, quando ele bica a bolinha. Qualquer um que tenha visto tal demonstrao sabe que a Lei do Efeito no nenhuma teoria. Ela simplesmente especifica um procedimento para alterar a probabilidade de uma dada resposta. Mas quando tentamos dizer por que o reforamento tem este efeito, as teorias aparecem. Diz-se que a aprendizagem ocorre porque o reforamento agradvel, satisfatrio, redutor de tenso, e assim por diante. O processo inverso da extino explicado com teorias comparveis. Se a taxa de resposta primeiramente elevada a um ponto alto por reforamento e o reforamento ento retido, observa-se que a resposta ocorre cada vez menos
111
freqentemente depois disso. Uma teoria comum explica isto afirmando que um estado se desenvolve, o qual suprime o comportamento. Esta inibio experimental ou inibio de reao deve ser designada a um sistema dimensional diferente, j que nada no nvel do comportamento corresponde a processos opostos de excitao e inibio. A taxa de resposta simplesmente aumentada por uma operao e diminuda por outra. Determinados efeitos, geralmente interpretados como mostrando a liberao de uma fora supressora, podem ser interpretados de outras maneiras. Desinibio, por exemplo, no necessariamente a liberao de uma fora suprimida; pode ser um sinal de fora suplementar de uma varivel estranha. O processo de recuperao espontnea, freqentemente citado para sustentar a noo da supresso, tem uma explicao alternativa, a ser notada em um momento. Vamos avaliar a questo sobre por que a aprendizagem ocorre, voltando a alguns dados. Como condicionamento geralmente muito rpido para ser facilmente acompanhado, o processo de extino fornece um exemplo mais til. Um nmero de diferentes tipos de curvas foi obtido consistentemente de ratos e pombos, usando vrios esquemas de reforamento previamente utilizados. Considerando algumas das condies relevantes, ns podemos ver que espao deixado para processos tericos. A mera passagem de tempo entre condicionamento e extino uma varivel que tem, surpreendentemente, pouco efeito. O rato tem o tempo de vida muito curto para tornar um longo experimento praticvel, mas o pombo, que pode viver dez ou quinze anos, um sujeito ideal. H mais de cinco anos, vinte pombos foram condicionados a bicar um grande disco translcido no um complexo padro visual era projetado. O reforamento era contingente manuteno de uma taxa elevada e constante de resposta e bicada a uma determinada caracterstica do padro visual. Estes pssaros foram reservados para se estudar reteno. Eles foram transferidos para cativeiros co-
muns, onde serviram como reprodutores. Pequenos grupos foram testados para extino no fim de seis meses, de um ano, de dois anos, e de quatro anos. Antes do teste, cada pssaro foi transferido para uma gaiola separada. Um esquema de alimentao controlada foi usado para reduzir o peso a aproximadamente 80 por cento do peso livre. O pssaro foi alimentado, ento, dentro de um aparato experimental pouco iluminado, na ausncia do disco, por diversos dias, durante os quais as respostas emocionais ao aparato desapareceram. No dia do teste, o pssaro era colocado em uma caixa escura. O disco translcido era apresentado, mas no iluminado. Nenhuma resposta ocorreu. Quando o padro foi projetado no disco, todos os quatro pssaros responderam rapidamente e extensivamente. A Figura 2 mostra a maior curva obtida. Este pssaro bicou o disco em dois segundos depois da apresentao de um padro visual que no tinha visto por quatro anos e, no local preciso sobre o qual o reforamento diferencial tinha sido baseado antes. Ele continuou a responder pela hora seguinte, emitindo aproximadamente 700 respostas. Isto da ordem de 1/2 a 1/4 das respostas que ele teria emitido se a extino no tivesse sido atrasada quatro anos, mas fora isso, a curva razoavelmente tpica.
Figura 2
O nvel de motivao outra varivel a ser levada em considerao. Um exemplo do efeito da privao foi relatado em outro lugar 5. A resposta de presso barra foi
O experimento do qual esses dados advm foi relatado em um encontro da American Psychological Association, em setembro de 1940. Um resumo apresentado em Psychological Bulletin, 1940, 37, 243.
112
B. F . SKINNER
estabelecida em oito ratos com um esquema de reforamento peridico. Eles foram alimentados com a maior parte de suas raes em dias alternados, de modo que as taxas de resposta em dias sucessivos fossem alternadamente elevadas e baixas. Dois subgrupos de quatro ratos foram balanceados com base na taxa mantida sob o reforamento peridico nestas condies. A resposta foi, ento, extinta em um grupo em dias alternados quando a fome era alta, no outro grupo em dias alternados em que a fome era baixa. (A mesma quantidade de alimento foi ingerida nos dias no-experimentais, como antes) O resultado mostrado na Figura 3. O grfico superior mostra os dados brutos. Os nveis de fome so indicados pelos pontos em P na abscissa, as taxas prevalecendo sob o reforamento peridico. Os pontos subseqentes mostram o declnio na extino. Se multiplicarmos a curva mais baixa por um fator escolhido para sobrepor os pontos em P, as curvas so sobrepostas razoavelmente prximas, como mostrado no grfico abaixo. Muitos outros experimentos, sobre ratos e pombos, confirmaram este princpio geral. Se uma dada razo de respostas prevalece sob reforamento peridico, as inclinaes de curvas de extino posteriores mostram a mesma razo. O nvel de fome determina a inclinao da curva de extino, mas no a sua curvatura. Outra varivel, dificuldade de resposta, especialmente relevante porque foi usada para testar a teoria de inibio da reao6, na suposio de que uma resposta que requer energia considervel produzir mais inibio reativa do que uma resposta fcil e conduzir, portanto, a uma extino mais rpida. A teoria requer que a curvatura da curva de extino seja alterada, no meramente sua inclinao. Contudo h evidncia de que a dificuldade da resposta age como o nvel de fome, simplesmente para alterar a inclinao. Um pombo suspenso por uma jaqueta que prende suas asas e pernas, mas deixa sua cabea e pescoo livre para responder a um disco de resposta e a
Figura 3
um comedouro7. Seu comportamento nesta situao quantitativamente muito parecido com o de um pssaro que se move livremente em uma caixa experimental. Mas o uso do jaqueta tem a vantagem de que a resposta ao disco pode ser fcil ou difcil mudando a distncia que o pssaro deve alcanar. Em um experimento, estas distncias foram expressas em sete unidades iguais, mas arbitrrias. Na dis-
6 7
Mowrer, O. H. & Jones, H.M. Extinction and behavior variability as function of effortfulness of task. Journal of Experimental Psychology, 1943, 33 , 369-386. Esse experimento foi relatado em um encontro da Midwestern Psychological Association, em maro de 1946. Um resumo apresentado em American Psychologist, 1946, 1, 462.
113
tncia 7, o pssaro mal poderia alcanar o disco, em 3 ele poderia bicar sem estender muito seu pescoo. O reforamento peridico produziu uma linha de base plana sobre a qual foi possvel observar o efeito da dificuldade pela rpida mudana de posio durante o perodo experimental. Cada um dos cinco registros na Figura 4 cobre um perodo experimental de 15 minutos sob reforamento peridico. As distncias entre o pssaro e o disco so indicadas pelos numerais acima dos registros. Pode-se observar que a taxa de resposta na distncia 7 geralmente muito baixa, enquanto na distncia 3, alta. As distncias intermedirias produzem inclinaes intermedirias. Pode-se notar tambm que a mudana de uma posio para outra sentida imediatamente. Se responder repetidamente em uma posio difcil provocar uma quantidade considervel de inibio reativa, devemos esperar que a taxa seja baixa por pouco tempo aps o retorno para uma resposta fcil. Ao contrrio, se uma resposta fcil provocar pouca inibio reativa, devemos esperar uma taxa razoavelmente alta de resposta por algum tempo depois que uma posio difcil assumida. Nada parecido com isso ocorre. A extino mais rpida de uma resposta difcil uma expresso ambgua. A constante da inclinao afetada e, com ela, o nmero de respostas para um critrio de extino, mas pode haver nenhum efeito na curvatura.
Uma forma de considerar a pergunta de por que as curvas de extino so encurvadas considerar a extino como um processo de exausto comparvel perda de calor da fonte para o dissipador ou queda do nvel de um reservatrio quando uma sada est aberta. Condicionamento provoca uma pr-disposio para responder - uma reserva - que a extino esgota. Esta talvez uma descrio defensvel no nvel do comportamento. A reserva no , necessariamente, uma teoria no sentido corrente, j que no atribuda a um sistema dimensional diferente. Poderia, operacionalmente, ser definida como uma curva predita de extino, mesmo que, lingisticamente, fizesse uma afirmao sobre a condio momentnea de uma resposta. Mas no um conceito particularmente til, nem a viso de que a extino um processo de exausto adiciona muito ao fato observado de que as curvas de extino so encurvadas de uma certa maneira. H, entretanto, duas variveis que afetam a taxa, sendo que ambas operam durante a extino para alterar a curvatura. Uma destas cai no campo da emoo. Quando no reforamos uma resposta que foi reforada previamente, ns no iniciamos somente um processo de extino, ns estabelecemos uma resposta emocional - talvez o que freqentemente significa frustrao. O pombo arrulha em um padro identificvel, move-se rapidamente pela gaiola, defeca, ou bate suas asas rapidamente em uma posio de agachamento que sugere iniciar um comportamento (de acasalamento). Isto compete com a resposta de bicar um disco e , talvez, o suficiente para esclarecer o declnio na taxa na comeo da extino. tambm possvel que a probabilidade de uma resposta baseada na privao de alimento seja reduzida diretamente como parte de uma tal reao emocional. Qualquer que seja sua natureza, o efeito desta varivel eliminado atravs da adaptao. As curvas repetidas de extino tornam-se mais planas e, em alguns dos esquemas a serem descritos brevemente, h pouca ou quase nenhuma evidncia de uma modificao emocional da taxa. Uma segunda varivel tem um efeito muito mais srio. O mximo de respostas durante a extino obtido
Figura 4
114
B. F . SKINNER
somente quando as condies sob as quais a resposta foi reforada so reproduzidas precisamente. Um rato condicionado na presena de uma luz no extinguir completamente na ausncia da luz. Ele comear a responder mais rapidamente quando a luz for introduzida novamente. Isto verdade para outros tipos dos estmulos, como o seguinte experimento de sala de aula ilustra. Nove pombos foram condicionados a bicar um tringulo amarelo sob reforamento intermitente. Na sesso representada pela Figura 5, os pssaros foram reforados primeiramente neste esquema por 30 minutos. A curva cumulativa combinada essencialmente uma linha reta, mostrando mais de 1100 respostas, por pssaro, durante este perodo. O tringulo amarelo foi ento substitudo pelo vermelho e nenhuma resposta foi reforada depois disso. O efeito foi queda acentuada no responder, com somente uma ligeira recuperao durante os quinze minutos seguintes. Quando o tringulo amarelo foi restitudo, as respostas rpidas comearam imediatamente e a curva usual de extino continuou. Experimentos similares mostraram que a tonalidade de um tom incidental, a forma de um padro que est sendo bicado, ou o tamanho de um padro, se presentes durante o condicionamento, iro controlar, de alguma forma, a taxa de resposta durante a extino. Algumas propriedades so mais eficazes do que outras, e uma avaliao quantitativa possvel. Alternando diversos valores de um estmulo em uma ordem aleatria, repetidamente, durante o processo de extino, o gradiente de generalizao de estmulos pode ser lido diretamente nas taxas de resposta sob cada valor. Algo muito parecido com isto deve ocorrer durante a extino. Vamos supor que todas as respostas a um disco foram reforadas e que cada uma foi seguida por um curto perodo de alimentao. Quando extinguimos o comportamento, ns criamos uma situao em que respostas no so reforadas, na qual o comportamento de comer no ocorre, e na qual h provavelmente novas respostas emocionais. A situao poderia facilmente ser to nova como a de um tringulo vermelho aps um amarelo. Se assim, poderia explicar o declnio na taxa durante a extino.
Figura 5
Ns podemos obter uma curva suave, com a forma de uma curva de extino, entre as linhas verticais na Figura 5 mudando gradualmente a cor do tringulo de amarelo para vermelho. Isto poderia ter acontecido, mesmo que nenhum outro tipo de extino estivesse ocorrendo. As prprias condies de extino parecem pressupor uma novidade crescente na situao experimental. por isto que a curva de extino curvada? Alguma evidncia vem dos dados de recuperao espontnea. Mesmo depois de extino prolongada, um organismo frequentemente responder em uma taxa mais elevada por, pelo menos, alguns instantes no comeo de uma outra sesso. Uma teoria sustenta que isto mostra a recuperao espontnea de algum tipo de inibio, mas uma outra explicao possvel. No importa o quo cuidadosamente se segura um animal, a estimulao coincidente com o incio de um experimento deve ser extensa e diferente de qualquer coisa que ocorre na etapa final de um perodo experimental. Respostas foram reforadas na presena, ou logo depois, dessa estimulao. Em extino ela est presen-
115
te por alguns momentos apenas. Quando o organismo colocado de novo na situao experimental, a estimulao restabelecida; mais respostas so emitidas como no caso do tringulo amarelo. A nica maneira de conseguir a extino completa na presena da estimulao do incio de um experimento comear repetidamente o experimento. Outra evidncia do efeito da novidade vem do estudo de reforamento peridico. O fato de que o reforamento intermitente produz curvas de extino maiores do que o reforamento contnuo uma dificuldade incmoda para aqueles que esperam uma relao simples entre o nmero de reforamentos e o nmero de respostas na extino. Mas esta relao realmente muito complexa. Um resultado do reforamento peridico que as mudanas emocionais se adaptam. Isto pode ser responsvel pela suavidade das curvas de extino subseqentes, mas provavelmente no pela sua grande extenso. A ltima pode ser atribuda falta de novidade na situao de extino. Sob o reforamento peridico, muitas respostas so dadas sem reforamento e, quando nenhum comportamento de comer ocorreu recentemente. A situao na extino no , conseqentemente, completamente nova. O reforamento peridico no , entretanto, uma soluo simples. Se ns reforarmos em um esquema regular - digamos, cada minuto - o organismo logo formar uma discriminao. Pouca ou nenhuma resposta ocorre imediatamente depois do reforamento, j que a estimulao vindo do comportamento de comer est correlacionada com a ausncia de reforamento subseqente. O quo rapidamente a discriminao pode se desenvolver mostrado na Figura 6, que reproduz as primeiras cinco curvas obtidas de um pombo sob reforamento peridico em perodos experimentais de quinze minutos cada. No quinto perodo (ou aps aproximadamente uma hora
de reforamento peridico) a discriminao produz uma pausa aps cada reforamento, resultando em uma curva marcadamente em forma de escada. Como resultado desta discriminao, o pssaro est quase sempre respondendo rapidamente quando reforado. Esta a base para uma outra discriminao. A resposta rpida torna-se uma condio favoravelmente estimulante. Um bom exemplo do efeito sobre a curva de extino subseqente mostrado na Figura 7. Este pombo foi reforado uma vez a cada minuto durante perodos experimentais dirios de quinze minutos cada, por diversas semanas. Na curva de extino
Figura 7
mostrada, o pssaro comea a responder na taxa prevalente sob o esquema anterior. Uma rpida acelerao positiva no incio perdida com reduo do registro. O pombo rapidamente alcana e sustenta uma taxa que mais alta do que a taxa total durante o reforamento peridico. Durante este perodo o pombo cria uma condio estimulante, previamente otimamente correlacionada com reforamento. Eventualmente, quando algum tipo de exausto interfere, a taxa cai rapidamente a um valor muito mais baixo, mas razoavelmente estvel e, ento, a praticamente zero. Ento continua uma condio sob a qual uma resposta no reforada normalmente. O pssaro, portanto, tende a no comear a responder novamente. Quando ele responde, entretanto, a situao melhora ligeiramente e, se continua a responder, as condies rapidamente se tornam similares quelas sob as quais o reforamento foi recebido. Sob esta autocatlise uma taxa elevada alcanada rapidamente, e mais de 500 respostas so emitidas, em um segundo rompante. A taxa declina ento rapidamente e de forma razoavelmente suave, a quase
Figura 6
116
B. F . SKINNER
zero novamente. Esta curva no de forma alguma desordenada. A maior parte da curva suave. Mas o rompante de respostas no 45o minuto mostra uma fora residual considervel que, se a extino for meramente exausto, deveria ter aparecido antes na curva. A curva pode razoavelmente ser explicada pela suposio de que o pssaro altamente controlado pela falsa correlao anterior entre reforamento e responder rpido. Esta suposio pode ser verificada pela elaborao de um esquema de reforamento no qual uma contingncia diferencial entre taxa de resposta e reforamento impossvel. Em tal esquema daquilo que pode ser chamado de reforamento aperidico, um intervalo entre sucessivas respostas reforadas to curto que nenhuma resposta no-reforada intervem, enquanto o intervalo mais longo de aproximadamente dois minutos8. Outros intervalos so distribudos aritmeticamente entre estes valores, a mdia permanecendo em um minuto. Os intervalos so grosseiramente randomizados para compor um programa de reforamento. Sob este programa, a probabilidade de reforamento no muda com respeito aos reforamentos anteriores, e as curvas nunca adquirem a caracterstica de escada da curva E na Figura 6. (A Figura 9 mostra curvas de um programa similar). Como resultado, nenhuma correlao entre diferentes taxas de resposta e diferentes probabilidades de reforamento pode se estabelecer. Uma curva de extino que segue uma exposio breve ao reforamento aperidico mostrada na Figura 8. Ela comea caracteristicamente na taxa prevalente sob o reforamento aperidico e, ao contrrio da curva que segue o reforamento peridico regular, no acelera para uma taxa total mais elevada. No h nenhuma evidncia da produo autocataltica de uma condio estimulante tima. Tambm caracteristicamente, no h nenhuma descontinuidade significativa ou mudana repentina na taxa em uma ou outra direo. A curva se estende por um perodo de oito horas, diferente das quase duas horas na
Figura 7, e parece representar um nico processo ordenado. O nmero total de respostas maior, talvez por causa do maior tempo permitido para emisso. Tudo isso pode ser explicado pelo simples fato de que tornamos impossvel para o pombo formar um par de discriminaes baseadas, primeiro, na estimulao do comportamento de comer e, segundo, na estimulao do comportamento de responder rapidamente.
Figura 8
J que o intervalo mais longo entre reforamentos era somente dois minutos, certa novidade deve ainda ter sido introduzida com o passar do tempo. Se isto explica a curvatura na Figura 8, pode ser testado em alguma medida com outros programas de reforamento contendo intervalos muito mais longos. Uma progresso geomtrica foi construda comeando com 10 segundos como o intervalo mais curto e, repetidamente, multiplicando por 1,54. Isto produziu um conjunto de intervalos com mdia de 5 minutos, dos quais o mais longo foi mais de 21 minutos. Tal conjunto foi randomizado em um programa de reforamento repetido a cada hora. Ao mudar, da srie aritmtica, para este programa, as taxas primeiramente decaram durante os intervalos mais longos, mas os pombos logo conseguiram manter uma taxa constante de respostas. Dois registros, na forma como eles foram feitos, so mostrados na Figura 9. (O registro recomea do zero aps cada mil respostas. Para obter uma nica curva cumulativa, seria necessrio cortar o registro e juntar as sees para formar uma linha contnua. A forma bruta pode ser reproduzida com menos reduo). Cada reforamento
O que chamado reforamento peridico neste artigo veio a ser conhecido como reforamento em intervalo fixo e aperidico como intervalo varivel. (Ver Schedules of Reinforcement.)
117
representado por um trao horizontal. O tempo registrado , aproximadamente, 3 horas. Os registros so mostrados para dois pombos que mantiveram taxas totais diferentes sob este programa de reforamento.
contendo intervalos excepcionalmente muito mais longos, no produzam uma linha reta por muito mais tempo.
Figura 9
Sob tal esquema, uma taxa constante de resposta mantida por, no mnimo, 21 minutos sem reforamento, tempo aps o qual um reforamento recebido. Menos novidade deveria, portanto, ocorrer durante extines sucessivas. Na curva 1 da Figura 10, o pombo tinha sido exposto a diversas sesses, de vrias horas cada uma, com este conjunto geomtrico de intervalos. O nmero de respostas emitidas em extino , aproximadamente, duas vezes aquele da curva na Figura 8 depois do conjunto aritmtico de intervalos com mdia de um minuto, mas as curvas, tirando isso, so muito parecidas. Outras exposies ao esquema geomtrico produzem jorros de respostas mais longos durante os quais a taxa no muda significativamente. A curva 2 foi obtida aps duas horas e meia de exposio ao reforamento aperidico alm daquele que produziu a curva 1. No dia mostrado na curva 2, alguns reforamentos aperidicos foram inicialmente dados, como marcado no incio da curva. Quando o reforamento foi descontinuado, uma taxa razoavelmente constante de resposta prevaleceu por vrios milhares de respostas. Aps uma outra sesso experimental de duas horas e meia com a srie geomtrica, a curva 3 foi registrada. Esta sesso tambm comeou com uma srie curta de reforamentos aperidicos, seguido de um jorro mantido por mais de 6000 respostas no-reforadas, com pouca mudana na taxa (A). Parece no haver nenhuma razo para que outras sries com mdias de mais de 5 minutos por intervalo e
Figura 10
Neste ataque ao problema da extino, ns criamos um esquema de reforamento que muito parecido com as condies que prevalecem durante extino, de que nenhum declnio na taxa acontece durante um longo perodo de tempo. Em outras palavras, ns geramos extino sem nenhuma curvatura. Eventualmente algum tipo de exausto se inicia, mas no abordada gradualmente. A ltima parte da curva 3 (infelizmente muito reduzida na figura) pode possivelmente sugerir exausto na ligeira curvatura total, mas isso uma pequena parte do processo inteiro. O registro composto principalmente de jorros de algumas poucas centenas de respostas cada um, a maioria deles aproximadamente na mesma taxa que aquela mantida sob o reforamento peridico. O pombo pra abruptamente; quando comea a responder de novo, atinge rapidamente a taxa de resposta sob a qual foi reforado. Isto lembra a correlao espria entre o responder rpido e reforamento sob reforamento regular. Ns no eliminamos completamente, claro, esta correlao. Mesmo que no haja mais reforamento diferencial de taxas altas contra baixas, praticamente todos os reforamentos ocorreram sob uma taxa constante de resposta. Outros estudos de esquemas de reforamento podem ou no responder pergunta de se a novidade que
118
B. F . SKINNER
aparece na situao de extino inteiramente responsvel pela curvatura. Pareceria ser necessrio tornar as condies prevalentes durante a extino, idnticas s condies prevalentes durante o condicionamento. Isto pode ser impossvel, mas naquele caso a pergunta acadmica. A hiptese, entretanto, no uma teoria no sentido corrente, j que no faz nenhuma afirmao sobre um processo paralelo em nenhum outro universo de discusso. verdade que isso apela para a estimulao gerada em parte pelo prprio comportamento do pombo. Isso pode ser difcil de especificar ou manipular, mas no terico no sentido corrente. Desde que estejamos dispostos a assumir uma correspondncia uma-a-uma entre ao e estimulao, uma especificao fsica possvel. O estudo da extino aps diferentes esquemas de reforamento aperidico no direcionado totalmente a esta hiptese. O objeto uma descrio econmica das condies prevalentes durante reforamento e extino e das relaes entre elas. Ao usar taxa de resposta como um dado bsico, podemos apelar a condies que so observveis e manipulveis, e podemos expressar as relaes entre elas em termos objetivos. At ao ponto em que nosso dado torna isso possvel, reduz a necessidade de teoria. Quando observamos um pombo emitindo 7000 respostas em uma taxa constante sem reforamento, no tendemos a explicar uma curva de extino contendo talvez algumas centenas de respostas, apelando para um acmulo de inibio reativa ou a qualquer outro produto da fadiga. A pesquisa que conduzida sem compromisso com teoria mais provvel de conduzir o estudo da extino para novas reas e novas ordens de magnitude. Acelerando a acumulao de dados, ns apressamos a partida das teorias. Se as teorias no tiveram nenhuma participao na elaborao de nossos experimentos, no precisamos lamentar ao v-las partir. Aprendizagem complexa Um terceiro tipo de teoria de aprendizagem ilustrado por termos como preferindo, escolhendo, discriminando e igualando. Um esforo pode ser feito para defini-
los unicamente em termos de comportamento, mas na prtica tradicional eles se referem a processos em um outro sistema dimensional. Uma resposta a um de dois estmulos disponveis pode ser chamada de escolha, mas mais comum dizer que ela o resultado da escolha, significando, pela ltima, uma terica atividade prcomportamental. Os processos mentais superiores so os melhores exemplos das teorias deste tipo; os paralelos neurolgicos no tm sido bem trabalhados. A apelao teoria incentivada pelo fato de que escolher (como discriminar, igualar e assim por diante) no um pedao particular de comportamento. No uma resposta ou uma ao com topografia especificada. O termo caracteriza um segmento maior de comportamento em relao a outras variveis ou eventos. Ns podemos formular e estudar o comportamento aos quais estes termos seriam geralmente aplicados, sem recorrer s teorias que geralmente os acompanham? Discriminao um caso relativamente simples. Suponha que descobrimos que a probabilidade de emisso de uma determinada resposta no afetada significativamente pela mudana de um de dois estmulos para o outro. Ns ento tornamos o reforamento da resposta contingente presena de um deles. O resultado bem estabelecido que a probabilidade de resposta permanece alta sob este estmulo e atinge um ponto muito baixo sob o outro. Ns dizemos que o organismo agora discrimina entre os estmulos. Mas a discriminao no uma ao em si mesma, ou necessariamente mesmo um nico processo. Problemas no campo da discriminao podem ser elaborados em outros termos. Quanta induo se obtm entre estmulos de diferentes magnitudes ou classes? Quais so as menores diferenas nos estmulos que produzem uma diferena no controle? E assim por diante. Perguntas deste tipo no pressupem atividades tericas em outros sistemas dimensionais. Um segmento um pouco maior deve ser especificado ao lidar com o comportamento de escolher um de dois estmulos concorrentes. Isto foi estudado no pombo examinando-se respostas a dois discos diferindo em posio (direita ou esquerda) ou em alguma propriedade como a
119
cor randomizada com respeito posio. Reforando ocasionalmente uma resposta em um disco ou no outro, sem favorecer qualquer disco, obtemos taxas iguais de resposta nos dois discos. O comportamento se aproxima a uma simples alternao de um disco para o outro. Isto segue a regra de que as tendncias a responder eventualmente correspondem s probabilidades de reforamento. Dado um sistema no qual um ou outro disco est ocasionalmente conectado com o comedouro por um relgio externo, ento se o disco direito acabou de ser bicado, a probabilidade de reforamento via disco da esquerda maior que via disco da direita, uma vez que um intervalo maior de tempo transcorreu durante o qual o relgio pode ter fechado o circuito para o disco esquerdo. Mas o comportamento do pssaro no corresponde a esta probabilidade meramente em respeito matemtica. O resultado especfico de tal contingncia de reforamento que mudarpara-outro-disco-e-bicar geralmente mais reforado que bicar-o-mesmo-disco-uma-segunda-vez. No estamos mais lidando apenas com duas respostas. Para analisar escolha, devemos considerar uma nica resposta final, bicar, sem referncia posio ou cor do disco e, alm disso, s respostas de mudar de um disco ou cor para outra. Resultados quantitativos so compatveis com esta anlise. Se reforarmos periodicamente somente as respostas ao disco direito, a taxa de resposta direita aumentar enquanto esquerda cair. A resposta de mudar-da-direita-para-a-esquerda nunca reforada enquanto a resposta de mudar-da-esquerda-para-a-direita o , ocasionalmente. Quando o pssaro est bicando direita, no h nenhuma grande tendncia para mudar de discos; quando ele est bicando esquerda, h uma forte tendncia para mudar. Muito mais respostas comeam a acontecer no disco da direita. A necessidade de considerar o comportamento de comutar claramente mostrada se invertermos agora estas condies e reforarmos somente as respostas ao disco da esquerda. O resultado final uma alta taxa de respostas no disco da esquerda e uma baixa taxa no da direita. Invertendo as condies novamente, a taxa alta pode ser deslocada de volta para o disco da direita. Na Figura 11,
um grupo de oito curvas foram agrupadas pela mdia para acompanhar esta mudana durante seis perodos experimentais de 45 minutos cada. Comeando no segundo dia no grfico, as respostas ao disco da direita (RR) declinam em extino, enquanto as respostas ao disco da esquerda (RL) aumentam com reforamento peridico. A taxa mdia no mostra nenhuma variao significativa, j que o reforamento peridico mantido no mesmo esquema. A taxa mdia mostra a condio da fora da resposta de bicar um disco independente da posio. A distribuio das respostas entre direita e esquerda depende da fora relativa das respostas de comutar. Se este fosse simplesmente um caso de extino de uma resposta e o recondicionamento concorrente de outra, a curva mdia no permaneceria aproximadamente horizontal, j que recondicionamento ocorre muito mais rapidamente que extino (Duas respostas topograficamente independentes, capazes de emisso ao mesmo tempo e, portanto, no requerendo mudana, mostram processos separados de recondicionamento e extino, e a taxa combinada de respostas varia).
Figura 11
A taxa com que o pssaro muda de um disco para outro depende da distncia entre os discos. Esta distncia uma medida grosseira da diferena de estmulos entre os dois discos. Ela tambm determina a latitude da resposta
120
B. F . SKINNER
de mudar, com uma diferena implcita em feedback sensorial. Ela tambm modifica a distribuio do reforamento para respostas supostamente no reforadas, j que se os discos forem prximos um do outro, uma resposta reforada em um lado pode ocorrer mais cedo aps uma resposta precedente no outro lado. Na Figura 11, os dois discos eram separados por, aproximadamente, uma polegada. Eram, portanto, razoavelmente similares em relao posio na caixa experimental. Mudar de um para outro envolvia um mnimo de feedback sensorial, e o reforamento de uma resposta a um disco poderia ocorrer logo aps uma resposta ao outro. Quando os discos so separados por uma distncia de at quatro polegadas, a mudana no fortalecimento muito mais rpida. A Figura 12 mostra duas curvas registradas simultaneamente de um nico pombo durante um perodo experimental de aproximadamente 40 minutos. Uma elevada taxa para o disco da direita e uma taxa baixa para o da esquerda tinham sido estabelecidas previamente. Na figura, nenhuma resposta direita foi reforada, mas aquelas esquerda foram reforadas a cada minuto, como indicado pelos traos verticais acima da curva L. A inclinao de R declina de forma razoavelmente suave enquanto a de L aumenta, tambm razoavelmente suave, para um valor comparvel ao valor inicial de R. O pssaro conformou-se contingncia mudada dentro de um nico perodo experimental. A taxa mdia de resposta mostrada pela linha pontilhada, que no mostra novamente nenhuma curvatura significativa.
O que chamado de preferncia entra nesta formulao. Em qualquer estgio do processo mostrado na Figura 12, preferncia pode ser expressa em termos das taxas relativas de resposta aos dois discos. Esta preferncia, entretanto, no est em bicar um disco, mas em mudar de um disco para outro. A probabilidade de que o pssaro bicar um disco, a despeito das suas propriedades identificadoras, comporta-se independentemente da resposta preferencial de mudar de um disco para outro. Vrios experimentos tm revelado um fato adicional. Uma preferncia permanece fixa se o reforamento for retido. A Figura 13 um exemplo. Ela mostra curvas simultneas de extino de dois discos durante sete perodos experimentais dirios, de uma hora cada. Antes da extino, a fora relativa das respostas de mudar-para-a-direita e mudar-para-a-esquerda produziu uma preferncia de aproximadamente 3 para 1 pela direita. A constncia da taxa durante todo o processo de extino foi mostrada na figura multiplicando-se L por uma constante apropriada e incorporando os pontos como pequenos crculos em R. Se a extino alterasse a preferncia, as duas curvas no poderiam ser sobrepostas desta maneira.
Figura 13
Estas formulaes de discriminao e escolha permitem-nos lidar com o que geralmente considerado um processo muito mais complexo escolha de acordo com o modelo. Suponha que arranjemos trs discos translcidos, cada um podendo ser iluminado com luz vermelha ou verde. O disco do meio funciona como um modelo e ns
Figura 12
o colorimos de vermelho ou verde, em ordem randmica.
121
Ns colorimos os dois discos laterais, um de vermelho e um de verde, tambm em ordem randmica. O problema bicar o disco lateral que corresponde, na cor, ao disco do meio. H somente quatro padres de trs-discos em tal caso, e possvel que um pombo pudesse aprender a emitir uma resposta apropriada para cada padro. Isto no acontece, pelo menos no perodo de tempo coberto pelos experimentos realizados at o momento. Se simplesmente apresentamos uma srie de configuraes de trs cores e reforamos respostas bem sucedidas, o pombo bicar os discos laterais sem referncia cor ou ao padro e ser reforado 50 por cento do tempo. Isto , de fato, um esquema de reforamento de razo fixa que adequado para manter uma alta taxa de resposta. Entretanto possvel fazer um pombo escolher de acordo com o modelo reforando as respostas discriminativas de bicar-vermelho-aps-ser-estmuladopor-vermelho e bicar-verde-aps-ser-estmulado-por-verde enquanto se extingue as outras duas possibilidades. A dificuldade est em arranjar a estimulao apropriada no momento da resposta. O modelo pode ser apresentado de forma conspcua - por exemplo, utilizando a cor do modelo na iluminao geral da caixa experimental. Em tal caso o pombo aprenderia a bicar discos vermelhos em um ambiente vermelho e discos verdes em um ambiente verde (supondo-se uma iluminao neutra, como fundo para os discos). Mas um procedimento que est mais prximo da noo de escolha de acordo com o modelo induzir o pombo a olhar para o modelo por meio de um reforamento separado. Ns podemos fazer isto apresentando a cor no disco do meio primeiramente, deixando os discos laterais sem cor. Uma resposta ao disco do meio ento reforada (secundariamente) pela iluminao dos discos laterais. O pombo aprende a dar duas respostas em rpida sucesso ao disco do meio e, ento, a um disco lateral. A resposta ao disco lateral segue rapidamente a estimulao visual do disco do meio, que a condio requisito para uma discriminao. A escolha bem sucedida foi estabelecida prontamente em todos os dez pombos testados com esta tcnica. Escolher o oposto tambm
facilmente planejado. A resposta discriminativa de bicarvermelho-aps-ser-estmulado-por-vermelho no , aparentemente, mais fcil de estabelecer do que bicar-vermelho-aps-ser-estmulado-por-verde. Quando a resposta a um disco da mesma cor, entretanto, a generalizao pode tornar possvel ao pssaro escolher de acordo com uma nova cor. Esta uma extenso da noo de escolha ao modelo que ainda no foi estudada com este mtodo. Mesmo quando o comportamento de escolha foi bem estabelecido, o pssaro no responder corretamente se todos os trs discos forem apresentados ao mesmo tempo. O pssaro no tem um forte comportamento de olhar para o modelo. O experimentador deve manter um reforamento separado para conservar este comportamento em sua fora. Em sujeitos macacos, chimpanzs e humanos, o sucesso final da escolha aparentemente suficiente para reforar e manter o comportamento de olhar para o modelo. possvel que esta diferena entre espcies seja simplesmente uma diferena nas relaes temporais requeridas para o reforamento. O comportamento de escolha ao modelo sobrevive imutvel quando todo o reforamento retido. Um caso intermedirio foi estabelecido em que a resposta correta de escolha reforada somente periodicamente. Em um experimento, uma cor aparecia no disco do meio por um minuto; era ento mudada ou no, randomicamente, para a outra cor. Uma resposta a este disco iluminava os discos laterais, um vermelho e um verde, em ordem randmica. Uma resposta a um disco lateral cortava a iluminao de ambos os discos laterais, at que o disco do meio fosse bicado novamente. O aparato registrava todas as respostas de escolha ao modelo em um grfico, e todas as de noescolha em outro. Pombos que adquiriram o comportamento de escolha do modelo sob reforamento contnuo, mantiveram este comportamento quando reforados no mais que uma vez por minuto, em mdia. Eles podem emitir milhares de respostas de escolha ao modelo por hora, enquanto so reforados por no mais de sessenta delas. Este esquema no desenvolver, necessariamente, o comportamento de escolha ao modelo em um pssaro ing-
122
B. F . SKINNER
nuo, porque o problema pode ser resolvido de trs maneiras. O pssaro receber praticamente o mesmo nmero de reforamentos se ele responder (1) somente a um disco ou (2) somente a uma cor, j que a programao do experimento torna qualquer resposta persistente eventualmente a resposta correta. Um exemplo dos dados obtidos em um experimento complexo deste tipo apresentado na Figura 14. Embora este pombo tenha aprendido a escolher cor sob reforamento contnuo, ele mudou para a espria soluo de uma preferncia de cor sob reforamento peridico. Sempre que o modelo era vermelho, ele bicou o modelo e o disco lateral vermelho e recebeu todos os reforamentos. Quando o modelo era verde, ele no respondeu e os discos laterais no foram iluminados. O resultado mostrado no comeo do grfico na Figura 14 uma taxa elevada de resposta no grfico superior, que registra respostas de escolha ao modelo. (O registro realmente em forma de degraus, seguindo a presena ou a ausncia do modelo vermelha, mas isso perdido na reduo da figura.) Uma preferncia de cor, entretanto, no uma soluo para o problema de opostos. Mudando para este problema, foi possvel mudar o comportamento do pssaro, como mostrado entre as duas linhas verticais na figura. A curva superior entre essas linhas mostra o declnio nas respostas de escolha ao modelo que havia resultado da preferncia de cor. A curva inferior entre as mesmas linhas mostra o desenvolvimento da resposta a, e escolha da cor oposta. Na segunda linha vertical, reforamento foi novamente apresentado contingente escolha ao modelo. A curva superior mostra o re-estabelecimento do comportamento de escolha ao modelo enquanto a curva inferior mostrar um declnio em bicar a cor oposta. O resultado foi uma soluo verdadeira: o pombo bicou o modelo, no importando qual era sua cor, e depois o disco lateral correspondente. A linha mais clara conecta as mdias de uma srie de pontos nas duas curvas. Parece seguir a mesma regra que no caso de escolha: mudanas na distribuio de respostas entre os dois discos no envolvem a taxa total de respostas a um disco. Esta taxa mdia no permanecer constante
sob a espria soluo alcanada com uma preferncia de cor, como no comeo desta figura.
Figura 14
Estes experimentos sobre alguns processos superiores foram necessariamente, muito brevemente descritos. Eles no so oferecidos como provas de que as teorias de aprendizagem no so necessrias, mas eles podem sugerir um programa alternativo nesta difcil rea. Os dados no campo dos processos mentais superiores transcendem respostas nicas ou relaes nicas de estmulo-resposta. Mas eles parecem ser suscetveis formulao em termos de diferenciao de respostas concorrentes, a discriminao de estmulos, o estabelecimento de vrias seqncias de respostas, e assim por diante. No parece haver nenhuma razo a priori por que uma completa explicao no seja possvel sem apelao a processos tericos em outros sistemas dimensionais. Concluso Fazer (cincia) completamente sem teorias, talvez seja um desempenho supremo , o que demasiado para se
123
esperar como uma prtica geral. Teorias so divertidas. Mas possvel que o progresso mais rpido em direo a uma compreenso da aprendizagem possa ser feita pela pesquisa que no planejada para testar teorias. Um mpeto adequado dado pela inclinao a obter dados que mostrem mudanas ordenadas caractersticas do processo de aprendizagem. Um programa cientfico aceitvel coletar dados deste tipo e relacion-los s variveis manipulveis, selecionadas para o estudo atravs de uma explorao de senso comum da rea. Isto no exclui a possibilidade de teoria em um outro sentido. Alm da coleo de relaes uniformes, h a necessidade de uma representao formal dos dados, reduzida a um nmero mnimo de termos. Uma construo terica pode produzir maior generalidade do que qualquer conjunto de fatos. Mas tal construo no se referir a um outro sistema dimensional e no ir, portanto, entrar
na nossa definio corrente. No ficar no caminho de nossa busca por relaes funcionais, porque aparecer somente depois que variveis relevantes tiverem sido encontradas e estudadas. Embora seja difcil compreender, isso no ser facilmente mal compreendido e no ter nenhum dos efeitos contestveis das teorias aqui consideradas. Ns parecemos no estar prontos para teoria neste sentido. No momento, fazemos pouco uso efetivo de equaes empricas, sem mencionar as, racionais. Algumas das presentes curvas poderiam ter sido ajustadas bem prximas umas das outras. Mas a mais elementar das pesquisas preliminares mostra que h muitas variveis relevantes, e at que sua importncia seja determinada experimentalmente, uma equao que as abrigue, ter tantas constantes arbitrrias que um bom ajuste ser uma questo de tempo e uma causa para pouqussima satisfao. MS. original recebido em 5 de dezembro de 1949
124

767 3163 1 PB

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

767 3163 1 PB

Caricato da

Copyright:

Formati disponibili

REVISTA BRASILEIRA DE ANLISE DO COMPORTAMENTO / BRAZILIAN JOURNAL OF BEHAVIOR ANALYSIS, 2005, VOL.1 NO.

TEORIAS DE APRENDIZAGEM SO NECESSRIAS 1? ARE THEORIES OF LEARNING NECESSARY 2?

TEORIAS DE APRENDIZAGEM SO NECESSRIAS?

TEORIAS DE APRENDIZAGEM SO NECESSRIAS?

TEORIAS DE APRENDIZAGEM SO NECESSRIAS?

TEORIAS DE APRENDIZAGEM SO NECESSRIAS?

TEORIAS DE APRENDIZAGEM SO NECESSRIAS?

TEORIAS DE APRENDIZAGEM SO NECESSRIAS?

TEORIAS DE APRENDIZAGEM SO NECESSRIAS?

TEORIAS DE APRENDIZAGEM SO NECESSRIAS?

o colorimos de vermelho ou verde, em ordem randmica.

TEORIAS DE APRENDIZAGEM SO NECESSRIAS?

TEORIAS DE APRENDIZAGEM SO NECESSRIAS?

Potrebbero piacerti anche