Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Introduo
outros recursos.1 Na realidade, essas interfaces grficas, como mscaras, escondem a nica linguagem decifrvel pelo computador: a
linguagem de mquina que, em ltima instncia, representa toda a
informao manipulada pelo sistema computacional em termos de
estruturas representadas exclusivamente por cadeias de zeros e
uns.
Uma outra soluo para o mesmo desafio seria o desenvolvimento de programas capazes de compreender, pelo menos de
modo rudimentar, fragmentos da linguagem humana, alternativa
cujos reflexos so sentidos at hoje, diante das inmeras tentativas
de se investigar como fazer o computador emular o conhecimento e
o desempenho lingsticos humanos. A essa preocupao com a
comunicao natural, que j se instalava nos crculos universitrios
norte-americanos e europeus, concomitantemente com a criao dos
primeiros computadores, somou-se outra no menos complexa: a
iniciativa voltada para o desenvolvimento de sistemas de traduo
realizada automtica ou semi-automaticamente por computador.
o desafio posto pelo tratamento computacional das lnguas
naturais e pelo prprio processo de comunicao humano que tem
instigado os centros de tecnologia da linguagem humana a investirem significativos recursos tericos, humanos e materiais na modelagem computacional da linguagem humana, entendida, aqui,
como a criao de um modelo computacionalmente tratvel do uso
do lxico e da gramtica de uma lngua natural nas diversas situaes comunicativas. Nasce, assim, o domnio de estudo conhecido
por Processamento Automtico de Lnguas Naturais (doravante PLN).
Uma peculiaridade desse amplo e controverso domnio de
pesquisa o fato de agregar uma heterogeneidade de objetivos:
desde a meta de investigar meios de empregar o computador como
uma simples ferramenta auxiliar para investigar material lingstico (por exemplo, a criao de programas de computador para calcular estatsticas de ocorrncias de palavras em textos ou para
identificar e indexar palavras e segmentos de texto) at a meta de
criar uma inteligncia artificial, nos moldes do supercomputador
1
As plataformas grficas passaram a ser desenvolvidas na dcada de 80. Precisamente em 1984, fazendo uma aluso direta a essa data, ttulo e cone da obra de George
Orwell, os seus idealizadores, as empresas americanas Apple e Xerox, passaram
a comercializar o computador que ficou mundialmente conhecido como Macintosh: o primeiro computador pessoal equipado com uma sofisticada interface grfica. Estava quebrado o monoplio da informtica pela gigante IBM. Depois dessa
iniciativa, esta e a ento principiante Microsoft uniram-se e passaram tambm a
desenvolver suas prprias plataformas grficas concorrentes. Nasce, ento, a plataforma Windows, que ainda hoje, mesmo com as iniciativas de desenvolvimento de
plataformas abertas, como o sistema Unix e a sua verso contempornea Linux, domina a maioria dos computadores de todo o mundo.
104
105
projetarem sistemas de PLN que sejam, no limite, computacionalmente eficientes e robustos e lingisticamente precisos e adequados e que saliente a relevncia acadmica da investigao do PLN
para o avano quantitativo e qualitativo dos estudos contemporneos da linguagem, ao apontar as dimenses cientficas e tecnolgicas inerentes ao estudo computacional das lnguas naturais.
No contexto dessas consideraes iniciais que defino os contornos da face lingstico-computacional dos estudos da linguagem, que, com ser visto, delineia-se, porm de modo difuso, tanto
nas teorias lingsticas contemporneas como no vasto e disperso
domnio de estudo do PLN.
Nessa tarefa de estabelecimento de contornos, aponto, na segunda seo deste artigo, o que considero entraves para o trabalho
cooperativo entre lingistas e projetistas de sistemas de PLN. Na
terceira seo, aps delimitar a concepo de PLN lingisticamente
motivada, proponho o equacionamento metodolgico global que
considero essencial para o desenvolvimento da pesquisa nessa rea.
Por fim, na quarta seo, sistematizo as relaes de interdisciplinaridade que se estabelecem entre a investigao do PLN e as disciplinas matrizes que lhe do fundamentao e mapeio os recursos tericos essenciais para o desenvolvimento dos sistemas de PLN.
2
Entraves
106
2.1
Do ponto de vista dos projetistas de sistemas de PLN, possvel encontrar razes que os levem a se distanciar dos estudos
lingsticos. Como ponto de partida, relembro parte das dificuldades que enfrentei ao desenvolver meu trabalho de mestrado (Diasda-Silva, 1990) no domnio da Teoria Lingstica. Na busca de modelos tericos para investigar o fenmeno da apassivao nas lnguas naturais, o que encontrei foi um frentico borbulhamento de
novidades tericas. Escolher um arcabouo descritivo para fundamentar a pesquisa tornou-se, para mim, um problema muito
mais complexo do que para os pesquisadores de outras reas do
conhecimento, que tm a felicidade de poder contar com um cerne bsico estvel de princpios epistemolgicos e convenes notacionais.
As expresses destacadas entre aspas no pargrafo anterior e
neste pargrafo, tomadas de emprstimo de Lemle (1984, p. 2),
ainda traduzem parte das razes que tm distanciado o nolingista da Teoria Lingstica. Lemle, ao propor uma ponte
entre a lingstica terica e o ensino escolar da gramtica, comenta
que uma certa lingstica emprega um formalismo algbrico
bizarro, abominvel e desinteressante para a maioria das pessoas
e critica a prpria Teoria Lingstica, ao afirmar que o discurso
lingstico vale-se com demasiada freqncia de um linguajar
tcnico hermtico que disfara o vazio de substncia de suas propostas.
Esses exemplos j so suficientes para se ter uma idia de que
a escolha e a avaliao de modelos descritivos no mbito da Lingstica transformam-se em tarefas laboriosas e desnorteadoras.
No raro, as propostas lanadas pelos tericos trazem consigo uma
pluralidade de anlises, muitas delas simplesmente esboadas, ou
uma metalinguagem hermtica e cifrada ou ainda uma evidente
concentrao em aspectos particulares e pontuais da anlise das
lnguas. Qualquer lingista, por exemplo, reconhece o vis sinttico que dominou as pesquisas lingsticas na segunda metade do
sculo XX.
A fragmentao, a parcialidade e a pouca formalizao das
descries de fatos lingsticos so tambm apontadas como agravantes para o quadro de distanciamento. Winograd (1972, p. 41),
um pesquisador do PLN, por exemplo, apresenta uma justificativa
plausvel para o fato dos engenheiros da linguagem no recorrerem Teoria Lingstica:
107
Quando surgiram os primeiros trabalhos de descrio de lnguas naturais com o auxlio do computador, no havia teorias sintticas suficientemente explcitas e prontas para serem computacionalmente
codificadas. Os primeiros projetistas [de sistemas de PLN] que ousaram propor os sistemas de traduo automtica pioneiros foram forados a construir seus prprios modelos de descrio lingstica...
Como decorrncia, [esses modelos] eram muito precrios e imediatistas.
109
linguagem que ousaram investigar alm dos limites da frase, confuses que tm gerado muitos debates e embates entre tericos.2
2.2
Para uma apreciao das dificuldades e confuses causadas pela pluralidade de usos
desses termos, remeto o leitor para Fvero e Koch (1983, p. 23) para quem as diferentes concepes de texto e discurso acabaram por criar uma confuso entre os dois
termos, ora empregados como sinnimos, ora usados para designar entidades diferentes e que atribuem parte das confuses no existncia, em algumas lnguas, do
termo discurso , Greimas e Courts (1979). H que se ressaltar que essas confuses
acabam tambm por gerar uma srie de denominaes, no menos problemticas,
empregadas, por vezes, para demarcar fronteiras entre lingstica frasal e lingstica transfrstica: anlise do discurso, lingstica textual, gramtica ou sintaxe do texto,
anlise da conversao.
110
Obras clssicas como Grishman (1986), Allen (1987) e Gazdar e Mellish (1989) esto
entre as poucas tentativas de reunir didaticamente os temas pertinentes ao PLN.
O estudo Lingstico-Computacional da Linguagem
111
aos conceitos bsicos lngua e linguagem, lngua e fala, gramtica, estrutura de constituintes, regras sintticas recursivas, categorias sintticas e funcionais, lexemas, categorias nucleares, papis
temticos, esquema de subcategorizao, restries selecionais,
casos morfolgicos, categorias diticas e anafricas, atos de fala,
entre outros (Jakobson, 1977; Borba, 1984; Sells, 1985).
Essa base comum, resultante de uma longa tradio de estudos da linguagem, acaba por fornecer um universo de discurso
comum, contendo uma metalinguagem e noes gerais, fato que se
evidencia no discurso dos prprios tericos, que constantemente
recorrem a ela para construir suas anlises. Uma leitura das propostas tericas recentes suficiente para constatar que termos que
designam categorias e funes gramaticais, por exemplo, so tomados de emprstimo da gramtica tradicional e, posteriormente,
reciclados para rotular conceitos novos. Para exemplificar, destaco
este trecho inicial da discusso de Marantz (1984, p. 1) sobre a natureza das relaes gramaticais:
Os lingistas tm clareza sobre noes gerais, noes pr-tericas,
como antecedente de um pronome reflexivo, especificao de casos morfolgicos, ordenao das palavras, agente de uma ao, e
outros conceitos que parecem estar relacionados com a noo de sujeito.
113
114
Nesse contexto, fica evidente que a autora refere-se a uma lngua em particular e no linguagem em geral. Lyons (1981, p. 16)
esclarece essa questo:
Diversas lnguas europias tm duas tradues, e no uma, para o
vocbulo ingls language: haja vista o francs langage: langue, o italiano linguaggio: lngua e o espanhol lenguaje: lengua. Em cada um dos
casos, a diferena entre as duas palavras est correlacionada, at certo ponto, com a diferena entre os dois sentidos da palavra inglesa
language [] o ingls permite a seus falantes dizer de alguma pessoa
que no s he possesses a language [ele possui uma lngua] (ingls,
chins, malaio, suali, etc.), mas que he possesses language [ele dotado de linguagem].4
O termo linguagem artificial aplica-se, talvez metaforicamente, aos sistemas de notao ou clculo elaborados por matemticos, cientistas da computao e lgicos para fins especficos, que
incluem, por exemplo, as linguagens de programao de computadores e a linguagem da lgica simblica, que apropriadamente
recebem o nome de linguagens artificiais.5
Grande parte da metalinguagem dos trabalhos de PLN, como
uma colcha de retalhos, contm fragmentos de outras metalinguagens, constituindo um obstculo adicional. A interpretao e a
utilizao dos termos e conceitos exigem cuidado especial para que
no se mergulhe em um caos terminolgico-conceitual.
4
Akmajian et al. (1986, p.6) comentam a estranheza manifestada por alunos americanos quando descobrem que o termo ingls language possui tambm o sentido genrico de faculdade da linguagem. Acrescentam que, para os americanos, a distino entre lngua e linguagem parece ser praticamente desconhecida fora do crculo
dos lingistas, o que vem reforar o cuidado com a preciso terminolgicoconceitual. No portugus, o problema do emprego dos termos lngua e linguagem
nem mesmo se coloca, uma vez que cada um deles reveste conceitos distintos.
O termo linguagem, por ser de aplicao mais geral que o termo lngua, licitamente usado para denotar os sistemas de comunicao em geral, naturais e artificiais, entre seres humanos ou no: as linguagens de programao, a linguagem das
abelhas, a linguagem corporal humana, a linguagem do trnsito, etc.
O estudo Lingstico-Computacional da Linguagem
115
Alm dessas razes tcnicas, grande parte dos ataques recprocos entre os pesquisadores parece ser decorrncia de um outro
fato, tambm amplamente percebido em nossos meios acadmicos:
a imagem estereotipada e distorcida que os pesquisadores formam
uns dos outros, sobretudo, se trabalham em domnios de conhecimento diversos.6 No difcil constatar que uma simples conversa
entre colegas de reas distintas , no raro, pontuada por esses
julgamentos pr-concebidos.
Lyons (1979), no Prefcio de sua obra clssica Introduo Lingstica Terica, revela os dois esteretipos que h muito tm sido
atribudos a pesquisadores das duas reas. Num momento em que
os modelos formais de gramtica passavam a ser o centro das investigaes lingsticas, Lyons advertia os leitores, em especial
aqueles cuja formao intelectual se apoiava mais nas Humanidades, para o fato de que eles deveriam estar preparados para fazer
6
116
Hoje, passados mais de 30 anos, verifica-se que advertncia semelhante precisa ser
feita ao se abordar os estudos sobre o PLN. Desta vez, a advertncia no direcionada apenas queles de formao humanstica, mas aos prprios lingistas. Mesmo estando familiarizados com os mltiplos formalismos, que hoje um lugarcomum em qualquer teoria lingstica, os lingistas precisam estar preparados para
conseguir decifrar um volume considervel de representaes, formalismos e o prprio jargo (objetos muito mais arcanos) que fazem parte do universo do PLN.
O estudo Lingstico-Computacional da Linguagem
117
Cooperar preciso
gstica deve aproveitar-se eqitativamente das abordagens tradicional e cientfica da lngua, considerando este resultado da interseco entre os estudos da linguagem e os estudos desenvolvidos no
mbito da Lgica Formal, da Anlise Computacional e da Teoria
dos Autmatos.
Notvel constatar que projetistas de PLN como Winograd
(1972, p. 41) tambm preocupam-se com o embasamento lingstico
do estudo do PLN:
Quando todas as tentativas para salvar o empreendimento da traduo automtica falharam, ficou patente que foi muito prematuro,
por parte dos pesquisadores, tentar abarcar toda a lngua inglesa
sem buscar fundamentao mais slida na teoria lingstica e sem
compreender as propriedades matemticas das gramticas.
3.1
Para esse precursor do estudo do PLN,8 os elementos essenciais para o estudo do PLN e, sobretudo, para a indispensvel ancoragem lingstica resumem-se no que segue:
Assumimos que um computador no poder satisfatoriamente emular uma lngua natural se no conseguir compreender o assunto que
est em discusso. Logo, preciso fornecer ao programa um modelo
detalhado do domnio especfico do discurso. Alm disso, o sistema
precisa ter um modelo simples de sua prpria mentalidade. Ele precisa ser capaz de lembrar seus planos e aes, discuti-los [com o usurio] e execut-los. Ele deve participar de um dilogo, respondendo, com aes e frases, s frases digitadas em ingls pelo usurio; [ele deve] solicitar esclarecimentos quando seus programas heursticos no conseguem compreender uma frase com a ajuda das informaes sintticas, semnticas, contextuais e do conhecimento de
mundo fsico previamente representadas no sistema.
Alm de evidenciar o complexo de conhecimentos e habilidades envolvidos no processo de comunicao verbal, e que precisam
estar representados dentro de um sistema de PLN, Winograd (1972,
p. ix) nos ensina que pesquisar o PLN pode ser tambm um modo
de investigao cientfico dos prprios fatos da lngua:
8
119
Foco da Investigao
Exploraes: traduo
automtica
Conquistas