Sei sulla pagina 1di 9

Calidoscpio

Vol. 7, n. 3, p. 183-191, set/dez 2009


2009 by Unisinos - doi: 10.4013/cld.2009.73.02

Ariani Di Felippo
ariani@ufscar.br

Bento Carlos Dias-da-Silva


bento@fclar.unesp.br

O processamento automtico de lnguas


naturais enquanto engenharia do
conhecimento lingustico
Natural language processing as human language engineering

RESUMO Neste trabalho, busca-se fornecer uma breve apresentao ABSTRACT In this paper, we provide a brief description of the
do domnio de pesquisa multidisciplinar denominado Processamento multidisciplinary domain of research called Natural Language Processing
Automtico de Lnguas Naturais (PLN), que visa a capacitar um com- (NLP), which aims at enabling the computer to deal with natural
putador para lidar com a lngua. Por meio dessa apresentao, traa-se languages. In accordance with this description, NLP is conceived as
uma determinada concepo de PLN, segundo a qual essa rea uma human language engineering or technology. Therefore, NLP requires
espcie de engenharia do conhecimento lingustico. Dessa forma, consistent description of linguistic facts on every linguistic level:
o PLN requer a descrio e formalizao de dados lingusticos nas morphological, syntactic, semantic, and even the level of pragmatics and
dimenses morfolgica, sinttica, semntico-conceitual e at mesmo discourse. In addition to the linguistically-motivated conception of NLP,
pragmtico-discursiva. Alm da concepo linguisticamente motivada do we emphasize the origin of such research field, the place occupied by
PLN, destacam-se, ao longo deste texto, as motivaes para o surgimento NLP inside a multidisciplinary scenario, their objectives and challenges.
do domnio de pesquisa do PLN, o lugar que ele ocupa em meio a suas Finally, we provide some remarks on the automatic processing of
disciplinas correlatas e os objetivos e desafios que movem os pesqui- Brazilian Portuguese language.
sadores do PLN. Ao final, alguns comentrios sobre o processamento
computacional do portugus do Brasil so fornecidos.

Palavras-chave: processamento automtico de lnguas naturais, enge- Key words: natural language processing, human language technology,
nharia da linguagem humana, lingustica computacional, lingustica, computational linguistics, linguistics, natural language.
lngua natural.

Introduo tica (lingustica quantitativa e computacional) de 1978.


Atualmente, a Lingustica e a Informtica encontram-se
notrio que os computadores esto cada vez mais unidas em uma rea de pesquisa cada vez mais promis-
presentes no cotidiano, como na declarao do imposto sora, denominada Processamento Automtico de Lnguas
de renda ou mesmo nos caixas eletrnicos dos bancos. Naturais (PLN). As pesquisas nessa rea, ao mesmo tempo
Essa presena massiva leva qualquer um, hoje em dia, a em que se beneficiam com os estudos provenientes da
vincular a pesquisa cientfica e o desenvolvimento da tec- Lingustica, tm propiciado no s desenvolvimento de
nologia Informtica. Tal vinculao, no entanto, menos tecnologias ou recursos aplicveis a vrias atividades,
reconhecida quando se trata de reas consideradas menos mas tambm o prprio desenvolvimento da Lingustica
tecnolgicas, como as Cincias Humanas e Letras, como e da Cincia da Computao, duas das vrias disciplinas
bem salienta Berber Sardinha (2005). Como consequncia, matrizes do PLN.
no se pensa que em muitas atividades do cotidiano esto Este texto pretende introduzir o leitor a essa rea
presentes tecnologias que advm, em particular, da pes- de pesquisa, enfatizando sua ligao com o estudo da lin-
quisa sobre a linguagem com vistas ao seu processamento guagem. De acordo com uma concepo linguisticamente
computacional. Tais pesquisas j haviam sido anunciadas motivada do PLN, este trabalho divide-se em sete sees.
no mbito da Lingustica, por exemplo, pela saudosa Maria Na segunda, busca-se tratar as origens dessa rea. Na ter-
Teresa Biderman, em seu texto intitulado Teoria Lingus- ceira, discorre-se sobre a natureza heterognea do PLN,
Calidoscpio

enfatizando o lugar que esse domnio de pesquisa ocupa grficos como menus, janelas, caixas de dilogos, etc. O
frente a suas disciplinas matrizes. Na quarta, destacam-se usurio pode selecionar e ativar essas opes com o mouse
os objetivos dessa rea, enfatizando as vrias tecnologias ou, em geral, atravs do teclado (Microsoft Press, 1998,
por ela desenvolvidas. Na quinta, apresenta-se o PLN p. 386). Outra possibilidade seria a utilizao/adaptao
enquanto engenharia do conhecimento lingustico. Na da linguagem humana, ou seja, a criao de programas
sexta, tecem-se breves comentrios sobre o processamento que pudessem, ainda que de modo rudimentar, emular o
automtico do portugus do Brasil. Por fim, na stima, conhecimento e o desempenho lingusticos humanos. Em
algumas consideraes finais so apresentadas. outras palavras, ensinar o computador a falar a lngua dos
homens1 (Dias-da-Silva et al., 2007).
A origem do PLN Segundo Dias-da-Silva (2006), a possibilidade de
interao homem/mquina por meio da lngua dos ho-
Desde que os computadores foram introduzidos mens e o surgimento dos primeiros sistemas de traduo
em nossa cultura, na dcada de 1940, faz-los entender automtica impulsionaram os estudos ou investigaes
instrues necessrias para a execuo de tarefas tem que receberam o nome Processamento Automtico de
sido um desafio para os engenheiros da linguagem. A Lnguas Naturais (do ingls, Automatic Natural Language
primeira soluo encontrada foi a criao das linguagens Processing ou Natural Language Processing).
de programao (do ingls, programming languages).
Com o tempo, linguagens cada vez mais inteligveis fo- A heterogeneidade e o lugar do PLN
ram criadas, como LISP, PROLOG, etc. Mesmo assim,
instrues nessas linguagens so inevitavelmente rgidas, De modo geral, no PLN, buscam-se solues para
pois precisam ser descritas exatamente como o previsto. questes computacionais que requerem o tratamento com-
Com a introduo dos primeiros computadores putacional de uma (ou mais) lngua natural2 (portugus,
pessoais, que comearam a fazer sua histria na dcada ingls, etc.), quer seja escrita ou falada3. Entretanto, o
de 1970, a questo da comunicao entre o homem e a processamento computacional da fala, ou melhor, das
mquina ganhou ainda mais importncia. Desenvolveu-se, lnguas naturais em modo oral, tem ficado a cargo de uma
como consequncia, o conceito user-friendly ou seja, outra rea, denominada Reconhecimento e Sntese de Fala
amigvel ou fcil de aprender e usar (Microsoft Press, (do ingls, Speech Recognition and Synthesis) (Jurafsky e
1998, p. 742). Esse conceito revelava a preocupao dos Martin, 2000). Esta, por questes tecnolgicas, tem sido
engenheiros da linguagem em fazer dos computadores ins- investigada pela Engenharia Eltrica, mais precisamente,
trumentos cada vez mais amigveis, j que eles passavam na rea de Processamento de Sinais. Assim, ressalta-se e
a ser utilizados por pessoas comuns, isto , no-especia- ser importante diz-lo agora que o termo PLN aplica-se
listas. Mais especificamente, esses engenheiros buscavam ao processamento computacional de lngua natural, tanto
tornar a comunicao entre o homem e a mquina mais no modo escrito quanto oral, registrada em meio escrito.
natural e intuitiva, pois, a partir do momento em que a Mais precisamente, o PLN dedica-se a investigar,
maioria dos usurios definitivamente deixava de ser es- propor e desenvolver sistemas computacionais que tm a
pecialista em Informtica, os problemas de comunicao lngua natural escrita como objeto primrio (Grishman,
e de significao se tornam mais importantes. 1986). Para tanto, os pesquisadores linguistas e cien-
Assim, os engenheiros da linguagem passaram a tistas da computao buscam fundamentos em vrias
pensar em possveis linguagens que pudessem intermediar disciplinas matrizes: Filosofia da Linguagem, Psicologia,
uma comunicao mais amistosa entre os computadores Lgica, Inteligncia Artificial, Matemtica, Cincia da
e seus usurios comuns. Uma das solues encontradas Computao, Lingustica Computacional (doravante, LC)
(e que atualmente est presente em todos os computado- e Lingustica (Dias-da-Silva, 1996). No geral, em PLN,
res), pautada na utilizao da linguagem visual, foram as os linguistas trabalham em duas frentes: (i) utilizam o
chamadas interfaces grficas com o usurio (do ingls, computador para desenvolver e validar teorias e dados
graphical user interfaces - GUIs), ou apenas, interfaces lingusticos e (ii) fornecem o conhecimento necessrio
grficas. Nessa linguagem icnica, programas, arquivos para o desenvolvimento de sistemas especializados. Os
e opes so representados por meio de imagens e objetos cientistas da computao, por sua vez, (i) implementam

1
Na era pr-computador pessoal, a possibilidade do uso das lnguas naturais na comunicao com a mquina j estava entre as questes sob investigao. No
entanto, os engenheiros da linguagem visavam apenas simplificao da vida dos programadores e tcnicos que lidavam diretamente com os computadores,
sem atentarem para as necessidades do usurio comum.
2
Linguagens alternativas (por exemplo: a de sinais, para os deficientes auditivos) tm sido igualmente alvo de estudos que visam a sua automatizao
3
Como salienta Nugues (2006), o processamento de lngua (escrita) e o processamento de fala so, por vezes, considerados processamento de
lngua natural. Isso acontece, segundo o autor, sob o ponto de vista aplicado ou industrial.

184 Ariani Di Felippo e Bento Carlos Dias-da-Silva


Vol. 07 N. 03  set/dez 2009

ferramentas para o desenvolvimento e validao de teorias Os objetivos do PLN


e dados lingusticos, auxiliando os linguistas, e (ii) desen-
volvem sistemas com base no conhecimento fornecido Nestes 50 anos de pesquisas, o PLN tem demons-
pelos linguistas. trado ser um campo frtil em que os pesquisadores tm
V-se, assim, que o PLN um domnio duplamente conseguido desenvolver vrios tipos de sistemas, com
heterogneo. O primeiro aspecto dessa heterogeneidade graus diferentes de sofisticao e de nveis de desempe-
est ligado aos objetivos, que vo desde a proposio e nho, como (Bolshakov e Gelbukh, 2004; Martins, 2004;
desenvolvimento de programas que auxiliam a inves- Mitkov, 2004; Nunes, 2008):
tigar material lingustico (por exemplo: programas que
calculam a frequncia de ocorrncias de palavras em (a) dicionrios, thesaurus e enciclopdias eletrni-
textos) at a meta de criar supercomputadores, dotados cas; essas obras lexicogrficas so geralmente
de uma inteligncia artificial (Jurafsky e Martin, 2000; compiladas por lexicgrafos e concebidas para
Dias-da-Silva, 2006). O segundo aspecto heterogneo uso humano, sendo armazenadas e comercia-
est ligado ao fato de que, para concretizar a pluralidade lizadas em CD-ROM. A microestrutura dessas
de objetivos, os pesquisadores necessitam percorrer as obras , na essncia, a dos dicionrios impres-
vrias disciplinas matrizes, o que caracteriza esse domnio sos. O fato de serem armazenados em formato
como multidisciplinar. digital contribui para potencializar toda uma
O objetivo abrangente e principalmente o carter rede de relaes morfolgicas, sintagmticas,
multidisciplinar do PLN dificultam delimitar o seu lugar semnticas e paradigmticas entre diferentes
dentre as vrias disciplinas correlatas. Para as Cincias da unidades lexicais e possibilitar, consequen-
Computao, por exemplo, o PLN visto como uma sub- temente, o acesso imediato informao por
rea da Inteligncia Artificial (doravante, IA)4. Isso se deve outras vias que no apenas a entrada nico
ao fato de as primeiras indagaes sobre o processamento meio para a sua localizao nos dicionrios
automtico das lnguas naturais terem sido motivadas impressos (Beliaeva et al., 1990);
por uma das preocupaes da IA, a saber: a interao (b) sistemas de recuperao de informao
homem-mquina via lngua dos homens. Muitas vezes, (do ingls, automatic information retrieval
PLN tambm usado como sinnimo de Lingustica systems), que buscam ou encontram textos
Computacional (doravante, LC). Alis, LC comumente (ou parte de textos) relevantes a uma dada
nomeia grandes conferncias e revistas internacionais que consulta (do ingls, query) em uma cole-
abrangem os estudos de PLN5. Entretanto, a LC, segundo o de textos ou documentos (Tzoukerman
Klavans (1989), Kay (1985) e outros, o domnio que et al., 2004); nesses sistemas, documentos
investiga questes bastante especficas do PLN, a saber: representam um tipo de informao, cuja
os algoritmos para as anlises morfolgica e gramatical. recuperao, em outras palavras, pode ser
Alguns autores, por sua vez, como Bolshakov e Gelbukh definida como a seleo de documentos, ca-
(2004), consideram o PLN uma rea mais lingustica racterizados por um conjunto de descritores
que computacional e, consequentemente, uma subrea (palavras-chave ou outros smbolos), como
da Lingustica Aplicada. J outros, como Nugues (2006), resposta a uma consulta;
veem-no como uma legtima interseo entre a Lingustica (c) sistemas de extrao de informao (do ingls,
e as Cincias da Computao. information extraction systems), que buscam
Alm da dificuldade de delimitar o lugar desse encontrar certa informao, ou seja, uma res-
campo dentre as disciplinas correlatas, muitos enfatizam posta, a dada pergunta de entrada em um ou
que o corpo de conhecimento do PLN controverso e mais documentos (Grishman, 2004);
fragmentado ou, em outras palavras, um conjunto de ex- (d) sistemas de traduo automtica (do ingls,
perincias acumuladas. Na verdade, o PLN no pertence automatic translation systems), que partem de
a esta ou quela rea do conhecimento, ele , como bem um texto-fonte, escrito em uma lngua natural
salienta Dias-da-Silva (2006), uma rea de investigao x, e produzem um texto-alvo, ou seja, uma
cientfica complexa e multifacetada por natureza, sobre- verso do texto-fonte em uma lngua y; alguns
pondo-se, por conseguinte, a parcelas das vrias reas desses sistemas so ditos completos, pois
correlatas e j consagradas. funcionam totalmente sem a interveno de

4
As disciplinas IA e LC so tidas como ramificaes das Cincias da Computao. A disciplina IA passou a ser reconhecida pela comunidade cientfica a
partir da chamada Dartmouth Summer Research Project on Artificial Intelligence em 1956. A LC, cuja denominao foi cunhada por David Hays em 1967,
tinha, em seus primeiros anos, o objetivo de investigar as linguagens de programao e as linguagens formais (Dias-da-Silva, 2006).
5
Autores como Klavans (1989), Bolshakov e Gelbukh (2004), Mitkov (2004) e vrios outros adotam a dominao Lingustica Computacional e no PLN.

O processamento automtico de lnguas naturais enquanto engenharia do conhecimento lingustico 185


Calidoscpio

humanos, outros, por sua vez, so ditos de (l) sistemas de auxlio escrita (do ingls,
auxlio traduo6 (Slocum, 1985; Nirenburg, computer-assisted writing system): auxiliam
1989; Hutchins, 2004; Somers, 2004); produo de texto, em que o usurio pode
(e) sistemas de sumarizao automtica (SA) (do encontrar recursos para construir textos bem
ingls, automatic sumarization systems): esses estruturados, de um gnero e/ou domnio es-
sistemas caracterizam-se por gerar extratos pecficos, entre outros.
(justaposio de pores do texto fonte) ou
resumos (texto gerado a partir de um plano A construo dessas tecnologias nem sempre o
de resumo) de um ou mais textos de acordo, foco das investigaes. Muitas vezes, busca-se pesquisar
por exemplo, com uma determinada taxa de questes relativas a processos, mtodos e recursos neces-
compresso (Hovy, 2004); srios construo dos sistemas de PLN.
(f) sistemas de correo ortogrfica (do ingls, Quanto aos processos, Mitkov (2004) salienta, por
spelling checker systems): processam um texto exemplo: a etiquetao morfossinttica (do ingls, part-
em uma dada lngua natural com os objetivos of-speech tagging), a segmentao textual (do ingls, text
de (i) identificar os erros cometidos quanto segmentation), anlise sinttica (do ingls, parsing), a
ortografia (palavras que no constam do lxico resoluo da anfora (do ingls, anaphora resolution), a
dessa lngua1 ou usadas em contexto imprprio) desambiguao de sentido lexical (do ingls, word-sense
e (ii) sugerir alternativas provveis e ortografi- desambiguation), entre outros. Por vezes, a investigao
camente corretas a cada erro identificado; desses processos resulta na construo de ferramentas (ou
(g) sistemas de correo gramatical (do ingls, instrumentos) de PLN. Por exemplo, a investigao das
grammar checker systems): detectam, embora questes relacionadas etiquetao morfossinttica pode
de modo rudimentar, desvios gramaticais em levar construo de um etiquetador morfossinttico7
um texto, como os de concordncia nominal ou (do ingls, part-of-speech tagger) e a investigao dos
verbal, pontuao, regncia nominal e outros; problemas relativos anlise sinttica automtica pode
(h) analisadores semnticos (do ingls, semantic gerar um analisador sinttico8 (do ingls, parser). Alm
parsers): extraem automaticamente parcelas do dessas ferramentas, h tambm as seguintes: lematiza-
conhecimento semntico subjacente a um texto; dor9 (do ingls, lemmatizer), radicalizador10 (do ingls,
(i) analisadores discursivos (do ingls, discourse stemmer), concordanceador (do ingls, concordancer),
parsers): extraem automaticamente parcelas entre outras. Algumas delas so componentes essenciais
do conhecimento discursivo (isto , do nvel da de vrios sistemas.
pragmtica e do discurso) subjacente a um texto; Quanto aos mtodos ou tcnicas, os pesquisadores
(j) sistemas de categorizao de textos (do ingls, tm investigado a viabilidade de diferentes abordagens
text categorization systems): classificam, mes- para a construo de sistemas de PLN. Atualmente,
mo que de modo parcial, textos de acordo com co-existem pesquisas realizadas segundo abordagens
algum critrio (por exemplo: domnio, gnero, lingusticas, no-lingusticas (ou estatsticos) e hbridas
estilo, retrica, autoria, etc.); (Martins, 2004). As abordagens lingusticas pautam-se na
(k) sistemas de dilogos (do ingls, dialog syste- especificao explcita e declarativa de propriedades e de
ms): englobam os sistemas de interpretao de regras ou padres regulares de comportamento lingustico.
dilogos e os sistemas que participam de um As abordagens no-lingusticas, por sua vez, pautam-se
dilogo, geralmente travado com o usurio na recuperao/identificao, induzida automaticamente,
(por exemplo: um sistema de reserva/compra de regularidades subjacentes aos dados lingusticos e, por
de passagens.); isso, necessitam de extensos corpora para que os padres

6
Subdividem-se os sistemas em sistemas de traduo automtica assistida por humanos (do ingls, human-aided machine translation - HAMT) e de traduo
humana assistida por computador (do ingls, machine-aided human translation - MAHT). Nos sistemas de HAMT, a interveno humana pode variar,
sendo maior na pr-edio, na ps-edio ou no decorrer de todo o processo de traduo. Os sistemas de MAHT podem disponibilizar recursos diferentes,
desde o acesso a dicionrios e enciclopdias em tempo real e recursos de processamento de textos, at a realizao da verificao ortogrfica e gramatical,
ou ainda parte da anlise textual.
7
Ferramenta computacional responsvel pela marcao de um texto com etiquetas morfossintticas. Esses etiquetadores podem ser construdos
manualmente, por linguistas, ou automaticamente, abstrados de corpus (Voutilainen, 2004).
8
Ferramenta que reconhece a estrutura sinttica de uma sentena, atribuindo funes sintticas aos constituintes reconhecidos (Carrol, 2004).
9
Ferramentas que reduzem cada palavra de um texto ao seu lema ou forma cannica, ou seja, formas no-marcadas, desprovidas de flexes (Sparck-
Jones e Willet, 1997). Na lematizao, os verbos so reduzidos ao infinito (por exemplo: casamos > casar) e os substantivos e adjetivos ao masculino
singular (por exemplo: latas > lata/feias > feio).
10
Ferramentas computacionais que reduzem as palavras de um texto ao seu radical (Sparck-Jones e Willet, 1997).

186 Ariani Di Felippo e Bento Carlos Dias-da-Silva


Vol. 07 N. 03  set/dez 2009

possam ser identificados. As estratgias hbridas, por (ii) proposio de sofisticados modelos computacionais
fim, renem as caractersticas das lingusticas e das no- capazes, por exemplo, de extrair informaes especficas
lingusticas (Dorr et al., 1999). de bases de textos (Vareli e Zampolli, 1997).
A construo de certas ferramentas e a aplicao
de determinados mtodos ou tcnicas, ambos importantes A motivao lingustica: compromisso e
para o subsequente desenvolvimento de sistemas de PLN, desafios no PLN
necessitam, quase sempre, dos chamados recursos lingus-
tico-computacionais, cujo planejamento (e construo) Segundo Dias-da-Silva (2006), que se baseia em
constitui tarefa nada trivial. Exemplos desses recursos so: Winograd (1972), um sistema de PLN pode ser visto como
um tipo especial de sistema especialista na medida
(a) corpora (textuais): colees de textos teis em que requer uma parcela especfica do conhecimento
para o levantamento de conhecimento lingus- humano o conhecimento lingustico para realizar
tico (lexical, sinttico, semntico, etc.). Esse tarefas especficas como correo ortogrfica, traduo
levantamento pode ser feito por linguistas, automtica, etc.
com a ajuda de programas de manipulao de No mbito da Inteligncia Artificial, um sistema
corpus, ou por meio da aplicao de mtodos especialista (do ingls, expert system) um sistema
estatsticos. A extrao do conhecimento exige computacional inteligente, que toma decises e resolve
que a quantidade de textos seja grande, variada problemas referentes a um determinado campo de atua-
e representativa e que os textos estejam em o, como finanas e medicina, utilizando conhecimento
formato adequado para que a extrao possa e regras analticas definidas por especialistas no assunto
ser automtica (Berber Sardinha, 2004); (Jackson, 1990; Hayes-Roth, 1990; Microsoft Press, 1998;
(b) lxicos: estoques de unidades lexicais descri- Giarratamo e Riley, 2004). Um sistema de diagnstico,
tas juntamente com seus traos morfolgicos, por exemplo, necessita saber quais as caractersticas das
sintticos, semnticos e/ou pragmtico-dis- doenas a serem diagnosticadas, pois, sem elas, impos-
cursivos e sistematicamente organizadas de svel elaborar um diagnstico automaticamente. Dentre os
acordo com algum critrio. Tanto as unidades sistemas especialistas descritos na literatura, destacam-se
quanto as propriedades a elas associadas podem o (i) Dendral, primeiro sistema especialista, criado para
ser representadas por formalismos altamente ajudar os qumicos a determinar a estrutura molecular, (ii)
estruturados (Handke, 1995); o Mycin, que diagnostica doenas sanguneas infecciosas,
(c) ontologias e/ou bases de conhecimento: inven- e o (iii) Dipmeter Advisor, que auxilia na anlise de dados
trios de conceitos, propriedades e relaes recolhidos durante a explorao de leo.
entre conceitos que representam uma inter- Projetar, ento, um sistema de PLN, ou seja, um
pretao da realidade, ou seja, o conhecimento sistema que simule parcelas da competncia e do desempe-
de mundo compartilhado pelos membros de nho lingustico humanos requer a especificao de vrios
uma comunidade lingustica. A representao conhecimentos e habilidades que os falantes (especialistas
de uma ontologia pode variar segundo o grau nesse domnio) possuem. Esse embasamento lingustico
de formalizao. Uma ontologia formal, em fica evidente nas palavras de Winograd:
especial, apresenta os conceitos e as relaes
(entre conceitos) explicitamente definidas, ou Assumimos que um computador no poder simular uma lngua
seja, legveis pela mquina (Gruber, 1995); natural satisfatoriamente se no compreender o assunto que
(d) gramticas: sistemas de regras expressos se- est em discusso. Logo, preciso fornecer ao programa um
modelo detalhado do domnio especfico do discurso. Alm
gundo sistemas formais, que (i) descrevem as
disso, o sistema possui um modelo simples de sua prpria men-
estruturas das sentenas de uma dada lngua e (ii) talidade. Ele pode se lembrar de seus planos e aes, discuti-
permitem, juntamente com o lxico, reconhecer los e execut-los. Ele participa de um dilogo, respondendo,
e gerar sentenas dessa lngua (Kaplan, 2004). com aes e frases, s frases digitadas em ingls pelo usurio;
solicita esclarecimentos quando seus programas heursticos
no conseguem compreender uma frase com a ajuda das infor-
Conclui-se ento que o PLN uma rea complexa maes sintticas, semnticas, contextuais e do conhecimento
e multifacetada e que, mesmo aparentemente catica, tem de mundo fsico representados dentro do sistema (Winograd,
se mostrado produtiva. Por fim, salienta-se que o PLN 1972, in Dias-da-Silva, et al., 2007, p. 11-12).
tambm possui um vis acadmico e no somente cient-
fico-tecnolgico. Dentre os objetivos dos pesquisadores, Mais precisamente, acredita-se que, para simular
esto (i) a investigao da adequao formal, pragmtica uma lngua natural de modo satisfatrio, um sistema de
e psicossocial de teorias lingusticas por meio da imple- PLN deve conter vrios sistemas de conhecimento e
mentao dos modelos de gramtica e de processamento realizar uma srie de atividades cognitivas, tais como
lingustico especificados por essas teorias e a prpria (Dias-da-Silva et al., 2007): (i) possuir um modelo sim-

O processamento automtico de lnguas naturais enquanto engenharia do conhecimento lingustico 187


Calidoscpio

ples de sua prpria mentalidade; (ii) possuir um modelo e compreendendo os fenmenos lingusticos
detalhado do domnio especfico do discurso; (iii) possuir necessrios para o desenvolvimento do sistema.
um modelo que represente informaes morfolgicas, Fase Representacional ou Lingustico-com-
sintticas, semnticas, (iv) contextuais e do conhecimento putacional: construo conceitual do sistema,
de mundo fsico; (v) compreender o assunto que est em envolvendo a seleo e/ou proposio de siste-
discusso; (vi) lembrar, discutir, executar seus planos mas formais de representao para os resultados
e aes; (vii) participar de um dilogo e responder, com propostos pela fase anterior.
aes e frases, s frases digitadas pelo usurio; (viii) soli- Fase Implementacional: codificao das repre-
citar esclarecimentos quando seus programas heursticos sentaes elaboradas durante a fase anterior em
no conseguirem; (ix) compreender uma frase. termos de linguagens de programao e planeja-
Dessa forma, um sistema de PLN concebido mento global do sistema.
como um tipo de sistema automtico de conhecimentos,
cujas especialidades, entre outras, incluem: fazer revises Para as pesquisas que adotam a concepo lin-
ortogrficas de textos, fazer anlises sintticas, traduzir guisticamente motivada de PLN, o computador no
frases ou textos, fazer perguntas e respostas e auxiliar os poder satisfatoriamente emular uma lngua natural se
pesquisadores na prpria construo de modelos lingus- no conseguir, em alguma medida, compreender o assunto
ticos. Assim, o estudo do PLN pode ser concebido como que est em discusso. Logo, preciso fornecer mqui-
um tipo de engenharia do conhecimento lingustico e na descries e formalizaes de dados lingusticos nas
se beneficiar da estratgia desenvolvida para esse campo. dimenses: morfolgica, sinttica, semntico-conceitual
Assim, de modo semelhante ao processo de cons- e pragmtico-discursiva (Roca, 2000). E a a Lingustica
truo de um sistema especialista, tambm denominado tem um papel imprescindvel, pois, apesar dos aspectos
sistema de conhecimento (do ingls, knowledge system), a problemticos comumente apontados pelos engenheiros
montagem de um sistema de PLN exige o desenvolvimento da linguagem, ela apresenta os parmetros norteadores es-
de, no mnimo, trs etapas: extrao do solo (explicitao senciais a respeito das caractersticas e funes das lnguas
dos conhecimentos e habilidades lingusticas), lapidao naturais a que os investigadores do PLN podem recorrer.
(representao formal desses conhecimentos e habilidades) Para o desenvolvimento de uma pesquisa linguisti-
e incrustao (o programa de computador que codifica camente motivada de PLN, acredita-se ser necessrio, como
essa representao). Assim, a explicitao do conhecimento defende Dias-da-Silva (1996, 1998, 2006), o trabalho cola-
e do uso lingusticos envolve questes do domnio lingus- borativo entre os cientistas e os engenheiros da linguagem.
tico, uma vez que nessa fase que os fatos da lngua e do Essa colaborao, entretanto, est longe de ser
seu uso so especificados. Conceitos, termos, regras, prin- a ideal. H, ainda, o distanciamento entre essas duas
cpios, estratgias de resoluo de problemas e formalismos comunidades, o que dificulta e/ou atrasa a descoberta de
lingusticos so os elementos trabalhados. No domnio da solues e o consequente avano no desenvolvimento dos
representao, focalizam-se questes referentes escolha recursos, ferramentas e, logo, dos sistemas (Dias-da-Silva,
ou proposio de sistemas de representao. No domnio 1996). Tal distanciamento tem sido justificado por razes
da implementao, alm das questes que envolvem a im- tcnicas fornecidas por ambos os lados. Os engenheiros
plementao das representaes por meio de programas, criticam, por exemplo, a pluralidade, a incompletude e
h questes que dizem respeito montagem do prprio a pouca formalizao das descries lingusticas, o lin-
sistema computacional em que o programa ser alojado. guajar tcnico muitas vezes hermtico e a preocupao
As trs etapas previstas para o desenvolvimento dos linguistas em estudar a linguagem humana per se.
de sistemas especialistas foram reinterpretadas por Dias- Os linguistas, por sua vez, enfatizam que os engenhei-
da-Silva (1996) e transformadas em uma metodologia ros tidos como indivduos com pouca intuio sobre
que vem sendo aplicada com sucesso no mbito do PLN, os fatos da lngua concentram-se no desenvolvimento
principalmente no que se refere ao processamento autom- de sistemas rudimentares e desprovidos de qualquer fun-
tico do portugus do Brasil. Tal metodologia consiste em damentao lingustica11. A falta de contato entre essas
trs fases sucessivas de desenvolvimento das atividades duas comunidades, alis, tambm regada por imagens
no PLN, a saber: estereotipadas e distorcidas que os pesquisadores de uma
rea tm do trabalho realizado na outra, principalmente
Fase Lingustica: construo do corpo de conhe- quando as reas de conhecimento so to distintas, como
cimentos sobre a prpria linguagem, dissecando Lingustica e Cincias da Computao.

11
Por exemplo, os dicionrios eletrnicos, em que o material lingustico apenas manipulado por meio de tcnicas de indexao, e os chamados tradutores
de bolso, que so limitados a manipular listas de palavras, expresses e fragmentos de frases por meio de comparaes e substituies com o objetivo de
montar/completar frases com as palavras e/ou expresses armazenadas (Dias-da-Silva, 2006).

188 Ariani Di Felippo e Bento Carlos Dias-da-Silva


Vol. 07 N. 03  set/dez 2009

Nos casos em que o distanciamento foi vencido, O PLN no Brasil: breves comentrios
a colaborao entre linguistas e cientistas da computao
mostrou-se no somente benfica para o PLN, mas tambm O PLN no Brasil, isto , o processamento com-
para a Lingustica e Cincia da Computao. A Lingustica, putacional do portugus do Brasil (PB), em especial,
por exemplo, tem se beneficiado, do ponto de vista prtico, ainda escasso em tecnologias em relao ao ingls. No
com vrios recursos que auxiliam na anlise de material entanto, houve significativa evoluo nos ltimos anos.
lingustico. Do ponto de vista terico, tem se beneficiado Como resultado dessa evoluo, a comunidade do PLN
tambm com a formulao de modelos descritivos mais com- no Brasil dispe hoje, por exemplo, de:
pletos (ou seja, modelos de anlise e descrio de cada um
dos estratos da gramtica e do inter-relacionamento entre os (a) sistemas de sumarizao (extrativa monodocu-
mdulos da competncia e do desempenho) e explcitos (ou mento) (Pardo et al., 2002; Rino et al., 2004;
seja, descritos em termos de linguagens formais). Isso acon- Leite et al., 2007);
tece porque, como evidenciou Winograd, pesquisar o PLN (b) sistema de ortogrfica e gramatical (Martins
pode ser tambm um modo de investigao acadmico que et al., 1998);
pode auxiliar na compreenso dos prprios fatos da lngua: (c) ambiente de auxlio escrita (cientfica) (Fel-
trim, 2004);
Todo mundo capaz de compreender uma lngua. A maior parte (d) recursos de base, como lxicos (Nunes et al.,
do tempo de nossas vidas preenchida por atos de fala, leitura ou 1996; Muniz, 2004), thesaurus (Dias-da-Silva
pensamentos, sem sequer notarmos a grande complexidade da
et al., 2000), corpora (Alusio et al., 2003), ba-
linguagem. Ainda no sabemos como ns sabemos tanto [] Os
modelos [de PLN] so necessariamente incompletos [] Mas, ses lexicais, umas j concludas (Greghi, 2002;
mesmo assim, constituem um referencial claro por meio do qual po- Zavaglia, 2002) e outras ainda em construo
demos refletir sobre o que que fazemos quando compreendemos (Di Felippo e Dias-da-Silva, 2007), e bases
uma lngua natural ou reagimos aos atos de fala nela codificados ontolgicas (Zavaglia, 2005);
(Winograd, 1972, in Dias-da-Silva, et al., 2007, p. 12).
(e) ferramentas, como segmentador sentencial (Par-
do, 2006), alinhador lexical (isto , ferramenta
Ou ainda, nas palavras de Hoey (in Berber Sardi- que alinha unidades lexicais de copora paralelos)
nha, 2005, p. 30): (Caseli et al., 2005); etiquetadores morfossintti-
cos (Aires, 2000), parsers (Bick, 2000; Martins et
O desenvolvimento do computador com memria poderosa
seria para a lingustica o que a desenvolvimento do micros- al., 1998) e analisador retrico (monodocumento)
cpio com lentes poderosas foi para a biologia uma oportu- (Pardo e Nunes, 2006), entre vrios outros.
nidade no somente de ampliar nosso conhecimento, mas de
transform-lo. Ainda como reflexo de tal evoluo, os interes-
sados pelo processamento computacional do portugus
Alguns exemplos paradigmticos da contribuio do (europeu e brasileiro) contam hoje com dois fruns de
PLN para os estudos lingusticos so: (i) implementao, divulgao cientfica. Um deles o International Confe-
teste e avaliao de gramticas propostas pela Lingustica rence on Computational Processing of Portuguese (PRO-
Terica (Grishman, 1986), como a gramtica funcional de POR)12, cuja primeira edio ocorreu em 1993 e cuja
Dik (1997) (Siewierska, 1991; Atkins e Zampolli, 1994) prxima ocorre neste ano (2008), em Aveiro, Portugal.
e parcela da gramtica funcional de Halliday (Halliday e O outro frum, de abrangncia nacional, o Workshop in
Matthiessen, 2004; Butler, 1985); (ii) desenvolvimento de Information and Human Language Technology (TIL)13,
modelos gramaticais, como a HPSG (Pollard e Sag, 1994); que fora concebido em 2003 e que atualmente est em
(ii) proposio de modelos diversos, por exemplo: modelos sua 5 edio.
computacionais dos atos de fala, modelos computacionais Mesmo com essa evoluo, ainda h muito que
da teoria da referncia (Dias-da-Silva, 2006). avanar no que concerne lngua portuguesa. Isso se deve
Vale ressaltar que, por aspectos econmicos, as tecno- principalmente ao fato de muitos dos chamados recursos
logias em PLN so, na maioria das vezes, desenvolvidas para a lingustico-computacionais ainda serem precrios ou estarem
lngua inglesa, sendo que tais tecnologias no so diretamente em fase de desenvolvimento. Tais recursos, de construo
transportveis para outras lnguas. Dessa forma, o processa- cara, necessitam de investimento bsico, pois so essenciais
mento de uma lngua natural requer o desenvolvimento de para o desenvolvimento de sistemas, sua avaliao e aperfei-
recursos e ferramentas de base que deem suporte para o de- oamento. Como assinala Lima et al. (2007), h ainda uma
senvolvimento de sistemas voltados para a lngua em questo. distncia muito grande entre os recursos disponveis para o

12
Disponvel em http://www.propor2008.org/.
13
Disponvel em http://www.nilc.icmc.usp.br/til/til2008/index.htm.

O processamento automtico de lnguas naturais enquanto engenharia do conhecimento lingustico 189


Calidoscpio

portugus14 e o que hoje existe disponvel para o trabalho, BIDERMAN, M.T.C. 1978. Teoria lingustica (lingustica quantitativa
estudo e desenvolvimento de tecnologia para a lngua inglesa, e computacional). Rio de Janeiro/So Paulo, LTC, 356 p.
BOLSHAKOV, I.; GELBUKH, A. 2004. Computational Linguistics:
por exemplo. Alguns dos principais recursos para o proces- models, resources and applications. Mxico City, Centro de In-
samento automtico do PB podem ser encontrados no site vestigacin en Computacin/Instituto Politcnico Nacional, 186 p.
do Ncleo Interinstitucional de Lingustica Computacional BUTLER, C.S. 1985. Systemic linguistics: theory and applications.
(NILC)15, cuja iniciativa tem gerado vrios frutos nacional Londres, Batsford Academic and Educational, 259 p.
CARROL, J. 2004. Parsing. In: R. MITKOV (ed.), The Oxford hand-
e internacionalmente reconhecidos. book of Computational Linguistics. Oxford, Oxford University
Diante, por exemplo, da expanso de novas tec- Express, p. 233-248.
nologias e do crescente processo de globalizao das CASELI, H.M.; NUNES, M.G.V.; FORCADA, M.L. 2005. LIHLA:
A lexical aligner based on language-independent heuristics. In:
comunicaes, investir no processamento do portugus
ENCONTRO NACIONAL DE INTELIGNCIA ARTIFICIAL
uma forma de garantir que essa lngua seja utilizada para (ENIA), 5, So Leopoldo, 2005. Anais... So Leopoldo, 2005,
comunicar, ensinar e ter acesso ao conhecimento, permi- p. 641-650.
tindo que os cidados possam acessar os computadores DIAS-DA-SILVA, B.C. 1996. A face tecnolgica dos estudos da lingua-
gem: o processamento automtico das lnguas naturais. Araraqua-
sem renegar sua lngua e cultura (Santos, 1999).
ra, SP. Tese de Doutorado. Universidade Estadual Paulista, 272 p.
DIAS-DA-SILVA, B.C. 1998. Bridging the gap between linguistic
Consideraes finais theory and natural language processing. In: INTERNATIONAL
CONGRESS OF LINGUISTICS, 16, 1997, Paris. Anais... Oxford,
O PLN, entendido como uma espcie de engenha- Elsevier Sciences, 1998, 16:1-10.
ria do conhecimento lingustico, um campo de pesquisa DIAS-DA-SILVA, B.C. 2006. O estudo lingustico-computacional da
privilegiado e frtil. Isso reflexo do fato de que a delimita- linguagem. Letras de Hoje, 41(2):103-138.
DIAS-DA-SILVA, B.C.; MONTILHA, G.; RINO, L.H.M.; SPECIA,
o do conhecimento necessrio para a construo de siste-
L.; NUNES, M.G.V.; OLIVEIRA Jr., O.N.; MARTINS, R.T.;
mas de PLN exige a organizao e a representao de uma PARDO, T.A.S. 2007. Introduo ao Processamento das Lnguas
variedade de dados complexos necessrios simulao da Naturais e algumas aplicaes. Srie de Relatrios Tcnicos do
competncia e do desempenho lingusticos (Dias-da-Silva, NILC, NILC-TR-07-10. So Carlos, ICMC, 121p.
DIAS-DA-SILVA, B.C.; OLIVEIRA, M.F.; MORAES, H.R.; HASE-
2006). Devido a essa exigncia, tanto usurios leigos, por GAWA, R.; AMORIM, D.; PASCHOALINO, C.; NASCIMEN-
meio da construo de vrias aplicaes, quanto os prprios TO, A.C. 2000. A construo de um thesaurus eletrnico para o
linguistas e cientistas da computao tm se beneficiado portugus do Brasil. In: INTERNATIONAL WORKSHOP ON
COMPUTATIONAL PROCESSING OF THE PORTUGUESE
com as investigaes no campo do PLN. LANGUAGE PROPOR, 5, Atibaia, 2000. Anais... Atibaia,
Dessa forma, encerra-se este artigo com o mote 2000, p. 1-10.
cooperar preciso, enfatizado a relevncia do trabalho DI FELIPPO, A.; DIAS-DA-SILVA, B.C. 2007. Towards an automatic strate-
colaborativo entre os cientistas da linguagem ou linguistas gy for acquiring the WordNet.Br hierarchical relations. In: WORKSHOP
IN INFORMATION AND HUMAN LANGUAGE TECHNOLOGY,
e os engenheiros da linguagem. 5, Rio de Janeiro, 2007. Anais... Rio de Janeiro, 2007, p. 1717-1720.
DIK, S.C. 1997. The theory of functional grammar. Berlin/New York,
Referncias Mouton de Gruyter, 1026 p.
DORR, B.J.; JORDAN, P.W.; BENOIT, J.W. 1999. A survey of current
research in machine translation. Advances in Computers, 49:1-68.
AIRES, R.V.X. 2000. Implementao, adaptao, combinao e ava-
FELTRIM, V.D. 2004. Uma abordagem baseada em corpus e em siste-
liao de etiquetadores para o portugus do Brasil. So Carlos,
mas de crtica para a construo de ambientes Web de auxilio
SP. Dissertao de Mestrado. Universidade de So Paulo, 154 p. escrita acadmica em portugus. So Carlos, SP. Tese de Douto-
ALUSIO, S.M.; PINHEIRO, G.M.; FINGER, M.G.V.; TAGNIN, S.E. rado. Universidade de So Paulo, 169 p.
2003. The Lacio-Web Project: overview and issues in Brazilian GIARRATANO, J.C.; RILEY, G.D. 2004. Expert systems: Principles
Portuguese corpora creation. In: CORPUS LINGUISTICS CON- and programming. Boston, Course Techonology, 842 p.
FERENCE, Lancaster, 2003. Proceedings UK, 2003, p. 14-21. GREGHI, J.G. 2002. Projeto e desenvolvimento de uma base de dados
ATKINS, S.; ZAMPOLLI, A. 1994. Computational approaches to the lexicais do portugus. So Carlos, SP. Dissertao de Mestrado.
lexicon. Oxford, Oxford University Press, 496 p. Universidade de So Paulo, 67 p.
BELIAEVA, L.N.; PIOTROWSKI, R.G.; SOKOLOVA, S.V. 1990. GRISHMAN, R. 1986. Computational linguistics. Cambridge, Cam-
Principles of linguistic automata and their information bases design. bridge University Press, 200 p.
Terminology and Knowledge Engineering, 2:419-425. GRISHMAN, R. 2004. Information extraction. In: R. MITKOV (ed.),
BERBER SARDINHA, A.P. 2004. Lingustica de corpus. Barueri, The Oxford handbook of computational linguistics. Oxford, Oxford
Editora Manole, 410 p. University Press, p. 545-559.
BERBER SARDINHA, A.P. (org.). 2005. A lngua portuguesa no com- GRUBER, T. 1995. Toward principles for the design of ontologies used
putador. Campinas/So Paulo, Mercado de Letras/FAPESP, 296 p. for knowledge sharing. International Journal Human-Computer
BICK, E. 2000. The parsing system PALAVRAS: automatic grammatical Studies, 43(5-6):907-928.
analysis of portuguese in a constraint grammar framework. Aarhus, HALLIDAY, M.A.K.; MATTHIESSEN, C.M.I.M. 2004. An introduction
Denmark. Aarhus University Press, 412 p. to functional grammar. London, Edward Arnold, 700 p.

14
O site da Linguateca (de iniciativa portuguesa) (http://www.linguateca.pt/) rene a maior parte do que h disponvel hoje, em termos de ferramentas e
corpora da lngua portuguesa.
15
Disponvel em http://www.nilc.icmc.usp.br.

190 Ariani Di Felippo e Bento Carlos Dias-da-Silva


Vol. 07 N. 03  set/dez 2009

HANDKE, J. 1995. The structure of the lexicon: human vs machine. PARDO, T.A.S.; NUNES, M.G.V. 2006. Review and evaluation of DiZer
Berlin, Mouton de Gruyter, 388 p. - an automatic discourse analyzer for Brazilian Portuguese. In: INTER-
HAYES-ROTH, F. 1990. Expert systems. In: E. SHAPIRO (ed.), En- NATIONAL WORKSHOP ON COMPUTATIONAL PROCESSING
cyclopedia of artificial intelligence. New York, Wiley, p. 287-298. OF WRITTEN AND SPOKEN PORTUGUESE PROPOR, 7, 2006,
HOVY, E. 2004. Text summarization. In: R. MITKOV (ed.), The Oxford Itatiaia. Proceedings Rio de Janeiro, 2006, p. 180-189.
handbook of computational linguistics. Oxford, Oxford University POLLARD, C.; SAG, I. 1994. Head-driven phrase structure grammar.
Press, p. 583-598. Chicago, University of Chicago Press, 454 p.
HUTCHINS, W.J. 2004. Information extraction. In: R. MITKOV (ed.), RINO, L.H.M.; PARDO, T.A.S.; SILLA Jr., C.N.; KAESTNER, C.A.A.;
The Oxford handbook of Computational Linguistics. Oxford, Ox- POMBO, M. 2004. A comparison of automatic summarization
ford University Press, p. 545-559. systems for Brazilian Portuguese texts. In: BRAZILIAN SYM-
JACKSON, P. 1990. Introduction to expert systems. Wokingham, POSIUM ON ARTIFICIAL INTELLIGENCE SBIA. 17, So
Addison-Wesley, 560 p. Lus, 2004. Anais... So Lus, 2004, p. 235-244.
JURAFSKY, D.; MARTIN, J.H. 2000. Speech and language processing: ROCA, S.C. 2000. Individuacin e informacin parte-todo. Representa-
an introduction to natural language processing, computational cin para el procesamiento computacional del lenguaje. Estudios
linguistics and speech recognition. Upper Saddle River, Prentice de Lingustica Espaola, 8. Disponvel em: http://elies.rediris.es/
Hall, 934 p. elies8/. Acesso em: 10/06/2005.
KAPLAN, R.M. 2004. Syntax. In: R. MITKOV (ed.), The Oxford SANTOS, D. 1999. Livro branco do desenvolvimento cientfico e tecno-
handbook of Computational Linguistics. Oxford, Oxford University lgico do portugus. Observatrio das Cincias e das Tecnologias,
Press, p. 70-90. Ministrio da Cincia e da Tecnologia. Disponvel em: http://www.
KAY, M. 1985. Parsing in functional unification grammar. In: D.R. mct.pt/Livro-BrancoCT/. Acesso em: 01/01/2006.
DOWTY; A. ZWICKY; L. KARTTUNEN (eds.), Natural language SIEWIERSKA, A. 1991. Functional grammar. London/New York,
parsing. Cambridge, CUP, p. 251-278. Routledge, 304 p.
KLAVANS, J. 1989. Computational linguistics. In: W. OGRADY; M. SLOCUM, J. 1985. A Survey of machine translation: its history, current
DOBROVOLSKY; M. ARONOFF (eds.), Contemporary linguis- status, and future prospects. In: J. SLOCUM (org.), Machine trans-
tics. New York, St. Martins Press, p. 413-447. lation systems. Cambridge, Cambridge University Press, p. 1-41.
LEITE, D.S.; RINO, L.H.M.; PARDO, T.A.S.; NUNES, M.G.V. 2007. SOMERS, H. 2004. Machine translation: latest developments. In: R.
Extractive automatic summarization: does more linguistic know- MITKOV (ed.), The Oxford handbook of computational linguistics.
ledge make a difference? In: WORKSHOP ON TEXTGRAPHS-2 Oxford, Oxford University Press, p. 512-528.
GRAPH-BASED ALGORITHMS FOR NATURAL LANGUAGE SPARCK-JONES, K.; WILLET, P. 1997. Readings in information
PROCESSING, Rochester, 2007. Anais... Rochester, 2007, p. 17-24. retrieval. So Francisco, Morgan Kaufmann, 587 p.
LIMA, V.L.S.; NUNES, M.G.V.; VIEIRA, R. 2007. Desafios do Proces- TZOUKERMAN, E.; KLAVANS, J.L.; STRZALKOWSKI, T. 2004. Infor-
samento de Lnguas Naturais. In: SOFTWARE AND HARDWARE maton retrieval. In: R. MITKOV (ed.), The Oxford handbook of com-
SEMINAR SEMISH, 34, Rio de Janeiro, 2007. Anais... Rio de putational linguistics. Oxford, Oxford University Press, p. 529-544.
Janeiro, 2007, SBC, p. 2202-2216. VARELI, G.B.; ZAMPOLLI, A. 1997. Survey of the state of the art in
MARTINS, R.T. 2004. A nova lngua do imperador. Campinas, SP. human language technology. Cambridge, CUP, 533 p.
Tese de Doutorado. Universidade Estadual de Campinas, 296 p. VOUTILAINEN, A. 2004. Part-of-speech tagging. In: R. MITKOV
MARTINS, R.T.; HASEGAWA, R.; NUNES, M.G.V.; MONTILHA, G.; (ed.), The Oxford handbook of computational linguistics. Oxford,
OLIVEIRA Jr., O.N. 1998. Linguistic issues in the development Oxford University Express, p. 219-232.
of ReGra: a grammarcChecker for Brazilian Portuguese. Natural WINOGRAD, T. 1972. Understanding natural language. New York,
Language Engineering, 4:287-307. Academic Press, 654 p.
MICROSOFT PRESS. 1998. Microsoft press dicionrio de informtica. ZAVAGLIA, C. 2002. Anlise da homonmia no portugus: tratamento
Rio de Janeiro, Editora Campus, 805 p. semntico com vistas a procedimentos computacionais. Araraquara,
MITKOV, R. (ed.). 2004. The Oxford handbook of Computational Lin- SP. Tese de Doutorado. Universidade Estadual Paulista, vol. I, 199
guistics. Oxford, Oxford University Express, 806 p. p., vol. II, 360 p.
MUNIZ, M.C.M. 2004. A construo de recursos lingustico-computacio- ZAVAGLIA, C. 2005. Produo de ontologias especficas: a modelagem
nais para o portugus do Brasil: o projeto de Unitex-PB. So Carlos, da Onto-Eco. Estudos Lingusticos, 28:1182-1187.
SP. Dissertao de Mestrado. Universidade de So Paulo, 72 p.
NIRENBURG, S. 1989. Knowledge and choices in machine translation. In: Submisso: 04/08/2009
S. NIRENBURG (org.), Machine translation theoretical and meth- Aceite: 22/10/2009
odological issues. Cambridge, Cambridge University Press, p. 1-15.
NUGUES, P.M. 2006. An introduction to language processing with perl
and prolog: an outline of theories, implementation, and application
with special consideration of English, French, and German. New
Ariani Di Felippo
York, Springer-Verlag, 514 p. Universidade Federal de So Carlos UFSCar
NUNES, M.G.V. 2008. Processamento de lnguas naturais: para qu e Departamento de Letras
para quem. Notas Didticas ICMC-USP, 73.
Rodovia Washington Luis, Km. 235,
NUNES, M.G.V. ; VIEIRA, F.M.C.; ZAVAGLIA, C.; SOSSOLOTE,
C.R.C.; HERNANDEZ, J. 1996. A construo de um lxico da Bairro Monjolinho, Caixa Postal 676
lngua portuguesa do Brasil para suporte correo automtica 13565-905, So Carlos, SP, Brasil
de textos. Relatrio Tcnico ICMC-USP, 42.
PARDO, T.A.S. 2006. SENTER: um segmentador sentencial automtico
para o portugus do Brasil. Relatrio tcnico NILC-TR-06-01. Bento Carlos Dias-da-Silva
So Carlos, 6 p. Universidade Estadual Paulista UNESP/Ar.
PARDO, T.A.S.; RINO, L.H.M.; NUNES, M.G.V. 2002. GistSumm: Faculdade de Cincias e Letras FCL
A Summarization Tool Based on a New Extractive Method. In:
Rodovia Araraquara-Ja, Km 1
INTERNATIONAL WORKSHOP ON THE COMPUTATIONAL
PROCESSING OF PORTUGUESE - PorTal, 3, Faro, 2002. Anais Bairro dos Machados, Caixa Postal 174
Faro, 2002, p. 210-218. 14800-901, Araraquara, SP, Brasil

O processamento automtico de lnguas naturais enquanto engenharia do conhecimento lingustico 191