Artigo Sobre Linguística de Corpus

Calidoscpio
Vol. 4, n. 3 , p. 156-178, set/dez 2006

2006 by Unisinos
Sandra Maria Alusio

sandra@icmc.usp.br
Gladis Maria de Barcellos Almeida

gladis_maria@uol.com.br
O que e como se constri um corpus?

Lies aprendidas na compilao de
vrios corpora para pesquisa lingstica
What is a corpus and how to build it? Lessons learned from
developing several linguistic corpora
RESUMO - As pesquisas baseadas em corpus tm tido na ltima dcada

um amplo desenvolvimento no contexto brasileiro. Nota-se a sua
relevncia e pertinncia nos domnios da Lingstica, da Lingstica
Aplicada e da Lingstica Computacional. Em vista disso, uma
abordagem surge para sistematizar procedimentos e dar conta desse
novo modo de fazer pesquisa. Essa abordagem a Lingstica de Corpus
que, auxiliada pelo desenvolvimento de ferramentas computacionais
especficas para o tratamento do portugus brasileiro, pode alcanar
um grande desenvolvimento no Brasil. Entretanto, muito do que j se
obteve de desenvolvimento em Lingstica de Corpus no cenrio
internacional no se reflete em muitas das pesquisas realizadas no
Brasil, uma vez que as prticas mundialmente aceitas ainda no esto
aqui sedimentadas, a despeito de haver no pas eminentes pesquisadores
que desenvolvem extraordinrios projetos baseados em corpus. Assim,
este artigo tem o propsito de discorrer sobre a concepo de corpus,
os requisitos e procedimentos para a sua elaborao, os corpora e
ferramentas existentes e disponveis e, finalmente, apresentar quatro
projetos envolvendo corpus cuja descrio e detalhamento pode auxiliar
outros pesquisadores nessa tarefa.
ABSTRACT - The research based on corpus has had in the last

decade an ample development in the Brazilian context. Its relevancy
is noticed in the Linguistics, Applied Linguistics and Computational
Linguistics research areas. The approach of Corpus Linguistics
comes out to systematize procedures and to give account of this
new way to make research. The development of Brazilian Portuguese
natural language processing tools can help Corpus Linguistics to
reach a great development in Brazil. However, the advances in
Corpus Linguistics in the international scenery have not happened
yet in many of the research carried out in Brazil. The reasons for
this is that the procedures and concepts world-wide accepted are
not still settled here, in spite of having researchers developing
extraordinary projects based on corpus in Brazil. Thus, this article
has the intention to discuss several definitions of corpus, the
requirements and procedures for its elaboration, the available
corpora and tools and, finally, to present four projects involving
corpus whose description and detailing can assist other researchers
in the corpus building and processing.
Palavras-chave: corpus; lingstica de corpus; processamento de corpus.
Key-words: corpus; corpus linguistics; corpus processing.
A corpus is a remarkable thing, not so much because it is a collection of

language text, but because of the properties that it acquires if it is welldesigned and carefully-constructed.
(Sinclair, 2005)
Concepo de corpus para a Lingstica

e para a Lingstica de Corpus
A utilizao de corpus sempre foi um recurso empregado em pesquisas lingsticas. A ttulo de ilustrao,
podemos citar a utilizao de corpora em dicionrios ela-
ART04_Aluisio-Almeida.pmd
156
borados durante os sculos XVIII e XIX, como o caso

do Vocabulrio Portuguez e Latino, elaborado pelo Padre Rafael Bluteau e publicado entre 1712-1728, embora
tenha sido concebido e realizado ainda no sculo XVII
(Murakawa, 2006). O Vocabulrio de Bluteau, em oito volumes, foi o primeiro dicionrio para o qual foi fixado um
18/1/2007, 22:54
Vol. 04 N. 03
corpus (Murakawa, 2001). Esse corpus contendo cerca de

406 obras, aproximadamente, com autores dos sculos XV
a XVII, foi utilizado como exemplrio de uso lingstico
para as palavras que constavam da nomenclatura do dicionrio (Murakawa, 2001; 2006). Outro exemplo j no sculo XIX o Diccionario da Lingua Portugueza, de Atnio
de Morais Silva, segunda edio publicada em 1813, o
qual tambm se valeu de um corpus (Murakawa, 2006). O
que mudou, portanto, a concepo de corpus. Essa mudana de concepo deve-se Lingstica de Corpus,
tida por Berber Sardinha (2004) como uma:
abordagem que se ocupa da coleta e da explorao de
corpora, ou conjuntos de dados lingsticos textuais que
foram coletados criteriosamente, com o propsito de servirem para a pesquisa de uma lngua ou variedade lingstica. Como tal, dedica-se explorao da linguagem atravs
de evidncias empricas, extradas por computador (Berber
Sardinha, 2004).
Importa, contudo, definir corpus. H, pelo menos,

duas grandes perspectivas a partir das quais se pode definir corpus, uma da Lingstica, outra da Lingstica de
Corpus.
Apresentaremos, a seguir, quatro definies de
corpus na perspectiva da Lingstica, retiradas de dicionrios de Lingstica ou de Linguagem. Para Galisson e
Coste (1983), corpus :
um conjunto finito de enunciados tomados como objeto de
anlise. Mais precisamente, conjunto finito de enunciados
considerados caractersticos do tipo de lngua a estudar,
reunidos para servirem de base descrio e, eventualmente, elaborao de um modelo explicativo dessa lngua.
Trata-se, pois, de uma coleco de documentos quer orais
(gravados ou transcritos) quer escritos, quer orais e escritos, de acordo com o tipo de investigao pretendido. As
dimenses do corpus variam segundo os objectivos do investigador e o volume dos enunciados considerados como
caractersticos do fenmeno a estudar. Um corpus chamado exaustivo quando compreende todos os enunciados
caractersticos. E chamado selectivo quando compreende apenas uma parte desses enunciados.
Para Dubois et al. (1993), corpus considerado o

conjunto de enunciados a partir do qual se estabelece a
gramtica descritiva de uma lngua. Os autores ainda
complementam:
[o] corpus no pode ser considerado como constituindo a
lngua, mas somente como uma amostra da lngua. (...) O
corpus deve ser representativo, isto , deve ilustrar toda a
gama das caractersticas estruturais. Poder-se-ia pensar que
as dificuldades sero levantadas se um corpus for exaustivo
(...). Na realidade, sendo indefinido o nmero de enunciados possveis, no h exaustividade verdadeira e, alm disso, grandes quantidades de dados inteis s podem complicar a pesquisa, tornando-a pesada.O lingista deve, pois,
set/dez 2006
procurar obter um corpus realmente significativo. Enfim,

o lingista deve desconfiar de tudo o que pode tornar o seu
corpus no-representativo (mtodo de pesquisa escolhido,
anomalia que constitui a intruso de lingista, preconceito
sobre a lngua).
Na concepo de Ducrot e Todorov (2001), corpus

um conjunto, to variado quanto possvel, de enunciados efetivamente emitidos por usurios da referida lngua
em determinada poca. Para Trask (2004), corpus um
conjunto de textos escritos ou falados numa lngua, disponvel para anlise.
Segundo Sinclair, o maior lingista de corpus da
histria e responsvel pelo trabalho pioneiro na rea de
lxico com o dicionrio COBUILD, o primeiro a ser compilado a partir de um corpus computadorizado, prope a
seguinte definio para corpus na perspectiva da Lingstica de Corpus:
A corpus is a collection of pieces of language text in
electronic form, selected according to external criteria to
represent, as far as possible, a language or language variety
as a source of data for linguistic research (Sinclair, 20054)
[grifo nosso].
Ao observar essas definies, podemos perceber

que uma das diferenas entre a concepo da Lingstica
de Corpus e da Lingstica o formato do corpus, ou seja,
os dados devem estar em formato eletrnico. O que significa dizer que uma grande quantidade de livros, ou de
revistas, ou mesmo de textos impressos no considerada corpus pela Lingstica de Corpus, j que os dados
lingsticos no esto num formato que possam ser processados por computador.
Para outros dois eminentes lingistas de corpus, o
emprego do termo corpus implica em conotaes bastante especficas. Segundo McEnery e Wilson (1996), a moderna noo de corpus carrega consigo pelo menos quatro caractersticas fundamentais:
a) amostragem e representatividade (sampling
and representativeness): um corpus deve ter
uma amostragem suficiente da lngua ou variedade de lngua que se quer analisar para obterse o mximo de representatividade desta mesma lngua ou variedade de lngua;
b) tamanho finito (finite size): com exceo de
corpus-monitor1, todo corpus tem um tamanho finito, por exemplo: 500 mil palavras, 1 milho de palavras, 10 milhes de palavras, etc;
c) formato eletrnico (machine-readable form):
segundo McEnery e Wilson (1996), atualmente o emprego do termo corpus significa admitir
necessariamente que os textos estejam no formato eletrnico, diferentemente da idia que
Corpus-monitor aquele que pode receber novos textos e tornar-se cada vez maior. um corpus til para Lexicografia, por exemplo, j
que necessrio observar palavras novas na lngua ou palavras j conhecidas mas com emprego diferente.
O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica
157
18/1/2007, 22:54
157
Calidoscpio
se tinha de corpus no passado, a qual se referia somente a textos impressos. Ainda de acordo com McEnery e Wilson (1996), o formato
possui vantagens considerveis: i) os corpora
podem ser pesquisados e manipulados de forma mais rpida; ii) os corpora podem ser mais
facilmente enriquecidos com informao extra;
d) referncia padro (standard reference): ainda de acordo com McEnery e Wilson (1996),
existe um entendimento tcito de que um
corpus constitui uma referncia padro para a
variedade de lngua que ele representa, pressupondo que o corpus esteja disponvel para
outros pesquisadores, em outras palavras, o
que se tem chamado de reuso do corpus.
Dentre essas quatro caractersticas apontadas pelos autores, a ltima digna de nota, j que uma outra
diferena marcante entre a concepo de corpus para a
Lingstica e para a Lingstica de Corpus. Entende-se
que disponibilizao de corpus compilado para futuras
pesquisas uma caracterstica inerente ao corpus, de forma que todo o esforo empreendido para a sua construo no seja til apenas para uma pesquisa, uma vez que
se tem uma referncia padro de lngua ou de variedade de
lngua que pode ser utilizada por outros pesquisadores.
Percebe-se, pois, que os dois grandes pontos que
diferem entre a Lingstica e a Lingstica de Corpus so:
o formato computadorizado do corpus e a sua posterior
disponibilizao para outras pesquisas.
Se a Lingstica de Corpus descarta livros, revistas
e outros textos impressos considerados corpus pela Lingstica (pois no esto em formato computadorizado), ela
(a Lingstica de Corpus) tambm descarta a Web como
corpus, ainda que os textos estejam disponveis e em formato eletrnico, pelo fato de suas dimenses serem desconhecidas, de estar continuamente mudando e pelo fato de
no ter sido projetada a partir de uma perspectiva lingstica. Entretanto, a prpria Web que vai facilitar a distribuio e livre acesso de vrios corpora criados em vrios projetos, reforando uma das caractersticas de corpus citadas
por McEnery e Wilson (1996). Ainda com relao a Web,
vale assinalar que existem autores que a consideram um
corpus, o caso de Kilgarriff e Grefenstette (2003).
Com relao ao formato computadorizado, preciso admitir que o surgimento do computador (sobretudo
do computador pessoal) interferiu diretamente no s na
concepo que se tem de corpus como tambm na sua
forma de armazenamento e explorao, j que os recursos
oferecidos pelo computador permitiram que uma quantidade antes inimaginvel de textos pudesse ser processada na tela em questo de segundos, fazendo com que
muitas hipteses sobre determinados fenmenos
lingsticos pudessem ser testadas rpida e eficientemente. Essa nova forma de armazenamento de textos permitiu
Questes importantes para o projeto de um

corpus computadorizado
Para o projeto de um corpus computadorizado,
devem-se observar um conjunto de requisitos que
impactaro na validade e confiabilidade da pesquisa baseada no corpus, incluindo se o corpus de estudo serve
ao propsito inicial da pesquisa (Kennedy, 1998; Biber et
al., 1998; Renouf, 1998; Sinclair, 2005): autenticidade, representatividade, balanceamento, amostragem, diversidade
e tamanho, os quais sero descritos a seguir.
1) Os textos devem ser autnticos. Por autenticidade, compreende-se: a) os textos devem ter
sido escritos em linguagem natural, no podendo ser textos produzidos com o propsito de serem alvo de pesquisa lingstica
(Berber Sardinha, 2000); b) os textos devem
ser escritos por falantes nativos, exceto se se
tratar de corpora de aprendizes, aqueles
corpora cujos textos so provenientes de falantes que esto aprendendo uma lngua estrangeira (Berber Sardinha, 2000).
2) O corpus deve ter representatividade, isto ,
ser representativo da lngua ou de uma variedade de lngua que ser deseja pesquisar.
Idealmente, um corpus deve ser elaborado de
forma a representar determinadas caractersticas lingsticas da comunidade cuja lngua est
Sandra Maria Alusio e Gladis Maria de Barcellos Almeida
158
a observao e descrio de fenmenos lingsticos recorrentes antes impossvel de perceber, dado que os procedimentos de observao e descrio contavam apenas
com recursos manuais.
Sobretudo a partir da dcada de 1990, os corpora
passam a ter papel fundamental nas pesquisas lingsticas, pois data dessa poca o incio das contribuies
advindas da Computao e da Lingstica Computacional.
Destacam-se, principalmente, o aprimoramento e desenvolvimento de ferramentas computacionais voltadas para
o processamento de lngua natural (PLN) do portugus
do Brasil e o efeito que essas ferramentas tiveram para o
processamento de corpus.
De acordo com Trask (2004), a partir de corpora,
podem-se fazer observaes precisas sobre o real comportamento lingstico de falantes reais, proporcionando
informaes altamente confiveis e isentas de opinies e
de julgamentos prvios sobre os fatos de uma lngua.
Desta forma, por meio de corpus, podem-se observar aspectos morfolgicos, sintticos, semnticos,
discursivos, etc. bastante relevantes para uma pesquisa
lingstica. Podem-se ainda explicar a produtividade e o
emprego de palavras, expresses e formas gramaticais.
possvel descobrir fatos novos na lngua, no perceptveis pela intuio (Berber Sardinha, 2000). Em resumo, por
meio de corpus, descreve-se a lngua de forma objetiva.
158
18/1/2007, 22:54
Vol. 04 N. 03
sob anlise (Sinclair, 2005). Da a importncia de

se fazerem escolhas adequadas, de modo que o
corpus possa de fato espelhar comportamentos lingsticos. Questes que devem ser feitas
durante a seleo dos textos so: quais documentos? Quais tipos de textos? Quais gneros
textuais? Enfim, o que de fato representa os
usos lingsticos de uma comunidade?
3) Apesar de Sinclair (2005) afirmar que o conceito de balanceamento ainda mais vago que o
de representatividade, preciso ter em mente
que o corpus deve ser balanceado, ou seja,
deve ter um equilbrio de gneros discursivos
(informativo, cientfico, religioso, etc.), ou de
tipos de textos (artigo, editorial, entrevista, dissertao, carta, etc.), ou de ttulos, ou de autores, ou de todos esses itens juntos, desde que
as escolhas sejam adequadas pesquisa que
se pretende realizar, demonstrando que os textos foram escolhidos criteriosamente. Podemos dar como exemplo uma pesquisa que tem
por objeto a descrio do pronome de tratamento alocutivo (=voc). Uma pesquisa como
essa deve, necessariamente, selecionar para o
corpus o gnero epistolar (composto de cartas), j que nesse gnero discursivo que pode
haver ocorrncia significativa do pronome
voc. O mesmo no ocorreria se o gnero escolhido fosse o jornalstico, por exemplo.
4) Biber et al. (1998) advoga que uma amostragem
proporcional no adequada para corpus de lngua, pois esta deveria ser organizada
demograficamente. Entretanto, tal tipo de corpus
no representaria os tipos de gneros e de textos, pois um corpus com tal amostragem poderia
conter 90% de conversao, 3% de cartas e notas e 7% divididos entre tipos de textos tais como
reportagens e notcias, revistas, artigos acadmicos, literatura, aulas, e escrita no publicada,
pois so poucas as pessoas que publicam ou
mesmo falam para uma grande audincia. Para o
estudo da lngua importa um corpus com amostras que sejam representativas por inclurem toda
a variao lingstica que existe.
5) Com relao diversidade, Biber et al. (1998)
enfatiza que no existe o que chamamos de lngua geral, dado que cada gnero e tipo de texto tm seus prprios padres de uso. Desta
forma, se um corpus se presta para estudos de
variao ou procura representar uma lngua, ele
deve se preocupar com a diversidade de gne-
set/dez 2006
ros e tipos de textos, com a variao de dialetos

e, por ltimo, com uma diversidade de tpicos
que de fundamental importncia para estudos
lexicogrficos, pois a freqncia de muitas palavras varia de acordo com a variao de tpicos. Este ltimo tipo de diversidade deve ser
considerado para todos os tipos de estudos.
6) Segundo Sinclair (2005), o corpus deve ter o
tamanho adequado ao tipo de pesquisa que
se vai realizar e metodologia a ser adotada na
pesquisa. Quando se fala em tamanho de um
corpus, no se trata somente do nmero total
de palavras (tokens) e de palavras diferentes
(types), mas com quantas categorias (gneros
discursivos, tipos de textos, datas, autores,
etc.) um corpus deve contar, quantas amostras de cada categoria e quantas palavras existem dentre de cada amostra (Kennedy, 1998).
Para estudos da prosdia, por exemplo, um
corpus de 100 mil palavras ser o suficiente
para generalizaes com propsitos descritivos; para estudos de muitos processos sintticos, um corpus de 500 mil a 1 milho de palavras suficiente; para a criao de dicionrios
de lngua geral, que devem definir os vrios
significados de suas entradas, gramticas e
usos, seria necessrio um corpus muito maior,
por exemplo, o Bank of English2 que apia a
criao de produtos da editora Collins possui
atualmente 530 milhes de palavras.
Para Biber (1993), a elaborao de um corpus um
processo que avana em ciclos: inicia-se a escolha de
textos baseada em critrios externos culturalmente aceitos (tipologia de gneros e tipos de textos, por exemplo),
depois se prossegue com investigaes empricas da lngua ou variedade lingstica sob anlise (tambm denominados critrios internos) e, finalmente, procede-se com a
reviso de todo o projeto.
Etapas metodolgicas para a
compilao de um corpus
Embora existam muitos corpora disponveis tanto
livremente como mediante pagamento (as taxas geralmente so modestas para pesquisa acadmica) a partir dos
quais se pode gerar um subcorpus de estudo ou mesmo
tomar o corpus todo como uma unidade, dependendo da
questo de pesquisa3 , ainda pode ser necessrio compilar um corpus prprio. Para a compilao de tal corpus,
existem trs estgios principais a seguir: 1) projeto do
http://www.titania.bham.ac.uk/.
Por exemplo, estudo de um autor em particular, o qual no se encontra representado em algum corpus, ou de um gnero mais atual como
os e-mails e chats, estudo de textos de pocas no cobertas pelos corpora ou ainda estudo de um fenmeno raro.
159
18/1/2007, 22:54
159
Calidoscpio
corpus, que inclui a seleo dos textos e os cuidados com

os requisitos que foram discutidos na seo anterior, 2)
compilao (ou captura), manipulao, nomeao dos arquivos de textos, e pedidos de permisso de uso, e 3)
anotao.
Projeto de corpus: a seleo dos textos
Inicialmente, procede-se seleo dos textos pertinentes e relevantes para a pesquisa. Para esta etapa, a
definio do tipo de corpus que est se compilando
importante; outras decises dizem respeito ao seu tamanho e sua composio em termos dos textos existentes
bem como dos gneros aos quais eles pertencem.
Existem vrias tipologias de corpus que indicam
os parmetros importantes de considerao. Uma das mais
antigas a de Atkins et al. (1992) e uma bastante atual a
de Berber Sardinha (2004) que inclui sete critrios. Dentre
eles, o mais importantes o critrio modalidade (texto
falado, escrito ou ambos) e suas propores (dado que a
compilao de um corpus de fala bastante cara).
Compilao e manipulao do corpus
A compilao consiste no armazenamento em arquivos predeterminados de todos os textos selecionados.
Podem-se buscar textos provenientes da Web ou
mesmo textos impressos, nesse caso, ser necessrio
digitaliz-los e corrigir o resultado do processo de OCR
(optical character recognition) devido a erros comuns
durante o reconhecimento de caracteres, mesmo existindo
atualmente bons produtos.
Para o caso de se utilizar a Web, especificamente,
existem duas grandes opes na obteno de textos, as
quais se subdividem como segue:
1) a busca na Web com mquinas de busca:
a. uso de uma mquina de busca como o Google
para pesquisar toda a Web (podem-se utilizar
palavras-chave escolhidas para a pesquisa em
foco, sobretudo no caso de pesquisas
terminolgicas);
b. uso de ferramentas que pr-processam e/ou
ps-processam os resultados das buscas de
tais mquinas como fazem o WebCorp4 e
KWiCFinder5;
2) a coleta de pginas da Web, organizando-as
num computador local:
a. construo automtica de corpus com aju4
5
6
7
8
9
10
da de offline browsers como o HTTrack6 ou

com ajuda de ferramentas de apoio para a compilao de corpora descartveis (disposable
corpora) como o Corpgrafo 7 e o Toolkit
BootCat8, os quais geralmente realizam limpeza de tabelas, referncias, agradecimentos, etc.
e/ou reviso ortogrfica se essa operao for
importante para a pesquisa (por exemplo pesquisa terminolgica);
b. coleta do corpus pela seleo de pginas de
forma manual ou semi-automtica de acordo
com um projeto especfico de corpus. Esta ltima opo no diferente da forma como grandes corpora, como o BNC9, foram construdos.
A manipulao do corpus compe-se das seguintes atividades:
a) converso manual e automtica (por exemplo,
com o pacote XPDF10) de formatos doc,
html e pdf para txt;
b) limpeza e formatao, de maneira a preparar o
corpus para o processamento computacional,
o que significa tirar imagens, grficos, tabelas,
nmeros de pginas e demais anotaes que
no fazem parte do texto propriamente dito. A
limpeza e a formatao possibilitam o
processamento do corpus por ferramentas
computacionais, como por exemplo contador
de freqncia, concordanciador, ferramenta de
extrao automtica de termos, etc.
Nomeao de arquivos e gerao de cabealhos
Depois que todos os textos forem convertidos em
formato txt, eles devem receber um nome. Ressalte-se
que essa nomeao deve seguir determinado padro de
forma a facilitar a recuperao posterior de cada texto.
Proteo da identidade dos participantes de um
corpus e pedidos de direitos de uso dos textos
Na compilao de corpus, devem-se seguir as regras legais para obteno de direitos de uso do material
junto a autores e editores que detm o copyright do texto
ou consentimento de indivduos cujos direitos de privacidade devem ser reconhecidos. Esta uma etapa da compilao de um corpus que no tcnica, demorada e tediosa, marcada por inmeras negociaes que podem se
http://www.webcorp.org.uk/.
http://miniappolis.com/KWiCFinder/KWiCFinderHome.html.
http://www.httrack.com/.
http://poloclup.linguateca.pt/corpografo/.
http://sslmit.unibo.it/~baroni/bootcat.html.
http://www.natcorp.ox.ac.uk/.
XPDF um programa de cdigo aberto que permite a converso automtica de arquivos, conferir: http://www.foolabs.com/xpdf/.
160
160
18/1/2007, 22:54
Vol. 04 N. 03
arrastar por anos muitas vezes esta a razo de muitos

corpora simplesmente no estarem disponveis publicamente. Uma estratgia importante para vencer a negao
do pedido de permisso de uso a coleta de um nmero
maior de textos dentro de cada categoria de um corpus
(gnero, tipos de textos, data) para se preparar para o caso
da permisso no ser concedida.
Em Hasund (1998), discute-se como foi realizada a
proteo da identidade dos participantes do corpus COLT
(The Bergen Corpus of London Teenage Language), um
corpus de 500 mil palavras de lngua falada coletado em 1993
na University of Bergen, Noruega. Na verso transcrita do
COLT (e na parte correspondente do BNC), sobrenomes,
endereos, nmeros de telefones foram removidos, embora
os nomes sejam reais, isto , no foram trocados por fictcios.
No existe, entretanto, nenhuma abordagem amplamente aceita para preservar o anonimato de indivduos
em corpus da modalidade oral. A tendncia pelo completo anonimato, ou seja, apagamento de nomes, sobrenomes e ttulos profissionais, nomes de animais de estimao, endereos e telefones (que so removidos ou trocados por cdigos). Um outro procedimento a troca de
nomes por similares equivalente prosodicamente aos originais. No corpus Bank of English, por exemplo, todos os
nomes foram trocados por cdigos indicando o gnero do
falante, mais um nmero que corresponde a uma descrio de cada um mantida separadamente.
Enquanto aspectos ticos e legais da preservao
do anonimato tratam do interesse do informante, aspectos sociolingsticos e computacionais tratam do interesse da pesquisa. Nomes e apelidos, por exemplo, fornecem
informaes sociolingsticas relacionadas caracterstica socioeconmica e grupo tnico, entretanto, fazer a troca por outro nome que preencha todos os critrios
sociolingsticos consome muito tempo, razo pela qual
raramente feita.
set/dez 2006
los e subttulos, notas de rodap e elementos grficos

como tabelas e figuras, e b) marcao da estrutura de
subpargrafos elementos que so de interesse
lingstico, tais como sentenas, citaes, palavras, abreviaes, nomes, referncias, datas e nfases tipogrficas
do tipo negrito, itlico, sublinhado, etc.
Essas informaes de cabealho facilitam a posterior recuperao do texto bem como a gerao de
subcorpus, isto , podem-se selecionar todos os textos de
determinado autor, ou de determinada poca, ou de determinado gnero, etc.
A anotao lingstica pode ser em qualquer nvel que se queira, isto , nos nveis morfossinttico, sinttico, semntico, discursivo, etc., sendo inserida de trs
formas: manualmente (por lingistas), automaticamente
(por ferramentas de Processamento de Lngua Natural
PLN) ou semi-automaticamente (correo manual da sada
de outras ferramentas). Essa ltima comprovadamente
mais eficiente, pois revisar mais rpido e gera dados
mais corretos do que anotar pela primeira vez.
Um padro que vem sendo usado atualmente para
anotao de corpus para a criao de aplicaes de PLN o
XCES11 (Corpus Encoding Standard for XML) que foi derivado do TEI12 (Text Encoding Initiative Guidelines for
Electronic Text Encoding and Interchange), este ltimo largamente usado para criao de corpora contemporneos ou
histricos, para pesquisas terminogrficas ou lexicogrficas,
estudos literrios, descries lingsticas, entre outras.
Alguns corpora disponveis na Web para pesquisa
Como a construo de um corpus nos moldes acima mencionados no tarefa simples e rpida, antes de
construir um, til saber se corpus com determinadas
caractersticas j existem. Nesse sentido, apresentaremos
alguns corpora disponveis na Web, os quais podem ser
utilizados para muitas pesquisas.
Anotao
Em relao anotao, so dois basicamente os
nveis de representao das informaes presentes num
corpus: a anotao estrutural e a anotao lingstica.
A anotao estrutural compreende a marcao de
dados externos e internos dos textos. Como dados externos entendemos a documentao do corpus na forma de
um cabealho que inclui os metadados textuais (ou dados
estruturados sobre dados), isto , dados bibliogrficos
comuns, dados de catalogao como tamanho do arquivo, tipo da autoria, a tipologia textual e informao sobre
a distribuio do corpus. Como dados internos temos a
anotao de segmentao do texto cru, que envolve: a)
marcao da estrutura geral captulos, pargrafos, ttu11
12
Arquivos da Folha
(http://www1.folha.uol.com.br/folha/arquivos/):
Est disponvel na Web o texto integral de todas
as edies do jornal desde 1994. Todo esse material extremamente til para fazer buscas por contedo ou mesmo
para atestar freqncia e emprego de determinadas palavras ou expresses na lngua, no gnero jornalstico. um
corpus muito rico, entretanto, tem alguns inconvenientes:
a) acessvel somente para assinantes do jornal Folha de
S. Paulo ou do Universo On Line (UOL); b) a busca ocorre ano a ano, isto , no possvel conferir, por exemplo, a
freqncia de uma expresso em todos os anos, mas devese selecionar o ano e digitar a expresso que se deseja
http://www.cs.vassar.edu/XCES/
http://etext.lib.virginia.edu/standards/tei/teip4/index.html
161
18/1/2007, 22:54
161
Calidoscpio
pesquisar; c) a expresso pesquisada no aparece na tela

no formato de um concordanciador, mas pequenos contextos com links so oferecidos ao usurio, de forma que,
acionado esses links, possvel chegar aos textos na ntegra; d) no possvel gerar subcorpus, isto , selecionar as edies desejadas e fazer download, todas as buscas so feitas de forma on-line no site da Folha.
Lcio-Web (http://www.nilc.icmc.usp.br/lacioweb/):
O Lcio-Web13 (LW) um projeto organizado pelo
Ncleo Interinstitucional de Lingstica Computacional
(NILC14), em parceria com o Instituto de Matemtica e Estatstica (IME) e a Faculdade de Filosofia, Letras e Cincias Humanas (FFLCH), todos pertencentes Universidade
de So Paulo (USP). O LW disponibiliza livremente na Web:
a) vrios corpora do portugus brasileiro escrito contemporneo, representando bancos de textos adequadamente compilados, catalogados e codificados em um padro
que possibilite fcil intercmbio, navegao e anlise; e b)
ferramentas lingstico-computacionais, tais como contadores de freqncia, concordanciadores e etiquetadores
morfossintticos.
Projeto COMET (Corpus Multilnge para
Ensino e Traduo http://www.fflch.usp.br/
dlm/comet/:
O projeto COMET, em elaborao junto ao Centro
Interdepartamental de Traduo e Terminologia (CITRAT)
da Faculdade de Filosofia, Letras e Cincias Humanas
(FFLCH) da USP, disponibiliza um corpus eletrnico que
tem por objetivo servir de suporte a pesquisas lingsticas, principalmente nas reas de traduo, terminologia e
ensino de lnguas. O COMET composto por trs
subcorpora: a) Corpus Tcnico-Cientfico CorTec:
corpus comparvel de textos tcnicos e/ou cientficos originalmente escritos em portugus brasileiro e em ingls;
b) Corpus Multilnge de Aprendizes CoMAprend: constitudo de redaes dos alunos da graduao e dos cursos de extenso das reas do Departamento de Letras
Modernas: alemo, espanhol, francs, ingls e italiano; c)
Corpus de Traduo CorTrad: subdivide-se em Literrio
e Juramentado; o corpus Literrio composto de contos
traduzidos do ingls e seus respectivos originais, o corpus
Juramentado ser constitudo de textos cedidos pela Junta Comercial de So Paulo por meio de contrato de
comodato com a USP.
Linguateca (http://www.linguateca.pt/):
A Linguateca um centro de recursos para o
processamento computacional da lngua portuguesa e tem
como objetivo servir comunidade que se dedica ao
processamento do portugus. No site da Linguateca esto
disponveis, entre outros, os seguintes corpora crus e anotados pelo analisador sinttico Palavras15: a) CETEMPblico
(Corpus de Extratos de Textos Eletrnicos MCT/Pblico
http://www.linguateca.pt/CETEMPublico/): corpus de aproximadamente 180 milhes de palavras em portugus europeu, criado pelo projeto Processamento computacional do
portugus (projeto que deu origem Linguateca) aps a assinatura de um protocolo entre o Ministrio da Cincia e da
Tecnologia (MCT) portugus e o jornal Pblico (jornal portugus) em abril de 2000; b) CETENFolha (Corpus de Extractos
de Textos Electrnicos NILC/Folha de So Paulo http://
www.linguateca.pt/CETEMPublico/): corpus de cerca de 24
milhes de palavras em portugus brasileiro com base nos
textos do jornal Folha de S. Paulo que fazem parte do corpus
NILC/So Carlos; c) COMPARA (http://www.linguateca.pt/
COMPARA/): corpus paralelo que tem como base textos em
portugus e as suas tradues para ingls e textos em ingls
e as suas tradues para portugus.
Algumas ferramentas disponveis na Web
H disponvel gratuitamente na Web uma srie de
ferramentas que podem auxiliar a pesquisa envolvendo
corpus. Apresentaremos, inicialmente, as ferramentas de
processamento de corpora gerais ou especializados, as
quais incluem o WebCorp e o Unitex. Em seguida, as ferramentas de gerao e gerenciamento de corpora especializados, abrangendo o Corpgrafo e o ToolKit BootCaT.
Ferramentas de processamento de corpus
WebCorp
WebCorp um conjunto de ferramentas que permitem acesso a Web como um recurso lingstico, isto ,
permitem extrair fatos sobre vrias lnguas como se a Web
fosse um corpus o maior deles16. Verses demo desse
conjunto de ferramentas so disponibilizadas gratuitamente na Web a partir do endereo http://www.webcorp.org.uk/.
Vale assinalar que est em corrente desenvolvimento a
construo de uma mquina de busca lingstica para
melhorar o desempenho do WebCorp.
13
O projeto Lcio-Web ser detalhado a seguir.

Localizado no Instituto de Cincias Matemticas e de Computao, da Universidade de So Paulo (USP), campus de So Carlos (SP,
Brasil), www.nilc.icmc.usp.br/.
15
Desenvolvido por Eckhard Bick (http://visl.hum.sdu.dk/).
16
Em nvel internacional, houve dois Workshops dedicados ao tema Web as a corpus - o primeiro em conjunto com a conferncia Corpus
Linguistics 2005, e o segundo em conjunto com a 11th Conference of the European Chapter of the Association for Computational
Linguistics (EACL 2006).
14
162
162
18/1/2007, 22:54
Vol. 04 N. 03
WebCorp pode ser usado por pesquisadores e professores de lngua, por exemplo, que tenham interesse em
analisar como certas palavras e expresses so usadas,
especialmente as palavras raras ou neologismos que no
aparecem em dicionrios e em corpora padres. Desde
seu lanamento, em 2000, pela Research and Development
Unit for English Studies (RDUES) na School of English
da University of Central England, Birmingham, Webcorp
tem sido usado por lingistas, lexicgrafos, alunos e professores de lnguas, editores, jornalistas, publicitrios e
demais pesquisadores provenientes de distintas reas.
WebCorp possui uma interface similar a muitas mquinas de busca (observe-se a tela principal na Figura 1) na
qual se pode digitar uma palavra ou expresso de busca,
escolher as opes nos menus e clicar o boto Submit.
Ele trabalha com os resultados do motor de busca escolhido (h opes para quatro deles: Google, Altavista,
Metacrawler e AllTheWeb), tomando a lista de URLs17
retornada do motor de busca escolhido e extraindo concordncias de cada pgina. Todas as concordncias so apresentadas em uma nica pgina separadas por arquivo da
Web e com links para os sites de onde vieram (observe-se
parte do resultado da palavra corpus na Figura 2).
Uma das opes avanadas que merece destaque a
set/dez 2006
escolha de busca em um dado domnio, por exemplo, ao escolher .ac.uk ela ser restrita s instituies acadmicas do
Reino Unido; .fr s URLs da Frana e .br.com s URLs de
empresas no Brasil. Outra opo a possibilidade de analisar
colocaes da palavra de busca, isto , as palavras que aparecem com freqncia maior nas proximidades da palavra em
foco, podendo tambm excluir stopwords na apresentao das
colocaes. A Figura 3 apresenta as colocaes da palavra
corpus em URLs do domnio .ac.uk, excluindo stopwords.
Unitex
O Unitex consiste em um conjunto de programas
para processamento de corpus lingsticos composto por
uma interface grfica em Java e diversos programas desenvolvidos em C (Paumier, 2002). A interface Java em
conjunto com os programas em C permitem que a ferramenta possa ser portada para uma srie de plataformas
sem perdas significativas de desempenho durante o
processamento de corpus.
Dentre os recursos lingsticos oferecidos esto
dicionrios18 e tabelas do lxico-gramtica19. Os dicionrios
contm palavras simples e compostas de um idioma alm de
informaes gramaticais sobre cada palavra. As gramticas
Figura 1. Tela principal do WebCorp a partir da qual se podem escolher as opes do menu e acessar as opes
avanadas de busca.
17
Sigla que designa a localizao de um objeto na Internet (rede mundial de computadores), segundo determinado padro de atribuio de
endereos em redes. (Novo Dicionrio Eletrnico Aurlio verso 5.0, 2004)
18
Dicionrios para serem utilizados pela mquina e no para humanos.
19
As tabelas do lxico-gramtica so matrizes binrias nas quais as linhas so ocupadas por entradas do lxico e nas colunas so explicitadas
as propriedades sinttico-semnticas de cada entrada lexical. No cruzamento de cada coluna com cada linha so colocados um sinal de +
no caso da propriedade se aplicar quela entrada, e um - para o caso contrrio. Essa metodologia foi proposta por M.Gross (1968, 1975)
no estudo dos verbos do francs e tem sido aplicada a diversas lnguas no estudo principalmente de elementos predicativos como os verbos,
adjetivos e substantivos predicativos. Uma bibliografia a respeito dessa teoria/metodologia pode ser encontrada em: http://ladl.univ-mlv.fr/
(Vale, 1998 e 2001).
163
18/1/2007, 22:54
163
Calidoscpio
so representadas por meio de autmatos de texto, um

formalismo baseado em autmatos finitos. As tabelas do
lxico-gramtica mostram as propriedades de algumas palavras. A verso 1.2 da ferramenta prov suporte para mais de
14 idiomas (incluindo o Portugus). Entretanto, o usurio

pode adicionar facilmente suporte a qualquer idioma graas ao uso do padro Unicode20 para codificao de texto.
O suporte ao idioma portugus particularmente bom gra-
Figura 2. Parte do resultado da busca da palavra corpus, com as opes de apresentao de 5 palavras esquerda e
direita da palavra em foco.
Figura 3. Colocaes esquerda e direita da palavra corpus a partir de 200 pginas do domnio .ac.uk. Expresses
padres selecionadas deste conjunto foram word corpus e Corpus Linguistics que so apresentadas como links
prontos para serem analisados a partir do Google. As colocaes esto ordenadas pela freqncia.
20
http://unicode.org/
164
164
18/1/2007, 22:54
Vol. 04 N. 03
set/dez 2006
Figura 4. Texto segmentado e lista de tokens. esquerda vemos um texto aps a fase de segmentao e prprocessamento; direita so exibidos os tokens extrados do texto.
as ao trabalho Unitex-PB desenvolvido em Muniz (2004) e
Muniz et al. (2005).
O software Unitex uma implementao livre do programa Intex, ambos criados no laboratrio francs LADL21
(Laboratoire dAutomatique Documentaire et Linguistique),
por isso as funcionalidades fornecidas por essas ferramentas so bem semelhantes. Os dicionrios Unitex se baseiam
no formalismo DELA (Dictionnarie Electronique du LADL)
tambm desenvolvido no laboratrio LADL.
Pr-processador de textos
Um arquivo de texto no formatado (formato txt)
com codificao Unicode convertido para uma forma
pr-processada aps ser aberto pela primeira vez no Unitex.
Os arquivos pr-processados geralmente possuem a extenso .snt. Durante o processo de converso, o texto
original segmentado em sentenas e unidades lexicais
(tokens) (Figura 4). Alm disso, repeties desnecessrias de caracteres de separao, tais como espaos, quebras de linha e tabulaes, so removidas e formas no
ambguas do texto so normalizadas para simplificar operaes de busca, sendo que as normalizaes so definidas pelo usurio (Figura 5). Como exemplo, a palavra da
normalizada em de a. importante notar que normalizao no pode ocorrer para palavras ambguas tal como a
palavra desse que pode significar de esse ou uma
conjugao do verbo dar.
Nesta etapa, possvel construir um autmato de
texto sobre o arquivo de entrada. Alm disso, tambm possvel aplicar um conjunto de dicionrios de palavras simples
21
Figura 5. Pr-processador.
e compostas durante o pr-processamento para a construo de um subconjunto de dicionrios contendo apenas as
palavras presentes no texto. Neste processo, as palavras
dos textos so agrupadas em 3 classes: palavras simples,
palavras compostas e palavras no reconhecidas (Figura 6).
As nicas tarefas apresentadas acima necessrias durante o
pr-processamento so a segmentao em unidades lexicais
e a remoo de caracteres de separao desnecessrios, as
demais podem ser efetuadas posteriormente.
Na Figura 5 exibida a caixa de dilogo para prprocessamento de textos sem formatao. Os textos so
segmentados de acordo com as regras definidas no arquivo indicado na opo Apply FST2 in MERGE mode. O
arquivo definido em Apply FST2 in REPLACE mode
contm regras de normalizao de formas no ambguas.
A opo Construct Text Automaton permite a criao
de autmatos de texto. A opo GO! inicia o prprocessamento do texto.
http://ladl.univ-mlv.fr/.
165
18/1/2007, 22:54
165
Calidoscpio
A Figura 6 mostra um dicionrio (esquerda) onde

so listadas informaes morfossintticas das palavras reconhecidas. As palavras esto divididas em trs grupos:
palavras simples; palavras compostas e palavras no reconhecidas. A direita pode ser observado o autmato de texto
para uma sentena pertencente a um texto histrico.
j a expresso <dizer.V> denota qualquer palavra que tenha dizer como sua forma cannica e seja da classe dos
verbos. Um exemplo de busca mais avanada pode ser
dado pela expresso <V><A> que faz a busca de um verbo seguido de um adjetivo (figura 7).
Dicionrios
Concordanciador
O concordanciador presente na ferramenta permite
a busca de padres atravs de expresses regulares. Seqncias de smbolos reservadas so utilizadas para denotar uma expresso regular. As operaes de concatenao,
unio, fecho de Kleene e negao so permitidas e representadas respectivamente pelos smbolos: ., +, *, !.
Por exemplo, a expresso regular para.dizer* representa a
palavra para imediatamente seguida por zero ou mais ocorrncias da palavra dizer. As seqncias de smbolos abaixo realizam operaes teis:
* <E>: representa uma cadeia vazia
* <MOT>: qualquer seqncia de letras do alfabeto
* <MIN>: qualquer seqncia de letras minsculas
* <MAJ>: qualquer seqncia de letras maisculas
* <PRE>: uma seqncia de letras comeando por
maisculas
* <NB>: qualquer seqncia de algarismos
* <^>: representa o caractere de quebra de linha
* #: impede a presena de espao em branco
Adicionalmente, possvel representar nas expresses regulares informaes codificadas nos dicionrios.
Por exemplo, a expresso <A> denota qualquer adjetivo,
Existem dois tipos principais de dicionrios no formato DELA: os dicionrios de forma cannica (DELAS) e
os dicionrios de formas flexionadas (DELAF). Alm disso, existem duas variantes para palavras compostas:
DELAC para formas cannicas e DELACF para formas
flexionadas. A ordem de prioridade em pesquisas em dicionrios definida pelos smbolos + (mais prioritrio) e
- (menos prioritrio) adicionados no fim dos nomes de
arquivos de cada dicionrio.
Uma possvel entrada para um dicionrio DELAF
dada por abandonou,abandonar.V:J3s/comentrio. Esta
entrada indica que a palavra abandonou possui a forma
cannica abandonar, sendo abandonar um verbo. O
itens J3s indica terceira pessoa do pretrito, e a seqncia depois do smbolo / indica um comentrio. Smbolos
reservados podem ser representados como parte de uma
entrada se forem antecedidos pelo smbolo \.
O formato das entradas nos demais dicionrios semelhante ao formato do exemplo mostrado acima com pequenas variaes. Alm disso, possvel armazenar informaes
semnticas adicionais por meio de palavras reservadas como
por exemplo AnlColl e ConcColl. A primeira indica um
coletivo de animais (exemplo: manada) enquanto que a segunda indica um coletivo humano (exemplo: banda).
Figura 6. Dicionrio morfossinttico e grafo de texto

166
166
18/1/2007, 22:54
Vol. 04 N. 03
set/dez 2006
Figura 7. Busca por verbo seguido de adjetivo

O Unitex fornece recursos para tratar dicionrios
no formato DELA. possvel comprimir um dicionrio,
verificar se contm erros de formatao ou orden-lo caso
ainda no esteja em ordem alfabtica. Como os mesmos
smbolos podem ser ordenados de maneiras diferentes de
acordo com o idioma em uso, o usurio pode definir seus
prprios critrios de ordenao por meio de um arquivo
chamado Alphabet_sort.txt.
Alguns cdigos gramaticais so utilizados para
permitir a flexo automtica de uma forma cannica. Um
novo dicionrio contendo as formas flexionadas pode ser
gerado automaticamente pelo Unitex a partir do dicionrio original e de uma gramtica de flexo previamente definida.
Ferramentas de gerao e
gerenciamento de corpora especializados
O Ambiente Corpgrafo
Desenvolvido pela Faculdade de Letras da Universidade do Porto (FLUP), o Corpgrafo22 um gestor de
corpus que se encontra, atualmente, direcionado para pesquisas terminolgicas, isto , a extrao de termos e sua
organizao em bases de dados. Fornece um ambiente
Web integrado para o manejo de corpus, disponibilizando
ferramentas para processamento de corpus. Dentre as ferramentas que possui, esto concordanciadores, contadores de freqncia e tambm ferramentas de prprocessamento de corpus, como as de limpeza de corpus
22
23
e sentenciadores. Toda funcionalidade do Corpgrafo est

associada a um dos quatro ambientes de trabalho ou
mdulos: gestor de ficheiros, pesquisa de corpora, centro de conhecimento e centro de documentao, essa subdiviso diminui a sobrecarga de trabalho no ambiente.
Dos quatro mdulos contidos no Corpgrafo, o
que mais interessa para este artigo o Gestor de ficheiros, que trata especificamente da montagem de corpus.
Para construir um corpus no Corpgrafo, primeiramente
necessrio selecionar os textos que comporo o corpus,
que podem ser fornecidos de duas maneiras: ou enviando
o prprio arquivo (upload) ou informando a URL onde o
arquivo pode ser encontrado. O Corpgrafo aceita textos
do tipo pdf, html, doc, ps e rtf, alm do txt,
formato para o qual todos os outros tipos de texto so
transformados. O Corpgrafo oferece ferramentas para o
pr-processamento desses textos, tais como sentenciadores (denominados fraseadores em portugus de Portugal) e um ambiente de edio que permite fazer a limpeza de textos (retirar lixo provindo da converso de tipos
de texto, remoo de cabealhos, tabelas, referncias ou
agradecimentos). Aps pr-processar os textos, pode-se
selecionar aqueles que faro parte do corpus.
Tendo um corpus montado seguindo os passos
anteriores, o Corpgrafo oferece ferramentas de busca e
extrao de conhecimento de corpus, como um
concordanciador com suporte para pesquisas utilizando
expresses regulares, gerador de n-grama23 (sendo 5 o
tamanho mximo possvel para o n-grama), extratores de
http://www.linguateca.pt/Corpografo/
Lexias com nmero varivel de palavras.
167
18/1/2007, 22:54
167
Calidoscpio
terminologia, relaes semnticas e mapas conceituais,

dentre outras.
O ToolKit BootCaT
O BootCaT24, extrator automtico de corpus e de
termos (do ingls Bootstrapping Corpora and Terms),
prope a montagem de corpus, de modo iterativo, a partir
de textos obtidos na Web. O BootCaT composto por
vrias ferramentas escritas em Perl25, que foram projetadas
para executar pequenas partes do processo de montagem
de corpus.
Basicamente, o processo de montagem de corpus
do BootCaT composto de quatro passos:
1) construir um corpus automaticamente a partir
de buscas no Google26 utilizando um pequeno
conjunto de itens lxicos, denominados sementes (seeds) no BootCaT;
2) extrair novas sementes desse corpus;
3) utilizar essas novas sementes para novas buscas ao Google, cujos textos recuperados sero concatenados ao corpus, aumentando-o;
4) extrair novas sementes desse corpus
complementado-o, e assim por diante. A montagem de corpus proposta pelo BootCaT segue o diagrama da figura 8.
O primeiro passo selecionar as sementes iniciais.
Isso feito manualmente, e boas sementes so termos
tpicos em textos do domnio especfico do qual se busca
construir a amostragem. No segundo passo, essas semen-
Figura 8. Fluxo de montagem de um corpus no BootCaT

(Baroni e Bernardini, 2004).
24
25
26
tes so combinadas entre si e algumas dessas combinaes ( escolha do usurio) so enviadas como buscas no
Google. No terceiro passo, as URLs retornadas das buscas so processadas para obter-se apenas o texto contido
nelas, convertendo-as para texto puro e limpando-os,
quando for possvel. So aproveitados somente os formatos html e txt. Nesse momento, um primeiro corpus j
est formado. Desse primeiro corpus so extrados
unigramas (itens lxicos com apenas uma palavra), e a
freqncia de cada unigrama obtido no corpus apurada.
Sabendo-se a freqncia de cada unigrama, esses podem
ser comparados entre si. A relevncia de cada unigrama
mensurada utilizando a medida estatstica log odds ratio
(Baroni e Bernardini, 2004), com o apoio de um corpus de
referncia na mesma lngua. Uma lista de unigramas, ordenada pela relevncia calculada pela medida log odds ratio
ento gerada, e os primeiros elementos da lista so considerados bons candidatos a sementes. Caso o corpus
obtido at o momento no seja satisfatrio (seja pequeno,
por exemplo), podem-se eleger os primeiros unigramas da
lista como novas sementes e repetir o processo, voltando
ao segundo passo. Segundo Baroni e Bernardini (2004),
corpus representativos podem ser montados com poucas
sementes iniciais (entre 5 e 15). Os autores tambm afirmam que com duas ou trs iteraes possvel obter um
corpus satisfatrio.
O BootCaT tambm dispe de ferramentas para
extrao de termos com mais de uma palavra, ou termos
multipalavras. Para tal propsito, precisamos de duas listas, ambas obtidas no corpus de referncia: uma de
conectores e uma de stopwords. Conectores so compostos por palavras ou bigramas (itens lxicos com duas palavras, meio ambiente, por exemplo) que ocorrem freqentemente entre dois unigramas, e stopwords so termos
muito freqentes, geralmente formados por palavras de
classe fechada de uma lngua como os artigos, as conjunes, as preposies e os pronomes que no so
conectores. As listas descritas acima no precisam necessariamente ser obtidas pelo BootCaT, podem ser dadas
ou obtidas de outras fontes. Com as listas acima possvel definir o que so termos multipalavras, segundo as
restries abaixo:
1. contm ao menos um unigrama;
2. no contm stopwords;
3. podem ter conectores, desde que esses no
estejam nas extremidades do termo e no sejam consecutivos;
4. tm freqncia maior que um limiar (threshold),
que relativo ao tamanho do termo;
5. no podem ser parte de termos multipalavras
maiores com freqncia superior a k*fq, onde
http://sslmit.unibo.it/~baroni/bootcat.html
http://www.perl.com
http://www.Google.com.br/
168
168
18/1/2007, 22:54
Vol. 04 N. 03
k uma constante entre 0 e 1 (normalmente k

um valor perto de 1) e i fq a freqncia do
termo atual;
6. reciprocamente, no podem conter termos
multipalavras menores com freqncia superior a (1/k) * fq;
Os termos multipalavras so procurados recursivamente, inicialmente buscando por bigramas e depois
concatenando palavras esquerda e direita, na busca de
um (n+1) grama. Parmetros como a freqncia mnima
para bigramas (utilizado para calcular o limiar da restrio
4) e o valor de k das restries 5 e 6 devem ser informados
pelo usurio.
O BootCaT extremamente modular: para executar
o processo de montagem de corpus e extrao de termos
so utilizadas vrias ferramentas, sendo que o resultado
de cada ferramenta serve de entrada para outra. Essa caracterstica nos permite utilizar subconjuntos de ferramentas, conferir os arquivos de sada intermedirios, adicionar novas ferramentas, substituir uma ferramenta ou alterar uma ferramenta sem preocupar-se com as outras, apenas cuidando para que ela aceite o mesmo tipo de entrada
e produza o mesmo tipo de sada. Essa caracterstica reduz
re-implementaes de algoritmos com implementaes
consolidadas, evitando a replicao desnecessria de cdigo. Alteraes intuitivamente complexas, como adaptaes de ferramentas para trabalhar com lnguas diferentes, tm sido experimentadas e comprovam os benefcios
das ferramentas modulares. Adaptaes para o BootCaT
foram feitas para construo de corpus em lngua japonesa (Baroni e Ueyama, 2004), com taxas encorajadoras de
reaproveitamento de ferramentas e cdigo.
As buscas e a recuperao das URLs dessas buscas requisitadas pelo BootCaT ao Google so possveis
por meio da API (Interface para Programao de
Aplicativos) do Google. Essa API permite ao programador
enviar e recuperar facilmente uma busca feita ao Google.
Para a utilizao da API do Google, e conseqentemente do BootCaT, necessrio obter a licena de uso
dessa no site do Google. Para obter essa licena, o usurio
precisa cadastrar-se, e a chave da licena enviada por email. Essa licena permite que o usurio execute diariamente at 1.000 buscas e retorne no mximo 10.000 resultados.
As ferramentas do BootCaT, por serem cdigo livre, foram incorporadas no projeto e-Termos27, uma aplicao Computer-Supported Collaborative Work (CSCW)
composta por seis mdulos de trabalho independentes,
mas inter-relacionados, cujo propsito automatizar ou
semi-automatizar todas as tarefas de criao e gerenciamento do trabalho terminolgico. O e-Termos, como um
set/dez 2006
Ambiente Colaborativo , grosso modo, um sistema Web

cuja entrada principal um corpus de especialidade de um
determinado domnio do conhecimento; e a sada, um produto terminolgico (glossrio, dicionrio, lista de termos,
mapa conceitual, etc.) do domnio em questo. O e-Termos est sendo desenvolvido no NILC.
Lies aprendidas a partir de projetos de pesquisa
Vrios projetos envolvendo corpus foram e tm
sido objeto de pesquisa das autoras nos ltimos anos.
Apresentaremos, a seguir, detalhes da elaborao e execuo desses projetos, com o intuito de expor detalhes da
construo dos corpora, explicitando nossas escolhas,
tomadas de deciso, erros cometidos, de forma a auxiliar
demais pesquisadores que desejam adotar os princpios
da Lingstica de Corpus em seus projetos.
Projetos Corpus NILC e Lcio-Web
O NILC possui um corpus do portugus do Brasil
(chamado de Corpus NILC ou CN), compilado a partir de
1993, contendo cerca de 35 milhes de palavras. O corpus
consiste de textos em prosa, divididos em subcorpora de
textos corrigidos, textos no corrigidos e textos
semicorrigidos. As decises de projeto e compilao foram motivadas pelas necessidades provenientes de outro
projeto denominado ReGra28 (um revisor gramatical para o
portugus do Brasil, incorporado ao Microsoft Word desde 2000), embora na poca as orientaes da Lingstica
de Corpus para compilao de corpus fossem incipientes.
Alguns problemas do Corpus NILC so descritos abaixo
(Pinheiro e Alusio, 2003):
classificao dos textos: a classificao textual do CN problemtica, pois o Corpus foi
construdo sob demanda. medida que foram
adquiridas, as amostras passaram a integrar
categorias textuais distinguidas segundo parmetros irregulares de classificao;
quantidade de textos: alguns conjuntos de
textos do CN so muito pouco representativos, isto , no so quantitativamente suficientes em relao ao rtulo que carregam, como
por exemplo: jornalstico, literrio, jurdico, etc.
O corpus cientfico, por exemplo, tem poucas
amostras de teses, algumas dissertaes incompletas e, de modo geral, dedicado rea
da informtica. A quantidade de textos impede o aproveitamento do corpus para pesquisas gerais;
27
O e-Termos est sendo desenvolvido por Leandro Henrique Mendona de Oliveira, como tese de doutorado em Cincias de Computao
e Matemtica Computacional, com orientao de Sandra Maria Alusio. O e-Termos foi originado do TermEx, projeto que ser descrito a
seguir (http://www.nilc.icmc.usp.br/etermos/).
28
http://www.nilc.icmc.usp.br/nilc/projects/regra.htm
169
18/1/2007, 22:54
169
Calidoscpio
compilao: alguns tipos de textos tiveram

compilao irregular em relao ao padro de
amostragem aplicado em quase todo o CN.
Embora o procedimento ideal de compilao
fosse o de trazer apenas textos integrais, para
algumas categorias essa regra foi quebrada,
resultando em obras parcialmente compiladas;
acmulo de textos: uma caracterstica
insatisfatria de determinados conjuntos do
CN o acmulo de textos em um nico arquivo, resultado de uma escolha de formatao
das amostras do Corpus. A opo foi a de anexar, num nico arquivo, diversos textos pequenos, o que terminou ocultando especificidades
sobre os textos, tais como as diferenas de
autoria, de assunto, etc.
Para superar as limitaes do CN, foi criado o Projeto Lcio-Web29 (Alusio et al., 2003a, 2004).
O Lcio-Web (LW) foi um projeto financiado pelo
CNPq, iniciado em 2002, com durao de 30 meses, e realizado em parceria entre o NILC, o Instituto de Matemtica
e Estatstica (IME) e a Faculdade de Filosofia, Letras e
Cincias Humanas (FFLCH) ambos da USP, So Paulo. O
objetivo do LW divulgar e disponibilizar gratuitamente
na Web: a) vrios corpora do portugus brasileiro escrito
contemporneo, representando bancos de textos adequadamente compilados, catalogados e codificados, em um
padro que possibilita fcil intercmbio, navegao e anlise; e b) ferramentas lingstico-computacionais, tais como
contadores de freqncia, concordanciadores e
etiquetadores morfossintticos treinados em grandes
corpora anotados manualmente.
O pblico-alvo do LW heterogneo: de um lado
lingistas, cientistas da computao, lexicgrafos,
terminlogos, etc. e, de outro, o pblico em geral. O LW
acessado a partir de um portal (http://www.nilc.icmc.usp.br/
lacioweb/), que informa os tipos de corpus, ferramentas,
todo o material disponvel e a forma de contribuir com textos para a continuao do projeto, disponibiliza, ainda, manuais e artigos relacionados e permite, aps cadastramento
do usurio, o acesso ao corpus e s ferramentas.
Dada a importncia de um recurso de base como
so os corpora de uma dada lngua, para avanar estudos
lingsticos variados e tambm para a construo de sistemas computacionais de processamento de lngua natural (PLN), justifica-se o sucesso que tivemos em conseguir permisso oficial para incluir materiais diversos, durante os 30 meses do projeto. Para obter essa permisso,
foi includo, juntamente com o termo de autorizao, um
texto explicativo apontando o potencial dos recursos e a
necessidade de obteno de textos integrais para diver-
sas pesquisas lingsticas, como por exemplo, a anlise

de textos e discursos e tarefas como a traduo.
O LW tenta preencher uma lacuna em termos de
recursos para pesquisa e suporte criao de ferramentas
de PLN para a lngua portuguesa do Brasil. Para tanto,
quatro corpora foram disponibilizados: Lcio-Ref, MacMorpho, Par-C e Comp-C, descritos abaixo:
1) Lcio-Ref: corpus aberto e de referncia composto de textos escritos em portugus brasileiro, respeitando a norma culta, com 4.278 arquivos, totalizando 8.291.818 ocorrncias. um
corpus cru (no anotado com informaes
morfossintticas, sintticas ou de nvel mais
elevado), mas possui anotaes da existncia
de elementos grficos e anotao de cabealho. A grande maioria dos textos est
disponibilizada na ntegra.
2) Mac-Morpho: corpus fechado e anotado morfossintaticamente, formado por artigos
jornalsticos retirados da Folha de S.Paulo, ano
1994, dos cadernos Esporte (ES), Dinheiro (DI),
Cincia (FC), Agronomia (AG), Informtica (IF),
Ilustrada (IL), Mais! (MA), Mundo (MU), Brasil
(BR) e Cotidiano (CO). Composto de 1.167.183
ocorrncias, o corpus foi etiquetado pelo
analisador sinttico Palavras, foi revisado manualmente quanto anotao morfossinttica e
serviu de treinamento para trs etiquetadores
morfossintticos disponveis na Web (Alusio et
al., 2003b). O MAC-MORPHO disponibilizado
para download em dois formatos: a) adequado
para pesquisas lingsticas com o uso de contadores de freqncia ou concordanciadores, por
exemplo; b) adequado ao treinamento de
etiquetadores e que, por ter as lexias complexas
(multipalavras) separadas30, teve o tamanho do
corpus alterado para 1.221.468 ocorrncias.
3) Par-C: corpus aberto, paralelo, Ingls-Portugus, que possui, inicialmente, textos de um
ano de edies da revista Pesquisa Fapesp,
num total de 646 textos em cada lngua. O nmero total de ocorrncias desse corpus de
893.283.
4) Comp-C: corpus aberto, formado por textos
originais de contedo comparvel em ingls e
portugus, inicialmente disponvel apenas para
o gnero jurdico. Conta com 29 textos, 61.149
ocorrncias, e ser ampliado futuramente. Os
corpora comparveis so projetados para a
avaliao de mtodos de extrao de termos
para sistemas de PLN, para confeco de glos-
29
Coordenado por Sandra Maria Alusio (ICMC/USP).

Rio=de=Janeiro_NPROP, por exemplo, separado em Rio_NPROP de_NPROP Janeiro_NPROP, em que NPROP uma etiqueta
para nomes prprios.
30
170
170
18/1/2007, 22:54
Vol. 04 N. 03
srios e dicionrios especializados e para outras pesquisas lingsticas.

No total, o Projeto LW possui 5.708 arquivos,
totalizando 10.413.524 ocorrncias.
O LW distingue seus textos em quatro categorias
ortogonais: gnero, tipo de texto, domnio e meio de distribuio. A definio e a composio das categorias so
detalhadas abaixo.
Gnero textual: para o Projeto Lcio-web, o
gnero discrimina o texto pela inteno comunicativa e pelo carter discursivo, isto , a comunidade (meio) em que circula e as atividades humanas que o tornam relevante. Convencionamos o uso de um super-gnero, chamado Literrio (LT), um conjunto de gneros e
um conjunto de subgneros. Os gneros e
subgneros so dados no Quadro 1.
Quadro 1. Gneros e subgneros utilizados no Projeto
Lcio-web.
Gnero
Subgnero
Cientfico (CI)
De referncia (RE)
enciclopdico, lexicogrfico,
terminolgico e outros.
Informativo (IF)
jornalstico e outros
Jurdico (JU)
Prosa (PR)*
biografia, conto, novela,

romance e outros
Poesia (PO)*
Drama (DR)*
Instrucional (IS)
didtico, procedimental e
outros
TcnicoAdministrativo (TA)
* Esses gneros, especialmente, advm do supergnero Literrio.
Tipo textual: considera-se tipo de texto o modo

especfico de estruturao de um texto. Referese ao texto visto de dentro, ou seja, suas partes componentes, seu lxico, sua sintaxe, sua
adequao ao tema etc. Trata-se de uma lista
em constante atualizao e que, no momento,
composta de 39 categorias (e Outros tipos
textuais no previstos), por ex.: apostila, manual, parecer, reportagem, smula, testamento etc.
Domnio: a rea de conhecimento que
tematiza a principal informao veiculada pelo
texto. Temos trs grandes linhas de domnio,
denominadas domnio geral. A cada uma
dessas linhas associam-se subdomnios, denominados domnios especficos. A diviso
em termos de domnio geral apresenta as seguintes subdivises:
set/dez 2006
a) cientfica: refere-se aos textos de cincias.

Esse grupo composto por seis reas do
conhecimento: Cincias Agrrias, Cincias
Biolgicas, Cincias da Sade, Cincias Exatas e da Terra, Cincias Humanas e Cincias
Sociais Aplicadas;
b) religio e pensamento: envolve os temas
metafsicos, espirituais e teolgicos (ex.:
livros de bruxaria, de auto-ajuda, etc.).
c) generalidades: refere-se aos textos com
temas variados e, de modo geral, inseridos num campo conhecido pelo senso
comum (ex.: entretenimento). Inclui, alm
disso, os textos que abordam, de forma
no-analtica, temas considerados pela cincia (exs.: cincia e tecnologia, sade,
esporte, etc.).
Meio de distribuio: seleciona o canal por
meio do qual o texto foi divulgado ao seu pblico-alvo, por ex.: CD_ROM (CR), Dirio Oficial (DO), Internet (IN), Jornal (JO), Livro (LI),
Tese (TE).
O Projeto Lcio-Web disponibiliza vrias ferramentas lingstico-computacionais como concordanciadores,
contadores de freqncia e etiquetadores morfossintticos,
treinados com o corpus do portugus do Brasil e anotado
manualmente o MAC-Morpho. O objetivo facilitar a
observao de caractersticas lingsticas do portugus
do Brasil por pesquisadores, assim como melhorar a qualidade dos sistemas desenvolvidos para o portugus, tais
como, tradutores, sumarizadores automticos e mquinas
de busca (como o Google, por exemplo).
As ferramentas podem ser usadas com o LcioRef, com os subcorpora criados pelo usurio ou ainda
com o corpus que o usurio tiver carregado para o LW,
pois possvel fazer upload de textos.
Ao final dos 30 meses de pesquisa e desenvolvimento, o LW disponibiliza, de forma gratuita, amigvel e
de largo alcance: a) quatro tipos distintos de corpus (LcioRef, Mac-Morpho, Par-C e Lcio-Dev); b) algumas ferramentas de processamento lingstico-computacional (contador de freqncia, concordanciador e etiquetador
morfossinttico); e c) um Portal que, sensvel a diferentes
tipos de usurios, oferece trs tipos de interface de pesquisa, com ferramentas de base associadas, sendo, alm
disso, um ambiente de navegao dinmica, didtica e,
sobretudo, de incentivo ao uso de corpus para os mais
diversos tipos de investigao lingstica, uma vez que
permite o download completo das amostras dos corpora.
Mas ainda assim o LW deixou lacunas importantes como
a falta de um balanceamento de corpus, como, por exemplo, em gnero e nmero de textos por categorias. Vrias
decises tomadas no projeto LW ainda esto um pouco
distantes dos padres internacionais, como o XCES (Ide
et al., 2000), tanto com relao anotao como
171
18/1/2007, 22:54
171
Calidoscpio
codificao, embora tenhamos dado um grande passo em

direo padronizao com a proposta de um rico cabealho em XML que traz informaes bibliogrficas e da
tipologia quadripartida; e a anotao explcita da existncia de elementos grficos retirados dos textos.
Projeto TermEx
O projeto31 intitulado Extrao automtica de termos e elaborao colaborativa de terminologias para
intercmbio e difuso de conhecimento especializado
(TermEx) foi financiado pela FAPESP, iniciou-se em 2003
e encerrou-se em 2005. O projeto foi uma parceria entre a
UFSCar e a USP/So Carlos e tinha como principais objetivos: 1) pesquisar e implementar mtodos para a extrao
automtica de termos; 2) criar um ambiente computacional
para auxlio na pesquisa terminolgica/terminogrfica; 3)
elaborar um dicionrio terminolgico para a rea de revestimento cermico.
Como nossa proposta final era a elaborao de um
dicionrio terminolgico, o corpus foi elaborado a partir de
artigos especializados da revista Cermica Industrial32.
Essa revista, escrita em portugus, tem como objetivo contribuir para atualizao e melhoria da formao dos tcnicos
cermicos brasileiros. destinada fundamentalmente a profissionais da indstria. Os especialistas que colaboram com
artigos so tanto pesquisadores (brasileiros e estrangeiros) de laboratrios, institutos de pesquisas e desenvolvimento (P&D) e universidades, quanto profissionais que
atuam em indstrias. Constitui uma publicao bastante
relevante e respeitada no setor de Revestimento Cermico.
Da a nossa escolha, j que uma das nossas preocupaes
era abarcar no s a linguagem utilizada nos laboratrios e
institutos de P&D como tambm aquela utilizada nas indstrias. Acreditvamos que a escolha dessa revista satisfazia os requisitos representatividade e amostragem.
Os textos foram agrupados pelos anos em que foram publicados, 1996-2003, e totalizam 196, possuindo,
cada texto, uma mdia de sete a oito pginas (aproximadamente 4.000 palavras). Todos os textos presentes no site
da revista esto no formato pdf. Porm, para que eles
pudessem ser processados pelos mtodos propostos nesse trabalho, deveriam estar no formato txt. Por essa razo, nem todos os textos foram utilizados, visto que ocorreram alguns problemas no processo de converso do
formato pdf para txt, o que totalizou 164 textos.
Percebemos, entretanto, que embora todos fossem
escritos em portugus, 55 desses artigos eram de autores
estrangeiros, quatro escritos por autores estrangeiros e
31
32
33
34
35
nacionais, e quatro cuja nacionalidade era desconhecida.

Diante dessas constataes, a montagem do corpus foi
reavaliada, pois isso afetaria o requisito autenticidade. A
retirada desses textos, por outro lado, comprometeria a
extenso do corpus, uma vez que uma das abordagens de
extrao de termos que seria utilizada era a estatstica,
abordagem dependente, significativamente, do tamanho
do corpus. Contatamos, ento, o responsvel pela revista
para esclarecer se esses textos, depois de traduzidos, eram
revisados por um especialista falante nativo do portugus. Como a resposta foi afirmativa, todos aqueles textos,
objeto de preocupao, foram includos no corpus. Observe-se que, neste caso, demos prioridade para o requisito extenso em detrimento da autenticidade.
Para a transformao dos textos para o formato TXT,
foi utilizada a ferramenta denominada EXTEX (Extraco de
Texto de Ficheiros Formatados)33. Uma caracterstica dessa
ferramenta, ao realizar a transformao, a de que o texto
transformado no totalmente igual ao texto original. Ele se
apresenta com juno de algumas palavras, preserva os
ndices de referncia bibliogrfica e as notas de rodap anexadas s palavras, e a hifenizao dos textos no formato
pdf. Para resolver esses problemas, esses textos foram
submetidos a um processo cuidadoso de correo manual.
Vale ressaltar tambm que todos os arquivos do
corpus foram pr-processados para a retirada de informaes de autoria e filiao, referncias bibliogrficas, figuras, tabelas e quadros, fazendo com que o tamanho mdio
dos artigos diminusse de oito para cinco pginas,
totalizando 448.352 palavras.
Tambm foi encontrada grande quantidade de erros gramaticais e de digitao. Para minimizar os erros gramaticais, foi realizada uma varredura no corpus com o auxlio de um processador de textos, buscando corrigir os
erros encontrados, podendo-se, dessa forma, analisar os
dados de forma mais precisa.
O corpus foi pr-processado utilizando-se um
tokenizador 34 desenvolvido no NILC 35 chamado
Sentencer, que um tokenizador e segmentador sentencial
para portugus, que tokeniza um texto de entrada, inserindo um caractere de fim de linha ao fim de cada sentena.
Linhas em branco marcam fronteiras de pargrafo. Apenas caracteres de fim de linha, como ponto-final, pontode-interrogao, ponto-de-exclamao e reticncias so
considerados possveis finais de sentena. O programa
Sentencer trata de abreviaes como Dr., Prof., no
considerando, nesse caso, o ponto final como um caractere
de fim de linha, ao contrrio, o ponto desconsiderado.
Alm disso, o programa Sentencer tambm apresenta a
O projeto foi coordenado por Gladis Maria de Barcellos Almeida (UFSCar) e contou com a colaborao de Sandra Maria Alusio (USP).
http://www.ceramicaindustrial.org.br/.
http://poloclup.linguateca.pt/ferramentas/extex/
Ferramenta computacional que separa o texto em tokens (palavra, ponto, espao, qualquer sinal grfico).
http://www.nilc.icmc.usp.br/nilc/
172
172
18/1/2007, 22:54
Vol. 04 N. 03
funo de separar os caracteres (como aspas, vrgulas,

pontuaes, entre outros) dos tokens.
Aps o corpus ter sido tokenizado pelo Sentencer,
ele foi etiquetado36 utilizando-se o MXPOST (Ratnaparkhi,
1996), etiquetador que foi treinado no NILC com um conjunto simplificado que possui 15 etiquetas37 e um corpus manualmente etiquetado de 104.963 palavras. Esse etiquetador38
possui a preciso de 97%. Para usar o MXPOST no arquivo
de entrada, cada token deveria estar separado por um espao em branco, ou seja, nenhum caractere, incluindo pontuao, deveria estar anexo s palavras; essa foi uma das razes
para o uso do programa Sentencer.
Aps o pr-processamento, o corpus estava pronto para ser objeto de extrao automtica de termos.
Antes de realizar a extrao, alguns mtodos automticos foram avaliados e implementados para o portugus39, especificamente mtodos das trs abordagens para o
portugus: estatstica, lingstica e hbrida.
Os mtodos baseados em conhecimento estatstico geralmente detectam as unidades terminolgicas de
acordo com a freqncia com que elas ocorrem em um
corpus. Existem mtodos estatsticos que utilizam desde
simples freqncias at aqueles que utilizam estatsticas
mais complexas, como informao mtua e coeficiente loglikelihood e c-value. A funo , em todos os mtodos,
identificar os candidatos a termo (Teline et al., 2003).
Os sistemas baseados em conhecimento
lingstico utilizam diferentes recursos que contm diferentes informaes lingsticas para a extrao dos termos. Essas informaes lingsticas dizem respeito a: informaes lexicogrficas dicionrios de termos e lista de
palavras auxiliares (stopwords); informaes
morfolgicas padres de estrutura interna da palavra;
informaes morfossintticas categorias morfossintticas e funes sintticas; informaes semnticas classificaes semnticas; informaes pragmticas representaes tipogrficas e informaes de disposio do
termo no texto. Este tipo de conhecimento utilizado faz
com que os sistemas baseados em conhecimento
lingstico se apliquem somente a uma lngua e, s vezes,
at mesmo a uma nica variante (Teline et al., 2003).
Os sistemas baseados em conhecimento hbrido
utilizam o conhecimento estatstico juntamente com o
set/dez 2006
lingstico. A aplicao do conhecimento hbrido torna o

sistema mais eficiente, visto que ele condiciona os resultados. Existem dois tipos de mtodos hbridos: aqueles
que aplicam o conhecimento estatstico primeiro e depois
o lingstico, e aqueles que utilizam a estatstica apenas
como um complemento da lingstica (Teline et al., 2003).
Como o trabalho de Teline (2004) atestou que os
sistemas baseados em conhecimento hbrido eram os mais
eficientes, optou-se por essa abordagem no projeto
TermEx. Ocorre que o lxico40 utilizado para o reconhecimento das estruturas morfolexicais da terminologia de
Revestimento Cermico era constitudo de itens da lngua
geral, o que acabou impedindo que esse lxico reconhecesse determinados termos. Observe-se como o lxico do
ReGra lematizou determinados termos multipalavras: ao
mecnica > ao mecnico, alumina calcinada >
alumina calcinar, capacidade instalada > capacidade
instalar. Em vista desse cenrio, utilizamos ento a abordagem estatstica.
Uma grande lio que aprendemos com o projeto
TermEx foi o fato de no termos balanceado o corpus de
forma a incluir distintos gneros. Esse erro foi observado
posteriormente quando procurvamos contextos
definitrios ou explicativos para elaborarmos as definies para o dicionrio. Nossa hiptese era de que um
corpus contendo apenas textos do gnero tcnico-cientfico fosse suficiente para a elaborao de um dicionrio
terminolgico. Entretanto, quando os autores escrevem
um artigo cientfico, tm como pblico-alvo leitores especialistas que no necessitam de explicaes conceituais
de objetos, maquinrio, conceitos, tcnicas, etc. As glosas, portanto, esto ausentes desse tipo de texto. Vamos
encontrar contextos definitrios ou explicativos nos gneros cientfico de divulgao e instrucional (apostila, livro-texto, manual, por exemplo). A constatao a que chegamos que mesmo em se tratando de uma pesquisa
terminolgica, o corpus deve ser balanceado, contendo,
pelo menos, textos desses trs gnero: tcnico-cientfico,
cientfico de divulgao e instrucional. Percebemos que a
falta de balanceamento acabou gerando um corpus menos representativo, com menos amostras e menos diversificado, erros que no devem ser repetidos, posto que esse
corpus afetou diretamente a redao dos verbetes.
36
Etiquetar significa classificar o texto morfologicamente, ou seja, atribuir a cada unidade a classe correspondente.
I-interjeio; LOCU-locuo; PREP-preposio; N-substantivo; NP-nome prprio; VERB-verbo; ADJ-adjetivo; AUX-verbo auxiliar;
ADV-advrbio; PRON-pronome; CONJ-conjuno; NUME-numeral; ART-artigo; RES- resduo; PDEN-palavra denotativa e mais 4 tipos
de contraes: PREP+ART, para palavras como da, na; PREP+PD, para palavras como nesta, naquela, nessa; PREP+PPR,
para palavras como dela, nela; PREP+N, para palavras como dalma, dgua, darte.
38
O NILC dispe de vrios etiquetadores que podem ser acessados a partir de http://www.nilc.icmc.usp.br/nilc/tools/nilctaggers.html.
39
A avaliao e a implantao dos mtodos foi objeto de um trabalho de mestrado, denominado Avaliao de mtodos para extrao
automtica de terminologia de textos em portugus (ExPorTer) (Teline, 2004).
40
O lxico utilizado foi o do ReGra (Revisor Gramatical do Portugus), que contm 68.530 lemas e 1.563.136 entradas, incluindo formas
flexionadas, palavras compostas e locues (5.763 das entradas so locues nominais, prepositivas, adjetivas, adverbiais, conjuntivas).
Esse lxico est em constante atualizao (desde 1993), j que o lxico que d suporte ao corretor sinttico do Microsoft Word. O ReGra
foi desenvolvido no NILC (www.nilc.icmc.usp.br/nilc/projects/regra.htm).
37
173
18/1/2007, 22:54
173
Calidoscpio
Projeto NanoTerm
O projeto41 intitulado Terminologia em Lngua
Portuguesa da Nanocincia e Nanotecnologia: Sistematizao do Repertrio Vocabular e Elaborao de Dicionrio-Piloto (NanoTerm) financiado pelo CNPq e foi
iniciado em 2006 (com vigncia de dois anos). O projeto
tambm uma parceria entre a UFSCar e a USP/So Carlos e
tem como objetivos: 1) a constituio de um corpus em
lngua portuguesa da Nanocincia e Nanotecnologia
(N&N); 2) a busca de equivalentes em portugus (lngua
de chegada) a partir de uma nomenclatura em ingls (lngua de partida); 3) uma ontologia em lngua portuguesa
da rea de N&N; 4) a elaborao do primeiro dicionriopiloto de N&N em lngua materna.
Para a construo do corpus, inicialmente, foi realizado um estudo exploratrio dos textos existentes em
lngua portuguesa bem como dos gneros aos quais eles
pertencem. Embora tivssemos tentado balancear o corpus,
inserindo uma quantidade equilibrada de textos dos gneros informativo, cientfico de divulgao e cientfico, obtivemos uma grande quantidade dos primeiros e uma quantidade reduzida do ltimo (cientfico). Entendemos que
isso se deve fato de a rea de N&N ser relativamente nova
no Brasil, alm disso, os pesquisadores, fundamentalmente
das reas de Exatas e Biomdicas que atuam em N&N,
publicam seus resultados de pesquisa em lngua inglesa.
Os tipos de textos que compem o gnero CIENTFICO so
fundamentalmente dissertaes e teses.
Ressalte-se que at o momento todos os textos
foram obtidos na Web. importante destacar que muitas
pginas da Internet, embora se tivessem revelado til para
a pesquisa, estavam acessveis somente para scios ou
assinantes, inviabilizando, portanto, a obteno dos textos. Sero ainda inseridos no corpus textos impressos, os
quais sero posteriormente digitalizados. No estudo
exploratrio que fizemos, encontramos apenas dois livros,
cinco5 artigos e um relatrio. Evidentemente, ser necessrio insistir na busca por mais textos impressos.
Aps a seleo dos textos, foi realizada a compilao dos textos obtidos na Web. Para essa compilao,
foram utilizados os seguintes itens de busca: nanocincia,
nanotecnologia, genmica. Todavia, aps realizarmos
buscas, decidimos incluir e o prefixo nano- para abarcar
termos como: nanotubo, nanorrede/nano-rede,
nanocpsula, nanoesfera, nanobiotecnologia, etc. Assim que cada texto era compilado, procedia-se com a sua
manipulao, isto , com a converso manual e automtica (Pacote XPDF42) de formatos doc, html e pdf
para txt e na limpeza e formatao.
Depois que todos os textos foram convertidos

em formato txt, eles receberam uma nomeao, de acordo com um padro previamente determinado, de forma a
facilitar a recuperao posterior de cada texto. Aps a
nomeao dos arquivos, foi gerado (de forma semi-automtica) um cabealho para cada texto. A gerao semiautomtica desse cabealho foi feita por meio de um editor (programa computacional com interface grfica
para criar ou modificar arquivos) que auxilia o lingista a
especificar diversas informaes sobre os textos. Ressaltamos que esse programa uma verso adaptada no
Editor de Cabealho utilizado no Projeto Lcio-Web43 e
contm os seguintes campos de informao: ttulo, subttulo, fonte, editor, local de publicao, data, assunto,
autoria, tipo de autoria (individual ou coletiva), sexo do
autor, tipo de texto, meio de distribuio e comentrios
(introduzem-se nesse campo informaes adicionais sobre o texto). Observe-se, nas Figuras 9 e 10, algumas
telas do editor de cabealho que pode ser obtido gratuitamente na pgina do projeto Lcio-Web.
Para cada texto, gerado um cabealho. possvel
ver na Figura 11 como ficam as informaes anotadas em
XML. So essas informaes anotadas em XML que vo
permitir posteriormente que se faam buscas especficas.
O preenchimento de todos esses campos do cabealho til para esta pesquisa porque a partir desses dados ser possvel fazer constataes tais como: o repertrio vocabular tem alguma relao com a temtica do texto,
com o gnero, com a autoria ou com o meio de distribuio? Dependendo do tema tratado em determinado texto,
possvel recuperar os descritores desse texto por meio
da freqncia? Em outras palavras: num texto cujo tema
seja Nanocincia, o item lxico nanocincia ocorre quantas
vezes? Enfim, alm das buscas que podero ser empreendidas por cada campo constitutivo do cabealho, possvel fazer constataes relevantes sobre o lxico.
Ao final de processo de construo do corpus, o
projeto NanoTerm dever totalizar cerca de um milho de
palavras.
Projeto Dicionrio Histrico - ns
O projeto44 intitulado Dicionrio Histrico do
Portugus do Brasil (sculos XVI, XVII e XVIII), no mbito do programa Institutos do Milnio do CNPq, financiado por este rgo e iniciou-se em dezembro de 2005
(com vigncia de 3 anos). A equipe envolvida no projeto
conta com 10 universidades, 17 doutores e 17 alunos de
graduao e ps-graduao. O projeto tem como principal
objetivo a elaborao de um dicionrio do portugus cor-
41
O projeto coordenado por Gladis Maria de Barcellos Almeida (UFSCar) e conta com a colaborao de Sandra Maria Alusio (USP).
XPDF um programa de cdigo aberto que permite a converso automtica de arquivos, conferir: http://www.foolabs.com/xpdf/.
43
http://www.nilc.icmc.usp.br/lacioweb/
44
O projeto coordenado por Maria Tereza Camargo Biderman (UNESP/campus de Araraquara).
42
174
174
18/1/2007, 22:54
Vol. 04 N. 03
set/dez 2006
Figura 9. Editor de cabealho adaptado do projeto Lcio-Web.
Figura 10. Janelas do editor para a especificao de informaes bibliogrficas, de autoria e da tipologia quadripartida
(gnero, tipo textual, domnio e meio de distribuio).
175
18/1/2007, 22:54
175
Calidoscpio
Figura 11. Cabealho com etiquetas XML gerado pelo Editor de Cabealho do Lcio-Web.
respondente aos sculos XVI, XVII e XVIII. Convm assinalar que o Brasil no conta com nenhuma obra
lexicogrfica sobre seu vocabulrio nos primeiros tempos
da formao do Portugus Brasileiro, o que atesta a originalidade da proposta.
Para a elaborao desse dicionrio, necessria a
construo de um corpus, evidentemente.
De forma a cumprir os seis requisitos citados no incio
deste artigo (autenticidade, representavidade, balanceamento,
amostragem, diversidade e extenso), o corpus est sendo
construdo obedecendo a uma seqncia de etapas.
Foi realizada inicialmente a seleo dos textos.
Essa seleo tem como orientao os seguintes pontos: a) os textos tm de ser escritos originalmente em
portugus por indivduos nascidos no Brasil, se tiverem nascido em Portugal, teriam de estar residindo no
Brasil h anos (autenticidade), embora saibamos que
h pouco material disponvel com essas caractersticas no sculo XVI; b) seleo de documentos de forma a abarcar distintos domnios do saber, gneros
discursivos e tipologias textuais (representatividade,
balanceamento, amostragem, diversidade); c) distribuio desses gneros e domnios nos trs sculos
que envolvem a pesquisa, por exemplo, o gnero literrio s ser pertinente no sculo XVIII, posto que antes
disso no se pode afirmar que havia uma literatura genuinamente brasileira (balanceamento); d) seleo de
uma quantidade de textos suficientes para a elaborao de um dicionrio que contemple a diversidade
lexical desses sculos (extenso), no que se refere s
classes abertas, a saber: substantivo, adjetivo, verbo
e advrbio. A previso inicial de que o corpus conte-
176
nha, no mnimo, 3 milhes de palavras, para gerar, pelo

menos, dez mil entradas no dicionrio.
A construo desse corpus inicia-se com o processo de digitalizao, j que os textos referentes a esses
sculos esto, em sua grande maioria, na forma impressa.
Aps a anlise e seleo das obras, os livros so
digitalizados em formato de imagem (arquivos de imagem com extenso tiff) para, ento, serem transformados em textos (arquivos de texto com extenso doc).
Depois que esto em formato doc, os textos passam
por um processo de reviso manual. Este um trabalho
minucioso e que requer muita ateno, pois se trabalha
com a leitura cotejada de 3 documentos: a) a imagem do
texto original, em forma de figura (extenso tiff) gerada
por digitalizao; b) a imagem do texto digitalizado em
forma de texto propriamente (em formato doc); c) o
texto original impresso que deve estar sobre a mesa,
mo, para o caso de a imagem no computador no ser
suficiente para dirimir dvidas. Se os textos fossem atuais, a tarefa estaria terminada, contudo, importante lembrar que estamos trabalhando com textos antigos e que a
dificuldade est justamente na grafia no padronizada
do portugus quinhentista.
importante assinalar que a digitalizao exige alguns cuidados, pois os documentos possuem normalmente
pginas em papel pardo, muito amarelas ou com manchas
prprias do envelhecimento, folhas craqueladas, pginas
soltas, etc. Toda essa sujeira na imagem pode implicar a
gerao de caracteres estranhos ou falhas no texto
digitalizado que precisam ser eliminadas durante a reviso. Assim, aps a digitalizao, preciso limpar e recortar cada uma das imagens digitalizadas para que elas as-
176
18/1/2007, 22:54
Vol. 04 N. 03
set/dez 2006
sumam um formato padro o mais limpo possvel, isso

tornar a fase de reviso manual menos penosa.
Todo o material digitalizado organizado de forma que cada unidade de texto constitua dois arquivos:
um em forma de imagem e o seu correspondente em forma de texto. Cada texto possui um extenso cabealho e
organizado em pastas que correspondem determinada
obra. Por exemplo, a obra Tratado Descritivo do Brasil,
de Gabriel Soares Sousa, aps a digitalizao, foi transformada em 24 arquivos tiff e, depois da reviso, passou a ter tambm 24 arquivos doc. Isso significa que
aps um ano de trabalho o projeto contar com um corpus
e com um banco de imagens tiff correspondendo a
cada texto.
a partir do formato doc que os textos esto
prontos para receberem outros tratamentos possibilitando o processamento computacional. Como os textos possuem caracteres que no pertencem ao conjunto ANSI45,
necessrio a sua codificao utilizando o Unicode, que
uniformiza vrios conjuntos de caracteres para muitas lnguas, inclusive as lnguas orientais.
Consideraes finais
Neste artigo, procuramos apresentar a concepo
de corpus para a Lingstica e para a Lingstica de Corpus,
abordar questes importantes para a elaborao de corpus
computadorizado, discorrer sobre as etapas metodolgicas para a compilao de corpus, citar alguns corpora e
ferramentas disponveis na Web para pesquisa e construo de corpus, e, finalmente, detalhar quatro projetos de
pesquisa envolvendo corpus, de forma a auxiliar demais
pesquisadores que desejam adotar os princpios da Lingstica de Corpus em seus projetos.
Nosso intuito foi oferecer um panorama das prticas da Lingstica de Corpus. Esperamos que essas reflexes e relatos possam nortear as pesquisas, levantar mais
questionamentos e sedimentar as prticas da Lingstica
de Corpus no Brasil.
Referncias
ALUSIO, S.M.; PINHEIRO, G.; FINGER, M.; NUNES, M.G.V. e
TAGNIN, S.E.O. 2003a. The Lcio-Web Project: overview
and issues in Brazilian Portuguese corpus creation. In:
CORPUS LINGUISTICS 2003, Lancaster, UK, 2003.
ProceedingsLancaster, UCREL - Lancaster University,
16:14-21. (Also as UCREL Technical Report, Vol 16 Part).
ALUSIO, S. M.; PELIZZONI, J. M.; MARCHI, A. R.; OLIVEIRA,
L. H.; MANENTI, R. e MARQUIVAFVEL, V. 2003b. An
account of the challenge of tagging a reference corpus of
Brazilian Portuguese. In: PROPOR2003, Faro, Portugal,
2003. Proceedings Lecture Notes in Computer Science.
New York, Springer, 1:110-117.
ALUSIO, S.M.; PINHEIRO, G.M.; MANFRIM, A.M.P.; OLIVEIRA, L.H.M. de; GENOVES Jr., L.C. e TAGNIN, S.E.O. 2004.
45
The Lcio-Web: Corpora and Tools to Advance Brazilian

Portuguese Language Investigations and Computational
Linguistic Tools. In: LREC 2004, Lisboa, Portugal, 2004.
Proceedings Paris, ELDA, p. 1779-1782.
ATKINS, S.; CLEAR, J. e OSTLER, N. 1992. Corpus design criteria.
Journal of Literary and Linguistic Computing, 7(1).
BARONI, M. e BERNARDINI, S. 2004. BootCaT: Bootstrapping
corpora and terms from the web. In: LREC 2004, Lisboa,
Portugal, 2004. ProceedingsParis, ELDA.
BARONI, M. e UEYAMA, M. 2004. Retrieving Japanese specialized
terms and corpora from the World Wide Web. In: KONVENS,
Viena, ustria, 2004. ProceedingsViena, OFAI.
BERBER SARDINHA, T. 2000. Histrico e problemtica.
D.E.L.T.A., 16(2):323-367.
BERBER SARDINHA, T. 2004. Lingstica de corpus. So Paulo,
Manole, 410 p.
BIBER, D. 1993. Representativeness in Corpus Design. Lit Linguist
Computing, 8:243-257.
BIBER, D.; CONRAD, S. e REPPEN, R. 1998. Corpus linguistics:
Investigating language structure and use. Cambridge
University Press, Cambridge.
DUBOIS, J; GIACOMO, M.; GUESPIN, L.; MARCELLESI, C.;
MARCELLESI, J.B. e MEVEL, J.P. 1993. Dicionrio de lingstica. So Paulo, Cultrix, 653 p.
DUCROT, O. e TODOROV, T. 2001. Dicionrio enciclopdico das
cincias da linguagem. 3 ed., So Paulo, Perspectiva, 339 p.
GALISSON, R. e COSTE, D. 1983. Dicionrio de didctica das
lnguas. Coimbra, Livraria Almedina, 763 p.
HASUND, K. 1998. Protecting the innocent: The issue of informants
anonymity in the COLT corpus. In: A. RENOUF (ed.), Explorations
in Corpus Linguistics. Amsterdam, Rodopi, p. 13-27.
IDE, N.; BONHOMME, P. e ROMARY, L. 2000. XCES: An XMLbased Standard for Linguistic Corpora. In: Second Language
Resources and Evaluation Conference (LREC), Athens, Greece,
2000. Proceedings, p. 825-830.
KENNEDY, G. 1998. An Introduction to Corpus Linguistics.
London;New York, Longman.
KILGARRIFF, A. e GREFENSTETTE, G. 2003. Introduction to the
Special Issue on Web as Corpus. Computational Linguistics, 29(3).
McENERY, T. e WILSON, A. 1996. Corpus linguistics. Edinburgh,
Edinburgh University Press.
MURAKAWA, C.A.A. 2001. Tradio lexicogrfica em lngua
portuguesa. In: A.M.P.P. OLIVEIRA e A.N. ISQUERDO (orgs.),
As cincias do lxico: lexicologia, lexicografia e terminologia. 2. ed., Campo Grande, Ed. UFMS, p. 153-159.
MURAKAWA, C.A.A. 2006. Antnio de Morais Silva: lexicgrafo da lngua portuguesa. Araraquara, Laboratrio Editorial
FCL/UNESP; So Paulo, Cultura Acadmica Editora, 228 p.
PAUMIER, S. 2002. Manuel dutilisation du logiciel Unitex. IGM,
Universite de Marne-la-Vallee, 217 p. Disponvel em: http://
www-igm.univ-mlv.fr/~unitex/. Acesso em: 20/10/2006.
PINHEIRO, G.M.e ALUSIO, S.M. 2003. Crpus Nilc: descrio e
anlise crtica com vistas ao projeto Lacio-Web. NILC-TR03-03, fevereiro, 60 p.
RATNAPARKHI, A. 1996. A Maximum Entropy Part-Of-Speech
Tagger. In: Empirical Methods in Natural Language Processing
Conference, Philadelphia, Pennsylvania,1996. Proceedings
Philadelphia, University of Pennsylvania, p. 133-142.
RENOUF, A. (ed.). 1998. Explorations in Corpus Linguistics.
Amsterdam, Rodopi.
SINCLAIR, J. 2005. Corpus and Text - Basic Principles. In: M.
WYNNE (ed.), Developing Linguistic Corpora: a Guide to
Good Practice. Oxford, Oxbow Books, p. 1-16. Disponvel
em: http://ahds.ac.uk/linguistic-corpora/. Acesso em: 30/10/
2006.
TELINE, M.F. 2004. Avaliao de mtodos para extrao auto-
American National Standards Institute ANSI (http://www.ansi.org/)
177
18/1/2007, 22:54
177
Calidoscpio
mtica de terminologia de textos em portugus. So Carlos,

SP. Dissertao de mestrado. Universidade de So Paulo
USP, 136 p.
TELINE, M.F.; ALMEIDA, G.M.B. e ALUSIO, S.M. 2003. Extrao manual e automtica de terminologia: comparando abordagens e critrios. In: Workshop em Tecnologia da Informao e da Linguagem Humana, 1, So Carlos, SP, 2003. Anais...
So Carlos, USP. (CD-ROM).
TRASK, R.L. 2004. Dicionrio de Linguagem e Lingstica. So
Paulo, Contexto, 364 p.
VALE, O.A. 1998. Sintaxe, lxico e expresses idiomticas. In: A.N.

BRITO e O.A. VALE (orgs.), Filosofia, lingstica, informtica:
aspectos da linguagem. Goinia, Editora UFG, p. 127-137.
VALE, O.A. 2001. Expresses Cristalizadas do Portugus do Brasil: uma proposta de tipologia. Araraquara, SP. Tese de doutorado. Universidade Estadual Paulista UNESP.
Submetido em: 10/2006

Aceito em: 11/2006
Sandra Maria Alusio

Doutora em Fsica e Ps-Doutorado em
Cincias da Computao. Professora
efetiva da USP, Brasil
Gladis Maria de Barcellos Almeida

Doutora em Lingstica de Lngua
Portuguesa. Professora UFSCar, SP,
Brasil
178
178
18/1/2007, 22:54

Artigo Sobre Linguística de Corpus

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Artigo Sobre Linguística de Corpus

Caricato da

Copyright:

Formati disponibili

Calidoscpio

Vol. 4, n. 3 , p. 156-178, set/dez 2006

Sandra Maria Alusio

Gladis Maria de Barcellos Almeida

O que e como se constri um corpus?

RESUMO - As pesquisas baseadas em corpus tm tido na ltima dcada

ABSTRACT - The research based on corpus has had in the last

Palavras-chave: corpus; lingstica de corpus; processamento de corpus.

Key-words: corpus; corpus linguistics; corpus processing.

A corpus is a remarkable thing, not so much because it is a collection of

Concepo de corpus para a Lingstica

borados durante os sculos XVIII e XIX, como o caso

corpus (Murakawa, 2001). Esse corpus contendo cerca de

Importa, contudo, definir corpus. H, pelo menos,

Para Dubois et al. (1993), corpus considerado o

procurar obter um corpus realmente significativo. Enfim,

Na concepo de Ducrot e Todorov (2001), corpus

Ao observar essas definies, podemos perceber

Questes importantes para o projeto de um

sob anlise (Sinclair, 2005). Da a importncia de

ros e tipos de textos, com a variao de dialetos

corpus, que inclui a seleo dos textos e os cuidados com

da de offline browsers como o HTTrack6 ou

Sandra Maria Alusio e Gladis Maria de Barcellos Almeida

arrastar por anos muitas vezes esta a razo de muitos

los e subttulos, notas de rodap e elementos grficos

pesquisar; c) a expresso pesquisada no aparece na tela

O projeto Lcio-Web ser detalhado a seguir.

Sandra Maria Alusio e Gladis Maria de Barcellos Almeida

so representadas por meio de autmatos de texto, um

14 idiomas (incluindo o Portugus). Entretanto, o usurio

Sandra Maria Alusio e Gladis Maria de Barcellos Almeida

A Figura 6 mostra um dicionrio (esquerda) onde

Figura 6. Dicionrio morfossinttico e grafo de texto

Figura 7. Busca por verbo seguido de adjetivo

e sentenciadores. Toda funcionalidade do Corpgrafo est

terminologia, relaes semnticas e mapas conceituais,

Figura 8. Fluxo de montagem de um corpus no BootCaT

Sandra Maria Alusio e Gladis Maria de Barcellos Almeida

k uma constante entre 0 e 1 (normalmente k

Ambiente Colaborativo , grosso modo, um sistema Web

compilao: alguns tipos de textos tiveram

sas pesquisas lingsticas, como por exemplo, a anlise

Coordenado por Sandra Maria Alusio (ICMC/USP).

Sandra Maria Alusio e Gladis Maria de Barcellos Almeida

srios e dicionrios especializados e para outras pesquisas lingsticas.

biografia, conto, novela,

* Esses gneros, especialmente, advm do supergnero Literrio.

Tipo textual: considera-se tipo de texto o modo

a) cientfica: refere-se aos textos de cincias.

codificao, embora tenhamos dado um grande passo em

nacionais, e quatro cuja nacionalidade era desconhecida.

Sandra Maria Alusio e Gladis Maria de Barcellos Almeida

funo de separar os caracteres (como aspas, vrgulas,

lingstico. A aplicao do conhecimento hbrido torna o

Depois que todos os textos foram convertidos

Sandra Maria Alusio e Gladis Maria de Barcellos Almeida

Figura 9. Editor de cabealho adaptado do projeto Lcio-Web.

Sandra Maria Alusio e Gladis Maria de Barcellos Almeida

nha, no mnimo, 3 milhes de palavras, para gerar, pelo

sumam um formato padro o mais limpo possvel, isso

The Lcio-Web: Corpora and Tools to Advance Brazilian

American National Standards Institute ANSI (http://www.ansi.org/)