Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
ART04_Aluisio-Almeida.pmd
156
18/1/2007, 22:54
Vol. 04 N. 03
set/dez 2006
Corpus-monitor aquele que pode receber novos textos e tornar-se cada vez maior. um corpus til para Lexicografia, por exemplo, j
que necessrio observar palavras novas na lngua ou palavras j conhecidas mas com emprego diferente.
O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica
ART04_Aluisio-Almeida.pmd
157
18/1/2007, 22:54
157
Calidoscpio
se tinha de corpus no passado, a qual se referia somente a textos impressos. Ainda de acordo com McEnery e Wilson (1996), o formato
possui vantagens considerveis: i) os corpora
podem ser pesquisados e manipulados de forma mais rpida; ii) os corpora podem ser mais
facilmente enriquecidos com informao extra;
d) referncia padro (standard reference): ainda de acordo com McEnery e Wilson (1996),
existe um entendimento tcito de que um
corpus constitui uma referncia padro para a
variedade de lngua que ele representa, pressupondo que o corpus esteja disponvel para
outros pesquisadores, em outras palavras, o
que se tem chamado de reuso do corpus.
Dentre essas quatro caractersticas apontadas pelos autores, a ltima digna de nota, j que uma outra
diferena marcante entre a concepo de corpus para a
Lingstica e para a Lingstica de Corpus. Entende-se
que disponibilizao de corpus compilado para futuras
pesquisas uma caracterstica inerente ao corpus, de forma que todo o esforo empreendido para a sua construo no seja til apenas para uma pesquisa, uma vez que
se tem uma referncia padro de lngua ou de variedade de
lngua que pode ser utilizada por outros pesquisadores.
Percebe-se, pois, que os dois grandes pontos que
diferem entre a Lingstica e a Lingstica de Corpus so:
o formato computadorizado do corpus e a sua posterior
disponibilizao para outras pesquisas.
Se a Lingstica de Corpus descarta livros, revistas
e outros textos impressos considerados corpus pela Lingstica (pois no esto em formato computadorizado), ela
(a Lingstica de Corpus) tambm descarta a Web como
corpus, ainda que os textos estejam disponveis e em formato eletrnico, pelo fato de suas dimenses serem desconhecidas, de estar continuamente mudando e pelo fato de
no ter sido projetada a partir de uma perspectiva lingstica. Entretanto, a prpria Web que vai facilitar a distribuio e livre acesso de vrios corpora criados em vrios projetos, reforando uma das caractersticas de corpus citadas
por McEnery e Wilson (1996). Ainda com relao a Web,
vale assinalar que existem autores que a consideram um
corpus, o caso de Kilgarriff e Grefenstette (2003).
Com relao ao formato computadorizado, preciso admitir que o surgimento do computador (sobretudo
do computador pessoal) interferiu diretamente no s na
concepo que se tem de corpus como tambm na sua
forma de armazenamento e explorao, j que os recursos
oferecidos pelo computador permitiram que uma quantidade antes inimaginvel de textos pudesse ser processada na tela em questo de segundos, fazendo com que
muitas hipteses sobre determinados fenmenos
lingsticos pudessem ser testadas rpida e eficientemente. Essa nova forma de armazenamento de textos permitiu
158
ART04_Aluisio-Almeida.pmd
a observao e descrio de fenmenos lingsticos recorrentes antes impossvel de perceber, dado que os procedimentos de observao e descrio contavam apenas
com recursos manuais.
Sobretudo a partir da dcada de 1990, os corpora
passam a ter papel fundamental nas pesquisas lingsticas, pois data dessa poca o incio das contribuies
advindas da Computao e da Lingstica Computacional.
Destacam-se, principalmente, o aprimoramento e desenvolvimento de ferramentas computacionais voltadas para
o processamento de lngua natural (PLN) do portugus
do Brasil e o efeito que essas ferramentas tiveram para o
processamento de corpus.
De acordo com Trask (2004), a partir de corpora,
podem-se fazer observaes precisas sobre o real comportamento lingstico de falantes reais, proporcionando
informaes altamente confiveis e isentas de opinies e
de julgamentos prvios sobre os fatos de uma lngua.
Desta forma, por meio de corpus, podem-se observar aspectos morfolgicos, sintticos, semnticos,
discursivos, etc. bastante relevantes para uma pesquisa
lingstica. Podem-se ainda explicar a produtividade e o
emprego de palavras, expresses e formas gramaticais.
possvel descobrir fatos novos na lngua, no perceptveis pela intuio (Berber Sardinha, 2000). Em resumo, por
meio de corpus, descreve-se a lngua de forma objetiva.
158
18/1/2007, 22:54
Vol. 04 N. 03
set/dez 2006
http://www.titania.bham.ac.uk/.
Por exemplo, estudo de um autor em particular, o qual no se encontra representado em algum corpus, ou de um gnero mais atual como
os e-mails e chats, estudo de textos de pocas no cobertas pelos corpora ou ainda estudo de um fenmeno raro.
O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica
ART04_Aluisio-Almeida.pmd
159
18/1/2007, 22:54
159
Calidoscpio
http://www.webcorp.org.uk/.
http://miniappolis.com/KWiCFinder/KWiCFinderHome.html.
http://www.httrack.com/.
http://poloclup.linguateca.pt/corpografo/.
http://sslmit.unibo.it/~baroni/bootcat.html.
http://www.natcorp.ox.ac.uk/.
XPDF um programa de cdigo aberto que permite a converso automtica de arquivos, conferir: http://www.foolabs.com/xpdf/.
160
ART04_Aluisio-Almeida.pmd
160
18/1/2007, 22:54
Vol. 04 N. 03
set/dez 2006
Anotao
Em relao anotao, so dois basicamente os
nveis de representao das informaes presentes num
corpus: a anotao estrutural e a anotao lingstica.
A anotao estrutural compreende a marcao de
dados externos e internos dos textos. Como dados externos entendemos a documentao do corpus na forma de
um cabealho que inclui os metadados textuais (ou dados
estruturados sobre dados), isto , dados bibliogrficos
comuns, dados de catalogao como tamanho do arquivo, tipo da autoria, a tipologia textual e informao sobre
a distribuio do corpus. Como dados internos temos a
anotao de segmentao do texto cru, que envolve: a)
marcao da estrutura geral captulos, pargrafos, ttu11
12
Arquivos da Folha
(http://www1.folha.uol.com.br/folha/arquivos/):
Est disponvel na Web o texto integral de todas
as edies do jornal desde 1994. Todo esse material extremamente til para fazer buscas por contedo ou mesmo
para atestar freqncia e emprego de determinadas palavras ou expresses na lngua, no gnero jornalstico. um
corpus muito rico, entretanto, tem alguns inconvenientes:
a) acessvel somente para assinantes do jornal Folha de
S. Paulo ou do Universo On Line (UOL); b) a busca ocorre ano a ano, isto , no possvel conferir, por exemplo, a
freqncia de uma expresso em todos os anos, mas devese selecionar o ano e digitar a expresso que se deseja
http://www.cs.vassar.edu/XCES/
http://etext.lib.virginia.edu/standards/tei/teip4/index.html
O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica
ART04_Aluisio-Almeida.pmd
161
18/1/2007, 22:54
161
Calidoscpio
Linguateca (http://www.linguateca.pt/):
A Linguateca um centro de recursos para o
processamento computacional da lngua portuguesa e tem
como objetivo servir comunidade que se dedica ao
processamento do portugus. No site da Linguateca esto
disponveis, entre outros, os seguintes corpora crus e anotados pelo analisador sinttico Palavras15: a) CETEMPblico
(Corpus de Extratos de Textos Eletrnicos MCT/Pblico
http://www.linguateca.pt/CETEMPublico/): corpus de aproximadamente 180 milhes de palavras em portugus europeu, criado pelo projeto Processamento computacional do
portugus (projeto que deu origem Linguateca) aps a assinatura de um protocolo entre o Ministrio da Cincia e da
Tecnologia (MCT) portugus e o jornal Pblico (jornal portugus) em abril de 2000; b) CETENFolha (Corpus de Extractos
de Textos Electrnicos NILC/Folha de So Paulo http://
www.linguateca.pt/CETEMPublico/): corpus de cerca de 24
milhes de palavras em portugus brasileiro com base nos
textos do jornal Folha de S. Paulo que fazem parte do corpus
NILC/So Carlos; c) COMPARA (http://www.linguateca.pt/
COMPARA/): corpus paralelo que tem como base textos em
portugus e as suas tradues para ingls e textos em ingls
e as suas tradues para portugus.
Algumas ferramentas disponveis na Web
H disponvel gratuitamente na Web uma srie de
ferramentas que podem auxiliar a pesquisa envolvendo
corpus. Apresentaremos, inicialmente, as ferramentas de
processamento de corpora gerais ou especializados, as
quais incluem o WebCorp e o Unitex. Em seguida, as ferramentas de gerao e gerenciamento de corpora especializados, abrangendo o Corpgrafo e o ToolKit BootCaT.
Ferramentas de processamento de corpus
WebCorp
WebCorp um conjunto de ferramentas que permitem acesso a Web como um recurso lingstico, isto ,
permitem extrair fatos sobre vrias lnguas como se a Web
fosse um corpus o maior deles16. Verses demo desse
conjunto de ferramentas so disponibilizadas gratuitamente na Web a partir do endereo http://www.webcorp.org.uk/.
Vale assinalar que est em corrente desenvolvimento a
construo de uma mquina de busca lingstica para
melhorar o desempenho do WebCorp.
13
162
ART04_Aluisio-Almeida.pmd
162
18/1/2007, 22:54
Vol. 04 N. 03
WebCorp pode ser usado por pesquisadores e professores de lngua, por exemplo, que tenham interesse em
analisar como certas palavras e expresses so usadas,
especialmente as palavras raras ou neologismos que no
aparecem em dicionrios e em corpora padres. Desde
seu lanamento, em 2000, pela Research and Development
Unit for English Studies (RDUES) na School of English
da University of Central England, Birmingham, Webcorp
tem sido usado por lingistas, lexicgrafos, alunos e professores de lnguas, editores, jornalistas, publicitrios e
demais pesquisadores provenientes de distintas reas.
WebCorp possui uma interface similar a muitas mquinas de busca (observe-se a tela principal na Figura 1) na
qual se pode digitar uma palavra ou expresso de busca,
escolher as opes nos menus e clicar o boto Submit.
Ele trabalha com os resultados do motor de busca escolhido (h opes para quatro deles: Google, Altavista,
Metacrawler e AllTheWeb), tomando a lista de URLs17
retornada do motor de busca escolhido e extraindo concordncias de cada pgina. Todas as concordncias so apresentadas em uma nica pgina separadas por arquivo da
Web e com links para os sites de onde vieram (observe-se
parte do resultado da palavra corpus na Figura 2).
Uma das opes avanadas que merece destaque a
set/dez 2006
escolha de busca em um dado domnio, por exemplo, ao escolher .ac.uk ela ser restrita s instituies acadmicas do
Reino Unido; .fr s URLs da Frana e .br.com s URLs de
empresas no Brasil. Outra opo a possibilidade de analisar
colocaes da palavra de busca, isto , as palavras que aparecem com freqncia maior nas proximidades da palavra em
foco, podendo tambm excluir stopwords na apresentao das
colocaes. A Figura 3 apresenta as colocaes da palavra
corpus em URLs do domnio .ac.uk, excluindo stopwords.
Unitex
O Unitex consiste em um conjunto de programas
para processamento de corpus lingsticos composto por
uma interface grfica em Java e diversos programas desenvolvidos em C (Paumier, 2002). A interface Java em
conjunto com os programas em C permitem que a ferramenta possa ser portada para uma srie de plataformas
sem perdas significativas de desempenho durante o
processamento de corpus.
Dentre os recursos lingsticos oferecidos esto
dicionrios18 e tabelas do lxico-gramtica19. Os dicionrios
contm palavras simples e compostas de um idioma alm de
informaes gramaticais sobre cada palavra. As gramticas
Figura 1. Tela principal do WebCorp a partir da qual se podem escolher as opes do menu e acessar as opes
avanadas de busca.
17
Sigla que designa a localizao de um objeto na Internet (rede mundial de computadores), segundo determinado padro de atribuio de
endereos em redes. (Novo Dicionrio Eletrnico Aurlio verso 5.0, 2004)
18
Dicionrios para serem utilizados pela mquina e no para humanos.
19
As tabelas do lxico-gramtica so matrizes binrias nas quais as linhas so ocupadas por entradas do lxico e nas colunas so explicitadas
as propriedades sinttico-semnticas de cada entrada lexical. No cruzamento de cada coluna com cada linha so colocados um sinal de +
no caso da propriedade se aplicar quela entrada, e um - para o caso contrrio. Essa metodologia foi proposta por M.Gross (1968, 1975)
no estudo dos verbos do francs e tem sido aplicada a diversas lnguas no estudo principalmente de elementos predicativos como os verbos,
adjetivos e substantivos predicativos. Uma bibliografia a respeito dessa teoria/metodologia pode ser encontrada em: http://ladl.univ-mlv.fr/
(Vale, 1998 e 2001).
O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica
ART04_Aluisio-Almeida.pmd
163
18/1/2007, 22:54
163
Calidoscpio
Figura 2. Parte do resultado da busca da palavra corpus, com as opes de apresentao de 5 palavras esquerda e
direita da palavra em foco.
Figura 3. Colocaes esquerda e direita da palavra corpus a partir de 200 pginas do domnio .ac.uk. Expresses
padres selecionadas deste conjunto foram word corpus e Corpus Linguistics que so apresentadas como links
prontos para serem analisados a partir do Google. As colocaes esto ordenadas pela freqncia.
20
http://unicode.org/
164
ART04_Aluisio-Almeida.pmd
164
18/1/2007, 22:54
Vol. 04 N. 03
set/dez 2006
Figura 4. Texto segmentado e lista de tokens. esquerda vemos um texto aps a fase de segmentao e prprocessamento; direita so exibidos os tokens extrados do texto.
as ao trabalho Unitex-PB desenvolvido em Muniz (2004) e
Muniz et al. (2005).
O software Unitex uma implementao livre do programa Intex, ambos criados no laboratrio francs LADL21
(Laboratoire dAutomatique Documentaire et Linguistique),
por isso as funcionalidades fornecidas por essas ferramentas so bem semelhantes. Os dicionrios Unitex se baseiam
no formalismo DELA (Dictionnarie Electronique du LADL)
tambm desenvolvido no laboratrio LADL.
Pr-processador de textos
Um arquivo de texto no formatado (formato txt)
com codificao Unicode convertido para uma forma
pr-processada aps ser aberto pela primeira vez no Unitex.
Os arquivos pr-processados geralmente possuem a extenso .snt. Durante o processo de converso, o texto
original segmentado em sentenas e unidades lexicais
(tokens) (Figura 4). Alm disso, repeties desnecessrias de caracteres de separao, tais como espaos, quebras de linha e tabulaes, so removidas e formas no
ambguas do texto so normalizadas para simplificar operaes de busca, sendo que as normalizaes so definidas pelo usurio (Figura 5). Como exemplo, a palavra da
normalizada em de a. importante notar que normalizao no pode ocorrer para palavras ambguas tal como a
palavra desse que pode significar de esse ou uma
conjugao do verbo dar.
Nesta etapa, possvel construir um autmato de
texto sobre o arquivo de entrada. Alm disso, tambm possvel aplicar um conjunto de dicionrios de palavras simples
21
Figura 5. Pr-processador.
e compostas durante o pr-processamento para a construo de um subconjunto de dicionrios contendo apenas as
palavras presentes no texto. Neste processo, as palavras
dos textos so agrupadas em 3 classes: palavras simples,
palavras compostas e palavras no reconhecidas (Figura 6).
As nicas tarefas apresentadas acima necessrias durante o
pr-processamento so a segmentao em unidades lexicais
e a remoo de caracteres de separao desnecessrios, as
demais podem ser efetuadas posteriormente.
Na Figura 5 exibida a caixa de dilogo para prprocessamento de textos sem formatao. Os textos so
segmentados de acordo com as regras definidas no arquivo indicado na opo Apply FST2 in MERGE mode. O
arquivo definido em Apply FST2 in REPLACE mode
contm regras de normalizao de formas no ambguas.
A opo Construct Text Automaton permite a criao
de autmatos de texto. A opo GO! inicia o prprocessamento do texto.
http://ladl.univ-mlv.fr/.
O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica
ART04_Aluisio-Almeida.pmd
165
18/1/2007, 22:54
165
Calidoscpio
j a expresso <dizer.V> denota qualquer palavra que tenha dizer como sua forma cannica e seja da classe dos
verbos. Um exemplo de busca mais avanada pode ser
dado pela expresso <V><A> que faz a busca de um verbo seguido de um adjetivo (figura 7).
Dicionrios
Concordanciador
O concordanciador presente na ferramenta permite
a busca de padres atravs de expresses regulares. Seqncias de smbolos reservadas so utilizadas para denotar uma expresso regular. As operaes de concatenao,
unio, fecho de Kleene e negao so permitidas e representadas respectivamente pelos smbolos: ., +, *, !.
Por exemplo, a expresso regular para.dizer* representa a
palavra para imediatamente seguida por zero ou mais ocorrncias da palavra dizer. As seqncias de smbolos abaixo realizam operaes teis:
* <E>: representa uma cadeia vazia
* <MOT>: qualquer seqncia de letras do alfabeto
* <MIN>: qualquer seqncia de letras minsculas
* <MAJ>: qualquer seqncia de letras maisculas
* <PRE>: uma seqncia de letras comeando por
maisculas
* <NB>: qualquer seqncia de algarismos
* <^>: representa o caractere de quebra de linha
* #: impede a presena de espao em branco
Adicionalmente, possvel representar nas expresses regulares informaes codificadas nos dicionrios.
Por exemplo, a expresso <A> denota qualquer adjetivo,
Existem dois tipos principais de dicionrios no formato DELA: os dicionrios de forma cannica (DELAS) e
os dicionrios de formas flexionadas (DELAF). Alm disso, existem duas variantes para palavras compostas:
DELAC para formas cannicas e DELACF para formas
flexionadas. A ordem de prioridade em pesquisas em dicionrios definida pelos smbolos + (mais prioritrio) e
- (menos prioritrio) adicionados no fim dos nomes de
arquivos de cada dicionrio.
Uma possvel entrada para um dicionrio DELAF
dada por abandonou,abandonar.V:J3s/comentrio. Esta
entrada indica que a palavra abandonou possui a forma
cannica abandonar, sendo abandonar um verbo. O
itens J3s indica terceira pessoa do pretrito, e a seqncia depois do smbolo / indica um comentrio. Smbolos
reservados podem ser representados como parte de uma
entrada se forem antecedidos pelo smbolo \.
O formato das entradas nos demais dicionrios semelhante ao formato do exemplo mostrado acima com pequenas variaes. Alm disso, possvel armazenar informaes
semnticas adicionais por meio de palavras reservadas como
por exemplo AnlColl e ConcColl. A primeira indica um
coletivo de animais (exemplo: manada) enquanto que a segunda indica um coletivo humano (exemplo: banda).
166
ART04_Aluisio-Almeida.pmd
166
18/1/2007, 22:54
Vol. 04 N. 03
set/dez 2006
http://www.linguateca.pt/Corpografo/
Lexias com nmero varivel de palavras.
O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica
ART04_Aluisio-Almeida.pmd
167
18/1/2007, 22:54
167
Calidoscpio
tes so combinadas entre si e algumas dessas combinaes ( escolha do usurio) so enviadas como buscas no
Google. No terceiro passo, as URLs retornadas das buscas so processadas para obter-se apenas o texto contido
nelas, convertendo-as para texto puro e limpando-os,
quando for possvel. So aproveitados somente os formatos html e txt. Nesse momento, um primeiro corpus j
est formado. Desse primeiro corpus so extrados
unigramas (itens lxicos com apenas uma palavra), e a
freqncia de cada unigrama obtido no corpus apurada.
Sabendo-se a freqncia de cada unigrama, esses podem
ser comparados entre si. A relevncia de cada unigrama
mensurada utilizando a medida estatstica log odds ratio
(Baroni e Bernardini, 2004), com o apoio de um corpus de
referncia na mesma lngua. Uma lista de unigramas, ordenada pela relevncia calculada pela medida log odds ratio
ento gerada, e os primeiros elementos da lista so considerados bons candidatos a sementes. Caso o corpus
obtido at o momento no seja satisfatrio (seja pequeno,
por exemplo), podem-se eleger os primeiros unigramas da
lista como novas sementes e repetir o processo, voltando
ao segundo passo. Segundo Baroni e Bernardini (2004),
corpus representativos podem ser montados com poucas
sementes iniciais (entre 5 e 15). Os autores tambm afirmam que com duas ou trs iteraes possvel obter um
corpus satisfatrio.
O BootCaT tambm dispe de ferramentas para
extrao de termos com mais de uma palavra, ou termos
multipalavras. Para tal propsito, precisamos de duas listas, ambas obtidas no corpus de referncia: uma de
conectores e uma de stopwords. Conectores so compostos por palavras ou bigramas (itens lxicos com duas palavras, meio ambiente, por exemplo) que ocorrem freqentemente entre dois unigramas, e stopwords so termos
muito freqentes, geralmente formados por palavras de
classe fechada de uma lngua como os artigos, as conjunes, as preposies e os pronomes que no so
conectores. As listas descritas acima no precisam necessariamente ser obtidas pelo BootCaT, podem ser dadas
ou obtidas de outras fontes. Com as listas acima possvel definir o que so termos multipalavras, segundo as
restries abaixo:
1. contm ao menos um unigrama;
2. no contm stopwords;
3. podem ter conectores, desde que esses no
estejam nas extremidades do termo e no sejam consecutivos;
4. tm freqncia maior que um limiar (threshold),
que relativo ao tamanho do termo;
5. no podem ser parte de termos multipalavras
maiores com freqncia superior a k*fq, onde
http://sslmit.unibo.it/~baroni/bootcat.html
http://www.perl.com
http://www.Google.com.br/
168
ART04_Aluisio-Almeida.pmd
168
18/1/2007, 22:54
Vol. 04 N. 03
set/dez 2006
27
O e-Termos est sendo desenvolvido por Leandro Henrique Mendona de Oliveira, como tese de doutorado em Cincias de Computao
e Matemtica Computacional, com orientao de Sandra Maria Alusio. O e-Termos foi originado do TermEx, projeto que ser descrito a
seguir (http://www.nilc.icmc.usp.br/etermos/).
28
http://www.nilc.icmc.usp.br/nilc/projects/regra.htm
O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica
ART04_Aluisio-Almeida.pmd
169
18/1/2007, 22:54
169
Calidoscpio
29
170
ART04_Aluisio-Almeida.pmd
170
18/1/2007, 22:54
Vol. 04 N. 03
Subgnero
Cientfico (CI)
De referncia (RE)
enciclopdico, lexicogrfico,
terminolgico e outros.
Informativo (IF)
jornalstico e outros
Jurdico (JU)
Prosa (PR)*
Poesia (PO)*
Drama (DR)*
Instrucional (IS)
didtico, procedimental e
outros
TcnicoAdministrativo (TA)
set/dez 2006
O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica
ART04_Aluisio-Almeida.pmd
171
18/1/2007, 22:54
171
Calidoscpio
31
32
33
34
35
O projeto foi coordenado por Gladis Maria de Barcellos Almeida (UFSCar) e contou com a colaborao de Sandra Maria Alusio (USP).
http://www.ceramicaindustrial.org.br/.
http://poloclup.linguateca.pt/ferramentas/extex/
Ferramenta computacional que separa o texto em tokens (palavra, ponto, espao, qualquer sinal grfico).
http://www.nilc.icmc.usp.br/nilc/
172
ART04_Aluisio-Almeida.pmd
172
18/1/2007, 22:54
Vol. 04 N. 03
set/dez 2006
36
Etiquetar significa classificar o texto morfologicamente, ou seja, atribuir a cada unidade a classe correspondente.
I-interjeio; LOCU-locuo; PREP-preposio; N-substantivo; NP-nome prprio; VERB-verbo; ADJ-adjetivo; AUX-verbo auxiliar;
ADV-advrbio; PRON-pronome; CONJ-conjuno; NUME-numeral; ART-artigo; RES- resduo; PDEN-palavra denotativa e mais 4 tipos
de contraes: PREP+ART, para palavras como da, na; PREP+PD, para palavras como nesta, naquela, nessa; PREP+PPR,
para palavras como dela, nela; PREP+N, para palavras como dalma, dgua, darte.
38
O NILC dispe de vrios etiquetadores que podem ser acessados a partir de http://www.nilc.icmc.usp.br/nilc/tools/nilctaggers.html.
39
A avaliao e a implantao dos mtodos foi objeto de um trabalho de mestrado, denominado Avaliao de mtodos para extrao
automtica de terminologia de textos em portugus (ExPorTer) (Teline, 2004).
40
O lxico utilizado foi o do ReGra (Revisor Gramatical do Portugus), que contm 68.530 lemas e 1.563.136 entradas, incluindo formas
flexionadas, palavras compostas e locues (5.763 das entradas so locues nominais, prepositivas, adjetivas, adverbiais, conjuntivas).
Esse lxico est em constante atualizao (desde 1993), j que o lxico que d suporte ao corretor sinttico do Microsoft Word. O ReGra
foi desenvolvido no NILC (www.nilc.icmc.usp.br/nilc/projects/regra.htm).
37
O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica
ART04_Aluisio-Almeida.pmd
173
18/1/2007, 22:54
173
Calidoscpio
Projeto NanoTerm
O projeto41 intitulado Terminologia em Lngua
Portuguesa da Nanocincia e Nanotecnologia: Sistematizao do Repertrio Vocabular e Elaborao de Dicionrio-Piloto (NanoTerm) financiado pelo CNPq e foi
iniciado em 2006 (com vigncia de dois anos). O projeto
tambm uma parceria entre a UFSCar e a USP/So Carlos e
tem como objetivos: 1) a constituio de um corpus em
lngua portuguesa da Nanocincia e Nanotecnologia
(N&N); 2) a busca de equivalentes em portugus (lngua
de chegada) a partir de uma nomenclatura em ingls (lngua de partida); 3) uma ontologia em lngua portuguesa
da rea de N&N; 4) a elaborao do primeiro dicionriopiloto de N&N em lngua materna.
Para a construo do corpus, inicialmente, foi realizado um estudo exploratrio dos textos existentes em
lngua portuguesa bem como dos gneros aos quais eles
pertencem. Embora tivssemos tentado balancear o corpus,
inserindo uma quantidade equilibrada de textos dos gneros informativo, cientfico de divulgao e cientfico, obtivemos uma grande quantidade dos primeiros e uma quantidade reduzida do ltimo (cientfico). Entendemos que
isso se deve fato de a rea de N&N ser relativamente nova
no Brasil, alm disso, os pesquisadores, fundamentalmente
das reas de Exatas e Biomdicas que atuam em N&N,
publicam seus resultados de pesquisa em lngua inglesa.
Os tipos de textos que compem o gnero CIENTFICO so
fundamentalmente dissertaes e teses.
Ressalte-se que at o momento todos os textos
foram obtidos na Web. importante destacar que muitas
pginas da Internet, embora se tivessem revelado til para
a pesquisa, estavam acessveis somente para scios ou
assinantes, inviabilizando, portanto, a obteno dos textos. Sero ainda inseridos no corpus textos impressos, os
quais sero posteriormente digitalizados. No estudo
exploratrio que fizemos, encontramos apenas dois livros,
cinco5 artigos e um relatrio. Evidentemente, ser necessrio insistir na busca por mais textos impressos.
Aps a seleo dos textos, foi realizada a compilao dos textos obtidos na Web. Para essa compilao,
foram utilizados os seguintes itens de busca: nanocincia,
nanotecnologia, genmica. Todavia, aps realizarmos
buscas, decidimos incluir e o prefixo nano- para abarcar
termos como: nanotubo, nanorrede/nano-rede,
nanocpsula, nanoesfera, nanobiotecnologia, etc. Assim que cada texto era compilado, procedia-se com a sua
manipulao, isto , com a converso manual e automtica (Pacote XPDF42) de formatos doc, html e pdf
para txt e na limpeza e formatao.
41
O projeto coordenado por Gladis Maria de Barcellos Almeida (UFSCar) e conta com a colaborao de Sandra Maria Alusio (USP).
XPDF um programa de cdigo aberto que permite a converso automtica de arquivos, conferir: http://www.foolabs.com/xpdf/.
43
http://www.nilc.icmc.usp.br/lacioweb/
44
O projeto coordenado por Maria Tereza Camargo Biderman (UNESP/campus de Araraquara).
42
174
ART04_Aluisio-Almeida.pmd
174
18/1/2007, 22:54
Vol. 04 N. 03
set/dez 2006
Figura 10. Janelas do editor para a especificao de informaes bibliogrficas, de autoria e da tipologia quadripartida
(gnero, tipo textual, domnio e meio de distribuio).
O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica
ART04_Aluisio-Almeida.pmd
175
18/1/2007, 22:54
175
Calidoscpio
Figura 11. Cabealho com etiquetas XML gerado pelo Editor de Cabealho do Lcio-Web.
respondente aos sculos XVI, XVII e XVIII. Convm assinalar que o Brasil no conta com nenhuma obra
lexicogrfica sobre seu vocabulrio nos primeiros tempos
da formao do Portugus Brasileiro, o que atesta a originalidade da proposta.
Para a elaborao desse dicionrio, necessria a
construo de um corpus, evidentemente.
De forma a cumprir os seis requisitos citados no incio
deste artigo (autenticidade, representavidade, balanceamento,
amostragem, diversidade e extenso), o corpus est sendo
construdo obedecendo a uma seqncia de etapas.
Foi realizada inicialmente a seleo dos textos.
Essa seleo tem como orientao os seguintes pontos: a) os textos tm de ser escritos originalmente em
portugus por indivduos nascidos no Brasil, se tiverem nascido em Portugal, teriam de estar residindo no
Brasil h anos (autenticidade), embora saibamos que
h pouco material disponvel com essas caractersticas no sculo XVI; b) seleo de documentos de forma a abarcar distintos domnios do saber, gneros
discursivos e tipologias textuais (representatividade,
balanceamento, amostragem, diversidade); c) distribuio desses gneros e domnios nos trs sculos
que envolvem a pesquisa, por exemplo, o gnero literrio s ser pertinente no sculo XVIII, posto que antes
disso no se pode afirmar que havia uma literatura genuinamente brasileira (balanceamento); d) seleo de
uma quantidade de textos suficientes para a elaborao de um dicionrio que contemple a diversidade
lexical desses sculos (extenso), no que se refere s
classes abertas, a saber: substantivo, adjetivo, verbo
e advrbio. A previso inicial de que o corpus conte-
176
ART04_Aluisio-Almeida.pmd
176
18/1/2007, 22:54
Vol. 04 N. 03
set/dez 2006
O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica
ART04_Aluisio-Almeida.pmd
177
18/1/2007, 22:54
177
Calidoscpio
178
ART04_Aluisio-Almeida.pmd
178
18/1/2007, 22:54