Sei sulla pagina 1di 16

1

A Lingustica de Corpus no Brasil

Autores: Tony Berber Sardinha


Gladis Maria de Barcellos Almeida

Autores

Prof. Dr. Antonio Paulo Berber Sardinha


Tony Berber Sardinha (como conhecido) possui graduao em Letras pela Pontifcia Universidade Catlica
de So Paulo (1986), mestrado em Lingstica Aplicada e Estudos da Linguagem pela Pontifcia Universidade
Catlica de So Paulo (1991, com M. Antonieta Celani), doutorado em Ingls - University of Liverpool (1997,
com Michael Hoey), ps-doutorado na Northern Arizona University (2005, com Douglas Biber).

Prof. Dr. Gladis Maria de Barcellos Almeida

rea(s) de Atuao e Orientao


Lingustica
Anlise Lingustica
Cincia do Lxico (Lexicologia, Lexicografia e Terminologia)
Lingustica de Corpus
Processamento de Lngua Natural (PLN)

Sobre a Lingustica de Corpus


A Lingustica de Corpus como rea interdisciplinar tem
crescido desde dos anos 80 na Europa e mais tarde em
outras partes do mundo

Aplicaes: Lexicografia, estudos sistemticos do uso


da lngua, tradues...

Indcios da fora crescente da Lingustica


de Corpus no Brasil Encontros de
lingustica
Ocorreram oito encontros :
o 1 seminrio sobre estudos de corpus: implantao e perspectivas;
o 2 seminrio sobre estudos de corpus: perspectivas para traduo
o 3 encontro de corpora
o 4 encontro de corpora
o 5 encontro de corpora
o 6 encontro de Lingustica de corpus
o 7 encontro de Lingustica de corpus

Levantamento de dados de Lingustica de


Corpus no Brasil
Foram feitas pesquisas utilizando busca avanada por assunto
que possuam exatamente a expresso Lingustica de Corpus,
tendo como base dados que foram utilizados nos ltimos 240
meses.

As informaes que foram usadas nessa pesquisa foram de


pessoas que no necessariamente estavam ligadas a rea de
lingustica, pois era preciso apenas mencionar a expresso
Lingustica de Corpus de modos diferentes.

Um breve censo
Termo de busca (com suas variaes)

Pesquisadores

Lingustica de Corpus

132

Lingustica Histrica

171

Lingustica Textual / do Texto

317

Lingustica Aplicada

880

Quadro 1: Nmero de currculos Lattes com meno a reas de Lingustica

Termo de busca (frases exatas)

Grupos de pesquisa

Lingustica de Corpus

12

Lingustica Histrica

28

Lingustica Textual ( e do Texto)

27

Lingustica de Aplicada

74

Quadro 1: Nmero de grupos de pesquisa com meno a reas da lingustica

Quanto as publicaes de livros e peridicos


sobre Lingustica de Corpus
Livros:
o
o
o
o

Lingustica de Corpus (Berber Sardinha, 2004)


A Lngua Portuguesa no Computador (Berber Sardinha, 2005b)
O Jeito que a Gente Diz (Tagnin, 2005)
Um Percurso para Pesquisas com Base em Corpus (Gerber &
Vasilevski, 2007)

o
o
o

Peridicos*:
Cadernos de Traduo (2003)
Crop (2004)
TradTerm (2004)

*Todos os peridicos foram originados por Stella E. O. Tagnin

Quanto as teses e dissertaes


Para tal pesquisa foi utilizada a base de dados do CAPES e foram
feitas buscas com o os termos Lingustica de Corpus e suas
variaes. Foram encontrados 11 documentos com texto integral,
entre as mais de 26 mil disponveis. No stio de teses da USP, foram
encontrados 6. J no da PPG em Programa de Ps-Graduao em
Lingustica Aplicada e Estudos de Linguagem da PUCSP, foram
encontrados apenas 18. Tais dados claramente no refletem a
realidade.

10

Quanto ao Corpora (na lngua portuguesa)


Banco de Portugus: criado no mbito do grupo de pesquisa Direct
(PUCSP), na verso 2 possui 750 milhes de palavras, de fala e
escrita, de portugus contemporneo. Um milho de palavras esto
disponveis para consulta online, no stio do CEPRIL.
COMET: o projeto COMET, e, elaborao junto ao Departamento de
Letras Modernas (DLM) da Faculdade de Filosofia, Letras e
Cincias Humanas (FFLCH) da USP, disponibiliza um corpus
eletrnico que tem por objetivo servir de suporte a pesquisas
Lingusticas, principalmente nas reas de traduo, terminologia e
ensino de lnguas.

11

Corpus de Araraquara, com cerca de 90 milhes de palavras (de


portugus brasileiro) (Borba, 2004).
Lcio-Web: 10 milhes de palavras de portugus brasileiro
contemporneo, criado pelo Ncleo Interinstitucional de Lingustica
Computacional (NILC)
Linguateca: constitui um centro de recursos para o processamento
computacional da lngua portuguesa e tem como objetivo servir
comunidade que se dedica ao processamento do portugus.
Tycho-Brabe: 2,1 milhes de palavras de portugus dos sculos
XIV e XIX.

12

Quanto s ferramentas
CEPRIL O portal do Centro de Pesquisa, Recursos e Informao
em Linguagem (do PPG em LAEL, PUCSP) oferece um grande
conjunto de ferramentas de anlise de corpora, todas gratuitas, com
interfaces simples em portugus, com a finalidade de facilitar o
acesso de pesquisadores e estudantes brasileiros.
Corpgrafo - o Ambiente Corpgrafo foi desenvolvido pela Faculdade
de Letras da Universidade do Porto (FLUP). Constitui um gestor de
corpus que se encontra, atualmente, direcionado para pesquisas
terminolgicas, isto , a extrao de termos e sua organizao em
base de dados. Dentre as ferramentas que possui, esto
concordanciadores, contadores de frequncia e tambm ferramentas
de pr-processamento de corpus, como as de limpeza de corpus e
sentenciadores.

13

NILC o Ncleo Interinstitucional de Lingustica Computacional foi criado


em 1993 no ICMC/USP, So Carlos (SP) e tem como objetivo
desenvolver projetos de pesquisa em Lingustica Computacional e
Processamento da Lngua Natural (PLN). Oferece gratuitamente as
seguintes ferramentas: etiquetador, visualizador e alinhador de sentena,
analisador discursivo de textos (DiZer), segmentador de sentenas para
portugus e ingls (SENTER).
TextQuim o site disponibiliza as seguintes ferramentas:
concordanciador, gerador de lista de palavras, gerador de n-gramas e
concordanciador alinhado.
ToolKit BootCaT extrator automtico de corpus e de termos, auxilia na
montagem de corpus, de modo iterativo, a partir de textos obtidos na
Web.
Unitex o software Unitex, desenvolvido na Universidade de Marne-LaValle (Frana), consiste num conjunto de programas que permite o
processamento de grandes quantidades de textos em diversas lnguas.

14

Comentrios finais
Os nmeros fornecidos so apenas parciais, h mais informaes
sobre o objeto estudado;
H insero internacional da Lingustica de Corpus brasileira. A
Lingustica de Corpus feita no Brasil participa de vrios eventos no
exterior;
A Lingustica de Corpus no Brasil no nasceu dos encontros de
Lingustica, houveram muitas reunies, pesquisas, alunos e
professores que ao longo dos anos formaram as bases do que temos
hoje;
Sardinha valida o trabalho de Biderman e Zilda Zaparolli como
pioneiras no processamento da linguagem poir computador no pas
nos anos de 1960 at 1970;

15

As pesquisas em Lingustica de Corpus no Brasil so multilngues;


H a necessidade de mais associaes, projetos, GT da Anpoll e um
peridico;
Ao longo de 1999 at 2008, houve um crescimento qualitativo e
quantitativo atravs da iniciao cientfica, mestrados e doutorados, o
que legitima mais a disciplina no Brasil.

16

Alunas:
Beatriz Cirilo Cantilho
Marianna Gomes
Thayn Marques

Potrebbero piacerti anche