Machad 03

Estudo léxico-informático de 10 canções de Camões
José Barbosa Machado

Universidade de Trás-os-Montes e Alto Douro
O estudo de textos literários através de ferramentas informáticas remonta ao início

da própria informática, que se situa nos anos 40 e evoluiu nas décadas seguintes,
atingindo um importante desenvolvimento nos anos 90. Uma das ideias iniciais era a
junção da estatística, da lexicografia e da informática, criando ferramentas rápidas que
pudessem tratar grandes quantidades de informação com o mínimo de erros. Um dos
mais destacados investigadores nesta área foi Charles Müller que, desde os anos 60,
veio publicando vários estudos, de que se destacam, Essais de Statistique Lexicale
(1964), Étude de Statistique Lexicale (1967) e Initiation aux Méthodes de la Statistique
Linguistique (1973).
Dois outros autores são Louis Gilbert, que publicou em 1963 um ensaio sobre a
utilização da estatística em lexicologia aplicada», e Pierre Guiraud, que publicou 1960
duas obras fundamentais: Les Caractères Statistiques du Vocabulaire. Essai de
Méthodologie e Problèmes et Méthodes de la Statistique Linguistique.
Em Portugal, Maria Helena Mira Mateus foi uma das primeiras autoras a falar da
importância desta metodologia para o estudo dos textos portugueses, sendo Augusto
Aires Nascimento um dos primeiros a aplicá-la na prática. Em 1977, publicou os dados
estatísticos relativos a três textos medievais portugueses: De Ministerio Armorum, Vita
S. Martini Saurensis e Vita Sancti Fructuosi. Em 1995, Olinda Santana fez o estudo
estatístico-lexical das Éclogas de Bernardim Ribeiro. Em 1997, Deolinda Rodrigues
Cabrera fez a análise estatística do texto medieval da Vita Sancti Theotonii e da sua
tradução portuguesa numa vertente léxico-comparatista.
A evolução informática e o aperfeiçoamento e simplificação dos sistemas
operativos resultou na facilidade de utilização das ferramentas. Os linguistas e os
estudiosos da literatura deixaram de se dirigir aos engenheiros informáticos para
pedirem que lhes fosse facultada determinada rotina lógica ou script que lhes resolvesse
um problema do âmbito exclusivamente metodológico do seu trabalho, para eles
próprios criarem as suas ferramentas.
2
É o caso de muitos dos programas de análise estatística de textos que surgiram

recentemente e que foram realizados por linguistas. Refiro-me a três: um americano, o
Concordancer, que é sem dúvida o mais intuitivo e o mais fácil de utilizar, mas o mais
lento e o que ocupa mais espaço em disco (cerca de 100 MB para 30 páginas de texto
analisado); um inglês, o Wordsmith, que é o mais completo; e um português, o Lexicon.
Foi deste último que nos servimos para elaborar o estudo que passamos a apresentar.
Servimo-nos deste por três razões: porque aceita a acentuação portuguesa, o que não
acontece com nenhum outro que conhecemos; porque identifica automaticamente a
classe gramatical a que pertence cada palavra; e porque fomos nós próprios que o
criámos.
O nosso objectivo foi estudar as dez canções de Camões do ponto de vista léxico-
informático, sendo necessário, para isso, termos uma listagem fidedigna de todas as
palavras que surgem no texto, o número de ocorrências de cada uma delas, ou seja, o
número de vezes em que aparecem, e a classe gramatical a que pertencem.
Passamos a descrever o método de trabalho: extraímos o texto das canções, que se
encontrava no CD-ROM Vida e Obra de Luís de Camões publicado pela Porto Editora
em 1999, e guardámo-lo em dez ficheiros diferentes em texto simples ou não formatado,
um por cada canção.
De seguida, executámos o programa Lexicon e procedemos à listagem individual
das palavras de cada uma das canções, de que resultou um conjunto de dados que
viríamos posteriormente a completar e que apresentamos no quadro seguinte:
Quadro 1
Canção Nº estrofes Nº versos Finda Nº sílabas Nº palavras Ocorrências

Canção I 7 13 X 6 3 versos 6, 10 492 246
Canção II 7 15 X 6 3 versos 6, 10 427 256
Canção III 6 13 X 5 3 versos 6, 10 325 188
Canção IV 8 16 X 7 3 versos 6, 10 727 371
Canção V 6 14 X 5 5 versos 6, 10 420 249
Canção VI 4 13 X 3 8 versos 6, 10 278 176
Canção VII 9 15 X 8 3 versos 6, 10 709 389
Canção VIII 9 13 X 8 3 versos 6, 10 494 277
Canção IX 7 15 X 6 5 versos 6, 10 556 310
Canção X 13 20 X 12 9 versos 6, 10 1504 686
Totais - - - - 5932 1793
Na coluna correspondente ao número de versos, o primeiro valor representa o

número de versos e o segundo o número de estrofes. Assim, 13 X 6 designa 13 versos
distribuídos por 6 estrofes. A finda, que é a última estrofe de cada canção, foi
contabilizada à parte, uma vez que varia no número de versos.
3
Os versos nas dez canções ora têm seis sílabas, ora têm dez sílabas. Predominam,
no entanto, os versos decassilábicos.
Os dados extraídos do Lexicon correspondem apenas às últimas duas colunas: o
número de palavras e o número de ocorrências existentes em cada canção. Os dados
relativos às estrofes, ao número de versos, à finda (ou estrofe que serve de conclusão a
cada canção) e ao número de sílabas, contabilizámo-los manualmente. O total das
ocorrências é o resultado, não da soma dos valores de cada canção, mas da soma das
ocorrências de todas as canções em conjunto.
Se fizermos uma leitura horizontal dos dados, verificamos que os valores mais
elevados nas duas últimas colunas são, em geral, proporcionais ao tamanho das canções.
Por exemplo, a Canção X é, em extensão, a maior de todas, quer em número de estrofes,
quer em número de versos, reflectindo uma maior frequência de palavras e um maior
número de ocorrências. Inversamente, a Canção VI é a mais pequena de todas, sendo a
mais reduzida em número de estrofes, versos, palavras e ocorrências.
Verificamos ainda que o total do número de palavras e o total de ocorrências em
todas as canções varia em menos de metade (por exemplo: 492 / 246).
Quanto às classes gramaticais – retiradas a partir do número de ocorrências e não
contando por isso as formas repetidas –, estão distribuídas de acordo com o seguinte
quadro:
Quadro 2
Classes gramaticais Totais Percentagem

Verbos 817 45,6%
Substantivos 444 24,8%
Adjectivos 274 15,3%
Advérbios 63 3,5%
Nomes próprios 20 1,1%
Pronomes 101 5,6%
Preposições 39 2,2%
Conjunções 20 1,1%
Artigos 7 0,4%
Numerais 5 0,3%
Interjeições 3 0,2%
TOTAL 1793 100%
Sendo o verbo na língua portuguesa o motor da frase, não é de estranhar que esta
classe gramatical tenha maior predominância em relação às restantes. Se pensarmos
ainda que a temática das canções é autobiográfica e o poeta descreve poeticamente
estados de espírito quer no presente, quer no passado, tendo por isso necessidade de
4
utilizar com frequência as formas verbais, facilmente encontramos explicação para uma
frequência tão elevada de formas verbais em relação às outras formas gramaticais.
Dentro dos verbos, verifica-se uma ocorrência reduzida do modo conjuntivo (95
ocorrências), do modo condicional (11 ocorrências), do modo imperativo (7
ocorrências) e do modo infinitivo (122 ocorrências), tendo o poeta privilegiado o modo
indicativo (402 ocorrências). As restantes formas pertencem ao particípio passado, que,
ora aparece em tempos compostos, ora tem a função de adjectivo.
No modo indicativo, mais de metade das formas pertence ao presente (209
ocorrências), podendo a partir daí colocar-se a hipótese, a comprovar através do estudo
extra-gramatical, que, do ponto de vista temporal, a voz do sujeito da enunciação das
canções fala de uma situação presente. Os tempos indicativos do pretérito estão assim
distribuídos: o pretérito perfeito tem 76 ocorrências, o pretérito imperfeito 79
ocorrências, o pretérito mais-que-perfeito 20 ocorrências, o que, somando, dá 175
formas diferentes, número inferior às formas do presente do indicativo.
O futuro imperfeito tem dezoito ocorrências e grande parte das formas pertence a
verbos sensitivos e declarativos: gritarei, queixarei, direi, dirás, dirá, sentirei, sentirão,
verás, verá, dando a ideia de que as considerações do poeta se projectarão no futuro.
Depois do verbo, surge o nome ou substantivo. Camões serviu-se basicamente de
dois subdomínios: os nomes abstractos que remetem para o campo do sentimento:
alegria, amor, afeição, desejo, desgosto, desesperação, etc.; e os nomes concretos que
surgem em momentos descritivos, pertencentes ao campo da Natureza: aves, flores,
arvoredos, gados, orvalho, vento, etc.
Os adjectivos são, curiosamente, de utilização bastante reduzida relativamente aos
verbos e aos substantivos. Também estes podem subdividir-se em dois campos
semânticos: os que se referem à descrição da Natureza que rodeia o poeta (fresca,
suaves, brandas, cristalinas, etc.); e os que se referem a sentimentos em relação a si
próprio, em relação às coisas, ou em relação aos outros (gentil, graciosa, honesto,
infelice, tímido, vingativo, justos, saudosos, etc.).
Os advérbios têm uma frequência reduzida. Dentro destes, apenas dezasseis são
advérbios de modo que, no plano da significação, remetem para a melancolia, uma das
temáticas do Camões maneirista: suavemente, sutilmente, mansamente, docemente,
brandamente, vamente, enganosamente, etc.
Surgem vinte nomes próprios, sete deles relativos à geografia: Abássia (o mesmo
que Abissínia, região junto ao Mar Vermelho), Arábia, Cabo, Oriente, Félix (monte),
5
Austro (o sul) e Mondego (o rio); os restantes relevam da mitologia greco-latina:

Aqueloo, Berenice, Eco, Febo, Flora, Ixião, Marte, Minino (ou Cupido), Progne, Sísifo,
Tântalo e Tício.
Alguns deles aparecem mais do que uma vez. É o caso de Aurora, de Marte, do
Minino e do Oriente.
Quadro 3
Palavra Ocorrência Palavra Ocorrência

Abássia 1 Flora 1
Aqueloo 1 Ixião 1
Arábia 1 Marte 2
Aurora 2 Minino 4
Austro 1 Mondego 1
Berenice 1 Oriente 2
Cabo 1 Progne 1
Eco 1 Sísifo 1
Febo 1 Tântalo 1
Félix 1 Tício 1
Quanto às restantes classes gramaticais, destacamos apenas os pronomes,

especialmente os da primeira pessoa do singular. O pronome pessoal me é o mais
frequente, com 103 ocorrências, seguindo-se eu com 29, mim com 21, meu com 34,
minha com 19 e meus com 9. Os restantes são em número muito mais reduzido,
depreendendo-se daqui que a voz enunciadora é a do próprio sujeito poético, como
sucede com grande parte da poesia lírica.
Nada do que vimos até ao momento leva a concluir da qualidade literária das
várias canções. A qualidade literária, ao contrário do que alguns investigadores desta
área possam afirmar, não é objectivamente mensurável. Depende de gostos literários, de
modas, de convenções. Quando muito, um estudo estatístico pode levar a uma
conclusão mais rigorosa que nunca poderá depender exclusivamente dos dados
estatísticos.
No quadro seguinte apresentamos a diferenciação vocabular no que diz respeito às
ocorrências no texto de cada canção. As palavras que ocorrem apenas uma vez são mais
frequentes do que aqueles que ocorrem duas ou mais vezes, podendo concluir-se que o
poeta utilizou um vocabulário bastante variado.
6
Quadro 4
Canção Nº de ocorrências Uma vez Duas vezes ou mais

Canção I 246 179 67
Canção II 256 208 48
Canção III 188 150 38
Canção IV 371 277 94
Canção V 249 190 59
Canção VI 176 131 45
Canção VII 389 290 99
Canção VIII 277 207 70
Canção IX 310 243 67
Canção X 686 497 189
Notam-se algumas diferenças entre as várias canções, podendo concluir-se da

muita ou pouca variedade do vocabulário utilizado pelo poeta em cada uma delas.
Quanto maior for o número de palavras que ocorrem apenas uma vez e quanto menor
for o número daquelas que ocorrem duas vezes ou mais, tanto maior é a variedade
vocabular. Assim, poderemos dizer que a Canção I tem um vocabulário menos variado
do que a Canção II; a Canção III tem um vocabulário mais variado do que a Canção VI;
etc.
Terminamos o nosso estudo dando um exemplo de como constituir um campo
lexical a partir dos dados elaborados pelo Lexicon das 10 canções de Camões.
Seleccionámos o campo relacionado com amor / amar. Criámos em seguida um filtro
na base de dados que nos listou as seguintes formas:
Palavra Ocorrências Classe Subclasse

ama 2 Verbo / Nome Presente do indicativo
amada 2 Verbo Particípio
amado 1 Verbo Particípio
amar 1 Verbo Infinitivo
amaríssimo 1 Adjectivo
amar-vos 1 Verbo Infinitivo
Amor 32 Nome
amores 2 Nome
amoroso 1 Adjectivo
amorosos 1 Adjectivo
namorada 1 Verbo Particípio
namorados 1 Verbo Particípio
namoro 1 Verbo Presente do indicativo
A primeira forma, ama, surge uma vez como pertencente ao verbo amar e outra
como nome comum («Foi minha ama üa fera»). Sendo etimologicamente problemática
a origem desta palavra, não a poderemos considerar como pertencente ao campo lexical
7
de amor / amar. Os programas informáticos obviamente não conseguem distinguir estas

particularidades, pelo menos por enquanto.
A língua felizmente não se reduz a fórmulas matemáticas que se possam aplicar
com regras exactas e que dão resultados exactos. As variantes, as modalizações, a
constante recriação lexical e semântica dificultam a exactidão matemática e impõem
desvios estatísticos. É por isso que, apesar de considerarmos a utilização das
ferramentas informáticas necessárias, por pouparem tempo e trabalho ao investigador,
além de darem resultados mais fiáveis, não deixamos de pensar que é necessária a
intervenção e a reflexão humanas posteriores. De outro modo deixaria de ter cabimento
a investigação científica.
Esperemos que Camões não dê muitas voltas no túmulo, onde quer que ele esteja,
ao ver o que lhe andamos a fazer aos versos que tanto lhe custaram a escandir.
8
BIBLIOGRAFIA
CABRERA, Deolinda Rodrigues (1997), Estudo Lexical da Tradução Portuguesa

Quatrocentista da Vida de São Teotónio, Braga, Faculdade de Filosofia.
GILBERT, Louis (1963), «De l'utilization de la statistique en lexicologie
appliquée», em Études de Linguistique Appliquée, nº 2, Paris, Didier.
GUIRAUD, Pierre (1960), Les Caractères Statistiques du Vocabulaire. Essai de
Méthodologie, Paris, P.U.F.
GUIRAUD, Pierre (1960), Problèmes et Méthodes de la Statistique Linguistique,
Paris, P.U.F.
MACHADO, José e Mário Morais, Vida e Obra de Luís de Camões, versão 2.0,
Porto, Porto Editora, 1999 (CD-ROM).
MATEUS, Maria Helena Mira (1966), «Perspectivas da Linguística actual. (O
método estatístico, a teoria da informação, a utilização de máquinas)», em Revista de
Portugal, série A, Língua Portuguesa, vol. 31, pp. 178-185.
MATEUS, Maria Helena Mira (1968), «Informática e Linguística: a mecanografia
nos estudos da linguagem», em Revista de Portugal, série A, Língua Portuguesa, vol.
33, pp. 218-232.
MÜLLER, Charles (1963), «Le mot, unité de texte et unité de lexique en
statistique lexicologique», em Travaux de Linguistique et de Littérature, I, pp. 155-173.
MÜLLER, Charles (1964), Essais de Statistique Lexicale. L'Illusion Comique de
Pierre Corneille, Paris, Klincksieck.
MÜLLER, Charles (1967), Étude de Statistique Lexicale. Le Vocabulaire du
Théâtre de P. Corneille, Paris, Larousse.
MÜLLER, Charles (1968), Initiation à la Statistique Linguistique, Paris,
Larousse.
MÜLLER, Charles (1973), «La Statistique Linguistique», em Le Language,
direcção de B. Pottier, Paris, pp. 288-303.
MÜLLER, Charles (1973), Estadística Lingüística, Madrid, Editorial Gredos.
Tradução espanhola de Antonio Quilis.
MÜLLER, Charles (1973), Initiation aux Méthodes de la Statistique Linguistique,
Paris, Librairie Hachette.
9
MÜLLER, Charles (1977), Principes et Méthodes de Statistique Lexicale, Paris,

Librairie Hachette.
NASCIMENTO, Augusto Aires (1977), De Ministerio Armorum: Índices,
Concordância, Análise Linguística – Dados Estatísticos, Lisboa, sem editora.
NASCIMENTO, Augusto Aires (1977), Vita S. Martini Saurensis: Índices,
NASCIMENTO, Augusto Aires (1977), Vita Sancti Fructuosi: Índices,
NASCIMENTO, Augusto Aires (1986), «A crítica textual na perspectiva de um
tratamento informático do corpus camonianum», em Critique Textuelle Portugaise –
Actes du Colloque, Paris, 20-24 Octobre 1981, Paris, Centro Cultural Português.
SANTANA, Olinda (1995), Um Estudo Estatístico-Lexical das Éclogas de
Bernardim Ribeiro, Vila Real, UTAD.

Machad 03

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Machad 03

Caricato da

Copyright:

Formati disponibili

Estudo léxico-informático de 10 canções de Camões

José Barbosa Machado

O estudo de textos literários através de ferramentas informáticas remonta ao início

É o caso de muitos dos programas de análise estatística de textos que surgiram

Canção Nº estrofes Nº versos Finda Nº sílabas Nº palavras Ocorrências

Na coluna correspondente ao número de versos, o primeiro valor representa o

Classes gramaticais Totais Percentagem

Austro (o sul) e Mondego (o rio); os restantes relevam da mitologia greco-latina:

Palavra Ocorrência Palavra Ocorrência

Quanto às restantes classes gramaticais, destacamos apenas os pronomes,

Canção Nº de ocorrências Uma vez Duas vezes ou mais

Notam-se algumas diferenças entre as várias canções, podendo concluir-se da

Palavra Ocorrências Classe Subclasse

de amor / amar. Os programas informáticos obviamente não conseguem distinguir estas

CABRERA, Deolinda Rodrigues (1997), Estudo Lexical da Tradução Portuguesa

MÜLLER, Charles (1977), Principes et Méthodes de Statistique Lexicale, Paris,

Potrebbero piacerti anche