Artigo COMPARA

Compara, um corpus paralelo de portugus...
61
COMPARA, UM CORPUS PARALELO DE PORTUGUS E INGLS NA WEB
Ana Frankenberg-Garcia & Diana Santos ISLA, Lisboa/SINTEF, Oslo
Introduo O COMPARA um corpus eletrnico paralelo1 cuja estrutura foi inspirada no ENPC (English-Norwegian Parallel Corpus, Johansson et al. 1999). Os textos que constituem o corpus so originais em lngua inglesa e portuguesa e as suas tradues para portugus e ingls. O corpus extensvel (podendo conter um nmero ilimitado de textos), de acesso gratuito atravs da Web, e foi desenvolvido para ser til tanto para pessoas com pouca ou nenhuma experincia prvia na utilizao de corpora, como para utilizadores experimentados. Determinou-se que o corpus seria extensvel por duas razes de ordem prtica. Primeiro, porque isso permitiria torn-lo operacional logo de incio e ainda com poucos textos, uma vez que no existia (e ainda no parece existir) nenhum outro corpus paralelo de livre acesso que inclua o portugus. Segundo, porque assim poderiam ser os prprios utilizadores do corpus a indicar o melhor caminho para a sua expanso. Esta escolha tambm acabou por facilitar a correo de alguns problemas inicias e a incorporao de novas funcionalidades, j que o corpus ainda era pequeno e havia menos alteraes a fazer. Quisemos que o pblico-alvo do COMPARA abrangesse todos os que estudam, investigam ou trabalham com o portugus e o in-
62
Ana Frankenberg-Garcia & Diana Santos
gls, entre os quais encontram-se falantes nativos de portugus a aprender ingls, falantes nativos de ingls a aprender portugus, professores e autores de materiais didticos de portugus e ingls lngua estrangeira, tradutores, professores e estudantes de traduo, lexicgrafos, engenheiros da linguagem, lingistas interessados no estudo da traduo e investigadores na rea da literatura comparada. Todos estes grupos so utilizadores potenciais do COMPARA. Tivemos, por isso, especial preocupao em assegurar que uma gama vasta de utilizadores pudesse facilmente servir-se do COMPARA, e que o corpus no se limitasse a ser til apenas s pessoas j habituadas a trabalhar com corpora. O nosso objectivo foi desenvolver um sistema que no afastasse ou assustasse quem nunca tivesse lidado com um corpus informatizado. O acesso ao COMPARA gratuito e efetua-se, sem necessidade de registro prvio, atravs do endereo http:// www.portugues.mct.pt/COMPARA/BemVindo.html. Este site da responsabilidade do Projeto Processamento Computacional do Portugus2 . As consultas ao COMPARA tambm podem ser feitas por pessoas que conhecem pouco o portugus, pois toda a informao necessria utilizao do corpus encontra-se em portugus e em ingls.
Seleo de textos A escolha dos textos que constituem o corpus no obedeceu a nenhum critrio de seleo em termos de variante lingstica. Considerou-se interessante incluir o portugus de todos os pases de expresso portuguesa e o ingls de todos os pases de expresso inglesa. Com isto, o corpus permite comparar no s originais com tradues, mas tambm tradues para variantes diferentes. Neste momento, por exemplo, possvel utilizar o COMPARA para realizar um estudo contrastivo da traduo portuguesa e da tradu-
63
o brasileira do romance Therapy, do autor ingls David Lodge. Alm disso, se o utilizador assim o desejar, poder tambm delimitar o corpus de modo a compor um sub-corpus contendo unicamente as variantes que lhe interessam. O COMPARA admite tanto textos contemporneos como textos antigos. No houve qualquer restrio a nvel de data de publicao. Isto possibilita comparar tradues do mesmo original publicadas em pocas diferentes. o caso do romance Iracema, de Jos de Alencar (1865), que no COMPARA se encontra alinhado com uma traduo americana publicada em 2000 e com uma traduo inglesa de 1886, permitindo assim um estudo diacrnico. Mais uma vez, se o utilizador assim o entender, poder restringir o corpus de maneira a construir um sub-corpus que exclua os textos anteriores ou posteriores a um ano de publicao qualquer. Optou-se por comear o corpus a partir de uma coleo de textos de fico, embora, numa fase posterior, esteja prevista a introduo de outros gneros. A deciso baseou-se numa srie de consideraes, entre as quais inclui-se o fato de estas tradues (e originais) terem sido publicadas, o que por si s garante uma certa qualidade lingstica dos textos. Alm disso, existe um nmero razovel de obras de fico em lngua portuguesa com tradues publicadas para ingls, realidade que no se aplica a gneros como, por exemplo, o jornalstico e o cientfico e acadmico.
Direitos de autor Para se utilizar textos num corpus antes de mais nada necessrio obter licenas de utilizao junto dos detentores dos direitos de autor das obras pretendidas. Para a parte inicial do COMPARA, de textos de fico, procurou-se obter principalmente autorizao para a utilizao de publicaes em lngua original portuguesa e suas respectivas tradues para ingls, visto que a quantidade
64
e variedade destas obras so muito menores do que as de originais em lngua inglesa com traduo para portugus. A resposta global dos autores, tradutores e editores contactados foi bastante encorajadora, especialmente se considerarmos que deram autorizao para os seus textos serem pesquisados gratuitamente atravs da Web. Neste momento, o COMPARA dispe de licenas para incluir extratos (tipicamente da ordem de 30% do tamanho total da obra3 ) de sessenta e um pares de textos, de autores e tradutores provenientes da frica do Sul, Angola, Brasil, Estados Unidos da Amrica, Moambique, Portugal e Reino Unido, nos quais est representado o trabalho de 34 autores e 32 tradutores4 .
A constituio do corpus em Novembro de 2001 O projeto de criao do COMPARA iniciou-se em meados de Outubro de 1999. O nmero de textos totalmente processados ainda reduzido, mas j possvel utilizar o COMPARA com resultados prticos quer em estudos contrastivos gramaticais, quer na obteno semi-automtica de material de apoio ao ensino de lnguas e da traduo (cf. Frankenberg-Garcia, no prelo). Para anlises lexicais, o COMPARA, neste momento, mais limitado, pois inclui apenas a linguagem ficcional. No muito provvel, portanto, encontrar no corpus lxico que no seja comum em textos de fico, como termos tcnicos, por exemplo5 . A Tabela 1 resume o contedo do corpus data da escrita do presente artigo. Mais detalhes acerca dos textos que o compem encontram-se disponveis em http://portugues.mct.pt/COMPARA/Conteudo.html.
65
Tabela 1: Contedo do COMPARA em Novembro de 2001 COMPARA Novembro 2001 Originais Tradues Palavras Lngua portuguesa 7 4 187 093 Lngua Inglesa 3 8 193 548 Total 10 12 380 641
Opes de codificao O principal objetivo da codificao de texto adotada pelo COMPARA dar acesso traduo de frases de portugus para ingls e vice-versa. Isto implica que o COMPARA permite investigar particularidades a nvel da frase ou dos constituintes desta (palavras, oraes, sintagmas, etc.). No possvel utilizar o COMPARA para inspecionar, por exemplo, pargrafos ou captulos (no porque nos parecesse desinteressante, mas devido ao que tal significaria em termos de direitos de autor). Estas divises, portanto, no foram explicitamente marcadas no corpus. Tambm no se guardou informao sobre disposio grfica, figuras, diagramas, numerao de pginas, etc., omitindo-a na digitalizao. Em suma, no se tentou preservar os textos de uma maneira que permitisse recuperar a sua forma original, visto que o COMPARA no tem licena de redistribuio dos originais e tradues que o compem. Tambm por essa razo, no foi necessrio seguir as normas do TEI (Text Encoding Initiative) (Sperberg-McQueen & Burnard 1994) ou de qualquer outro padro de codificao de corpora concebido para o intercmbio de textos, embora algumas solues do TEI tenham servido de inspirao para resolver certos problemas de codificao.
66
Alinhamento A unidade bsica de alinhamento adotada no COMPARA definida pela frase do texto original. Quando a correspondncia frsica entre o original e a traduo no direta, optou-se por manter intacta a separao por frases do original e introduzir ajustes ao alinhamento apenas na traduo. Assim, cada frase do texto de partida encontra-se alinhada com o texto correspondente na traduo, seja ele uma, mais do que uma ou apenas parte de uma frase. As frases no traduzidas encontram-se alinhadas com entidades vazias. Inversamente, as frases introduzidas pelo tradutor sem texto correspondente no original so includas na unidade de alinhamento imediatamente precedente e marcadas de maneira a se poder identificar que so frases adicionais. Por outro lado, se tiver havido um reordenamento de frases na traduo, o alinhamento segue as regras anteriores, desde que seja possvel identificar as correspondncias. A mudana na ordem codificada separadamente. Por exemplo, caso a ordem das frases ABC no original tenha sido alterada para ACB na traduo, a frase A da traduo ser alinhada com a frase A do original e a ordem das frases C e B da traduo ser invertida de modo a que possam ser alinhadas com as frases B e C do original. A Tabela 2 resume esses critrios de alinhamento. Tabela 2: Alinhamento por frase (F) do texto original ORIGINAL F F F F F Fa Fb Fc
TM TM TM TM TM
TM
TRADUO F F,F F F(+F) Fa Fc Fb
67
Todos os tipos de alinhamento identificados acima esto codificados de modo a que o utilizador possa, se assim o escolher, recuperar esta informao sempre que fizer uma busca. Alm disso, possvel pesquisar automaticamente todos os casos em que houve juno, separao, omisso, adio e reordenamento de frase na traduo. No entanto, refira-se que a marcao do tipo de alinhamento se restringe apenas ao nvel da frase. No possvel, dada a complexidade acrescida em termos de preparao de texto e de programao, inspecionar automaticamente a adio ou a omisso de constituintes da frase, tal como palavras ou oraes. Cabe realar que os critrios de alinhamento adotados, baseados sempre na diviso frsica do texto original, simplifica o alinhamento de um mesmo original com vrias tradues, e permite, indiretamente, a comparao entre dois (ou mais) textos traduzidos, usando como denominador comum o original de que ambos derivam. Preparao do corpus: do texto impresso ao hipertexto alinhado O procedimento para se preparar um texto para o seu funcionamento no COMPARA o seguinte: 1. Os textos que no conseguimos obter em verso eletrnica so digitalizados atravs de um programa de reconhecimento tico de caracteres (OCR). 2. A leitura tica revista, todo o material no textual eliminado, e so introduzidas marcas de ttulo, palavras ou expresses estrangeiras, e nfase. As notas de traduo so, alm disso, introduzidas no ponto onde a sua chamada ocorre. 3. Faz-se um alinhamento manual por pargrafos, do texto original e da traduo. 4. Um conjunto de programas desenvolvidos no mbito do projeto AC/DC (Santos & Bick, 2000) identifica as unidades bsicas (tokens) e faz a separao de frases de cada texto (original e traduo). 5. O original e a traduo so alinhados automaticamente pelo
68
6.
7. 8.
9.
programa EasyAlign, que integra o IMS Corpus Workbench - o ambiente para processamento de corpora utilizado no COMPARA6 . O alinhamento obtido atravs do EasyAlign passa por uma reviso manual de modo a s aceitar alinhamentos do tipo uma frase do original para x frases na traduo. Durante essa reviso incluise a marcao manual de todos os casos de adio, juno e reordenamento de frases na traduo, assim como os casos complexos de 1+1/x (por exemplo, uma frase do original alinhada com uma frase e meia da traduo). Faz-se a marcao automtica dos casos de omisso e separao de frases e uma primeira verso do par original-traduo posta em funcionamento. Utiliza-se a prpria interface DISPARA para recuperar as unidades de alinhamento que contenham separao de frases na traduo, uma vez que a separao automtica de frases, apesar de ser de grande utilidade, no 100% fivel. A partir dos resultados obtidos, faz-se uma nova reviso manual do alinhamento de modo a discriminar os casos em que houve realmente separao de frases dos casos em que no houve de fato separao7 . Uma verso revista do par de textos posta em funcionamento.
Buscas no COMPARA: a interface DISPARA O COMPARA acedido atravs da interface DISPARA8 , desenvolvida para fazer de ponte entre o IMS Corpus Workbench e as especificidades prprias do COMPARA. Embora esta interface tenha sido originalmente criada para o COMPARA, tambm facilmente adaptvel a outros corpora paralelos codificados no sistema do IMS Corpus Workbench. A interface DISPARA d acesso a duas opes de busca no COMPARA. A BuscaSimples, feita para pessoas com pouca ou nenhuma experincia na utilizao de corpora, permite procurar
69
palavras ou seqncias de palavras em portugus (ou em ingls) em todos os textos do corpus e ver como estas palavras ou seqncias foram traduzidas para ingls (ou portugus). As instrues para se usar a BuscaSimples so elementares: os utilizadores precisam apenas escrever uma palavra ou expresso em ingls (ou portugus) e acionar o boto de procura (cf. http:// www.portugues.mct.pt/COMPARA/BuscaSimples.html). A BuscaComplexa destina-se a procuras mais sofisticadas. Ainda assim, procurou-se criar uma interface de fcil utilizao, de modo a que mesmo quem nunca tenha usado um corpus paralelo se sinta capaz de explorar as suas potencialidades. De momento, a BuscaComplexa compreende quatro passos (cf. http://www.portugues.mct.pt/COMPARA/BuscaComplexa.html): 1 Passo Neste passo os utilizadores devem escolher a direo de procura. Alm de poderem escolher fazer uma busca de portugus para ingls ou de ingls para portugus, como na BuscaSimples, podem escolher procurar apenas de original para traduo ou s de traduo para original. Tal restrio obviamente relevante nos casos em que a direcionalidade da traduo interessa. 2 Passo Enquanto na BuscaSimples os resultados de uma pesquisa baseiam-se sempre na totalidade dos textos do corpus, este passo da BuscaComplexa serve justamente para se fazer uma pr-seleo dos textos que se pretende utilizar. Esta opo obviamente importante visto que o COMPARA um corpus aberto, e pode conter textos que no interessam a todos os utilizadores. H trs maneiras de se pr-selecionar textos: 1. Pode-se escolher automaticamente a variante ou combinao de variantes do portugus e do ingls que se pretende utilizar, excluindo qualquer variante indesejada. Por exemplo, poss-
70
vel utilizar apenas portugus do Brasil e ingls britnico, ou apenas textos em ingls sul-africano e todas as variantes do portugus9 . 2. tambm possvel selecionar os textos por ano de publicao do original e/ou da traduo. Os utilizadores interessados apenas na linguagem de textos recentes podem omitir automaticamente os originais e as tradues anteriores a uma determinada data. Os utilizadores interessados apenas em textos mais antigos podero igualmente excluir as obras mais recentes, posteriores a um ano de publicao qualquer. 3. A terceira opo de escolha a mais fina, permitindo ao utilizador escolher qualquer combinao de pares de textos. Assim, possvel selecionar um sub-corpus apenas com textos de um mesmo autor, ou mesmo tradutor, ou com mais de uma traduo, etc. Quando o corpus contiver outros gneros alm da fico, ser tambm possvel fazer uma pr-seleo automtica por gnero lingstico. 3 Passo Enquanto na BuscaSimples os resultados so sempre apresentados na forma de concordncias, neste passo da BuscaComplexa o utilizador pode indicar que tipo de resultado pretende (ou combinao destes). Alm de concordncias, possvel obter a distribuio das formas presentes no corpus (por exemplo, para uma busca que inclua for instance e for example, saber quantas vezes cada uma das expresses aparece), a distribuio das fontes (em que textos que foram encontradas) e, no caso de a pergunta ter sido formulada com um lado no texto original e outro na traduo, um resumo quantitativo (a distribuio dos resultados nas duas lnguas). 4 Passo Finalmente, a expresso de procura digitada. Pode-se digitar uma simples palavra ou uma seqncia de palavras delimitadas
71
individualmente por aspas, ou, atravs da sintaxe do IMS Corpus Workbench, pode-se efetuar buscas mais sofisticadas. possvel, por exemplo, procurar numa s expresso formas ortogrficas diferentes (ex. acto e ato), diversidade morfolgica de uma palavra (ex. as formas do verbo imaginar), todas as palavras comeadas por uma seqncia de letras qualquer (ex. as letras que compem o prefixo de negao ingls un), duas palavras com uma ou vrias palavras indeterminadas entre elas (ex. um {bom? mau? difcil?} comeo), etc.10 . Uma potencialidade que torna o sistema ainda mais interessante, na nossa opinio, a hiptese de restringir a procura no corpus tambm pelo lado da traduo, ou seja, possvel procurar em paralelo nas duas lnguas, e obter apenas os casos em que, por exemplo, even traduzido por at, ou ento somente os casos em que even no traduzido por at. Enquanto as facilidades acima provm diretamente do IMS Corpus Workbench, h outras que foram implementadas de raiz no DISPARA, que permite observar o tipo de alinhamento, inspecionar notas de traduo e recuperar ttulos, marcas de nfase e palavras estrangeiras associados a cada expresso de busca. Atravs do DISPARA tambm possvel examinar estes fatores independentemente de qualquer expresso de busca, bastando, para tal, deixar a janela da expresso de busca vazia. Por fim, devido manuteno da informao sobre o tipo de alinhamento, possvel recuperar todas as frases do original que tenham sido divididas, ou unidas, ou omitidas, ou reordenadas na traduo, assim como todas as frases da traduo que no constem do original.
Apresentao dos resultados As licenas de utilizao dos textos que compem o COMPARA permitem o uso dos resultados das pesquisas para efeitos de investigao e de ensino.
72
No entanto, para salvaguardar os direitos de autor, o nmero mximo de concordncias mostradas cada vez que se faz uma busca 500. Se o utilizador optar por no utilizar a totalidade do corpus, mas apenas uma parte reduzida dele, o nmero mximo de concordncias que se pode apresentar passa a ser 200, de modo a que nenhum texto aparea na ntegra. Quando os resultados excedem estes limiares, mostra-se uma amostra aleatria de 500 (ou 200) concordncias, embora se indique sempre o nmero total de instncias encontradas. O utilizador receber, nesses casos, uma mensagem informando que, para a proteo dos direitos de autor, apenas 500 (ou 200) casos sero facultados dentre os x>500 (ou x>200) encontrados. As concordncias so apresentadas em duas colunas verticais, com o texto portugus (ou ingls) procurado pelo utilizador a negrito do lado esquerdo, e o texto correspondente em ingls (ou portugus) do lado direito. Em vez de a concordncia ser definida em termos de um nmero fixo de caracteres para a esquerda e para a direita, o utilizador v sempre uma frase completa do texto original, alinhada com o texto correspondente na traduo (cf. apndice). Associado a cada concordncia apresentado um identificador que aponta para a descrio do par de textos e o nmero da unidade de alinhamento em questo. Seguindo o atalho, o utilizador tem acesso referncia bibliogrfica completa dos textos em causa e a informao sobre direitos de autor, variante lingstica e dados quantitativos sobre o tamanho do extrato, em palavras e em unidades de alinhamento. possvel navegar pelo resultado de forma a ver todas as concordncias, assim como gravar os resultados em HTML, texto ou mesmo simplesmente cortar e colar para qualquer processador de texto, caso se queira aproveitar os resultados para fins didticos (cf. Frankenberg-Garcia, 2000, Frankenberg-Garcia no prelo) ou para efeitos de investigao.
73
Concluso O corpus COMPARA, apesar de se encontrar ainda numa fase inicial, tem a sua estrutura bsica definida e, graas interface DISPARA, j pode ser utilizado com finalidades prticas diversas. Ainda existe uma lista de obras para as quais j se obteve autorizao de incluso no corpus, mas que esto espera de ser processadas. H igualmente planos para expandir o corpus para outros gneros de texto, bem como para aprimorar a interface DISPARA, de modo a melhorar a sua funcionalidade ou simplesmente torn-la mais fcil de usar. Estamos convencidas que este apenas o princpio, e que o COMPARA poder vir a beneficiar uma vasta comunidade de pessoas interessadas na traduo do par portugus-ingls. Acreditamos que algumas das opes tomadas na concepo do corpus COMPARA e da interface DISPARA foram inovadoras, e esperamos que venham a contribuir para o avano do campo mais largo do processamento e estudo de corpora paralelos como sub-disciplina da lingstica de corpora.
Notas
1. Por corpus paralelo entende-se aqui uma coleo bilnge de textos alinhados com as suas tradues, chamado corpus de tradues na tradio da lingstica contrastiva. Johansson (1998) sugeriu que o progresso da rea levaria resoluo deste conflito terminolgico, o que parece no ter ainda acontecido veja-se, tambm, a esse propsito, a introduo de Vronis (2000) para um breve enfoque histrico do conceito. 2. Este projeto (http://www.portugues.mct.pt/), financiado pelo Ministrio da Cincia e da Tecnologia de Portugal, tem como principais atividades a catalogao, a criao e disponibilizao de recursos de lngua portuguesa na Web, e a avaliao do
74
processamento computacional da lngua portuguesa. Veja-se Santos (2000) e Veiga & Santos (2001) para uma panormica das vrias atividades do projeto. 3. Ao contrrio do ENPC (English-Norwegian Parallel Corpus), os extratos do COMPARA no so todos do mesmo tamanho nem so sistematicamente retirados do incio da obra, devido suspeita, referida em Santos e Oskefjell (1999), que essa opo restrinja de forma arbitrria o tipo de texto. 4. A lista de autorizaes do COMPARA constantemente atualizada em http:// www.portugues.mct.pt/COMPARA/Conteudo.html 5. Cabe aqui lembrar que os estudos lexicais exigem corpora bem maiores que os estudos gramaticais (Biber et al, 1998). 6. Consideramos o IMS Corpus Workbench (Christ, 1994; Christ et al. 1999) o sistema de corpora que melhor se adapta s necessidades do projeto Processamento Computacional do Portugus, no contexto do qual a interface DISPARA foi desenvolvida. Mais detalhes sobre esta motivao encontram-se descritos em Santos (1998), e Santos & Ranchhod (1999). 7. As falhas ocorrem especialmente nos casos de discurso direto. Isso porque o programa de separao automtica de frases interpreta o ponto de exclamao ou de interrogao seguido de uma palavra iniciada com letra maiscula como sendo uma fronteira entre duas frases. Assim, enquanto o programa separa corretamente seqncias como What a surprise! I love you! ou Quem chegou? Foi a Maria?, acaba tambm por separar indevidamente seqncias como What a surprise! I said. e -Quem chegou? Maria perguntou. So precisamente estes os casos que requerem uma reviso manual. 8. DISPARA um sistema genrico de DIStribuio de corpora PARAlelos na Web. 9. Qualquer combinao possvel, embora nem todas existam no corpus (por exemplo, no existe no corpus nenhum texto em ingls americano traduzido para portugus de Angola). 10. Existe, no prprio formulrio da BuscaComplexa, uma ligao direta para o manual do IMS Corpus Workbench, que fornece uma descrio detalhada das
75
opes existentes. A sintaxe do IMS Corpus Workbench tem um poder expressivo muito elevado, mas a sua utilizao requer um certo treino. Para facilitar a tarefa, est prevista a criao de um manual do utilizador do COMPARA, com exemplos relevantes para o par ingls-portugus.
Referncias
BIBER, Douglas, S. CONRAD. & R. REPPEN (1998) Corpus Linguistics: investigating language structure and use. Cambridge: Cambridge University Press. CHRIST, Oliver, B. SCHULZE, A. HOFMANN & E. KOENIG (1999) The IMS Corpus Workbench: Corpus Query Processor (CQP): Users Manual, Institute for Natural Language Processing, University of Stuttgart, March 8, 1999 (CQP V2.2) http://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/ CQPUserManual/HTML/ FRANKENBERG-GARCIA, Ana (2000) Using a Translation Corpus to Teach English to Native Speakers of Portuguese. Op. Cit. - A Journal of Anglo-American Studies, 3, 65-78. FRANKENBERG-GARCIA, Ana (no prelo) COMPARA, language learning and translation training Atas da conferncia Training the Language Service Provider for the New Millennium, Faculdade de Letras, Universidade do Porto, 25-26 Maio 2001. JOHANSSON, Stig (1998) On the role of corpora in cross-lingistic research in Stig Johansson & Signe Oksefjell (eds) Corpora and crosslingistic research: theory, method and case studies, Amsterdam: Rodopi, pp 3-24. JOHANSSON, Stig , J. EBELING & S. OKSEFJELL (1999) English-Norwegian Parallel Corpus: Manual http://www.hf.uio.no/iba/prosjekt/ENPCmanual.html [acedido 7/7/2000]
76
SANTOS, Diana (1998) Providing access to language resources through the World Wide Web: the Oslo Corpus of Bosnian Texts, in A.Rubio, N.Gallardo, R.Castro & A.Tejada (eds.) Proceedings of The First International Conference on Language Resources and Evaluation, 1, 475-481. SANTOS, Diana & S. OKSEFJELL (1999) Using a Parallel Corpus to Validate Independent Claims, Languages in Contrast, 2:1, 117-132. SANTOS, Diana & E. RANCHHOD (1999) Ambientes de processamento de corpora em portugus: Comparao entre dois sistemas, in Atas do IV Encontro sobre o Processamento Computacional da Lngua Portuguesa (Escrita e Falada), PROPOR (vora, 20-21 Setembro de 1999), 257-268. SANTOS, Diana & E. BICK (2000) Providing Internet access to Portuguese corpora: the AC/DC project, in Gavriladou M., G. Carayannis, S. Markantonatou, S.Piperidis & G. Stainhaouer (eds.) Proceedings of the Second International Conference on Language Resources and Evaluation, LREC2000, 205-210. SANTOS, Diana (2000) O projeto Processamento Computacional do Portugus: Balano e perspectivas, in M. Graa Nunes (ed) Actas do V Encontro para o processamento computacional da lngua portuguesa escrita e falada (PROPOR 2000), 105-113. SPERBERG-MCQUEEN, C. & BURNARD, L. (eds.) (1994) Guidelines for Electronic Text Encoding and Interchange TEI P3. Association for Computers and Humanities/ Association for Computational Lingistics/ Association for Literary and Lingistic Computing. Chicago & Oxford. VEIGA, Pedro & Santos, D. (2001) Contributo para o processamento computacional do portugus: o CRdLP, in Maria Helena Mira Mateus (ed.), Mais Lnguas, Mais Europa: celebrar a diversidade lingustica e cultural da Europa (Actas do colquio de 25 a 26 de Janeiro de 2001), Lisboa: Edies Colibri, 103-109. VRONIS, Jean (ed.) (2000) Parallel Text Processing, Dordrecht: Kluwer Academic Publishers.
77
APNDICE
Resultados da pesquisa Os resultados das buscas efectuadas no COMPARA podem ser usados para fins educacionais e investigao, desde que se mencione a fonte. Para citar textos especficos do corpus, selecione o cdigo azul ao lado de cada concordncia de modo a obter a sua referncia completa. Para se referir ao corpus como um todo, cite: COMPARA http://www.portugues.mct.pt/COMPARA/ [25Novembro-2001] Procura: saudade(s)?. Pedido de : concordncia em contexto. Corpus: COMPARA_PORT 11 ocorrncias.
PBJA1T1(20): Enquanto vogas assim discrio do vento, airoso barco, volva s brancas areias a saudade, que te acompanha, mas no se parte da terra onde revoa. While thou sailest thus at the mercy of the wind, graceful craft, let longing, which accompanies thee but does not depart from the land, return to the white sands where it soars.
PBJA1T1(185): Foi a lembrana da ptria que It was the memory of my trouxe a saudade ao corao homeland that brought longing pressago. to my foreboding heart. PBJA1T2(20): Enquanto vogas assim discrio do vento, airoso barco, volva s brancas areias a saudade, que te acompanha, But whilst thou sailest thus at the mercy of the winds, graceful barque, waft back to that white beach some of the
78
mas no se parte da terra yearning that accompanies thee, but which may not leave onde revoa. the land to which it returns. PBJA1T2(185): Foi a lembrana da ptria que It was the memory of my native trouxe a saudade ao corao land that brought a saudade to pressago. my anxious soul. PBMA2(121): Nenhuma gua de Juventa No water from Iuventus could igualaria ali a simples sau- match simple nostalgia in that. dade. PBMA2(426): Voc sabe que eu morrerei tambm... que digo?... morro todos os dias, de paixo, de saudades... PBMA3(536): Pdua comeou s falar da administrao interina, no somente sem as saudades dos honorrios, nem o vexame da perda, mas at com desvanecimento e orgulho. PPEQ1(292): You know that I would die, too... What am I saying?... I die every day, from passion, from longing... Pdua began to talk about the temporary directorship, not only with no regrets for the lost honoraria, no shame at having lost the job, but even with a certain conceit and pride.
s vezes vinha-me como uma Sometimes I felt almost saudade dos meus tempos nostalgic for the days when I ocupados da repartio. was busy at the office. A uma criatura como aquela no se podia ter afecto, embora no fundo ele fosse um excelente rapaz: mas ainda hoje evoco com saudade as nossas palestras, as nossas noites de caf e chego a convencer-me que, sim, realmente, o destino de Gervsio Vila-Nova foi o mais belo: e ele um grande, um genial artista. It was impossible to feel affection for someone like that (although deep down he was an excellent fellow) , and yet even today I recall with nostalgia the talks we had, the nights spent in cafs and I can even convince myself that, yes, the fate of Gervsio Vila-Nova really was the most beautiful of fates and that he was a great artist, an artist of genius.
PPSC1(25):
79
PPSC1(277):
Mas o que as fazia mais excitantes era a saudade lmpida que lembravam de um grande lago azul de gua cristalina onde, uma noite de luar, elas se mergulhassem descalas e amorosas.
But what made the dancers so exciting was the limpid nostalgia they evoked for a great blue lake of crystalline water where, on moonlit nights, they would plunge in, barefoot and tender.
PPSC1(529):
E a minha saudade foi ento And my longing then was a mesma que se tem pelo cor- exactly the same longing you po de uma amante perdida... would feel for the body of a lost lover...
Esperamos que o COMPARA lhe tenha sido til!

Pesquisar novamente Sobre o COMPARA Constituio do corpus Agradecimentos
Comentrios para compara@informatics.sintef.no

Artigo COMPARA

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Artigo COMPARA

Caricato da

Copyright:

Formati disponibili

Compara, um corpus paralelo de portugus...

COMPARA, UM CORPUS PARALELO DE PORTUGUS E INGLS NA WEB

Ana Frankenberg-Garcia & Diana Santos ISLA, Lisboa/SINTEF, Oslo

Ana Frankenberg-Garcia & Diana Santos

Compara, um corpus paralelo de portugus...

Ana Frankenberg-Garcia & Diana Santos

Compara, um corpus paralelo de portugus...

Ana Frankenberg-Garcia & Diana Santos

TRADUO F F,F F F(+F) Fa Fc Fb

Compara, um corpus paralelo de portugus...

Ana Frankenberg-Garcia & Diana Santos

Compara, um corpus paralelo de portugus...

Ana Frankenberg-Garcia & Diana Santos

Compara, um corpus paralelo de portugus...

Ana Frankenberg-Garcia & Diana Santos

Compara, um corpus paralelo de portugus...

Ana Frankenberg-Garcia & Diana Santos

Compara, um corpus paralelo de portugus...

Ana Frankenberg-Garcia & Diana Santos

Compara, um corpus paralelo de portugus...

Ana Frankenberg-Garcia & Diana Santos

Compara, um corpus paralelo de portugus...

Esperamos que o COMPARA lhe tenha sido til!

Comentrios para compara@informatics.sintef.no

Potrebbero piacerti anche