Sei sulla pagina 1di 27

Copa 2014 FrameNet Brasil: Anlise da unidade lexical visitar do frame de turismo

Maucha Andrade Gamonal SILEL Universidade Federal de Uberlndia 23 a 25 de novembro de 2011

Introduo

O Projeto FrameNet Brasil (SALOMO, 2009) vem sendo desenvolvido na Universidade Federal de Juiz de Fora, em associao com o International Computer Science Institute (EUA), visando cooperar com o projeto de criao de uma rede semntica (FrameNet), liderada pelo professor Charles Fillmore, na Universidade da Califrnia. O Projeto tem por objetivo a criao de um recurso lexical online (disponvel em: www.framenetbr.ufjf.br/) para o Portugus do Brasil, baseado na Semntica de Frames (FILLMORE, 1982, 1985) e sustentado por evidncia de corpus. Tal recurso possibilitar, alm de contribuir com a base de dados da FN, atuar como tecnologias de aplicao em tarefas de traduo automtica e extrao automtica de informaes, por exemplo.

Semntica de Frames

A Semntica de Frames (FILLMORE, 1977, 1979, 1982) um programa de pesquisa em semntica emprica que toma emprestada da Inteligncia Artificial a ideia de que o conhecimento no deve ser visto como uma coleo de fragmentos simples e desconexos, mas como estruturas complexas, denominadas frames. Na anlise de Fillmore, um frame qualquer sistema de conceitos relacionados de tal forma que, para entender um deles, necessrio entender toda a estrutura na qual ele se encaixa (FILLMORE, 1982, p. 111).

Frame de Transao Comercial

Um exemplo clssico do autor o frame de transao comercial: nele haver uma cena em que est relacionada e includa a pessoa interessada em trocar dinheiro por alguma mercadoria (o comprador), a pessoa interessada em trocar mercadorias por dinheiro (o vendedor), aquilo que o comprador poder adquirir (as mercadorias) e o dinheiro adquirido pelo vendedor (o dinheiro). Podemos dizer que os elementos que constituem a cena so seus participantes e so chamados de elementos de frame. Um frame no poderia ser constitudo sem a presena dos seus elementos, pois esses disponibilizam as informaes necessrias a respeito de como aquele instanciado.

Projeto Copa 2014 FrameNet Brasil

O projeto Copa 2014 FrameNet Brasil um projeto de inovao tecnolgica que prope desenvolver, em meio eletrnico, um dicionrio temtico trilngue (Portugus Ingls Espanhol) que ir abranger os domnios do Futebol e do Turismo. Tal dicionrio, com foco no uso humano, ter como audincia privilegiada a imprensa esportiva internacional, pessoas envolvidas na organizao da Copa do Mundo FIFA 2014, na recepo aos turistas estrangeiros e tambm os prprios turistas.

Qual a diferena desse dicionrio para os demais?

Como nosso trabalho guiado pela teoria da Semntica de Frames, a organizao dos verbetes e sistema de consulta acontecer de modo diferente dos dicionrios comuns. Possibilitar acesso a uma busca por cenas relevantes dos domnios do futebol e do Turismo.

Emprego de frames para realizar correspondncia entre Uls

BOAS (2002) tratando da produo de um dicionrio bilngue InglsAlemo:

Dilogo com as WordNets

WordNet um grande banco de dados lexical do Ingls. Substantivos, verbos, adjetivos e advrbios so agrupados em conjuntos de sinnimos cognitivos (synsets), cada um expressando um conceito distinto. Synsets esto inter-ligados por meio de relaes conceituais-semnticas e lexicais. Com esse dilogo nosso dicionrio ter uma cobertura lexical ampliada, uma vez que as relaes lexicais de sinonmia, antonmia, hiperonmia, dentre outras sero especificadas.

Interface com as ontologias

Ontologia: Conjunto de conceitos e termos que podem ser usados para descrever alguma rea do conhecimento ou construir uma representao para o conhecimento. (SWATOUT & TATE, 1999).

Criao de uma ontologia para o domnio do EAD (MLLER, 2010):

Parceria com ICSI


Foi estabelecida uma parceria com International Computer Science Institute (EUA), local onde desenvolvido o projeto da FrameNet norte-americana. Nessa parceria, eles tm o objetivo de construir a contraparte do ingls do domnio do Turismo do dicionrio.

Parceria com a UNISINOS

Foi estabelecida uma parceria com a equipe da Profa. Dra. Rove Chishman, que desenvolve o projeto FrameCorp, na UNISINOS, em cujo mbito se abriga o subprojeto Kicktionary-Br1, que tem como objetivo construir para o Portugus do Brasil a contraparte do recurso lexical multilnge criado no ICSI pelo Dr. Thomas Schmidt para a linguagem do futebol (http://www.kicktionary.de).

Corpus

O corpus ser formado de textos publicados em revistas de viagem, guias de viagem, revistas de bordo de companhias areas, sites de rgos governamentais de fomento atividade turstica, cadernos especializados de jornais e blogs de viajantes. Para a busca experimental realizada no atual trabalho, utilizou-se o corpus da FrameNet Brasil. A saber:

Corpus da FN-Br

(i) ANCIB: corpus criado a partir de mensagens enviadas para a lista homnima da Associao Nacional de Pesquisa e Ps-Graduao em Cincia da Informao (at Novembro de 2003) e para a lista abarreto-l, aps essa data; (ii) ECI-EBR: corpus criado pela ECI (European Corpus Initiative), baseado no Borba-Ramsey. uma seleo de excertos de obras brasileiras, contendo pelo menos discurso literrio, didtico e oral cuidado (discursos polticos); (iii) NILC/So Carlos: contm textos brasileiros do registro jornalstico (do qual se originou o CETENFolha), didtico, epistolar e redaes de alunos; (iv) LF (Legendas de Filmes): corpus criado pelo Projeto FrameNet Brasil, sediado na Universidade Federal de Juiz de Fora, contm legendas de filmes em Portugus do Brasil cedidas pelo portal OpenSubtitles.org; (v) NURC-RJ: corpus constitudo por entrevistas gravadas nas dcadas de 1970 e 1990, num total de 350 horas, com informantes de nvel superior completo, nascidos no Rio de Janeiro e filhos de pais preferencialmente cariocas.

Anlise inicial de dados:

Realizamos uma busca inicial pelo Unidade Lexical Visitar que evoca o frame de Turismo (Touring) previamente descrito na FrameNet.

Frame de Turismo
Definio: Um turista visita ou experiencia uma atrao, um local com uma histria pecualiar ou o carter individual reconhecido socialmente, com o objetivo de ver e aprender sobre ele. Normalmente, a atrao tem uma fonte de informao tal como - um guia, panfletos ou displays.

Elementos de Frame: Nuclear Atrao, [Phen] O local peculiar socialmente reconhecido que o turista visita. Turista [per] O indivduo que est buscando uma experincia em uma atrao.

No Nuclear Lugar [] O local onde o turismo acontece. Propsito [Pur] Alguma ao que o turista est tentando realizar com o turismo. Isso geralmente (no mnimo) para fins de entretenimento e aprendizado. Tempo [Tim] O tempo que o turismo acontece. Co-participante [] O Co-participante quem participa de modo coordenado, no caso em uma turn com o turista. o] Durao [Dur] A quantidade de tempo que dura a atividade de turismo. Meio [Mns] O Meio indica o mtodo de Turismo que est sendo usado para participar da turn.

Sumariamento dos dados levantados:


Corpora Legenda de Filmes Domnio Pblico NURC ANCIB ECI-EBR NILC-So Carlos Total
Sentido Alvo Sentido Figurado Adjetivo Substantivo Contexto Insuficiente Outros TOTAIS

18 17 44 8 12 99

1 41 11 53

162 202 69 3 4 440

7 18 1 26

218 127 82 317 28 772

399 394 224 329 44 1390

Padres de valncia:

Aps o processo de anotao das sentenas, passa-se para o processo de determinar quais so os padres de valncia que ocorrem com essa Unidade Lexical. Para que um padro de valncia seja postulado, considera-se apenas os Elementos de Frame nucleares e suas realizaes sintticas.

1 PADRO:

Elementos de Frame: Turista - Atrao Realizaes sintticas: Turista Ext/SN - Atrao Obj/SN Camadas EF FG TS Outros os turistas VISITAM nossos monumentos e outros edifcios Turista Atrao Externo Obj SN SN

1. - O clima muito bom e todos os turistas VISITAM nossos monumentos e outros edifcios.

2 PADRO: Elementos de Frame: Turista - Atrao Realizaes sintticas: Turista IND - Atrao Obj/SN Camadas VISITAR o Po de Acar EF Turista =IND Atrao FG Obj TS SN Outros foi 1. bem e/e o carioca assim voc v... c tem muita gente que j t aqui h muitos anos e nunca foi VISITAR o Po de Acar... [IND]

3 PADRO: Elementos de Frame: Turista - Atrao Realizaes sintticas: Turista INI - Atrao Obj/SN Camadas VISITAR o prdio mais automtico do mundo EF Turista =INI Atrao FG Obj TS SN Outros 1. - Nenhuma visita a Nova York completa... - sem VISITAR o prdio mais automtico do mundo. [INI] 4 PADRO: Elementos de Frame: Atrao Atrao Turista Realizaes sintticas: Atrao Obj/SN - Turista Ext/SN Camadas EF FG TS Outros os outros pases Atrao Obj SN Ant que Atrao Obj SN Rel voc VISITOU Turista Externo SN

1. E os outros pases europeus que voc VISITOU ?

5 PADRO: Elementos de Frame: Turista - Atrao Realizaes sintticas: Turista IND - Atrao IND Camadas EF Turista=IND FG TS Verbo VISITAR Atrao=IND

fui

1. No Canad tinha uma, um Jardim Botnico em Montreal, fui VISITAR, e tinha o, o Jardim Japons e tinha o Jardim Chins. [IND] [IND]

6 PADRO: Elementos de Frame: Turista - Atrao Realizaes sintticas: Turista INC - Atrao IND Camadas VISITAR EF Turista=INC Atrao=IND FG TS Verbo 1. Mas, eh, cercada, uma cidade que pode se VISITAR, visita-se e, e tem muita coisa interessante pra se ver, muita coisa ainda at bem conservada. [INC] [IND]

Tabelas de sumariamento
Elemento de Frame Turista Nmero Anotado 99 Atrao Coparticipante Descrio Durao Base Modo Meio Iterao especfica Lugar Propsito Tempo 99 2 1 6 1 14 Realizaes SN/Ext = (35) IND= (55) INI= (7) INC= (2) SN/Obj = (93) IND= (6) SP/Dep= (2)

SAdv/Dep= (1) SP/Dep= (6) SP/Dep=(1) SS/Dep =(2) SAdv/Dep=(12)

Nmero Anotados 28 TOTAIS (15) (1) (6) (2) (3)

Padres Turista SN Ext Turista SN Ext Turista SN Ext Turista SN Ext Turista SN Ext Turista SN Ext Turista IND Turista IND Turista IND Atrao SN Obj Atrao SN Obj Atrao SN Obj Atrao SN Obj Atrao SN Obj Atrao SN Obj Atrao SN Obj Atrao SN Obj Atrao SN Obj

(1) 51 TOTAIS (42) (5) (1)

Coparticipante SP Dep Tempo SAdv Dep Tempo SS Dep Lugar SP Dep Tempo SAdv Dep

Lugar SP Dep

Tempo SAdv Dep Coparticipante SP Dep

(1) (1) (1) 7 TOTAIS (6) (1) 7 TOTAIS 4 TOTAIS 2 TOTAIS

Turista IND Turista IND Turista IND Turista INI Turista INI Atrao SN Obj Turista IND Turista INC

Atrao SN Obj Atrao SN Obj Atrao SN Obj Atrao SN Obj Atrao SN Obj Turista SN Ext Atrao IND Atrao IND

Modo SAdv Dep Lugar SP Dep Propsito SP Dep

Lugar SP Dep

Consideraes Finais:

Nossa primeira iniciativa prtica na pesquisa com o Copa 2014 FrameNet Brasil foi a busca da Unidade Lexical visitar evocando o frame de Turismo (Touring) nos corpora da FN-Br. Essa busca retornou seis padres, sendo que o que obteve mais ocorrncias foi o padro com 51 sentenas. E o de menor ocorrncia foi com 2 sentenas. Entretanto esse dados no se encontram finalizados, uma vez que estamos em processo de busca por novos corpora que tenham foco maior na rea do turismo. Esse trabalho servir tambm para contribuir com o avano no banco de dados de anotao da plataforma do projeto.

Referncias:

FILLMORE, Charles J. Frame semantics. In: Linguistics in the Morning Calm, Seul: Hanshin Publishing Co., p.111-137, 1982. FILLMORE, Charles. Frames and the semantics of understanding. In: Quaderni di Semantica, v.6, n.2, p. 222-254, 1985. FILLMORE, Charles. Fillmores cases grammar: a reader. In: DIRVEN, R. & RADDEN, G. (Ed). Heidelberg, 1987. RUPPENHOFER, J.et al. FrameNet II: Extended theory and practice. Disponvel em: http://framenet.icsi.berkeley.edu/index.php?option=com_wrapper&Itemid=126 Acesso em 3 de agosto de 2011. SALOMO, M.M.M. FrameNet Brasil: um trabalho em progresso. In: Calidoscpio, Vol. 7.2, 2009a SCHMIDT, T. The Kicktionary - a multilingual lexical resource of football language. In: BOAS, Hans. (Ed.). Multilingual FrameNets - Methods and Applications. Berlin/New York: Mouton de Gruyter, 2009.

Potrebbero piacerti anche