Sei sulla pagina 1di 21

[MLC99]Nuno Marques, Jos Gabriel Lopes e Carlos Agra Coelho.

Um modelo LogLinear para o Estudo das Oraes Subordinadas Integrantes. In M. A. Mota e P. Marrafa, editores, Lingustica Computacional: Investigao Fundamental e Aplicaes. Edies Colibri. A sair em Setembro de 1999.

Um modelo LogLinear para o Estudo das Oraes Subordinadas Integrantes*


Nuno Cavalheiro Marques (nmm@di.fct.unl.pt)1 **,Gabriel Pereira Lopes (gpl@di.fct.unl.pt)1, Carlos Agra Coelho (coelho@isa.utl.pt)2
1

Centria, Dep. Informtica - Faculdade de Cincias e Tecnologia/Universidade Nova de Lisboa 2 Dep. Matemtica - Instituto Superior de Agronomia/Universidade Tcnica de Lisboa

Abstract
The information about the kind of phrases or clauses a word goes with is usually called subcategorization. The use of the subcategorization notion by a parser can be improved if we express word preference as a statistical model. In this paper we will show how to extract this knowledge from textual corpora. The model already presented in MarquesLopesCoelho98 and studied for the case of noun phrase and prepositional phrase arguments in MarquesLopesCoelho98b will be studied for the case of subordinated clauses headed by Portuguese conjunction que (that, in English). 98% precision is reported for this case. The main problems our model faced were due to low frequency verb and to the inversion of the Portuguese subject-object order in some sentences. Additionally to the subcategorization frame, we have considered, for each verb its expected value given by the loglinear model. By using this value we are providing frequencies that although influenced by the verb subcategorization, are still particular to each verb. Our algorithm needs almost no linguistic information and so, it can be used as a tool for extracting subcategorization frames. This set of frames can then be used to bootstrap a parser. The results of this parser can be further used to improve our results.

Resumo
A informao sobre o tipo de estruturas sintcticas preferidas por uma dada palavra normalmente designada por subcategorizao. A utilizao da noo de subcategorizao por um analisador sintctico pode ser melhorada se exprimirmos esta preferncia sobre a forma de um modelo estatstico. Nesta comunicao demonstraremos como podemos extrair estes modelos a partir de corpora de texto para o caso das oraes subordinadas integrantes.

Trabalho financiado pelo projecto DIXIT (PRAXIS XXI/2/2.1/TIT/1670/95). Trabalho suportado pela bolsa de doutoramento JNICT-PRAXIS XXI/BD/2909/94

**

[MLC99]Nuno Marques, Jos Gabriel Lopes e Carlos Agra Coelho. Um modelo LogLinear para o Estudo das Oraes Subordinadas Integrantes. In M. A. Mota e P. Marrafa, editores, Lingustica Computacional: Investigao Fundamental e Aplicaes. Edies Colibri. A sair em Setembro de 1999.

Introduo
Certas classes morfossintcticas preferem argumentos com estruturas sintcticas determinadas em detrimento de outras. Esta preferncia representada sintacticamente pela noo de subcategorizao. A gramtica de anlise parcial em uso no Grupo de Lngua Natural (e apresentada nestas actas RocioLopes98), j suporta a noo de subcategorizao, podendo os dados obtidos ser imediatamente incorporados nesta gramtica. Alguns estudos j foram efectuados para outras classes de subcategorizao como por exemplo os adjectivos (Casteleiro81). Tanto a metodologia apresentada nesta comunicao como a gramtica descrita podem ser facilmente estendidas a estes casos. Tradicionalmente a subcategorizao representada como uma relao binria de aceitao ou proibio, assim podemos dizer comer o bolo mas nunca *gostar o bolo. Este carcter puramente binrio de classificao no parece no entanto ser o mais adequado para exprimir toda a riqueza do fenmeno da subcategorizao especialmente quando se pretendem construir sistemas totalmente automticos para anlise da lngua natural. Neste caso o uso de tcnicas com base estatstica torna-se vital, pois devido ao universo exponencial de solues possveis ser impossvel proceder anlise de todas as solues em tempo aceitvel. A poda de solues usando uma base estatstica torna-se assim necessria no s por questes de eficincia como tambm por questes da prpria funcionalidade do sistema. Quando um ser humano analisa a frase: Eu vi um homem com um telescpio. parece claro que apenas um dos significados normalmente considerado. Um sistema automtico deve ter capacidade para fazer o mesmo, s necessitando de reavaliar a frase quando tiver mais informao (no caso do exemplo anterior bastar saber que o ncleo de astronomia estava em mudana). O sistema estatstico que apresentaremos um primeiro passo nesta direco, permitindo ao sistema a uma anlise guiada em termos quantitativos.

[MLC99]Nuno Marques, Jos Gabriel Lopes e Carlos Agra Coelho. Um modelo LogLinear para o Estudo das Oraes Subordinadas Integrantes. In M. A. Mota e P. Marrafa, editores, Lingustica Computacional: Investigao Fundamental e Aplicaes. Edies Colibri. A sair em Setembro de 1999.

Em MarquesLopesCoelho98b e MarquesLopesCoelho98 foi j proposta uma metodologia para a criao de um modelo estatstico para a minerao da subcategorizao verbal. Nesta comunicao ir-se- consolidar os resultados j apresentados, nomeadamente por extenso ao estudo da subcategorizao de subordinadas integrantes. Importa ainda salientar que a anlise efectuada no ser exaustiva. De facto, devido ao carcter preliminar dos dados usados e grande variabilidade dos resultados apresentados pelo modelo proposto (onde pequenas modificaes nos dados podem dar origem a uma classificao que, embora coerente com a anterior, totalmente distinta), pareceu mais importante efectuar uma caracterizao dos erros cometidos pelo sistema de aquisio do que fazer uma anlise repetitiva dos resultados de cada execuo do programa. S os resultados classificados como errados foram sistematicamente analisados. Iremos iniciar a nossa anlise com um algumas noes tericas necessrias para a compreenso do modelo loglinear de independncia. Apresentaremos de seguida o algoritmo de agrupamento de dados usado (apresentado originalmente em MarquesLopesCoelho98) ao que se segue uma seco descrevendo e analisando os resultados experimentais obtidos. Terminaremos esta comunicao com algumas direces para trabalho futuro e com as concluses que podemos desde j extrair do trabalho apresentado.

Noes Tericas
Pistas ou Contagens? O primeiro trabalho conhecido sobre extraco automtica da subcategorizao do texto deve-se a Michael Brent (Brent91, Brent93). Neste trabalho Brent prope um sistema capaz de extrair classes de subcategorizao do texto com base num conjunto de pistas contadas a partir de um texto. Apesar de Brent ter escolhido pistas bastante fiveis (como seja a presena de um pronome clitico aps um verbo), foi ainda necessria a interveno de tcnicas estatsticas para extrair apenas as ocorrncias significativas do texto.

[MLC99]Nuno Marques, Jos Gabriel Lopes e Carlos Agra Coelho. Um modelo LogLinear para o Estudo das Oraes Subordinadas Integrantes. In M. A. Mota e P. Marrafa, editores, Lingustica Computacional: Investigao Fundamental e Aplicaes. Edies Colibri. A sair em Setembro de 1999.

O problema principal com as pistas de Brent a sua baixa frequncia. Largos volumes de texto (corpora com mais de 50 milhes de palavras) eram necessrios para extrair o conhecimento do texto. Tratava-se de uma metodologia que desperdiava informao. Pior ainda, de acordo com Manning93, algumas classes de subcategorizao podem mesmo no ter qualquer pista no ambgua no texto. Manning tenta resolver estes problemas atravs do uso de um etiquetador morfo-sintctico e de um autmato determinstico para extraco das pistas. Mais recentemente BriscoeCarroll97 estendem os resultados de Manning atravs da utilizao de uma gramtica de anlise parcial para extraco de contagens. Qualquer que seja o processo utilizado para extrair as contagens o mtodo de Brent encontra-se sempre subjacente a todos estes trabalhos. Assim, a atribuio de classes de subcategorizao a cada verbo, embora substanciada em termos quantitativos no fornece qualquer modelo que caracterize uma dada classe de subcategorizao. Os resultados no so relacionados entre si: o facto de um verbo ser classificado com uma dada classe, no contribui em nada para melhor determinar a classe de subcategorizao de verbos com comportamento similar. Desta forma continua-se a subaproveitar a informao contida no corpus. Na prxima seco iremos mostrar como possvel uma caracterizao totalmente estatstica do fenmeno da subcategorizao. Modelo Loglinear de Independncia A tabela apresentada abaixo apresenta nmero de ocorrncias no corpus das formas verbais imediatamente seguidas pela conjuno que (segunda coluna) e o nmero de formas verbais que no so imediatamente seguidas da conjuno que (terceira coluna) obtidas para os verbos considerar e garantir (na segunda e terceira linhas).

[MLC99]Nuno Marques, Jos Gabriel Lopes e Carlos Agra Coelho. Um modelo LogLinear para o Estudo das Oraes Subordinadas Integrantes. In M. A. Mota e P. Marrafa, editores, Lingustica Computacional: Investigao Fundamental e Aplicaes. Edies Colibri. A sair em Setembro de 1999.

tabela apresentada chama-se tabela de contingncia. Nesta tabela as colunas representam as contagens para a caracterstica em estudo (neste caso a presena ou ausncia da conjuno que, imediatamente a seguir aos verbos escolhidos) e as linhas os verbos escolhidos para anlise. As relaes estatsticas entre as linhas e as colunas neste tipo de tabelas pode ser analisada atravs do uso de modelos loglineares (Agresti90). Consoante a complexidade das interaces entre as linhas e as colunas numa tabela deste gnero podem ser usados diferentes tipos de modelo para representar os dados nesta tabela. No caso da subcategorizao verbal estamos interessados em modelos que apresentem o mesmo comportamento para as diversas colunas, independentemente do verbo considerado. O modelo que melhor representa este tipo de comportamento o modelo loglinear de independncia. No caso deste modelo, o valor esperado para as contagens observadas por clula numa tabela de contingncia pode ser estimado por:

Neste modelo logEij representa o logaritmo da frequncia esperada para a clula (i,j) e igual soma de uma constante () com um parmetro de linha (X i ) e um parmetro ). Para a tabela apresentada os valores destes parmetros so de coluna (Y j apresentados na coluna da direita (encabeada por X) e na linha inferior (iniciada por

^Y ). O software GLIM (Numerical Algorithms Group, Healy88), foi usado para


ajustar o modelo de independncia aos dados apresentados na tabela. Quando se assume a independncia pode ser facilmente demonstrado (Agresti90), que os parmetros de coluna esto relacionados com a mdia da coluna e que os parmetros de linha esto relacionados com a mdia da linha. A constante funciona normalmente como um parmetro de escala. Como seria de esperar, nem todos os verbos aceitam entre si um modelo de independncia. Apenas verbos com comportamentos similares (ou pelo menos com

[MLC99]Nuno Marques, Jos Gabriel Lopes e Carlos Agra Coelho. Um modelo LogLinear para o Estudo das Oraes Subordinadas Integrantes. In M. A. Mota e P. Marrafa, editores, Lingustica Computacional: Investigao Fundamental e Aplicaes. Edies Colibri. A sair em Setembro de 1999.

valores de coluna similares), podem ser ajustados num mesmo modelo de independncia. Pode-se avaliar a exactido com que um modelo se ajusta aos dados disponveis atravs de uma comparao entre os valores estimados pelo modelo e os valores reais. Para este fim iremos usar a estatstica da razo de verosimilhana:

onde Oij a frequncia observada para a clula (i,j). Quando o modelo aceite, esta estatstica apresenta uma distribuio qui-quadrado com (I-1)(J-1) graus de liberdade. No exemplo acima G2= 0.79784, um valor substancialmente inferior a 3.841455 (o quartil a .95 para a distribuio qui-quadrado com 1 grau de liberdade), i.e. no podemos rejeitar a hiptese de independncia. Um modelo para Agrupamento de Contagens O modelo de independncia que acabamos de descrever possibilita a descrio de um conjunto de verbos em termos estatsticos. No entanto, nem todos os verbos podem ser combinados num nico modelo de independncia. Apenas os verbos com o mesmo comportamento em termos das contagens usadas podem ser descritos por um mesmo modelo. assim necessrio um algoritmo que permita o agrupamento dos verbos com um mesmo modelo. Em MarquesLopesCoelho98 descrevemos como a estatstica G2 pode ser usada para encontrar um conjunto de modelos correspondendo cada um deles a um grupos de verbos com o mesmo comportamento. Seja F1,F2, , Fr um conjunto de contagens para R atributos extrados de um corpus

base. Se tivermos um grupo de verbos v 1 e um verbo candidato v2, atravs da modelao da tabela de contingncia X=< F1,F2, , Fr>, Y=< v 1, v2>, ser possvel
decidir se o verbo v2 tem o mesmo comportamento relativamente aos atributos com

contagens em X que os verbos em v 1. Em MarquesLopesCoelho98 propusemos um

[MLC99]Nuno Marques, Jos Gabriel Lopes e Carlos Agra Coelho. Um modelo LogLinear para o Estudo das Oraes Subordinadas Integrantes. In M. A. Mota e P. Marrafa, editores, Lingustica Computacional: Investigao Fundamental e Aplicaes. Edies Colibri. A sair em Setembro de 1999.

algoritmo baseado no algoritmo de agrupamento de dados CobWeb. A principal diferena em relao ao algoritmo CobWeb a no incluso dos operadores de diviso e juno presentes no CobWeb (Fisher87). De seguida reproduzimos o algoritmo apresentado: 1. Dada uma lista de N verbos V=<v1, v2, v3, , vN>, ocorrendo num corpus C, tendo cada verbo vi o seu vector de frequncias Xi (por exemplo no nosso caso __ _ teremos Xi=<freq(que), freq(qu e )>i, relativa presena ou ausncia da conjuno que imediatamente a seguir aos verbos considerados). 2. V ordenado por ordem decrescente na soma dos seus atributos (por exemplo, por ordem decrescente da frequncia dos verbos escolhidos, freq(Vi) ). Desta forma, os verbos mais informativos sero usados para definir os agrupamentos iniciais. 3. Inicia-se Lista_de_Agrupamentos com o verbo mais frequente.

4. Para cada verbo vi e para cada agrupamento v j em Lista_de_Agrupamentos


fazer

(a) Juntar vi ao grupo v j na Lista_de_Agrupamentos para o qual o modelo de


independncia melhor explica a tabela de independncia para Y,X (e.g. a

__ _ tabela Y=< v j,vi>, X=<freq(que), freq(qu e )>i). Usou-se o valor de p do


desvio residual de ajustamento do modelo (calculado com base no valor de G2) para medir a qualidade da explicao: o verbo ser adicionado ao agrupamento onde o valor de p obtido for mximo. (b) Se vi no ajusta com nenhum dos verbos em Lista_de_Agrupamentos criase um novo grupo, contendo vi, e adiciona-se esse grupo Lista_de_Agrupamentos.

[MLC99]Nuno Marques, Jos Gabriel Lopes e Carlos Agra Coelho. Um modelo LogLinear para o Estudo das Oraes Subordinadas Integrantes. In M. A. Mota e P. Marrafa, editores, Lingustica Computacional: Investigao Fundamental e Aplicaes. Edies Colibri. A sair em Setembro de 1999.

Sobre o mtodo de avaliao A avaliao dos resultados de um algoritmo de agrupamento de dados um processo que apresenta bastantes dificuldades. Na rea de processamento de lngua natural realce-se o trabalho de PereiraTishbyLee93. Neste trabalho so usadas duas formas de avaliao: utilizando o agrupamento de dados obtido calcula-se de que forma ele contribui para a reduo da entropia das palavras num texto; e medindo a preciso atingida pelo uso do mesmo agrupamento numa tarefa de classificao. O uso de uma classificao dada priori de resto a forma mais usual de avaliao dos resultados dum algoritmo de agrupamento. Como veremos o processo de avaliao utilizado segue esta forma de avaliao. No sentido de tentarmos avaliar o algoritmo de agrupamento proposto, ao mesmo tempo que tentamos atribuir um significado a cada grupo obtido, optou-se por considerar o primeiro elemento de cada grupo (que ser necessariamente o elemento mais frequente), como o elemento classificador do grupo. Assim um grupo de verbos que seja por exemplo encabeado pelo verbo intransitivo morrer, ser considerado como um grupo de verbos intransitivos. Este processo tem a vantagem de permitir classificar cada grupo obtido e assim permitir a utilizao de um mtodo baseado em matrizes de confuso para avaliar os nossos dados. Para efectuar a classificao dos vrios grupos ser ento necessrio conhecer o verbo que encabea cada grupo. Poderamos efectuar esta classificao manualmente. No entanto, tal tarefa seria bastante ingrata, pois seria necessrio repeti-la sempre que se executasse o algoritmo. Optou-se por isso pela utilizao de dicionrio de subcategorizao. At ao momento, pelo nosso conhecimento existem 3 dicionrios de subcategorizao do portugus: VenturaCaseiro92, Busse95 e PortoVb. Os dicionrios VenturaCaseiro92, Busse95 foram utilizados conjuntamente com o dicionrio geral da lngua portuguesa PortoEd6, contendo informao sobre a transitividade e intransitividade para mais de 11000 verbos, para construir a verso inicial do nosso dicionrio de subcategorizao. Esta verso ser usada para obter todos os resultados quantitativos apresentados nesta comunicao. Evitar-se- (excepto quando explicitamente referida), a correco

[MLC99]Nuno Marques, Jos Gabriel Lopes e Carlos Agra Coelho. Um modelo LogLinear para o Estudo das Oraes Subordinadas Integrantes. In M. A. Mota e P. Marrafa, editores, Lingustica Computacional: Investigao Fundamental e Aplicaes. Edies Colibri. A sair em Setembro de 1999.

manual deste dicionrio, pois s assim poderemos garantir a independncia do nosso processo de avaliao em relao aos dados utilizados (i.e. o nosso dicionrio baseiase apenas em conhecimento priori). O dicionrio utilizado ser necessariamente incompleto: nenhuma gramtica tem cobertura total, nem nenhum lxico est completo (LopesMarquesRocio94). Esta observao particularmente relevante no caso da subcategorizao devido forte incompletude dos dicionrios utilizados. O dicionrio mais completo que possumos, Busse95, cobre apenas cerca de 2000 verbos. Assim, verbos que no estejam includos no dicionrio sero marcados como desconhecidos. Estes verbos sero ignorados na avaliao quantitativa apresentada nesta comunicao: todos os grupos iniciados por verbo desconhecido so ignorados e todos os membros de um dos restantes grupos que sejam desconhecidos so tambm ignorados. Com base neste dicionrio ser ento possvel avaliar o nosso algoritmo de cobertura como se de um classificador se tratasse. Poderemos mesmo adaptar as tradicionais medidas de preciso e cobertura. Assim o processo de avaliao do algoritmo dever reflectir 3 medidas base: o nmero de grupos utilizados (quanto menor melhor), a preciso, e a cobertura. Preciso A preciso deve reflectir o nmero de verbos correctamente identificados e ser dada pela frmula:

Onde Ci representa a classe de subcategorizao pretendida, Correctos(Ci) a frequncia dos verbos em grupos com classe Ci com a mesma classe de subcategorizao que o verbo inicial e Total(Ci) a frequncia dos verbos, que foram agrupados com verbos cuja classe inicial Ci. O problema com esta frmula o facto de ter em conta na contagem o verbo inicial de cada grupo (chamado de verbo definidor do grupo). Assim esta preciso dar um valor

[MLC99]Nuno Marques, Jos Gabriel Lopes e Carlos Agra Coelho. Um modelo LogLinear para o Estudo das Oraes Subordinadas Integrantes. In M. A. Mota e P. Marrafa, editores, Lingustica Computacional: Investigao Fundamental e Aplicaes. Edies Colibri. A sair em Setembro de 1999.

por excesso da preciso. Pode-se tentar corrigir este fenmeno, descontando os verbos definidores. Chame-se esta nova preciso de preciso corrigida:

Onde definidores(Ci) representa a frequncia dos verbos definidores com classe Ci. Infelizmente, e desta vez, esta frmula fornece um valor por defeito, pois ao no considerar o verbo definidor est a retirar o contributo que este pode dar para o grupo. Assim sendo, os valores de preciso dos resultados experimentais sero apresentados como um intervalo entre a preciso corrigida e a preciso simples. Cobertura Enquanto a preciso nos indica a percentagem de verbos que foram correctamente identificados numa dada classe de subcategorizao, a cobertura fornece a percentagem do total de verbos dessa classe de subcategorizao que foram identificados. Assim o algoritmo pode ser muito preciso, identificando, por exemplo 3 verbos transitivos em um grupo de verbos transitivos, mas ter uma cobertura muito baixa, se o total de verbos transitivos que necessitavam de ser identificados fosse de 10 (os restantes 7 verbos estariam em grupos intransitivos). De frmula similar preciso podemos calcular as coberturas simples e corrigida. A cobertura simples dada pela frmula:

Onde incorrectos(Ci), a frequncia dos verbos que so classificados pelo dicionrio como tendo a categoria Ci includos em grupos com verbo definidor com categoria diferente de Ci. Similarmente preciso corrigida, a cobertura corrigida dada pela frmula:

[MLC99]Nuno Marques, Jos Gabriel Lopes e Carlos Agra Coelho. Um modelo LogLinear para o Estudo das Oraes Subordinadas Integrantes. In M. A. Mota e P. Marrafa, editores, Lingustica Computacional: Investigao Fundamental e Aplicaes. Edies Colibri. A sair em Setembro de 1999.

Frequncias no Corpus e no dicionrio Do que foi dito at ao momento, relativamente s funes Correctos, Definidores,
Incorrectos e Total, no se concretizou qual o tipo de contagens que so

devolvidos por estas funes. Existem dois tipos de contagens que podem ser utilizados: frequncia no corpus e frequncia no dicionrio. Por frequncia no corpus entende-se a frequncia com que um dado verbo ocorre no corpus. Por frequncia no dicionrio entende-se o nmero de verbos (i.e. com peso 1), que ocorrem numa dada classe. O uso de ambas as frequncias justifica-se, pois enquanto a frequncia no corpus nos d a ideia de qual a preciso e cobertura que um sistema processador de lngua natural pode encontrar num dado corpus i.e. ponderando a preciso/cobertura obtida pela frequncia relativa dos verbos no corpus, a frequncia de dicionrio um instrumento mais fino de anlise. A frequncia de dicionrio apresenta-nos uma preciso/cobertura que o sistema obtm olhando apenas para o seu dicionrio interno. Neste sentido, no d mais relevncia a palavras frequentes do que s infrequentes, permitindo pois uma melhor anlise dos casos menos frequentes. A frequncia de dicionrio tm ainda a vantagem de ser menos influencivel pelos verbos definidores, visto que lhes d muito menor relevncia. Convm ainda salientar que as frequncias do dicionrio devem dar origem a precises e coberturas mais prximas dos valores corrigidos, pois apenas tm de corrigir um elemento por cada grupo.

Resultados Experimentais: Subordinadas integrantes


Pretende-se com esta experincia confirmar a generalidade dos resultados apresentados em MarquesLopesCoelho98b para o estudo da transitividade (atravs de contagens reflectindo a presena ou no presena de artigos aps o verbo) e para o estudo dos sintagmas preposicionais encabeados pela preposio a (atravs de contagens reflectindo a presena ou no presena da preposio a aps um dado verbo). Nesta comunicao ser estudado o comportamento da conjuno que. Iremos

[MLC99]Nuno Marques, Jos Gabriel Lopes e Carlos Agra Coelho. Um modelo LogLinear para o Estudo das Oraes Subordinadas Integrantes. In M. A. Mota e P. Marrafa, editores, Lingustica Computacional: Investigao Fundamental e Aplicaes. Edies Colibri. A sair em Setembro de 1999.

mostrar como a sua presena aps o verbo indicia a presena de verbos subcategorizando oraes subordinadas integrantes. Como corpus de trabalho usou-se um corpus constitudo pelas notcias enviadas pela agncia Lusa durante o ano de 1994. Os primeiros 10 milhes de palavras disponveis neste corpus foram etiquetados por um etiquetador neuronal (MarquesLopes96a e MarquesLopes96b) com contexto direita. O agrupamento dos vrios verbos (e correspondentes contagens) foi feito usando um sistema desenvolvido para este fim: o sistema Carl (Classificao e Agrupamento de Regras com modelos Loglineares). Este sistema permite efectuar o agrupamento de uma lista de verbos e a sua avaliao. constitudo por 3 mdulos principais: um mdulo de contagem, um mdulo para agrupamento de dados e um mdulo de anlise de resultados. O mdulo de contagem est encarregue de extrair as diversas contagens necessrias do corpus etiquetado Para esse efeito utiliza um ficheiro de regras que especifica quais as sequncias a contar no texto. O mdulo para agrupamento de contagens implementa o algoritmo de agrupamento descrito na seco anterior, enquanto o mdulo de anlise est encarregue da classificao dos vrios grupos e da formatao de resultados. Para fins de avaliao foram utilizados, como j dissemos, os dicionrios Busse95 e VenturaCaseiro92 para avaliar os dados. til salientar que, como poderemos confirmar durante a anlise dos resultados, nenhum dicionrio completo. No entanto pretendeu-se utilizar uma fonte independente para avaliar os resultados apresentados, minimizando assim a influencia que a anlise dos textos poderia ter sobre um avaliador humano. Descrio da experincia Iniciou-se esta experincia com a criao de um dicionrio especfico para a conjuno que, partindo do dicionrio geral. Os verbos no dicionrio foram divididos em duas classes: dont e fsub. A classe dont foi atribuda aos verbos que no subcategorizam uma subordinada integrante enquanto a classe fsub foi atribuda aos verbos que subcategorizam uma subordinada integrante. Eis um extracto do dicionrio gerado:

[MLC99]Nuno Marques, Jos Gabriel Lopes e Carlos Agra Coelho. Um modelo LogLinear para o Estudo das Oraes Subordinadas Integrantes. In M. A. Mota e P. Marrafa, editores, Lingustica Computacional: Investigao Fundamental e Aplicaes. Edies Colibri. A sair em Setembro de 1999.

abandonar abrir acabar aceitar acompanhar acontecer acrescentar actuar acusar adiantar

dont dont dont fsub dont dont fsub dont dont fsub

Se efectuarmos a contagem do nmero total de verbos distintos e do nmero destes obtemos 3373 verbos no seguidos de conjuno que e 459 verbos seguidos de conjuno. Os principais resultados obtidos aps a aplicao do sistema Carl foram os seguintes:
corpus dont Preciso Cobertura Total N Grupos 97.02%-94.62% 92.18%-86.40% 146944 fsub 80.61%-64.24% 92.00%-83.24% 62380 5+15/587 dont 94.12%-93.81% 88.07%-87.50% 102 dicionrio fsub 78.69%-71.74% 88.89%-84.62% 61

Saliente-se que graas anlise dos resultados do algoritmo foram encontrados quatro verbos que tinham sido incorrectamente inseridos no ficheiro de anlise: o verbo tomar

[MLC99]Nuno Marques, Jos Gabriel Lopes e Carlos Agra Coelho. Um modelo LogLinear para o Estudo das Oraes Subordinadas Integrantes. In M. A. Mota e P. Marrafa, editores, Lingustica Computacional: Investigao Fundamental e Aplicaes. Edies Colibri. A sair em Setembro de 1999.

foi inserido com a classe fsub, no entanto a sua classe no dicionrio dont, de forma inversa os verbos alertar, assumir e tentar foram classificados como dont apesar da sua classe no dicionrio ser fsub. Os resultados na tabela j reflectem estas correces. Iniciaremos a nossa anlise observando o nmero de grupos utilizados para representar a subcategorizao de oraes subordinadas integrantes. Em 587 verbos foram necessrios 26 para descrever as vrias frequncias de que aps o verbo. Assim houve 5 verbos representados utilizados na descrio de verbos que no subcategorizam subordinadas integrantes e 15 verbos utilizados para descrever oraes subordinadas integrantes (houve 6 grupos ignorados na estatstica pois so encabeados por verbos que no constam do dicionrio de avaliao). Foram incorrectamente agrupados 13 verbos com verbo definidor na classe dont e 7 verbos com verbo definidor na classe fsub. Analisemos os principais erros. Erros resultantes de omisses do dicionrio O primeiro grupo definido pelo verbo ser. Este verbo, segundo o dicionrio de avaliao, pertence classe dont. No entanto aproximadamente 0,64% das ocorrncias do verbo ser do-se em frases como: A verdade , porm , que alguns dirigentes [[da]] de a UNITA (...) Outro dado pouco animador que os hospitais locais no possuem (...)

O verbo acontecer (numa frase como "() pode acontecer que os obuses disparados ()") aparece tambm com um comportamento similar. Est em aberto a forma como estas frases devem ser tratadas numa gramtica computacional, pois esta estrutura no pode aparecer com qualquer verbo. Depende da gramtica computacional usada dar a este tipo de frases a melhor representao possvel. A abordagem por que optamos foi a de considerar estas frases no caso geral (i.e. aceitando a subordinada como complemento do verbo). Caber ao modulo de anlise semntica uma melhor discriminao do seu comportamento. Assim os verbos ser e acontecer vo ser considerados, para fins de avaliao, como subcategorizando subordinadas integrantes. O grupo definido por ser tem mais 2 verbos no dicionrio: recusar e rejeitar, ambos

[MLC99]Nuno Marques, Jos Gabriel Lopes e Carlos Agra Coelho. Um modelo LogLinear para o Estudo das Oraes Subordinadas Integrantes. In M. A. Mota e P. Marrafa, editores, Lingustica Computacional: Investigao Fundamental e Aplicaes. Edies Colibri. A sair em Setembro de 1999.

so identificados como subcategorizando subordinadas integrantes no dicionrio de teste. Quanto ao verbo acontecer este aparece agrupado num agrupamento encabeado pelo verbo deixar, com subcategorizao fsub. Ser necessrio ter em conta mais informao para o algoritmo poder tomar uma deciso diferente tanto nos casos de ser como de acontecer. Atendendo informao existente o algoritmo toma as decises correctas em ambos os casos. Por fim importa salientar mais uma omisso do dicionrio de teste: o verbo divulgar no est identificado como subcategorizando subordinadas integrantes, mas foi-o correctamente pelo algoritmo: divulgar (algum divulga que qualquer coisa). Erros por omisso do complemento O verbo preocupar tem a subcategorizao que aps complemento: preocupa-o que . Este facto vai aumentar o nmero de formas seguidas de que em frases como: (...) diz que o preocupa que se deteriore a convivncia . Sobre a crise [[da]] de= Esta construo aparece em apenas 3 casos (1% do total, dado que foram analisadas 336 ocorrncias do verbo preocupar). Este verbo foi agrupado num grupo definido por deixar, o qual contem aproximadamente 1% de formas seguidas de que. Espera-se que com um aumento do nmero de ocorrncias de preocupar o nmero de formas seguidas de que baixe e leve assim adio deste verbo a um grupo dont. Mas novamente estamos perante o caso de um verbo que admite uma orao subordinada como sujeito e que aparece com alguma frequncia em frases subordinadas onde a ordem usual SVO distorcida. Erros devido a Baixas Frequncias Erros devidos especificidade do dicionrio Como seria de esperar algumas das subcategorizaes constantes do dicionrio pura e simplesmente no ocorrem (ou ocorrem de forma negligenciavel) no texto. H 10 verbos subcategorizando fsub no dicionrio Busse94 que no ocorrem seguidos de que nos textos analisados:

[MLC99]Nuno Marques, Jos Gabriel Lopes e Carlos Agra Coelho. Um modelo LogLinear para o Estudo das Oraes Subordinadas Integrantes. In M. A. Mota e P. Marrafa, editores, Lingustica Computacional: Investigao Fundamental e Aplicaes. Edies Colibri. A sair em Setembro de 1999.

incluir [no que disse] que (nenhuma ocorrncia de que em 1693 ocorrncias do verbo).

representar que (nenhuma ocorrncia de que em 1052 ocorrncias do verbo). tornar [a dizer] que (nenhuma ocorrncia de que em 860 ocorrncias do verbo).

prosseguir [dizendo] que (nenhuma ocorrncia de que em 829 ocorrncias do verbo).

participar que (nenhuma ocorrncia de que em 1935 ocorrncias do verbo). verifica que (nenhuma ocorrncia de que em 452 ocorrncias do verbo). falar que (ocorre apenas um exemplo em 1481 ocorrncias do verbo). interromper que (nenhuma ocorrncia de que em 187 ocorrncias do verbo). seguir que (dois exemplos em 1051 ocorrncias devidas expresso "a seguir": Odete Ferreira esclarece a seguir que para que o interrogatrio mdico (...)).

explodir (nenhuma ocorrncia de que em 152 ocorrncias do verbo).

Assim de todos estes exemplos em nenhum caso poderemos ter certeza se o verbo subcategoriza subordinadas integrantes: o algoritmo tomou a deciso correcta. Erros devidos baixa frequncia do verbo Paralelamente aos erros devidos especificidade do dicionrio, i.e. devido a subcategorizaes que no ocorrem no corpus, temos de considerar os erros devidos baixa frequncia (relativa) com que o verbo ocorre seguido de que. Nos exemplos analisados apenas surgiram 2 casos: manifestar e acusar. Nestes dois casos o algoritmo de facto enganou-se tendo classificado verbos com subcategorizao fsub como verbos com subcategorizao dont.

[MLC99]Nuno Marques, Jos Gabriel Lopes e Carlos Agra Coelho. Um modelo LogLinear para o Estudo das Oraes Subordinadas Integrantes. In M. A. Mota e P. Marrafa, editores, Lingustica Computacional: Investigao Fundamental e Aplicaes. Edies Colibri. A sair em Setembro de 1999.

Erros devidos ao etiquetador Alguns dos erros detectados devem-se a nomes que foram sistematicamente etiquetados como verbos. Assim surgem os verbos rir (derivado essencialmente do substantivo rio), conferenciar (derivado do substantivo conferencia, quando sem acento1) e unir (derivado de nomes prprios com a palavra unidos ou unido, p.ex. Naes Unidas, Estados Unidos ou Reino Unido). Nestes casos as oraes relativas, que seguem estes falsos verbos so contadas como oraes subordinadas integrantes, pelo que os verbos com os quais estes substantivos so ambguos so considerados como subcategorizando uma orao subordinada integrante. Atendendo anlise manual efectuada, apenas em 3 casos podemos dizer que o algoritmo se enganou. Assim obtemos um erro global de 3/(102+61)= 3/163, i.e. aproximadamente 2%, ou 1-2/61 (aproximadamente 97%) de preciso na classe fsub e 1-1/102 (aproximadamente 99%) na classe dont.

Concluses
Da anlise efectuada claro que existem vrias categorias de erros possveis: erros do dicionrio, erros do programa e erros da metodologia. Os erros do dicionrio utilizado para avaliao so normalmente de dois tipos: incompletude do dicionrio e no adequao do dicionrio ao corpus analisado. Ambos estes erros devem ser corrigidos: quando houver incompletude no dicionrio ento a entrada deve ser completada. A referncia deve ser inserida fornecendo um exemplo. Assim, quando se tratar de um caso especfico de um certo tipo de texto, a entrada deve ser dividida, referindo-se a entrada para o caso genrico e a entrada para o tipo especfico de texto em causa (p.ex. os casos de texto de tipo econmico - na altura em que a EDP subiu aos 5500 escudos). O mtodo descrito pode pois ser usado pelo lexicgrafo como auxilio construo de um dicionrio de

-Trata-se de facto de um erro ortogrfico, no entanto atendendo ao carcter pouco cuidado dos

textos em causa (noticias da agncia Lusa enviadas por telex, algumas das quais sem acentuao), este erro aparece vezes suficientes para ser detectado pelo algoritmo.

[MLC99]Nuno Marques, Jos Gabriel Lopes e Carlos Agra Coelho. Um modelo LogLinear para o Estudo das Oraes Subordinadas Integrantes. In M. A. Mota e P. Marrafa, editores, Lingustica Computacional: Investigao Fundamental e Aplicaes. Edies Colibri. A sair em Setembro de 1999.

subcategorizao.

Desta forma conseguir-se- simultaneamente

uma

melhor

caracterizao da lngua e um sistema mais robusto no tratamento de novos tipos de texto e de verbos nunca antes classificados e/ou dicionarizados. Os erros de programa podem derivar de diversos mdulos que aqui so conjugados. A maioria dos erros devidos ao etiquetador devero corrigidos em breve atravs da utilizao de uma nova verso do etiquetador neuronal (com contexto esquerda e direita) e de mais texto etiquetado no treino da rede. Existe tambm em paralelo trabalho a decorrer no sentido de possibilitar uma etiquetagem mais abrangente, utilizado o analisador sintctico descrito em RocioLopes98, nestas actas. Noutra

comunicao deste workshop, por Lopes Rocio e Balsa sobre explicao de anlises sintcticas parciais (devido incompletude/incorreco do lxico do analisador ou devido s etiquetas atribudas pelo etiquetador neuronal) mostrado como possvel sugerir a pertena de um verbo a uma dada classe de subcategorizao servindo a metodologia apresentada neste artigo para validar e classificar essa hiptese. A comparao de diversas abordagens para diminuir a margem de erro pois uma via a prosseguir. Relativamente aos erros da metodologia, interessa referir que o algoritmo apresentado muito similar ao descrito por Douglas Fisher em (Fisher87). No so no entanto utilizados operadores anlogos aos operadores de juno (merging) e diviso (spliting) l descritos. Parece pois lgico, como prximo passo na melhoria da qualidade dos resultados apresentados proceder incorporao destes operadores no algoritmo apresentado. O processo de avaliao dos vrios grupos tambm requer melhorias: o uso do primeiro elemento de cada grupo para classificar o grupo apresentou vrias falhas. Por um lado o verbo pode estar mal classificado no dicionrio, e assim comprometer os resultados num grupo com vrios verbos conhecidos. Outro problema ocorre quando o primeiro verbo no grupo desconhecido. Nestes casos uma soluo simples parece ser eficaz: em vez de se usar o primeiro elemento de cada grupo para definir o grupo, pode ser usada uma votao ponderada pela frequncia, dada por cada um dos verbos constantes do dicionrio de avaliao. Ser assim possvel no s uma maior robustez

[MLC99]Nuno Marques, Jos Gabriel Lopes e Carlos Agra Coelho. Um modelo LogLinear para o Estudo das Oraes Subordinadas Integrantes. In M. A. Mota e P. Marrafa, editores, Lingustica Computacional: Investigao Fundamental e Aplicaes. Edies Colibri. A sair em Setembro de 1999.

face a possveis incoerncias no dicionrio, como tambm uma classificao de grupos encabeados por verbo desconhecido. Resta referir que a modelao loglinear possibilita, tal como as redes neuronais, a representao de relaes de dependncia no modelo. Assim o uso de modelos com vrias variveis e a incluso de termos de dependncia entre elas (Agresti90) nos modelos loglineares de particular importncia (e tem mesmo de ser considerada necessria) quando se querem conjugar vrias pistas. Num primeiro estudo efectuado (Marques98) estas relaes foram j estudadas. Assim o modelo da transitividade verbal (MarquesLopesCoelho98), foi melhorado atravs da incluso de contagens do nmero de concordncias em nmero entre sujeito e o verbo. No estudo da ocorrncia do par <preposio, verbo na forma infinitiva> a seguir ao verbo em estudo, a modelao loglinear apresenta, uma grande vantagem sobre as redes neuronais: A possibilidade de formalizar para cada grupo um modelo estatstico que o caracteriza totalmente. Se a isto adicionarmos um mtodo de classificao dos vrios grupos em vrias classes de subcategorizao, vemos que possvel obter um modelo conjunto que quantitativamente caracterize a subcategorizao de uma dada classe de verbos.

Referncias
Agresti90 - Alan Agresti. Categorical Data Analysis. New York:John Wiley and Sons, 1990. BriscoeCarroll97 - Ted Briscoe and John Carroll. Automatic Extraction of Subcategorization from Corpora. In Proceedings of the 5th Conference on Applied Natural Language Processing (ANLP'97), 1997, ND-9 pginas. Brent91 - Michael R. Brent. Automatic acquisition of subcategorization frames from untagged text. In Proceedings of the 29th Annual Meeting of ACL, pginas 209-214, 1991 Brent93 - Michael R. Brent. From grammar to lexicon: Unsupervised learning of lexical syntax. Computational Linguistics, 19(2):245-262, 1993.

[MLC99]Nuno Marques, Jos Gabriel Lopes e Carlos Agra Coelho. Um modelo LogLinear para o Estudo das Oraes Subordinadas Integrantes. In M. A. Mota e P. Marrafa, editores, Lingustica Computacional: Investigao Fundamental e Aplicaes. Edies Colibri. A sair em Setembro de 1999.

Busse94 - Winfried Busse. Dicionrio Sintctico de Verbos Portugueses, Editora Almedina Coimbra, 1994. Casteleiro81 - Joo Malaca Casteleiro "Sintaxe Transformacional do Adjectivo regncia das construes completivas", textos de lingustica -inic 1981 Fisher87 - D.H. Fisher. Knowledge acquisition via incremental conceptual clustering. Machine Learning, 2:139-172, 1987 Healy88 - M.J.R. Healy. GLIM: An Introduction. Clarendon Press, Oxford, 1988. LopesMarquesRocio94 - Jos Gabriel Pereira Lopes, Nuno Cavalheiro Marques e Vitor Ramos Rocio. POLARIS, a Portuguese Lexicon Acquisition and Retrieval Interactive System. In Proceedings of the conference on Pratical Applications of PROLOG, 1994. pgina 665. Manning93 - Cristopher Manning. Automatic acquisition of a large subcategorization dictionary from corpora. In Proceedings of the 31st Annual Meeting of the ACL, paginas 235-242, 1993. MarquesLopes96a - Nuno C. Marques e Jos G. Lopes. A neural network approach to part-of-speech tagging. In Actas do 2 Encontro sobre Processamento Computacional do Portugus Escrito e Falado. Pginas 1-9, Curitiba, Brazil, 21-22 Outubro 1996. ND- 9 pginas. MarquesLopes96b - Nuno C. Marques e Jos G. Lopes. Using Neural Networks for Portuguese Part-of-Speech Tagging. In Proceedings of the Fith International Conference on Cognitive Science and Natural Language Processing, Dublin City University, Ireland, 2-5 Setembro, 1996, 19-25. MarquesLopesCoelho98 - Nuno C. Marques, Jos G. Lopes e Carlos A. Coelho. Learning verbal Transitivity using loglinear models. In Lecture Notes in AI (LNAI): Proceedings of the 10th European Conference on Machine Learning. Springer Verlag, Berlin, April 1998.

[MLC99]Nuno Marques, Jos Gabriel Lopes e Carlos Agra Coelho. Um modelo LogLinear para o Estudo das Oraes Subordinadas Integrantes. In M. A. Mota e P. Marrafa, editores, Lingustica Computacional: Investigao Fundamental e Aplicaes. Edies Colibri. A sair em Setembro de 1999.

MarquesLopesCoelho98b - Nuno C. Marques, Jos G. Lopes e Carlos A. Coelho. Using Loglinear Clustering for Subcategorization Identification. A publicar em

Proceedings of the 2nd European Symposium on Principles of Data Mining and Knowledge Discovery (PKDD98). Nantes, France, Setembro, 1998. Marques98 - Nuno C. Marques. Experincias para Determinao da Subcategorizao Verbal. Relatrio Interno Glint*. Setembro, 1998. PereiraTishbyLee93 -F. Pereira, N. Tishby, L. Lee. Distributional Clustering of English Words. In Proceedings of the 31st Annual Meeting of the ACL. 1993. 183190. PortoEd6 - Dicionrio da Lngua Portuguesa. Porto Editora, 6 Edio. PortoVb - Dicionrio dos Verbos Portugueses, Portugueses, Porto Editoria, 1989. RocioLopes98 - Anlise sintctica parcial em cascata. In Actas do 1 Workshop sobre Linguistica Computacional da Associao Portuguesa de Linguistica, 1998. VenturaCaseiro92 - Helena Ventura e Manuela Caseiro. Dicionrio Prtico de Verbos Seguidos de Preposies. Fim de Sculo Edies, LDA., 2 edio, 1992.

Potrebbero piacerti anche