Sei sulla pagina 1di 78

lingua

Volume 8, Número 2- Dezembro 2016

ISSN: 1647-0818
Volume 8, Número 2 – Dezembro 2016

Linguamática ISSN: 1647–0818

Editores ASSIN
Erick Fonseca
Leandro Santos
Marcelo Criscuolo
Sandra Aluı́sio

Editores
Alberto Simões
José João Almeida
Xavier Gómez Guinovart
Conteúdo
Avaliação de Similaridade Semântica e de Inferência Textual

Visão Geral da ASSIN


Erick Fonseca, Leandro dos Santos, Marcelo Criscuolo & Sandra Aluı́sio . . . . 3

Blue Man Group no ASSIN: Usando Representações Distribuı́das para


Similaridade Semântica e Inferência Textual
Luciano Barbosa, Paulo Cavalin, Victor Guimarães & Matthias Kormaksson . . 15

FlexSTS: Um Framework para Similaridade Semântica Textual


Jânio Freire, Vládia Pinheiro & David Feitosa . . . . . . . . . . . . . . . . . . . 23

INESC-ID@ASSIN: Medição de Similaridade Semântica e Reconheci-


mento de Inferência Textual
Pedro Fialho, Ricardo Marques, Bruno Martins, Luı́sa Coheur & Paulo Quaresma 33

ASAPP: Alinhamento Semântico Automático de Palavras aplicado ao


Português
Ana Oliveira Alves, Ricardo Rodrigues & Hugo Gonçalo Oliveira . . . . . . . . . 43

Solo Queue at ASSIN: Combinando Abordagens Tradicionais e Emer-


gentes
Nathan Siegle Hartmann . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Editorial

Neste oitavo ano de vida a Linguamática teve, como é seu hábito, duas edições. A
primeira, em Julho, apenas com três artigos, e esta edição, de Dezembro, com artigos
alargados correspondentes a uma workshop realizada com conjunto sim a conferência
PROPOR’2016, a ASSIN: Avaliação de Similaridade Semântica e de Inferência Tex-
tual. Se por um lado o número de artigos publicado é pequeno, por outro, o número
de artigos recebidos para avaliação não o foi, estando dentro da média habitual da
Linguamática.

Mas o ano de 2016, embora mau, como sabemos, para muitas personalidades do
mundo da música, não o foi para a Linguamática, que continua a ser indexada pela
Scopus (embora o site da Scopus ainda não inclua todas as edições recentes), e passou
a ser incluı́da na Web of Science da Thomson Reuters, no ı́ndice ESCI (Emerging
Sources Citation Index), um ı́ndice de revistas selecionadas para avaliação e possı́vel
integração nos ı́ndices de topo. São, sem dúvidas, duas notı́cias que nos fazem muito
orgulhosos dos nossos autores.

Xavier Gómez Guinovart


José João Almeida
Alberto Simões

vii
Prólogo
Avaliação de Similaridade Semântica
e de Inferência Textual

A Avaliação de Similaridade Semântica e de Inferência Textual (ASSIN) foi pro-


posta como um Workshop em paralelo com o PROPOR 2016 para apresentação dos
resultados da avaliação conjunta de duas subtarefas relacionadas, tratando da lı́ngua
portuguesa, especificamente do Português do Brasil (PB) e Europeu (PE). Ambas as
subtarefas dizem respeito ao entendimento de um par de sentenças: a similaridade
semântica (STS, Semantic Textual Similarity) é uma medida numérica de 1 a 5 do
quão similar é o conteúdo das duas sentenças; e a inferência textual (RTE, Recog-
nizing Textual Entailment) consiste em classificar o par como tendo uma relação de
implicação, paráfrase, ou nenhuma das duas.

A avaliação conjunta deixou como legado o córpus ASSIN de 10.000 pares de


sentenças (5.000 em PB e 5.000 em PE) usado pelos participantes e que está publica-
mente disponı́vel em http: // nilc. icmc. usp. br/ assin/ . Somos gratos a todos
os anotadores do córpus, pois sem eles a avaliação não teria sido realizada.

Foram seis os participantes da avaliação: três do Brasil (Solo Queue, Blue Man
Group, LEC-UNIFOR) e três de Portugal (INESC-ID, ASAPP, Reciclagem) sendo
que todos participaram da tarefa STS, e somente quatro deles da tarefa RTE.

Nesta edição especial da Linguamática em homenagem ao Workshop ASSIN, tra-


zemos o artigo com a apresentação da Avaliação Conjunta e mais cinco versões re-
visadas e estendidas dos seguintes artigos apresentados no Workshop, sendo que as
equipes ASAPP e Reciclagem escreveram um único artigo reportando ambos os resul-
tados.

Desejamos a todos uma leitura proveitosa destes trabalhos!

Erick Fonseca
Leandro Santos
Marcelo Criscuolo
Sandra Aluı́sio

ix
Comissão Científica
Alberto Álvarez Lugrı́s, Iñaki Alegria,
Universidade de Vigo Euskal Herriko Unibertsitatea

Alberto Simões, Irene Castellón Masalles,


Universidade do Minho Universitat de Barcelona

Aline Villavicencio, Joaquim Llisterri,


Universidade Federal do Rio Grande do Sul Universitat Autònoma de Barcelona

Álvaro Iriarte Sanroman, José João Almeida,


Universidade do Minho Universidade do Minho

Ana Frankenberg-Garcia, José Paulo Leal,


University of Surrey Universidade do Porto

Anselmo Peñas, Joseba Abaitua,


Univers. Nac. de Educación a Distancia Universidad de Deusto

Antón Santamarina, Juan-Manuel Torres-Moreno,


Universidade de Santiago de Compostela Lab. Informatique d’Avignon - UAPV

Antoni Oliver González, Kepa Sarasola,


Universitat Oberta de Catalunya, Euskal Herriko Unibertsitatea

Antonio Moreno Sandoval, Laura Plaza,


Universidad Autónoma de Madrid Complutense University of Madrid

António Teixeira, Lluı́s Padró,


Universidade de Aveiro Universitat Politècnica de Catalunya

Arantza Dı́az de Ilarraza, Marcos Garcia,


Euskal Herriko Unibertsitatea Universidade de Santiago de Compostela

Arkaitz Zubiaga, Marı́a Inés Torres,


Dublin Institute of Technology Euskal Herriko Unibertsitatea

Belinda Maia, Maria das Graças Volpe Nunes,


Universidade do Porto Universidade de São Paulo

Carmen Garcı́a Mateo, Mercè Lorente Casafont,


Universidade de Vigo Universitat Pompeu Fabra

Diana Santos, Mikel Forcada,


Linguateca/Universidade de Oslo Universitat d’Alacant

Ferran Pla, Pablo Gamallo Otero,


Universitat Politècnica de València Universidade de Santiago de Compostela

Gael Harry Dias, Patrı́cia Cunha França,


Université de Caen Basse-Normandie Universidade do Minho

Gerardo Sierra, Rui Pedro Marques,


Univers. Nacional Autónoma de México Universidade de Lisboa

German Rigau, Salvador Climent Roca,


Euskal Herriko Unibertsitatea Universitat Oberta de Catalunya

Helena de Medeiros Caseli, Susana Afonso Cavadas,


Universidade Federal de São Carlos University of Sheffield

Horacio Saggion, Tony Berber Sardinha,


University of Sheffield Pontifı́cia Univ. Católica de São Paulo

Hugo Gonçalo Oliveira, Xavier Gómez Guinovart,


Universidade de Coimbra Universidade de Vigo

xi
Avaliação de Similaridade
Semântica e de Inferência
Textual
Proposta recebida em Setembro 2016 e aceite para publicação em Novembro 2016.

Visão Geral da Avaliação de


Similaridade Semântica e Inferência Textual
Overview of the Evaluation of Semantic Similarity and Textual Inference

Erick Rocha Fonseca Leandro Borges dos Santos Marcelo Criscuolo


Universidade de São Paulo Universidade de São Paulo Universidade de São Paulo
erickrf@icmc.usp.br leandrobs@usp.br mcrisc@icmc.usp.br
Sandra Maria Aluı́sio
Universidade de São Paulo
sandra@icmc.usp.br

Resumo 1 Introdução
Inferência Textual e Similaridade Semântica são A Avaliação de Similaridade Semântica e de In-
duas tarefas do processamento de lı́nguas naturais
ferência Textual (ASSIN) foi proposta em para-
que tratam de pares de trechos de textos. O obje-
tivo da primeira é determinar se o significado de um lelo com o PROPOR 2016, consistindo em duas
trecho implica o outro, enquanto que a segunda atri- subtarefas relacionadas. Ambas as subtarefas di-
bui uma pontuação de similaridade semântica ao par. zem respeito ao entendimento de um par de sen-
Esse artigo apresenta os resultados da avaliação con- tenças: a similaridade semântica (STS, Semantic
junta ASSIN (Avaliação de Similaridade Semântica e Textual Similarity) (Agirre et al., 2015) é uma
Inferência) e seu corpus, que foi anotado para ambas medida numérica de 1 a 5 do quão similar é o
as tarefas nas variantes brasileira e europeia da lı́ngua conteúdo das duas sentenças; e a inferência tex-
portuguesa. O corpus difere de similares na literatura tual (RTE, Recognizing Textual Entailment) (Da-
em suas três classes para a tarefa de inferência textual
gan et al., 2013) consiste em classificar o par
(Implicação, Paráfrase e Neutro) e por ter sido com-
posto de sentenças extraı́das de textos jornalı́sticos. como tendo uma relação de implicação, paráfrase,
Seis equipes participaram da avaliação conjunta, ex- ou nenhuma das duas.
plorando diferentes estratégias. A definição exata destas tarefas não é uni-
versal. Outros conjuntos de dados apresentam
Palavras chave
escalas diferentes para a similaridade semântica
Avaliação conjunta, inferência textual, similaridade (Agirre et al., 2015) ou a possibilidade de iden-
semântica tificar contradição entre duas sentenças (Benti-
vogli et al., 2009). No caso do ASSIN, decidi-
mos por uma escala de similaridade de 1 a 5 por
Abstract achar mais fácil discriminar os diferentes nı́veis,
enquanto na tarefa de inferência, nosso processo
Recognizing Textual Entailment and Semantic de criação de corpus não resultou em quase ne-
Textual Similarity are two natural language proces- nhum caso de contradição.
sing tasks dealing with pairs of text passages. The
A avaliação ASSIN 2016 trouxe o primeiro cor-
former aims to determine whether the meaning of one
passage entails the other, while the latter assigns a pus anotado para as duas tarefas em português,
semantic similarity score to the pair. This paper pre- incluindo as variantes brasileira e europeia. Fo-
sents the results of the ASSIN shared task and its ram compiladas sentenças de textos reais, do
corpus, annotated for both tasks in the Brazilian and gênero informativo (textos jornalı́sticos) em con-
European varieties of the language. The corpus dif- traste com a abordagem utilizada para a cons-
fers from similar ones in the literature in its three trução de corpora similares em inglês, como SICK
RTE classes (Entailment, Paraphrase and Neutral), (Marelli et al., 2014) e SNLI (Bowman et al.,
and for having been composed of sentences extracted 2015) e dos RTE Challenges (Bentivogli et al.,
from newswire texts. Six teams took part in the sha-
red task, exploring different strategies.
2009).
Aproveitamos os agrupamentos de notı́cias
Keywords por assunto fornecidos pelo Google News 1 para
Shared task, text entailment, semantic similarity 1
https://news.google.com/

This work is licensed under a Linguamática — ISSN: 1647–0818


Creative Commons Attribution 3.0 License Vol. 8 Núm. 2 - Dezembro 2016 - Pág. 3–13
4– Linguamática Erick Fonseca, Leandro dos Santos, Marcelo Criscuolo & Sandra Aluı́sio

criar o corpus ASSIN 2016. Usamos modelos de não foi utilizado em nenhuma avaliação conjunta,
espaço vetorial (Turney & Pantel, 2010) para se- mas diversos artigos têm sido publicados com ex-
lecionar sentenças similares de documentos dife- perimentos sobre o mesmo, focando normalmente
rentes, que passaram por um processo de filtra- em métodos de deep learning (Rocktäschel et al.,
gem manual (onde foram excluı́dos pares consi- 2015; Wang & Jiang, 2015). O SNLI e o SICK fo-
derados ruidosos) e, por fim, foram anotados por ram criados a partir de descrições de imagens. No
juı́zes humanos. Cada par foi anotado por quatro SICK, um processo semi-automático gerou uma
pessoas com respeito às duas tarefas. segunda sentença para cada descrição, introdu-
Participaram do ASSIN seis equipes, sendo zindo negações, trocando palavras, entre outras
três brasileiras e três portuguesas. Cada equipe alterações. Já no SNLI, anotadores escreveram,
participante pôde enviar até três saı́das dos seus para cada sentença original, três outras: uma que
sistemas para cada combinação de variante e sub- fosse implicada pela primeira, outra que a contra-
tarefa. As seis equipes participaram da tarefa de dissesse e uma terceira neutra.
similaridade semântica, e quatro delas participa- A detecção de similaridade semântica textual
ram da inferência textual. É interessante notar foi introduzida em 2012 e, em 2013, foi parte
que foram exploradas diferentes abordagens para do evento *SEM, acontecendo em conjunto com
tratar os problemas, mas nem todas foram capa- o SemEval (Agirre et al., 2012, 2013). Desde
zes de superar os baselines. então, a STS tem sido anualmente uma das tare-
Tratamos brevemente de avaliações conjuntas fas propostas no SemEval. Os pares usados nas
sobre as mesmas tarefas, para inglês, na Seção 2. avaliações de STS incluem sentenças de diferen-
Na Seção 3, apresentamos a definição detalhada tes origens, como descrições de vı́deos e imagens,
das tarefas para o escopo do ASSIN 2016. Na manchetes de jornais e diferentes traduções de
Seção 4 descrevemos o processo de criação do cor- um mesmo texto.
pus, assim como métricas usadas para a avaliação
da concordância entre anotadores. Fornecemos 3 Definição das Tarefas
também diretrizes para reduzir a subjetividade
da anotação. A Seção 5 apresenta as seis equipes Apresentamos nessa seção os dois fenômenos ano-
participantes e um resumo das suas abordagens. tados no corpus.
A Seção 6 descreve os baselines usados na tarefa
e os resultados gerais. As conclusões e possı́veis
trabalhos futuros são apresentados na Seção 7. 3.1 Similaridade semântica
Nossos valores para similaridade semântica va-
2 Trabalhos Relacionados riam de 1 a 5, como no corpus SICK, de modo
que quanto maior o valor, maior a semelhança
A primeira competição de RTE foi o PASCAL do significado das duas sentenças. Esse tipo de
Recognising Textual Entailment Challenge (RTE- medida é inerentemente subjetiva, e não conse-
1) (Dagan et al., 2005), que apresentou pares de guimos chegar a uma definição exata para o que
sentenças coletados manualmente, tentando si- cada valor deveria indicar. Ainda assim, as dire-
mular o cenário de aplicações de PLN. Por exem- trizes gerais para a pontuação utilizadas no AS-
plo, em um cenário de Extração de Informação, SIN 2016 seguem abaixo:
a segunda sentença mencionava alguma proprie-
dade de uma entidade mencionada na primeira. 1. As sentenças são completamente diferentes.
Nos anos seguintes, outras edições do evento fo- É possı́vel que elas falem do mesmo fato,
ram realizadas, trazendo novos corpora anotados. mas isso não é visı́vel examinando-as isola-
Em particular, no RTE-4 (Giampiccolo et al., damente, sem contexto.
2008), a avaliação trouxe a classificação de al- 2. As sentenças se referem a fatos diferentes e
guns pares como contradição. No SemEval 2014, não são semelhantes entre si, mas são sobre
foi utilizado o corpus SICK (Marelli et al., 2014), o mesmo assunto (jogo de futebol, votações,
que trazia anotação tanto de RTE como de STS. variações cambiais, acidentes, lançamento de
Esta foi a última avaliação conjunta para RTE produtos).
em inglês.
3. As sentenças têm alguma semelhança entre
Mais recentemente, foi disponibilizado o cor-
si, e podem se referir ao mesmo fato ou não.
pus SNLI (Stanford Natural Language Inference)
(Bowman et al., 2015), com cerca de 550 mil pa- 4. O conteúdo das sentenças é muito seme-
res de sentenças anotados para inferência textual, lhante, mas uma (ou ambas) tem alguma
o maior corpus do gênero até o momento. O SNLI informação exclusiva. A diferença pode ser
Visão Geral da ASSIN Linguamática – 5

mencionar uma data, local, quantidade dife- 4.1 Coleta e Anotação do Corpus
rente, ou mesmo um sujeito ou objeto dife-
rente. A exploração de agrupamentos de notı́cias para
aquisição de pares de sentenças similares não é
5. As sentenças têm praticamente o mesmo sig- uma ideia nova; já foi explorada com sucesso
nificado, possivelmente com uma diferença em vários trabalhos da literatura (Dolan et al.,
mı́nima (como um adjetivo que não altera a 2004; Dagan et al., 2005). Entretanto, em vez
sua interpretação). de anotadores humanos selecionarem pares com
base na sobreposição de palavras, empregamos
o Latent Dirichlet Allocation (LDA) (Blei et al.,
A Tabela 1 mostra exemplos de pares em cada 2003) para selecionar pares similares.
um dos nı́veis. As diretrizes de anotação requi- O LDA, um método de modelagem de espaços
sitavam que se considerasse o conteúdo das sen- vetoriais, atribui uma pontuação para pares de
tenças em análise, e não os contextos possı́veis documentos, refletindo o quão similares são en-
nos quais elas poderiam aparecer. Por exem- tre si. Em um experimento piloto reportado em
plo, considere o exemplo de similaridade 1 na (Fonseca & Aluı́sio, 2015), notamos que, em com-
Tabela 1. Embora seja possı́vel que ambas as paração com outros métodos de espaço vetorial, o
sentenças venham do mesmo texto e sejam forte- LDA fornecia os pares mais interessantes para in-
mente relacionadas (o que é o caso nesse exem- ferência textual, pois recuperava o menor número
plo), a anotação não deve considerar essas su- de sentenças sem relação de inferência (que cos-
posições. tumam ser a maioria) e era eficiente em detectar
similaridades além da sobreposição de palavras.
Usamos um modelo diferente de LDA para
3.2 Inferência Textual cada variante do português, ambos treinados em
grandes corpora de notı́cias. O modelo para o
Dagan et al. (2013) definem inferência textual português do Brasil foi treinado em um corpus
como uma relação unidirecional entre um texto coletado do site de notı́cias G12 e o para por-
(ou premissa) T e uma hipótese H. Se uma pes- tuguês europeu com textos do jornal Público3 .
soa ao ler T conclui que H é verdadeiro, diz-se Esses corpora foram somente usados para gerar
que T implica (entails) H. Embora seja uma de- os modelos LDA, não para coletar os pares de
finição subjetiva, ela é largamente aceita na co- sentenças do corpus ASSIN.
munidade de processamento de lı́nguas naturais, Grupos de notı́cias sobre o mesmo evento fo-
dada a dificuldade de se chegar a uma definição ram coletados do Google News em suas versões
mais precisa. especı́ficas para Brasil e Portugal. Filtramos al-
É comum a distinção entre pares de textos guns domı́nios para evitar sites de notı́cias bra-
sem inferência e com contradições em conjun- sileiros na seção de Portugal e vice-versa. Dados
tos de dados de inferência textual. Embora seja os grupos de notı́cia coletados e um modelo de
interessante a distinção, no corpus ASSIN 2016 espaço vetorial treinado, a criação do nosso cor-
eles são raros e dessa forma decidimos não criar pus seguiu um processo de três etapas:
uma classe separada. Vale lembrar que, tanto no
SICK quanto no SNLI (Bowman et al., 2015), pa- 1. Usamos LDA para encontrar pares de sen-
res com contradição são deliberadamente criados, tenças similares dentro de cada grupo. Esse
seja manual ou semi-automaticamente. passo pode ser parametrizado fixando os va-
Nós também definimos uma classe separada lores mı́nimo e máximo de similaridade smax
para paráfrases, que embora não sejam frequen- e smin : fixando um valor máximo evita pares
tes, aparecem em nosso corpus de textos jor- de sentenças quase iguais, que seriam clas-
nalı́sticos. A Tabela 2 mostra um caso em que sificados trivialmente como paráfrases, e fi-
a primeira sentença implica a segunda; um caso xando um mı́nimo evita pares muito dissimi-
de implicação mútua ou paráfrase; e um terceiro lares que são facilmente classificados como
caso em que não há implicação. sem relação. Fixamos a proporção α de to-
kens que são encontrados em uma sentença
mas não em outra (sem contar stopwords).
Finalmente, sentenças podem ser limitadas
4 Criação do Corpus por um tamanho máximo; em uma análise
Nesta seção descrevemos a criação do corpus e 2
http://g1.globo.com/
3
apresentamos as estatı́sticas da anotação. http://www.publico.pt/
6– Linguamática Erick Fonseca, Leandro dos Santos, Marcelo Criscuolo & Sandra Aluı́sio

1 Mas esta é a primeira vez que um chefe da Igreja Católica usa a palavra em público.
A Alemanha reconheceu ontem pela primeira vez o genocı́dio armênio.
2 Como era esperado, o primeiro tempo foi marcado pelo equilı́brio.
No segundo tempo, o panorama da partida não mudou.
3 Houve pelo menos sete mortos, entre os quais um cidadão moçambicano, e 300 pessoas foram detidas.
Mais de 300 pessoas foram detidas por participar de atos de vandalismo.
4 A organização criminosa é formada por diversos empresários e por um deputado estadual.
Segundo a investigação, diversos empresários e um deputado estadual integram o grupo.
5 Outros 8.869 fizeram a quadra e ganharão R$ 356,43 cada um.
Na quadra 8.869 apostadores acertaram, o prêmio é de R$ 356,43 para cada.

Tabela 1: Exemplos para os valores de similaridade semântica.

Inferência Como não houve acordo, a reunião será retomada nesta terça, a partir das 10h.
As partes voltam a se reunir nesta terça, às 10h.
Paráfrase Vou convocar um congresso extraordinário para me substituir enquanto presidente.
Vou organizar um congresso extraordinário para se realizar a minha substituição como presidente.
Sem relação As apostas podem ser feitas até as 19h (de Brası́lia).
As apostas podem ser feitas em qualquer lotérica do paı́s.

Tabela 2: Exemplos para as categorias de inferência textual.

preliminar, notamos que sentenças muito anotação de inferência, e estão listadas na Ta-
longas têm muita informação e dificilmente bela 3.
podem ser completamente implicadas por Descartamos pares sem concordância de, pelo
outra. menos, três votos para a tarefa de inferência tex-
2. Revisamos os pares coletados em um pro- tual. Nosso entendimento foi que esses pares
cesso manual. Se um par contém uma sen- eram controversos e assim não seriam boas esco-
tença sem sentido, é descartado. Sentenças lhas para serem incluı́dos no corpus final. Note-
foram também editadas para correção de er- se que os anotadores poderiam indicar implicação
ros ortográficos e gramaticais, ou para alte- tanto da primeira para a segunda sentença como
rar casos em que a presença de implicação é da segunda para a primeira; porém, no corpus
pouco clara. final, invertemos a ordem dos pares necessários
para que todos os casos de inferência fossem da
3. Os pares são anotados. Quatro pessoas primeira sentença para a segunda. O valor final
anotaram cada par, selecionadas aleatoria- de similaridade para cada par é média das qua-
mente pelo sistema de anotação. Cada ano- tro pontuações. Dessa forma, os valores são reais
tador seleciona um valor de similaridade de separados por intervalos de 0,25.
1 a 5, e também uma das quatro opções A anotação foi realizada via uma interface
para inferência: a primeira sentença implica Web construı́da especialmente para a tarefa, mas
a segunda; a segunda implica a primeira; flexı́vel o bastante para permitir customizações
paráfrase, ou nenhuma relação. em futuras anotações. Os anotadores receberam
treinamento para calibrar os conceitos das tarefas
Realizamos esse processo em vários lotes, va- a serem realizadas, com ajuda de um conjunto de
riando os parâmetros. Usamos os valores de smin 18 pares exemplificando todos os fenômenos tra-
de 0.65 e 0.6, sem obter grande diferença no re- tados. Em caso de dúvidas, perguntas poderiam
sultado. smax foi fixado em 0.9. A proporção de ser enviadas via e-mail para a equipe de anotado-
tokens exclusivos para cada sentença foi fixada res, o que permitia discutir casos muito difı́ceis de
em 0.1 como mı́nimo e valores máximos variando decidir, principalmente no começo da anotação.
entre 0.7 ou 0.8. Com o último valor, notamos
Por fim, o corpus foi dividido em seções de
um aumento considerável de pares de sentenças
treinamento (com três mil pares de cada variante)
com valor de similaridade baixo.
e teste (com os dois mil restantes de cada). A
Dada a subjetividade da anotação, defini- metade brasileira do corpus de treinamento foi
mos algumas diretrizes para lidar com alguns disponibilizada em 20 de novembro de 2015, e a
fenômenos linguı́sticos recorrentes que tinham di- metade portuguesa foi disponibilizada dois meses
ferentes interpretações por parte dos anotadores. depois.
As diretrizes são voltadas especialmente para a
Visão Geral da ASSIN Linguamática – 7

Conceito Explicação
Atemporalidade A interpretação das sentenças não deveria levar em conta a data corrente, de modo
que a anotação fizesse sentido no futuro. Assim, embora há 70 anos atrás e em 1945
sejam equivalentes em 2015, devem ser considerados distintos pelos anotadores.
Entidades Nomeadas Entidades nomeadas que aparecem nas duas sentenças, tendo um aposto ou adje-
tivo em uma delas, devem ser consideradas equivalentes. Florianópolis, em Santa
Catarina é equivalente a apenas Florianópolis.
Discurso Indireto Uma sentença com discurso indireto (i.e., O embaixador disse que (...)) pode implicar
outra que contenha apenas a fala atribuı́da. O contrário, no entanto, não é possı́vel.
Quantidades Valores numéricos diferentes só podem ser aceitos para paráfrase/implicação se ti-
verem indicadores explı́citos de serem aproximações: acerca de, pelo menos, quase,
perto de, etc. Por exemplo, arrecadou 7 milhões não implica arrecadou 6 milhões
pois, mesmo sendo uma quantia menor, é possı́vel que se refira a outro evento.

Tabela 3: Resumo das Diretrizes para Anotação.

4.2 Estatı́sticas da Anotação Métrica Valor

O corpus foi anotado por 36 pessoas, que par- Correlação de Pearson 0,74
ticiparam em diferentes quantidades: o anota- Desvio Padrão Médio 0,49
dor com menor participação julgou 25 pares, en- κ de Fleiss 0,61
quanto o com maior participação julgou 6.740. Concordância 0,80
Do total de pares anotados, 11.3% foram des-
cartados por não terem três julgamentos iguais Tabela 4: Estatı́sticas da Anotação. Os primeiros
quanto à implicação. A proporção é um pouco 2 valores se referem à anotação de similaridade;
menor do que as reportadas na criação dos cor- os 2 últimos valores à inferência.
pora RTE Challenge (Dagan et al., 2005; Giam-
piccolo et al., 2007). No total, o ASSIN tem 10
mil pares, sendo metade em português brasileiro O desvio padrão médio avalia a divergência
e metade em português europeu. dos julgamentos de similaridade dos pares. É cal-
A Tabela 4 sumariza estatı́sticas da anotação. culado como a média dos desvios padrão de todos
A correlação ρ de Pearson é uma boa métrica os pares no corpus; esses, por sua vez, são calcula-
para a concordância entre anotadores (ou para dos como o desvio padrão das quatro pontuações
o desempenho de um sistema), tendo sido usada em relação à média do par. O valor reportado
também pelos organizadores das competições de na anotação do SICK é de 0,76, indicando que
STS. Essa medida avalia a dependência linear en- as pontuações dos nossos anotadores divergiram
tre duas variáveis, o que é mais informativo do menos.
que apenas a correlação de ranqueamento (com- Com relação à inferência, o valor da con-
putável com a correlação de Spearman). Por cordância κ de Fleiss foi relativamente baixo, o
exemplo, se um anotador avalia três pares com que indica que a anotação desta tarefa de fato
semelhança 2, 3 e 4, enquanto outro avalia os envolveu boa quantidade de subjetividade. Os
mesmos com 2, 4 e 5, o ranqueamento é idêntico, corpora dos desafios RTE, por exemplo, tiveram
mas o valor de ρ está abaixo de 1 por não se- uma taxa de concordância maior: 0,6 na primeira
rem duas variáveis (perfeitamente) linearmente edição (Dagan et al., 2005), mas chegando a 0,75
dependentes. ou mais nas subsequentes (Giampiccolo et al.,
O valor de ρ apresentado na tabela se re- 2007). Entretanto, deve ser notado que esses cor-
fere à média das correlações calculadas entre to- pora tratam de sentenças curtas como segundo
dos os anotadores, ponderada pela quantidade de componente do par (a sentença implicada), o que
pares que cada um anotou. Para cada anota- torna a decisão mais fácil.
dor, calculamos a correlação das suas pontuações A última linha da tabela se refere à con-
de similaridade com as médias das pontuações cordância simples entre os anotadores. Isso sig-
dos pares que ele ou ela anotou (excluindo a nifica que, em 80% dos casos, dois anotadores
sua anotação do cômputo). Para efeito de com- que julgaram o mesmo par escolheram a mesma
paração, a anotação do STS 2015 obteve valores categoria de inferência.
entre 0.65 e 0.85, o que mostra que alcançamos As tabelas 5 e 6 mostram estatı́sticas sobre as
boa concordância entre anotadores quanto à si- anotações de similaridade e inferência, respecti-
milaridade. vamente. Pode-se ver que as pontuações de si-
8– Linguamática Erick Fonseca, Leandro dos Santos, Marcelo Criscuolo & Sandra Aluı́sio

milaridade mais comuns estão no intervalo entre sentenças, caso as alterações possibilitassem a in-
2 e 3. Já quanto à inferência, percebe-se que a ferência. Apesar da proporção final estar menos
relação neutra é a classe majoritária, enquanto as desequilibrada que o observado em nosso corpus
paráfrases são uma porção pequena do corpus. piloto, ainda temos menos pares com inferência
e especialmente paráfrases do que o que gos-
Similaridade PB PE Total tarı́amos.
4,0 – 5,00 1.074 1.336 2.410
3,0 – 3,75 1.591 1.281 2.872 5 Sistemas Participantes
2,0 – 2,75 1.986 1.828 3.814
1,0 – 1,75 349 555 904 Participaram do ASSIN seis equipes, sendo três
brasileiras e três portuguesas. Cada equipe par-
Média 3,05 3,05 3,05
ticipante pôde enviar o resultado de até três
Tabela 5: Estatı́sticas de similaridade do ASSIN. execuções de seus sistemas para cada combinação
de variante da lı́ngua e subtarefa.
Na tarefa de similaridade, participaram to-
Relação PB PE Total das as seis equipes inscritas, enquanto quatro
Sem relação 3.884 3.432 7.316 participaram da tarefa de inferência textual. A
Implicação 870 1.210 2.080 L2F/INESC-ID foi a única a reportar resultados
Paráfrase 246 358 604 apenas para uma variante; no caso, o português
europeu4 .
Tabela 6: Estatı́sticas de inferência do ASSIN. É interessante notar que os participantes ado-
taram estratégias bastante diversas entre si, o
A pouca quantidade de pares com relação de que permite uma análise de diferentes pontos de
inferência foi notada já durante nossa análise de vista sobre as tarefas. Ressaltamos também que
um corpus piloto, que não foi incluı́do no cor- as equipes que participaram de ambas as tarefas
pus final. Isso se devia ao fato de que, em muitos usaram os mesmos atributos para treinar diferen-
casos, apenas alguns detalhes impediam que hou- tes modelos (em alguns casos, com uma etapa in-
vesse tal relação: a menção a um local, tempo, termediária de seleção automática de atributos).
propósito, entre outros. Essa situação é ilustrada
Portanto, não fazemos aqui uma separação
no exemplo a seguir.
entre abordagens especı́ficas de cada subtarefa;
em vez disso, resumimos brevemente o funciona-
(1) a. O Internacional manteve a boa fase
mento dos sistemas dos participantes a seguir.
e venceu o Strongest por 1 a 0 nesta
quarta-feira, garantindo a liderança do
Grupo 4 da Libertadores. 5.1 Abordagens
A equipe Solo Queue (Hartmann, 2016) utilizou
b. Em casa, a equipe gaúcha derrotou o uma abordagem bastante simples, baseada ape-
The Strongest, por 1 a 0, e garantiu a nas no valor da similaridade do cosseno de duas
primeira colocação do Grupo 4 da Copa representações vetoriais de cada sentença. Tais
Libertadores. representações são geradas como a soma dos ve-
tores de cada palavra, que por sua vez são obtidas
por meio de TF-IDF e word2vec (Mikolov et al.,
Apesar de as duas sentenças compartilharem a 2013).
maior parte do conteúdo, cada uma tem alguma Em seguida, os cossenos entre as duas repre-
informação especı́fica que não é implicada pela sentações (TF-IDF e word2vec) de cada sentença
outra. A primeira menciona o nome da equipe, são dadas como entrada para um regressor linear
além de que estava em boa fase e que o jogo que determina a similaridade do par.
foi na quarta-feira. Já a segunda diz que o jogo O sistema de L2F/INESC-ID (Fialho et al.,
foi na casa da equipe, sem explicitar seu nome. 2016) consistiu em extrair diversas métricas dos
Esse tipo de fenômeno é particularmente comum pares de sentenças, como distância de edição,
quando se tratam de sentenças longas. palavras em comum (incluindo métricas separa-
Visando aumentar a proporção de pares com das para entidades nomeadas ou verbos modais),
inferência, realizamos pequenas mudanças nas 4
Os autores informaram que não houve tempo o sufi-
sentenças durante a segunda etapa do nosso pro- ciente para treinar os seus modelos para o português do
cesso listado na Seção 4.1. Assim, passamos a Brasil antes do prazo da avaliação conjunta. Ainda assim,
remover pequenos trechos de uma ou ambas as apresentam em seu artigo resultados obtidos após a data.
Visão Geral da ASSIN Linguamática – 9

BLEU, ROUGE etc. Tais métricas foram compu- e o método Lasso, e para a inferência, apenas um
tadas tanto das sentenças originais como de ou- SVM.
tras versões, que poderiam estar em caixa baixa, Também foram explorados métodos baseados
com palavras radicalizadas, usando clusters de em redes neurais recorrentes e convolucionais,
palavras (Turian et al., 2010), entre outras mo- usando uma arquitetura siamesa. Esse tipo de
dificações. A combinação de diferentes versões arquitetura usa o mesmo conjunto de pesos para
das sentenças com as diferentes métricas gerou mapear cada uma das sentenças para um vetor.
mais de 90 atributos para descrever cada par, que Dados os dois vetores, pode ser calculado direta-
são então usados para treinar um Kernel Ridge mente o seu cosseno, que é então mapeado para
Regression (para similaridade) e um SVM (para um valor de similaridade. No entanto, a despeito
inferência). dos bons resultados reportados na literatura re-
Fialho et al. (2016) experimentaram ainda cente em PLN, as redes neurais obtiveram resul-
aumentar o conjunto de treinamento com uma tados muito abaixo dos outros métodos usados
versão do corpus SICK traduzida automatica- pela equipe. A provável causa desta desparidade
mente para o português. No entanto, os resul- é a quantidade relativamente pequena de dados
tados obtidos ao se treinar o regressor na versão disponı́veis no ASSIN.
aumentada foram inferiores, provavelmente de- A equipe FlexSTS (Freire et al., 2016) apre-
vido aos erros de tradução. Por fim, os autores sentou um framework para calcular a similari-
avaliam seus modelos quando treinados em uma dade semântica textual baseada em combinar
variante do português e testados na outra. medidas de semelhança entre tokens de acordo
As equipes ASAPP e Reciclagem (Alves et al., com alinhamentos entre eles. Foram exploradas
2016) compartilharam um módulo de análises três configurações: a primeira treina um regres-
de relações lexicais baseado em redes semânticas sor usando apenas uma função DICE e medidas
(como tesauros e wordnets). Diversas métricas de distâncias entre os tokens na WordNet. Foi
baseadas em tais relações foram extraı́das dessas usada a WordNet da lı́ngua inglesa, e os pares do
redes. ASSIN foram traduzidos automaticamente para
O Reciclagem não conta com nenhum módulo consultá-la.
de aprendizado de máquina, empregando apenas A segunda abordagem do FlexSTS usou ape-
métricas de similaridade baseadas nas relações nas o modelo HAL (Hyperspace Analogue to
semânticas entre as palavras das duas sentenças. Language) para calcular a similaridade entre as
Nesse sentido, o método teve um caráter explo- palavras mais similares, enquanto a terceira abor-
ratório quanto à capacidade de diferentes redes dagem combina o modelo HAL com a WordNet.
semânticas contribuı́rem para a tarefa de STS e Essas duas não usam nenhum componente de
do quanto um sistema sem treinamento poderia aprendizado de máquina, recorrendo a fórmulas
alcançar em termos de performance. pré-definidas para computar o valor de similari-
Já o ASAPP emprega, além das métricas usa- dade de cada par.
das pelo Reciclagem, atributos como contagem
de tokens de cada sentença, orações nominais,
tipos de entidades nomeadas etc., todos dados 6 Avaliação e Resultados
como entrada para classificadores e regressores.
Em suas três execuções, foram exploradas formas
Os participantes receberam o conjunto de teste
de partição de dados, combinação de modelos e
(sem os rótulos corretos dos pares) em 4 de março
redução da quantidade de atributos.
de 2016, e tiveram 8 dias para enviar aos organi-
Barbosa et al. (2016) utilizaram a estratégia zadores os arquivos com as respostas produzidas
proposta por Kenter & de Rijke (2015): são ob- por seus sistemas. Cada participante pôde enviar
tidas representações vetoriais das palavras (no até três resultados.
caso, foi usado o word2vec) e, em seguida, os ve-
As métricas usadas na avaliação das duas ta-
tores de uma sentença são comparados com os da
refas são consoantes com as usadas em avaliações
outra, obtendo-se medidas baseadas no cosseno e
conjuntas internacionais. Na tarefa de simila-
a distância euclidiana.
ridade textual, foi usada a correlação de Pear-
Todas as medidas obtidas são então agrupa- son, tendo o erro quadrático médio (MSE, mean
das em histogramas, com intervalos pré-definidos. square error ) como medida secundária. Ideal-
São usados diferentes histogramas para cada me- mente, os sistemas devem ter a maior correlação
dida, e as suas contagens são dados como entrada possı́vel e o menor MSE possı́vel. Para a in-
para os modelos de aprendizado de máquina. ferência, foi usada a medida F1, tendo a acurácia
Para a tarefa de similaridade, foram usados SVR como medida secundária.
10– Linguamática Erick Fonseca, Leandro dos Santos, Marcelo Criscuolo & Sandra Aluı́sio

6.1 Baselines no ASSIN é fortemente relacionada com a sobre-


posição lexical, ainda que tenhamos nos esforçado
Foram usadas duas estratégias como baseline em incluir tanto pares com inferência que tives-
para o ASSIN: a primeira memoriza a média das sem palavras distintas quanto pares sem relação
similaridades do corpus de treino e a classe de in- e palavras compartilhadas.
ferência mais comum, e emite esses valores para
todos os pares de teste. A segunda, um pouco
mais sofisticada, consiste no treinamento de um 7 Conclusões
classificador baseado em regressão logı́stica e um
regressor linear. Estes dois modelos são treinados Descrevemos a proposta da Avaliação de Simila-
com apenas dois atributos: a proporção de tokens ridade Semântica e Inferência Textual, como foi
exclusivos da primeira e da segunda sentença. criado seu corpus anotado, quais foram as equi-
pes participantes da avaliação conjunta e os re-
sultados que obtiveram. Apresentamos, ainda,
6.2 Resultados dois sistemas baseline bastante simples, mas dos
quais um superou a maioria dos participantes na
As Tabelas 7 e 8 listam os resultados das ta- tarefa de inferência textual.
refas de similaridade e inferência, respectiva-
mente, obtidos por cada participante em suas três O ASSIN 2016 cumpriu seu objetivo de trazer
execuções, bem como os resultados dos sistemas a primeira avaliação conjunta de inferência tex-
baseline. tual e similaridade semântica para o português.
Listamos a seguir algumas conclusões que dizem
A equipe Solo Queue (Hartmann, 2016) ob- respeito à criação do corpus e aos sistemas de-
teve os melhores resultados da similaridade senvolvidos para a tarefa.
semântica para o português do Brasil, enquanto o
Blue Man Group (Barbosa et al., 2016) obteve os
melhores resultados para inferência textual . Já 7.1 Criação do Corpus
com o português europeu, a L2F/INESC-ID (Fi-
alho et al., 2016) alcançou os melhores resultados O método que usamos para a compilação do cor-
nas duas tarefas. pus, apesar de funcional, apresenta alguns em-
O primeiro baseline obteve 0 na correlação de pecilhos. O primeiro é o gargalo da etapa de
Pearson pelo fato de não haver variação em suas limpeza antes da anotação em si. Durante essa
respostas, e a medida ser baseada na correlação etapa, os critérios para se eliminar ou editar pares
de duas variáveis. Ao se combinar as respostas são bastante delicados, como nossa experiência
para as duas metades do corpus, é obtido um mostrou. É uma parte da anotação que deve ficar
valor negativo, indicando uma performance pior a cargo de pessoas que tenham conhecimento so-
que dar a mesma resposta sempre. bre a tarefa e seus objetivos, e dificilmente pode-
No entanto, considerando o MSE, esse ba- ria ser delegada para uma plataforma de crowd-
seline teve resultados melhores que algumas sourcing.
execuções dos participantes, o que significa que Outra dificuldade diz respeito à subjetividade
tais execuções computaram valores muito distan- da tarefa. Em alguns casos, os anotadores gasta-
tes da similaridade real dos pares. Já o segundo ram bastante tempo tentando se decidir quanto
baseline teve resultados competitivos, chegando aos julgamentos que deveriam dar para certos pa-
a superar diversas execuções. res. Esse tipo de problema retoma o anterior:
Quanto à inferência, com resultados na Ta- certas alterações no conteúdo das sentenças torna
bela 8, o primeiro baseline é também facilmente as decisões mais fáceis, e portanto, a anotação
superado, mas o segundo se saiu bastante bem. mais confiável e produtiva.
Na variante brasileira, chegou a superar todos
os três participantes e, na europeia, apenas uma 7.2 Sistemas Participantes
execução da L2F/INESC-ID se saiu melhor.
O último resultado foi bastante inesperado. Os participantes do ASSIN exploraram diferen-
Apesar de toda a modelagem do problema feita tes tipos de estratégia para as duas tarefas pro-
pelas equipes participantes, um baseline com postas. É particularmente interessante notar
apenas dois atributos simples, sem acesso a ne- que dentre os melhores resultados obtidos estão
nhum recurso externo e usando apenas modelos duas abordagens muito simples: na similaridade
lineares foi capaz de superar quase todos os sis- semântica, a comparação da combinação de ve-
temas empregados na tarefa. Ao mesmo tempo, tores de palavras, como feito pelo Solo Queue; e
esse resultado indica que a presença de inferência para inferência, a comparação da proporção de
Visão Geral da ASSIN Linguamática – 11

PB PE Geral
Equipe Exec. Pearson MSE Pearson MSE Pearson MSE
1 0,58 0,50 0,55 0,83 0,56 0,66
Solo Queue 2 0,68 0,41 0,00 1,55 0,29 0,98
3 0,70 0,38 0,70 0,66 0,68 0,52
1 0,59 1,36 0,54 1,10 0,53 1,23
Reciclagem 2 0,59 1,31 0,53 1,14 0,54 1,23
3 0,58 1,37 0,53 1,18 0,53 1,27
1 0,65 0,44 0,63 0,73 0,63 0,59
Blue Man Group
2 0,64 0,45 0,64 0,72 0,63 0,59
1 0,65 0,44 0,68 0,70 0,65 0,57
ASAPP 2 0,65 0,44 0,67 0,71 0,64 0,58
3 0,65 0,44 0,68 0,73 0,65 0,58
1 0,62 0,47 0,64 0,72 0,62 0,59
LEC-UNIFOR 2 0,56 2,83 0,59 2,49 0,57 2,66
3 0,61 1,29 0,63 1,04 0,61 1,17
1 0,73 0,61
L2F/INESC-ID 2 0,63 0,70
3 0,63 0,70
Baseline (média) – 0,00 0,76 0,00 1,19 -0,08 0,97
Baseline (sobreposição) – 0,63 0,46 0,64 0,75 0,62 0,60

Tabela 7: Resultados de todas as execuções para a tarefa de similaridade semântica.

PB PE Geral
Equipe Exec. Acurácia F1 Acurácia F1 Acurácia F1
1 77,65% 0,29 73,10% 0,43 75,38% 0,40
Reciclagem 2 79,05% 0,39 72,10% 0,38 75,58% 0,38
3 78,30% 0,33 70,80% 0,32 74,55% 0,32
Blue Man Group 2 81,65% 0,52 77,60% 0,61 79,62% 0,58
1 81,20% 0,50 77,75% 0,57 79,47% 0,54
ASAPP 2 81,65% 0,47 78,90% 0,58 80,27% 0,54
3 77,10% 0,50 74,35% 0,59 75,72% 0,55
1 83,85% 0,70
L2F/INESC-ID 2 78,50% 0,58
3 78,50% 0,58
Baseline (maioria) – 77,65% 0,29 69.30% 0,27 73,47% 0,28
Baseline (sobreposição) – 82,80% 0,64 81,75% 0,70 82,27% 0,67

Tabela 8: Resultados de todas as execuções para a tarefa de inferência textual.

palavras exclusivas de cada sentença, que foi um Outra linha de pesquisa bastante bem suce-
dos baselines propostos. dida na literatura recente são redes neurais re-
Todavia, a equipe L2F/INESC-ID obteve os correntes (como LSTMs) ou convolucionais. O
melhores resultados do ASSIN na variante euro- Blue Man Group foi o único grupo a explorá-las,
peia (a única em que competiu), empregando um mas as descartou após obter resultados prelimi-
sistema baseado em um rico conjunto de atribu- nares negativos. Uma possı́vel explicação para
tos. Esse resultado indica que superar métodos esse fato é que o conjunto de dados do ASSIN é
simples como os listados acima requer uma mo- menor e com sentenças mais complexas do que
delagem extensiva do problema. as que se encontram para conjuntos semelhantes
12– Linguamática Erick Fonseca, Leandro dos Santos, Marcelo Criscuolo & Sandra Aluı́sio

em inglês, onde os modelos neurais obtêm os me- Referências


lhores resultados.
Por fim, notamos que nenhum dos participan- Agirre, Eneko, Carmen Banea, Claire Car-
tes modelou as sentenças em alguma estrutura die, Daniel Cer, Mona Diab, Aitor Gonzalez-
sintática ou semântica; em vez disso, todos ex- Agirre, Weiwei Guo, Iñigo Lopez-Gazpio,
ploraram apenas o nı́vel lexical. Pelo menos para Montse Maritxalar, Rada Mihalcea, German
a inferência textual, há evidências na literatura Rigau, Larraitz Uria & Janyce Wiebe. 2015.
de que a compreensão da estrutura das sentenças SemEval-2015 Task 2: Semantic Textual Simi-
tem um papel importante (Dagan et al., 2013), e larity, English, Spanish and Pilot on Interpre-
a ausência desse tipo de análise pode explicar o tability. Em Proceedings of the 9th Internatio-
desempenho dos sistemas abaixo do baseline. nal Workshop on Semantic Evaluation (SemE-
val 2015), 252–263.
Agirre, Eneko, Daniel Cer, Mona Diab, Aitor
7.3 Trabalhos Futuros
Gonzalez-Agirre & Weiwei Guo. 2013. *SEM
Novas edições do ASSIN teriam o potencial de 2013 shared task: Semantic textual similarity.
estimular e melhorar a pesquisa nas duas tarefas Em *SEM 2013: The Second Joint Conference
propostas para a lı́ngua portuguesa. No entanto, on Lexical and Computational Semantics., 32–
acreditamos que seria interessante trabalhar com 43. Association for Computational Linguistics.
outros tipos de pares de sentença, especialmente Agirre, Eneko, Daniel M. Cer, Mona T. Diab
na tarefa de inferência. & Aitor Gonzalez-Agirre. 2012. Semeval-
Uma possibilidade seria o uso de pares de sen- 2012 task 6: A pilot on semantic textual si-
tenças escritos especificamente com o objetivo de milarity. Em Proceedings of the 6th Inter-
terem ou não uma relação de implicação, como national Workshop on Semantic Evaluation,
foi feito no SICK e SNLI. Nesse caso, a subjetivi- SemEval@NAACL-HLT 2012, Montréal, Ca-
dade da anotação é reduzida drasticamente, com nada, June 7-8, 2012, 385–393.
o preço de não se trabalhar com um cenário re-
alista. De fato, a motivação principal da criação Alves, Ana Oliveira, Ricardo Rodrigues &
destes dois corpora foi fornecer um ambiente para Hugo Gonçalo Oliveira. 2016. ASAPP: alinha-
sistemas de PLN aprenderem o funcionamento de mento semântico automático de palavras apli-
certos mecanismos da linguagem humana. cado ao português. Linguamática 8(2). 43–58.
Outro direcionamento seria usar apenas fatos Barbosa, Luciano, Paulo Cavalin, Victor Gui-
simples, na forma de sentenças com uma única marães & Matthias Kormaksson. 2016. Blue
oração, como o segundo componente de cada Man Group no ASSIN: Usando representações
par. Essa foi a estratégia adotada na criação distribuı́das para similaridade semântica e in-
dos corpora dos RTE Challenges, e mantêm o ferência textual. Linguamática 8(2). 15–22.
realismo da tarefa na medida em que a primeira
Bentivogli, Luisa, Ido Dagan, Hoa Trang Dang,
sentença pode ser extraı́da de um jornal ou ou-
Danilo Giampiccolo & Bernardo Magnini.
tra fonte real. Por outro lado, esse cenário não
2009. The fifth Pascal recognizing textual en-
requer que os sistemas processem e comparem
tailment challenge. Em Proceedings of the Text
duas sentenças inteiras, mas apenas busque por
Analysis Conference 2009, s.pp.
confirmação de um fato.
Por fim, uma estratégia que facilitasse a Blei, David M., Andrew Y. Ng & Michael I. Jor-
anotação do corpus seria também interessante dan. 2003. Latent Dirichlet allocation. Journal
por permitir a criação um novo recurso em maior of Machine Learning Research 3. 993–1022.
escala, tornando mais viável a exploração de
Bowman, Samuel R., Gabor Angeli, Christopher
métodos neurais que necessitam de grandes bases
Potts & Christopher D. Manning. 2015. A
de treinamento.
large annotated corpus for learning natural
language inference. Em Proceedings of the 2015
Conference on Empirical Methods in Natural
Agradecimentos
Language Processing, 632–642. ACL.
Agradecemos o apoio da Fapesp, processos número Dagan, Ido, Oren Glickman & Bernardo Mag-
2016/02466-5 e 2013/22973-0, o apoio do CNPq, proces- nini. 2005. The PASCAL recognising tex-
sos número 155137/2015-8 e 153047/2016-0, e também o
apoio da Google via programa Google Research Awards for
tual entailment challenge. Em Proceedings of
Latin America, projeto 23327 Google/FUNDEP Google the PASCAL challenges on Recognizing Tex-
Research Grant para o desenvolvimento dessa pesquisa. tual Entailment, 177–190.
Visão Geral da ASSIN Linguamática – 13

Dagan, Ido, Dan Roth, Mark Sammons & Fa- Mikolov, Tomas, Kai Chen, eg Corrado & Jeffrey
bio Massimo Zanzotto. 2013. Recognizing Dean. 2013. Efficient estimation of word re-
Textual Entailment: Models and Applications presentations in vector space. Available from
Synthesis Lectures on Human Language Tech- arXiv:1301.3781.
nologies. Morgan & Claypool.
Rocktäschel, Tim, Edward Grefenstette,
Dolan, Bill, Chris Quirk & Chris Brockett. 2004. Karl Moritz Hermann, Tomáš Kočiský &
Unsupervised Construction of Large Paraph- Phil Blunsom. 2015. Reasoning about entail-
rase Corpora: Exploiting Massively Parallel ment with neural attention. Available from
News Sources. Em Proceedings of the 20th In- arXiv:1509.06664.
ternational Conference on Computational Lin- Turian, Joseph, Lev Ratinov & Yoshua Bengio.
guistics, 350–356. 2010. Word representations: A simple and
general method for semi-supervised learning.
Fialho, Pedro, Ricardo Marques, Bruno Mar-
Em Proceedings of the 48th Annual Meeting of
tins, Luı́sa Coheur & Paulo Quaresma. 2016.
the Association for Computational Linguistics,
INESC-ID@ASSIN: Medição de similaridade
384–394.
semântica e reconhecimento de inferência tex-
tual. Linguamática 8(2). 33–42. Turney, Peter D. & Patrick Pantel. 2010. From
frequency to meaning: Vector space models
Fonseca, Erick R. & Sandra M. Aluı́sio. 2015. of semantics. Journal of Artificial Intelligence
Semi-Automatic Construction of a Textual En- Research 37. 141–188.
tailment Dataset: Selecting Candidates with
Vector Space Models. Em Proceedings of STIL Wang, Shuohang & Jing Jiang. 2015. Learning
2015, 201–210. natural language inference with LSTM. Avai-
lable from arXiv:1512.08849.
Freire, Jânio, Vládia Pinheiro & David Feitosa.
2016. FlexSTS: Um framework para simila-
ridade semântica textual. Linguamática 8(2).
23–31.
Giampiccolo, Danilo, Hoa Trang Dang, Bernardo
Magnini, Ido Dagan, Elena Cabrio & Bill Do-
lan. 2008. The fourth PASCAL recognizing
textual entailment challenge. Em Proceedings
of the First Text Analysis Conference, 1–9.
Giampiccolo, Danilo, Bernardo Magnini, Ido Da-
gan & Bill Dolan. 2007. The third PASCAL
recognizing textual entailment challenge. Em
Proceedings of the Workshop on Textual En-
tailment and Paraphrasing, 1–9.
Hartmann, Nathan Siegle. 2016. Solo queue at
ASSIN: Combinando abordagens tradicionais
e emergentes. Linguamática 8(2). 59–64.
Kenter, Tom & Maarten de Rijke. 2015. Short
text similarity with word embeddings. Em
Proceedings of the 24th ACM International
on Conference on Information and Knowledge
Management, 1411–1420.
Marelli, Marco, Luisa Bentivogli, Marco Baroni,
Raffaella Bernardi, Stefano Menini & Roberto
Zamparelli. 2014. SemEval-2014 Task 1: Eva-
luation of compositional distributional seman-
tic models on full sentences through semantic
relatedness and textual entailment. Em Pro-
ceedings of the 8th International Workshop on
Semantic Evaluation, 1–8.
Proposta recebida em Setembro 2016 e aceite para publicação em Novembro 2016.

Blue Man Group no ASSIN: Usando Representações Distribuı́das


para Similaridade Semântica e Inferência Textual
Blue Man Group at ASSIN:
Using Distributed Representations for Semantic Similarity and Entailment Recognition

Luciano Barbosa Paulo Cavalin Victor Guimarães


IBM Research IBM Research IBM Research
lucianoa@br.ibm.com pcavalin@br.ibm.com victorl@br.ibm.com
Matthias Kormaksson
IBM Research
matkorm@br.ibm.com

Resumo Our team’s strategy consisted of evaluating


methods based on semantic word vectors, fol-
Neste artigo apresentamos a metodologia e os re- lowing two distinct directions: 1) to make use
sultados obtidos pela equipe Blue Man Group, na of low-dimensional, compact, feature sets, and 2)
competição de Avaliação de Similaridade Semântica deep learning-based strategies dealing with high-
e Inferência Textual do PROPOR 2016.1 dimensional feature vectors. Evaluation results de-
A estratégia da equipe consistiu em avaliar monstrated that the first strategy was more promi-
métodos baseados no uso de vetores semânticos de pa- sing, so that the results from the second strategy have
lavras, com duas frentes básicas: 1) uso de vetores de been discarded.
caracterı́sticas de pequena dimensão, e 2) estratégias As a result, by considering the best run of each of
de deep learning para vectores de caracterı́sticas de the six participant teams, we have been able to achi-
grandes dimensões. Os resultados nas bases de ava-
eve the best accuracy and F1 values in entailment
liação demonstraram que a primeira frente seria mais
promissora, e os resultados submetidos para a com- recognition, in the Brazilian Portuguese set, and the
petição da segunda frente foram descartados. best F1 score considering also the Portuguse from Por-
tugal set. In the semantic similarity task, our team
Com isso, considerando o melhor resultado de cada
was ranked second in the Brazilian Portuguese set,
uma das seis equipes, conseguimos atingir os melho-
and third considering both sets.
res resultados de acurácia e medida F1 na tarefa de
inferência textual, na base de português brasileiro, e Keywords
o melhor resultado geral de F1 considerando também
Semantic Similarity, Entailment Recognition, Deep
a base de português de Portugal. Na tarefa de simi-
Learning, Word Vectors
laridade semântica, a equipe atingiu o segundo lugar
na base de português brasileiro, e terceiro lugar con-
siderando ambas as bases.
1 Introdução
Palavras chave
Similaridade Semântica, Inferência Textual, Deep Le- Neste trabalho, apresentamos a metodologia e
arning, Vetores Semânticos de Palavras resultados obtidos pela nossa equipe, nome-
ada Blue Man group, na competição intitulada
Avaliação de Similaridade e Inferência Textual
Abstract (ASSIN), a qual foi juntamente realizado com
o congresso PROPOR (International Conference
In this paper, we present the methodology and on the Computational Processing of Portuguese)
the results obtained by our team, dubbed Blue Man em 2016.
Group, in the ASSIN (from the Portuguese Avaliação
de Similaridade Semântica e Inferência Textual) com- A competição ASSIN atribuı́u duas tarefas
petition, held at PROPOR 2016. para os participantes: avaliação da similaridade
semântica, e reconhecimento de inferência tex-
1
International Conference on the Computational Pro-
tual. Dadas as sentenças s1 e s2 , a primeira ta-
cessing of the Portuguese Language (http://propor2016. refa consiste em atribuir um valor, representando
di.fc.ul.pt/) o grau de relação semântica entre s1 e s2 . A se-
This work is licensed under a Linguamática — ISSN: 1647–0818
Creative Commons Attribution 3.0 License Vol. 8 Núm. 2 - Dezembro 2016 - Pág. 15–22
16– Linguamática Luciano Barbosa, Paulo Cavalin, Victor Guimarães & Matthias Kormaksson

gunda tarefa envolve determinar se s1 implica s2 reconhecimento de inferência textual, alcançando


(a sentença s1 implica a sentença s2 se, depois de o segundo melhor valor de F1, mas ficou apenas
ler ambas e sabendo que s1 é verdade, é possı́vel em quarto lugar na outra tarefa.
concluir que s2 também é verdade). Dadas estas No restante deste documento, apresentamos
duas tarefas, os pesquisadores foram convidados com mais detalhes como o nosso sistema foi de-
a formar equipes e participar na competição com senvolvido e avaliado.
o desenvolvimento de sistemas para resolver uma
ou ambas as tarefas, fazendo uso de dados rotu-
lados fornecidos pela organização da competição, 2 Competição ASSIN
e enviar os seus resultados em um teste cego, ou
seja, em dados sem o conhecimento da rotula- Tal como já referido, a competição ASSIN consis-
gem. Vale ressaltar que textos tanto em por- tiu em um fórum de avaliação para duas tarefas,
tuguês do Brasil como em português de Portu- a similaridade semântica e o reconhecimento de
gal estavam disponı́veis, aqui denotados PT-BR inferência textual, para o qual participantes (ou
e PT-PT, respectivamente, e as equipes podiam equipes) poderiam desenvolver sistemas e apre-
optar por apresentar resultados para apenas um sentar os seus resultados nos dados fornecidos
ou ambas as variações do português. pela comissão organizadora. Um grande conjunto
Nossa equipe (Blue Man Group) focou em de dados contendo pares de sentenças, nas va-
abordagens baseadas em vetores semânticos de riações de português tanto do Brasil como de Por-
palavras (do inglês word vectors ou word embed- tugal, foi criado para permitir que os participan-
dings) para resolver as duas tarefas (maiores de- tes desenvolvessem e avaliassem os sistemas. Os
talhes são apresentados na Seção 3). Conside- participantes poderiam enviar os resultados para
rando vetores semânticos de palavras criados com uma ou ambas as tarefas, e também para uma ou
toda a Wikipedia em lı́ngua portuguesa, segui- ambas as variações de português. Em seguida,
mos duas frentes distintas. Na primeira, imple- as equipes seriam classificadas pelos resultados
mentamos um conjunto de caracterı́sticas da li- de seus sistemas considerando uma avaliação em
teratura, proposto por Kenter & de Rijke (2015), outro conjunto de dados, isto é, o conjunto de tes-
para treinar tanto modelos de regressão e classi- tes. Tanto as métricas e os conjuntos de dados,
ficação baseados em vetores de suporte (do inglês assim como as tarefas em questão, são explicadas
support vectors), assim como o modelo de re- em detalhes no restante desta seção.
gressão Lasso (do inglês least absolute shrinkage O conjunto de dados ASSIN, contendo um to-
and selection operator) (Tibshirani, 1996). Na tal de 10.000 pares de frases, pode ser dividido
segunda frente, exploramos métodos de apren- nos seguintes subconjuntos. O conjunto de trei-
dizagem profunda (do inglês deep learning) tais namento PT-BR contém 3.000 pares rotulados
quais redes neurais siamesas (do inglês siamese de frases coletadas do sı́tio Google News, apenas
networks) (Chopra et al., 2005). As avaliações de fontes brasileiras. O conjunto de treinamento
preliminares com os conjuntos de dados de trei- PT-PT também contém 3.000 pares rotulados de
namento e experimentação demonstrou que a pri- frases coletadas do Google News, porém apenas
meira direção era mais promissora, fazendo com de fontes portuguesas neste caso. E os conjuntos
que decidı́ssemos por apresentar apenas os resul- de testes cegos PT-BR e PT-PT, contêm 2.000
tados da primeira estratégia. pares não rotulados de sentenças cada um, das
No total, seis equipes participaram da com- mesmas fontes utilizadas para os dados de trei-
petição. Considerando apenas o melhor resul- namento. Vale ressaltar que as etiquetas dos con-
tado de cada equipe, os resultados demonstram juntos de teste foram disponibilizados para os
que nosso sistema funcionou melhor na tarefa de participantes apenas depois que as equipes apre-
reconhecimento de inferência textual, já que con- sentaram os seus resultados.
quistou o primeiro lugar em acurácia e F1 para o Para a primeira tarefa, isto é, avaliação de
conjunto PT-BR, e o segundo lugar na acurácia e similaridade semântica, a similaridade é medida
primeiro lugar em F1 na avaliação geral. Na ta- numa escala entre 1 e 5, onde 1 representa que
refa de avaliação similaridade semântica, os nos- as sentenças são completamente diferentes e 5 re-
sos melhores resultados foram o segundo lugar presenta sentenças com essencialmente o mesmo
tanto em correlação de Pearson como em Erro significado. Assim sendo, as escalas são variações
Quadrático Médio (MSE) para o conjunto PT- graduais destes dois conceitos. Neste contexto,
BR, e segundo lugar em Pearson e terceiro em esta tarefa consiste na construção de um modelo
MSE na avaliação geral. Para o conjunto PT-PT, que, dado o par de sentenças p(i) = (s1 (i), s2 (i)),
o sistema obteve um desempenho melhor para o contendo a sentenças s1 (i) e s2 (i), prediz o valor
de similaridade semântica y(i). Dados os valores
Usando Representações Distribuı́das para Similaridade Semântica e Inferência Textual Linguamática – 17

de similaridade x(i) definidos manualmente, os tintas, se estas duas palavras apresentarem sig-
sistemas são avaliadas por meio da correlação de nificados semânticos semelhantes, seus vetores de
Pearson entre o conjunto que contém todos x(i) palavra correspondentes devem ser muito simila-
e y(i), e o erro quadrático médio (do inglês mean res. Estes vectores tornam possı́vel não apenas
squared error - MSE). a criação de método de PLN que são capazes de
A segunda tarefa — reconhecimento de in- codificar de maneira mais precisa o significado
ferência textual (RTE) — consiste em determi- semântico das palavras do vocabulário compa-
nar se o significado da hipótese está implicado rado com o uso apenas de suas formas lexicais,
no texto (Bentivogli et al., 2011). Ou seja, su- mas estes métodos também permitem tirar pro-
ponha s1 é o texto e s2 é a hipótese, s1 implica veito de grandes conjuntos de texto sem que haja
s2 se, após a leitura de ambos e sabendo que s1 a necessidade de alguma forma de rotulagem. Os
é verdade, uma pessoa concluiu que s2 também vetores de palavra podem ser criados de maneiras
deve ser verdade. Dado que o conjunto de dados totalmente não-supervisionada.
fornecido pelo ASSIN também distingue casos de A aprendizagem de vetores de palavras é feita
vinculação bidirecional, ou paráfrases, o par de da seguinte maneira. Dado um grande conjunto
frases s1 e s2 devem ser classificados em uma das de textos, os vetores de palavra são aprendidos ao
seguintes classes: Inferência Textual, Paráfrase se considerar a frequência de distribuição de pala-
e Nenhuma Relação. Considerando as etiquetas vras. Isto é, dada uma palavra e as suas palavras
definidas por inspeção manual, os sistemas são anteriores e posteriores em uma frase, um mo-
medidos com as medidas denotadas acurácia e delo de aprendizagem de máquina tal qual uma
pontuação F1. rede neural pode ser aprendido, usando as pala-
vras vizinhas como entrada, e a palavra central
como saı́da.
3 Metodologia Neste trabalho, os vetores de palavras fo-
ram criados com a ferramenta word2vec,2 uti-
Como já mencionado, a estratégia empregada lizando como entrada todos os textos em por-
pela nossa equipe consistiu em avaliar aborda- tuguês disponı́veis na Wikipédia. Este conjunto
gens baseadas em vetores de palavras, onde estes contém um total de 636,597 linhas de texto, com
representam o significado semântico das palavras 229,658,430 ocorrências de palavras, e um voca-
(ver Seção 3.1). Como consequência, duas es- bulário com um total 540.638 palavras distintas.
tratégias distintas foram seguidas. A primeira, A ferramenta word2vec foi configurada com os
apresentada na Seção 3.2, consistiu em imple- seguintes parâmetros: modelo skip n-gram; ta-
mentar um conjunto de caracterı́sticas proposto manho de vetor de palavra igual a 300; com-
na literatura para representar a semelhança en- primento máximo de salto entre as palavras de-
tre os pares de sentenças, para o uso de modelos finido como 5; 10 exemplos negativos; softmax
de regressão como a regressão de vetores de su- hierárquica não usada; limiar de ocorrência de
porte (support vector regression, SVR) para ava- palavras estabelecidas para 10−4 ; e 15 iterações
liação de similaridade semântica, e máquinas de de treinamento.
vetor de suporte (support vector machines, SVM)
para o reconhecimento de inferência textual. E
a segunda estratégia, apresentada na Seção 3.3, 3.2 Estratégia 1:
explorou redes neurais siamesas de aprendizado Caracterı́sticas de Kenter e Rijke
profundo, com o objetivo de aprender a melhor
representação a partir dos dados brutos, ou seja, 3.2.1 Conjunto de caracterı́sticas
diretamente a partir dos vectores de palavras dos O conjunto de caracterı́sticas proposto por Ken-
pares de sentenças. ter & de Rijke (2015), consiste em extrair
um único vetor de caracterı́sticas, denotado
3.1 Vetores de palavras x̄i = xi1 , . . . , xiK , para codificar a similaridade
semântica do par de sentenças s1 (i) e s2 (i). Neste
Vetores de palavras (do inglês word vectors ou trabalho, propomos o uso de tal conjunto de
word embeddings) têm sido utilizados com sucesso caracterı́sticas para ambas as tarefas da com-
ao longo dos últimos anos para aprender repre- petição, ou seja, para a avaliação de similari-
sentações úteis de palavras, as quais codificam o dade semântica e reconhecimento de inferência
significado semântico das palavras por meio de textual.
vetores contı́nuos (Collobert et al., 2011). Em Dados os conjuntos de vetores de palavra Ωi,1
outras palavras, mesmo que duas palavras sejam
2
lexicamente escritas de maneiras totalmente dis- http://code.google.com/archive/p/word2vec/
18– Linguamática Luciano Barbosa, Paulo Cavalin, Victor Guimarães & Matthias Kormaksson

e Ωi,2 , calculados a partir das sentenças si,1 e si,2 , um histograma é calculado a partir dos valo-
este conjunto de caracterı́sticas é composto por res reais apresentados pelos vetores de pala-
dois tipos de atributos: 1) atributos baseados em vra médios do par de sentenças. Neste caso,
redes semânticas; e 2) atributos de nı́vel textual. os limites para o histograma foram definidos
Em suma, redes semânticas consistem em como −∞–0, 001; 0, 001–0, 01; 0, 01–0, 02 e
construir uma rede (ou grafo) considerando 0, 02–∞.
as distâncias dos pares de vetores de palavra
O conjunto de caracterı́sticas resultante é con-
(ω1,j , ω2,k ) relacionados a si,1 e si,2 , onde
sequentemente composto por um vetor de 15
ω1,j ∈ Ωi,1 e ω2,j ∈ Ωi,2 . posições, que correspondem a: 3 caracterı́sticas
de histograma de redes semânticas ponderados
Nesse caso, dois tipos de redes são construı́das. por saliência, 2 × 3 a partir dos histogramas das
O primeiro, denominado rede semântica ponde- duas redes semânticas não ponderadas, 2 basea-
rada por saliência, combina a frequência inversa dos nas distâncias dos vetores de palavra médios,
em documentos (do inglês inverse document fre- e 4 a partir do histograma dos valores das di-
quency - IDF) para definir as conexões entre os mensões.
nós, ao considerar, para cada vetor de palavra Além disso, vale a pena mencionar que
ω1,j pertencente a Ωi,1 , o vetor de palavra ω2,k estas 15 caracterı́sticas podem ser replicadas
pertencente a Ωi,2 que é o mais similar àquele através do uso de outros conjuntos de vetores de
vetor, isto é, o vetor de palavra ω2,k com a me- palavras. Em outras palavras, para cada con-
nor distância cosseno para ω1,j . Os links na rede junto distinto de vetores de palavra, um novo ve-
ponderada representam as distâncias entre os ve- tor de caracterı́sticas com 15 posições pode ser
tores de palavra correspondentes, multiplicadas extraı́do. E estes vetores de caracterı́stica po-
pelo IDF do termo correspondente em si,1 . Neste dem ser combinados, por exemplo, a partir da
trabalho, o IDF é computado no mesmo conjunto concatenação dos vetores. Neste trabalho, no en-
usado para criar o conjunto de vetores de pala- tanto, consideramos apenas um único conjunto
vras, isto é, a Wikipedia português. O segundo de vetores de palavra, isto é, aquele descrito na
tipo de rede, ao qual nos referimos como rede Seção 3.1, por questão de simplicidade.
semântica não ponderada, apresenta uma ideia Os detalhes sobre estas caracterı́sticas, assim
similar à rede já descrita, porém, não se baseia como informação sobre como foram definidos os
no uso dos IDFs. Neste caso, duas redes não pon- limites dos histogramas, seguiram a proposta de
deradas são criadas. Uma contém as distâncias Kenter & de Rijke (2015).
entre todos os pares de termos (ω1,j , ω2,k ). E
a outra contém as distâncias apenas dos pares
(ω1,j , ω2,k ), com menor distância entre si, assim 3.2.2 Regressão e Classificação Baseada em Ve-
como é feito com as redes semânticas ponderadas tores de Suporte
por saliência. Máquinas de vetores de suporte (do inglês Sup-
No final, as informações nas redes semânticas port vector machines - SVM), e o seu método
descritas no parágrafo anterior são usadas para correspondente para problemas de regressão, isto
criar histogramas, os quais são concatenadas para é, regressão com vetores de suporte (do inglês
compor um único vetor de caracterı́sticas. Os Support Vector Regression - SVR), tornaram-se
limites para estes histogramas foram definidos muito populares nos últimos anos, dado o bom
da seguinte maneira. Para o caracterı́sticas cal- desempenho em um grande número de tarefas
culadas a partir da rede semântica ponderadas (Byun & Lee, 2002). SVM e SVR empregam a
por saliência, os valores são 0–0, 15; 0, 15–0, 4 seguinte ideia: os vetores de entrada, denotados
e 0, 4–∞. Para ambas as redes semânticas não xi1 , . . . , xiK , são não-linearmente mapeados para
ponderadas, os valores são −1–0, 45; 0, 45–0, 8 e um espaço de caracterı́sticas de muito alta di-
0, 8–∞. mensão. Neste espaço de caracterı́sticas, uma su-
Além disso, o conjunto de caracterı́sticas perfı́cie de decisão não linear é construı́da, com o
também inclui atributos de nı́vel textual. Estes intuito de se prever o valor de classe yi ∈ [−1, 1],
atributos são definido de duas formas: no caso de classificação, ou o valor real yi , no
caso de regressão. Propriedades especiais da su-
1. a distância entre os vetores de palavra, onde perfı́cie de decisão garantem a alta capacidade de
tanto o cosseno e distâncias euclidianas são generalização dessas máquinas de aprendizagem
computados entre os vetores palavra médios (Cortes & Vapnik, 1995).
de si,1 e si,2 ;
Para este trabalho, ambos SVR e SVM fo-
2. histograma dos valores das dimensões, onde ram implementadas com a biblioteca Scikit Le-
Usando Representações Distribuı́das para Similaridade Semântica e Inferência Textual Linguamática – 19

arn3 . Para ambas abordagens, utilizou-se o 3.3 Estratégia 2: Redes Siamesas


núcleo Gaussiano após algumas experimentações
preliminares. E os parâmetros de configuração Redes siamesas (Chopra et al., 2005) têm sido
de foram configurados por meio de uma busca amplamente utilizadas no processamento de ima-
em grid com validação cruzada, baseada em 5 re- gens e textos, como o objetivo de aprender uma
partições, usando o conjunto de treinamento. métrica de similaridade de dados. Para a ta-
refa especı́fica proposta no ASSIN, utilizamos re-
des siamesas para aprender a semelhança entre
3.2.3 Lasso
duas sentenças em português. Essencialmente,
Seja yi o valor ser predito e xi1 , . . . , xiK deno- dado um par de sentenças, uma rede siamesa
tam as K caracterı́sticas calculadas para cada projeta cada frase em um novo espaço de re-
observação i. Considerou-se o seguinte modelo presentação, utilizando, por exemplo, redes con-
de regressão: volucionais ou recorrentes. Os parâmetros W
de cada projeção de sentença são compartilha-
K
X X dos. Estas representações são então dadas como
yi = β0 + βk xik + α`k xi` xik + εi , entrada para uma métrica de similaridade pré-
k=1 `6=k definida, tal qual as distâncias cosseno ou Eucli-
diana que calculam a semelhança entre as duas
onde εi denota o erro associado com a observação
representações. Durante o treinamento, a rede
i. O modelo acima é linear nas caracterı́sticas e
aprende a matriz de parâmetros (W ) que mini-
inclui todas as interações bidirecionais possı́veis,
miza uma dada função de perda. Em nossos ex-
xi` xik , entre pares de caracterı́sticas. Consi-
perimentos, utilizamos o erro quadrático médio
derando que θ denote o conjunto de todos os
como a função de perda. O erro é a diferença en-
parâmetros (βk )k e (α`k )`k . Ao especificar cor-
tre o verdadeiro valor de semelhança dada nos
retamente uma matriz de design X (cujas co-
dados de treino e o previsto. A partir deste
lunas são as caracterı́sticas e correspondente in-
quadro, tentamos diferentes configurações. Por
terações bidirecionais), podemos formular a re-
exemplo, para projetar as frases tentamos o uso
gressão acima em uma notação de matriz mais
de redes convolutivas (CNN) (Collobert et al.,
simples:
2011) e um tipo de redes recorrentes chamada de
y = Xθ + ,
rede de memória a longo-curto prazo (do inglês
onde y e ε são os valores preditos e o vetor de Long-Short Term Memory - LSTM) (Hochreiter
erro, respectivamente. & Schmidhuber, 1997). Usamos similaridade cos-
Observe que, se tivéssemos de estimar o mo- seno como a medida de similaridade. E para im-
delo acima, utilizando o método dos mı́nimos plementar as redes, usamos a plataforma Keras
quadrados poderı́amos facilmente ter problemas (Chollet, 2015).
com over-fitting devido à grande quantidade de Como mostramos na Seção 4, estas diferentes
parâmetros a serem estimados: configurações de redes siamesas não resultaram
em bom desempenho no conjunto de dados de
(K − 1) · K
nparam = K + 1 + ∼ O(K 2 ). teste. Por essa razão, nós não apresentamos os
2 seus resultados para a competição ASSIN.
A regressão Lasso (Tibshirani, 1996) foi pro-
jetada para lidar com este problema em potencial
de over-fitting, e pertence a uma classe de mode- 4 Resultados de Avaliação
los chamados de regressão regularizada. Através
da aplicação de mı́nimos quadrados com uma res- Nesta seção, discutimos os resultados obtidos
trição L1 adicional sobre os parâmetros, com os métodos descritos no Seção 3. Para
X tal avaliação, consideramos o conjunto de dados
kθk1 = |θk | ≤ C, Trial como conjunto de teste, e ambos os conjun-
k tos de treinamento PT-BR e PT-PT. É impor-
tante comentar que, no conjunto de treino PT-
para algum C > 0, somos capazes de evitar o BR, fizemos a remoção de todas as amostras que
over-fitting. Este método tem a vantagem de ser- também aparecem no conjunto Trial, já que per-
vir como um método de seleção de variáveis, as- cebemos tal duplicação.
sim como, uma vez que a penalidade L1 obriga
Uma comparação dos resultados para cada
efetivamente que algumas das estimativas dos
método é apresentada na Tabela 1. Neste caso, os
parâmetros sejam exatamente igual a 0.
melhores resultados foram alcançados com carac-
3
http://scikit-learn.org terı́sticas de Kenter e Rijke tanto com SVRs ou
20– Linguamática Luciano Barbosa, Paulo Cavalin, Victor Guimarães & Matthias Kormaksson

Configuração Similaridade RTE


Baseline: Bag of Words Geral 0.47
Caracterı́sticas de Kenter e Rijke - SVR(M) PT-BR 0.51 79.60/0.45
Caracterı́sticas de Kenter e Rijke - SVR(M) PT-PT 0.49 74.20/0.50
Caracterı́sticas de Kenter e Rijke - SVR(M) Geral 0.50 77.00/0.51
Caracterı́sticas de Kenter e Rijke - Lasso PT-BR 0.52
Caracterı́sticas de Kenter e Rijke - Lasso PT-PT 0.50
Caracterı́sticas de Kenter e Rijke - Lasso Geral 0.52
CNN - PT-BR 0.35
LSTM - PT-BR 0.41

Tabela 1: Resultados de avaliação (correlação de Pearson), considerando conjunto Trial como conjunto
de teste.
PT-BR PT-PT Geral
Sim RTE Sim RTE Sim RTE
Equipe P MSE Acc F1 P MSE Acc F1 P MSE Acc F1
Solo Queue 0.70 0.38 - - 0.70 0.66 - - 0.68 0.52 - -
Reciclagem 0.59 1.31 79.05 0.39 0.54 1.10 73.10 0.43 0.54 1.23 75.58 0.40
ASAPP 0.65 0.44 81.65 0.47 0.68 0.70 78.90 0.58 0.65 0.58 80.23 0.54
LEC-UNIFOR 0.62 0.47 - - 0.64 0.72 - - 0.62 0.59 - -
L2F/INESC-ID - - - - 0.73 0.61 83.85 0.70 - - - -
Blue Man Group 0.65 0.44 81.65 0.52 0.64 0.72 77.60 0.61 0.63 0.59 79.62 0.58

Tabela 2: Os melhores resultados de cada time na competição (Sim: tarefa de avaliação de similaridade
semântca; RTE: tarefa de reconhecimento de inferência textual; Acc: acurácia; F1: medida F1; MSE:
erro médio quadrático).

Lasso para a avaliação similaridade semântica, e foi o desempenho destes métodos comparado aos
com SVMs para o reconhecimento inferência tex- métodos dos outros concorrentes.
tual. Com SVR, correlação de Pearson de 0,51, No total, seis equipes participaram da com-
0,49, e 0,50 foram atingidos nos conjuntos PT- petição. Além de nossa equipe, apenas duas ou-
BR, PT-PT, e no geral, respectivamente. Na ta- tras equipes apresentaram resultados para am-
refa de reconhecimento de reconhecimento de in- bas as tarefas e para ambos conjuntos PT-BR e
ferência textual, as pontuações F1 de 0,45, 0,50, PT-PT. Das três equipes restantes, duas focaram
e 0,51, foram alcançados nos mesmos conjuntos, apenas na tarefa de similaridade semântica, con-
respectivamente. Além disso, observa-se que com siderando ambos os conjuntos, e a outra equipe
Lasso, os resultados são muito semelhantes para apenas no conjunto PT-PT, nas duas tarefas.
aqueles do SVR. O melhor resultado de cada equipe,4 ou seja,
A segunda estratégia, recorrendo às redes si- a melhor tentativa, é apresentado na Tabela 2,
amesas, não alcançou bons resultados. No me- e o ranking de cada equipe, também conside-
lhor resultado, a rede LSTM obteu correlação rando apenas a melhor tentativa, é apresentada
de Pearson de 0,41 usando PT-BR como dados na Tabela 3. Considerando apenas a melhor
de treinamento, o qual é 0,11 pontos abaixo da tentativa de cada equipe, conseguimos alcançar
nossa melhor estratégia. Por esta razão, deci- resultados muito bons com o conjuntos PT-BR
dimos por apresentar apenas os resultados com e geral, porém resultados distantes do primeiro
as caracterı́sticas de Kenter, enviando os resul- lugar no conjunto PT-PT. Com PT-BR, fica-
tados tanto de SVR e Lasso para a similaridade mos classificados em primeiro lugar tanto em
semântica, e os resultados com SVM para o re- acurácia como F1 para o reconhecimento de in-
conhecimento de inferência textual. ferência textual, e segundo lugar em similaridade
semântica. Além dos bons resultados, foi surpre-
endente que as caracterı́sticas de Kenter apresen-
5 Resultados da Competição
taram desempenho melhor em reconhecimento de
inferência textual do que na avaliação de simi-
Nesta seção, vamos discutir os resultados dos nos-
sos melhores métodos nos dados do teste cego, 4
Para cada equipe, foi permitido o envio de até três
ou seja, os dados não rotulados de teste, e como tentativas diferentes.
Usando Representações Distribuı́das para Similaridade Semântica e Inferência Textual Linguamática – 21

PT-BR PT-PT Geral


Sim RTE Sim RTE Sim RTE
Equipe P MSE Acc F1 P MSE Acc F1 P MSE Acc F1
Solo Queue 1st 1st - - 2nd 2nd - - 1st 1st - -
Reciclagem 5th 5th 3rd 3rd 6th 6th 4th 4th 5th 5th 3rd 3rd
ASAPP 2nd 2nd 1st 2nd 3rd 3rd 2nd 3rd 2nd 2nd 1st 2nd
LEC-UNIFOR 4th 4th - - 4th 4th - - 4th 3rd - -
L2F/INESC-ID - - - - 1st 1st 1st 1st - - - -
Blue Man Group 2nd 2nd 1st 1st 4th 4th 3rd 2nd 2nd 3rd 2nd 1st

Tabela 3: Posição das equipes considerando a melhor abordagem em cada tarefa e conjunto (Sim:
tarefa de avaliação de similaridade semântca; RTE: tarefa de reconhecimento de inferência textual;
Acc: acurácia; F1: medida F1; MSE: erro médio quadrático).

laridade semântica, uma vez que o conjunto de um conjunto de caracterı́sticas da literatura para
caracterı́sticas foi originalmente proposto para a a codificação de similaridade semântica; e a se-
última tarefa. No geral, ficamos em primeiro lu- gunda é baseada em redes neurais. Tendo em
gar em reconhecimento de inferência textual con- conta os maus resultados da segunda estratégia
siderando F1, e em segundo lugar em acurácia. nos conjuntos de dados de avaliação, nós prosse-
Na similaridade semântica, nossa equipe apre- guimos na competição somente com o método da
sentou o segundo melhor valor de correlação de primeira estratégia. Com esta abordagem, ob-
Pearson e o terceiro melhor valor de MSE. No tivemos melhores resultados na tarefa de reco-
conjunto PT-PT, conseguimos nos classificar em nhecimento de inferência textual, alcançando o
segundo lugar em F1 para a inferência textual, e melhor valor de medida F1 no geral, e a melhor
terceiro em acurácia. Entretanto, para a simila- acurácia e F1 no conjunto PT-BR. Na tarefa de
ridade semântica, apenas o quarto lugar (empa- similaridade semântica, nosso melhor resultado
tado com outra equipe) foi atingido. foi o segundo lugar no conjunto PT-BR.
Uma observação importante, é que em al- A experiência de participar na competição
gumas tarefas ou conjuntos as equipes que al- foi muito valiosa, e esperamos continuar traba-
cançaram os melhores resultados foram aquelas lhando nestes problemas para melhorar os nossos
que focaram apenas numa tarefa ou conjunto métodos e resultados atuais. Dentre os traba-
especı́fico. Por exemplo, a equipe Solo Queue lhos futuros, um deles consiste em entender me-
apresentou resultados apenas para a similaridade lhor o motivo das redes siamesas não terem apre-
semântica, e eles venceram esta tarefa tanto para sentado um desempenho tão bom quanto a es-
PT-BR quanto geral, e ficaram em segundo lu- tratégia baseada nas caracterı́sticas de Kenter e
gar para PT-PT. A equipe L2F/INESC-ID, em Rijke. Além disso, gostarı́amos investigar melhor
contrapartida, apresentou resultados apenas para as caracterı́sticas de Kenter, a fim de obter me-
PT-PT, para ambas as tarefas, e obtiveram os lhores resultados nestas tarefas.
melhores resultados em ambos os casos. No nosso
caso, nós apresentado um único método, com
Referências
quase nenhuma diferença com exceção do con-
junto de dados usado para treinamento. Assim
Bentivogli, Luisa, Peter Clark, Ido Dagan,
sendo, como lição aprendida, acreditamos que
Hoa Trang Dang & Danilo Giampiccolo. 2011.
em uma competição futura devemos investir mais
PASCAL recognizing textual entailment chal-
tempo no ajuste fino do algoritmos para as tare-
lenge (RTE-7) at TAC 2011. Available from
fas e conjuntos especı́ficos.
http://www.nist.gov/tac/2011/RTE/.
Byun, Hyeran & Seong-Whan Lee. 2002. Appli-
6 Conclusões e Trabalhos Futuros cations of support vector machines for pattern
recognition: A survey. Em Proceedings of the
Neste artigo apresentamos os métodos e resul- First International Workshop on Pattern Re-
tados seguidos por nossa equipe na competição cognition with Support Vector Machines, 213–
ASSIN, e avaliamos os resultados obtidos, em 236.
comparação com as outras equipes. No nosso
Chollet, François. 2015. Keras: Theano-based
caso, decidimos por explorar abordagens base-
deep learning library. Available from http:
adas em vetores de palavra, seguindo duas es-
//keras.io.
tratégias distintas: a primeira estratégia é base-
ada em modelos de regressão tradicionais usando Chopra, Sumit, Raia Hadsell & Yann LeCun.
22– Linguamática Luciano Barbosa, Paulo Cavalin, Victor Guimarães & Matthias Kormaksson

2005. Learning a similarity metric discrimina-


tively, with application to face verification. Em
IEEE Computer Society Conference on Com-
puter Vision and Pattern Recognition, vol. 1,
539–546.
Collobert, R., J. Weston, L. Bottou, M. Kar-
len, K. Kavukcuoglu & P. Kuksa. 2011. Natu-
ral language processing (almost) from scratch.
Journal of Machine Learning Research 12.
2493–2537.
Cortes, Corinna & Vladimir Vapnik. 1995.
Support-vector networks. Machine Learning
20(3). 273–297.
Hochreiter, Sepp & Jürgen Schmidhuber. 1997.
Long short-term memory. Neural computation
9(8). 1735–1780.
Kenter, Tom & Maarten de Rijke. 2015. Short
text similarity with word embeddings. Em 24th
ACM Conference on Information and Kno-
wledge Management, 1411–1420. ACM.
Tibshirani, Robert. 1996. Regression shrinkage
and selection via the lasso. Journal of the
Royal Statistical Society. Series B (Methodo-
logical) 267–288.
Proposta recebida em Setembro 2016 e aceite para publicação em Novembro 2016.

FlexSTS: Um Framework para Similaridade Semântica Textual


FlexSTS: A Framework for Semantic Textual Similarity

Jânio Freire Vládia Pinheiro David Feitosa


Universidade de Fortaleza Universidade de Fortaleza Universidade de Fortaleza
janio.freire@gmail.com vladiacelia@unifor.br davidfeitosa@gmail.com

Resumo 1 Introdução
Desde 2012, os eventos de Semantic Evalua-
A tarefa de Similaridade Semântica Textual
tion (SemEval) propõem a tarefa de Similaridade
Semântica Textual (STS) como um tema de com- (STS) (Agirre et al., 2013) visa medir o grau de
petição, demonstrando sua relevância. Em 2016, a equivalência semântica entre dois textos, captu-
tarefa foi, pela primeira vez, proposta para lı́ngua rando a noção de que alguns textos são mais simi-
portuguesa, no Workshop de Avaliação de Similari- lares que outros. Por exemplo, o par de sentenças
dade Semântica e Inferência Textual (ASSIN), rea- “A organização criminosa é formada por diver-
lizado durante a conferência PROPOR 2016. Neste sos empresários e por um deputado estadual ” e
trabalho, apresentamos o FlexSTS — um framework “Segundo a investigação, diversos empresários e
flexı́vel para STS que combina diversos componen- um deputado estadual integram o grupo.” devem
tes como parsers morfológicos e sintáticos, bases de
receber um valor de similaridade mais alto que
conhecimento e lexicais, algoritmos de aprendizagem
automática, e algoritmos de alinhamento e cálculo da o par de sentenças “Mas esta é a primeira vez
similaridade. Para a ASSIN, FlexSTS foi instanciado que um chefe da Igreja Católica usa a palavra
em três sistemas de STS para lı́ngua portuguesa. Os em público.” e “A Alemanha reconheceu ontem
resultados obtidos foram comparados com uma abor- pela primeira vez o genocı́dio armênio”. STS di-
dagem baseline que utiliza o coeficiente DICE. fere das tarefas de Inferência textual (RTE) e De-
tecção de Paráfrase, principalmente por assumir
Palavras chave
uma equivalência bidirecional.
Similaridade Textual, Similaridade Semântica, Ava- Computar a similaridade textual é útil para
liação Semântica um número crescente de tarefas de Processa-
mento de Linguagem Natural (PLN) e Inte-
ligência Artificial (IA), tais como a sumarização
Abstract (Lin & Hovy, 2003) ou o reuso de experiência
(Albuquerque et al., 2012).
Since 2012, Semantic Evaluation series (SemEval) Desde 2012, os eventos de Semantic Evalua-
propose the task of Semantic Textual Similarity (STS) tion (SemEval)1 propõem esta tarefa como um
as a evaluation theme, demonstrating the relevance of tema de competição, demonstrando a relevância
this research topic. In 2016, the task was first propo- da mesma e um tema de pesquisa ainda em
sed to the Portuguese language, in the Workshop of aberto. Em 2016, a tarefa foi novamente pro-
Semantic Textual Similarity and Inference Evaluation posta para lı́ngua inglesa na edição do SemE-
(ASSIN), held during the conference PROPOR 2016. val 20162 e, de forma inédita para lı́ngua por-
In this paper, we present the FlexSTS — a flexible tuguesa, no Workshop de Avaliação de Simila-
framework for STS combining several components as ridade Semântica e Inferência Textual (ASSIN),
morphological and syntactic parsers, knowledge and realizado durante a conferência PROPOR 20163 .
lexical databases, machine learning algorithms, and
Tradicionalmente, a tarefa consiste em com-
algorithms for alignment and similarity. For ASSIN,
putar o grau de similaridade semântica entre
FlexSTS was instantiated into three STS systems for
duas sentenças, usando a seguinte escala:
Portuguese. The results were compared with a base-
line approach that uses DICE coefficient.
1. Sentenças completamente diferentes, em as-
Keywords suntos diferentes;
Textual Similarity, Semantic Similarity, Semantic
1
Evaluation. https://en.wikipedia.org/wiki/SemEval
2
http://alt.qcri.org/semeval2016/task1/
3
http://propor2016.di.fc.ul.pt

This work is licensed under a Linguamática — ISSN: 1647–0818


Creative Commons Attribution 3.0 License Vol. 8 Núm. 2 - Dezembro 2016 - Pág. 23–31
24– Linguamática Jânio Freire, Vládia Pinheiro & David Feitosa

2. Sentenças não relacionadas, mas que com- de aprendizagem de máquina com vários algorit-
pactuam do mesmo assunto; mos e 72 features. O algoritmo que obteve me-
lhor resultado foi o Gradient Boosting. O resul-
3. Sentenças de certa forma relacionadas, que tado médio da correlação de Pearson foi 0,8414,
podem descrever fatos diferentes mas com- também para lı́ngua inglesa.
partilham alguns detalhes;
O sistema campeão da edição de 2015 foi apre-
4. Sentenças fortemente relacionadas, que di- sentado por Sultan et al. (2015) que propôs uma
vergem apenas em alguns detalhes; abordagem de aprendizagem de máquina utili-
zando o algoritmo Ridge Requession Model. As
5. Sentenças significam exatamente a mesma caracterı́sticas (features) definidas para represen-
coisa. tar o problema baseiam-se na similaridade en-
tre as sentenças, calculada por uma função que
Neste trabalho, apresentamos o FlexSTS — usa uma representação vetorial,
divergem apenas em alguns detalhes; (5) Sentenças sentenças, calculada por uma função criada
que usaaumapar-
um framework genérico que facilita e flexibiliza o tir da matriz LSA, de uma base de paráfrase
significam exatamente a mesma coisa. representação vetorial, criada a partir da matriz
desenvolvimento de sistemas de STS, pois com- (Ganitkevitch et al.,
Neste trabalho, apresentamos o FlexSTS - um LSA, de uma base de 2013) e da
paráfrase árvore de et
(Ganitkevitch de-
bina diversos componentes como parsers mor- pendência sintática. Este sistema obteve resul-
framework genérico que facilita e flexibiliza o al.,2013) e da árvore de dependência sintática. Este
fológicos e sintáticos (NLP toolkits), bases de tado de obteve
0,8015resultado
(correlação de Pearson).
desenvolvimento de sistemas de STS, pois combina sistema de 0,8015 (correlação de
conhecimento e lexicais, algoritmos de aprendi-
diversos componentes como parsers morfológicos Pearson).
zagem automática, e algoritmos
e sintáticos (NLP toolkits), bases de alinhamento
de conhecimento
e cálculo da similaridade. Especificamente para 3 FlexSTS: Framework para Similari-
e lexicais, algoritmos de aprendizagem automática,
avaliação no Workshop ASSIN, FlexSTS foi ins-
3 FlexSTS
dade - Framework
Semântica para Similaridade
Textual
e algoritmos de alinhamento e cálculo da Semântica Textual
tanciado
similaridade. Especificamente para avaliaçãocon-
para lı́ngua portuguesa em três no
figurações Nesta seção apresentamos a proposta do fra-
Workshop(sistemas)
ASSIN, FlexSTSusando foi o parser Freeling
instanciado para Nesta seção apresentamos a proposta do
mework FlexSTS, o qual define diversos compo-
(Padró & Stanilovsky, 2012), o modelo
língua portuguesa em três configurações (sistemas)de simila- framework FlexSTS, o qual define diversos
ridade entre palavras HAL (Padró
(Hyperspace Analog nentes a serem conectados e usados no desenvol-
usando o parser Freeling e Stanilovsky, componentes a serem conectados e usados no
to2012),
Language) (Burgess et al., 1998), a base de co- vimento de sistemas de STS, agregando modelos
desenvolvimento de sistemas de STS, agregando
o modelo de similaridade entre palavras emodelos
medidase de similaridade, toolkits e toolkits
algoritmos
nhecimento Wordnet (Miller, 1995),
HAL (Hyperspace Analog to Language) (Burgess, o algoritmo medidas de similaridade, e
deLivesay
aprendizagem do estado do
algoritmos da estado
arte, emda cada etapa
arte, em cadadoetapa
processo
do
e Lund,automática
1998), a base proposto por Pedre-
de conhecimento de STS. A
gosa
Wordnet (Miller, 1995), o algoritmo en-
et al. (2011), e o modelo de alinhamento de processo de Figura
STS. A1 Figura
apresenta o fluxo ogeral
1 apresenta fluxodo
treaprendizagem
termos proposto por Han et al. (2013). Foram processo
geral do processo de STS e os diversosou
de STS e os diversos componentes
automática proposto em (Pedregosa
enviadas as execuções dos três sistemas de entreSTS plugins necessários.
componentes ou plugins necessários.
et al., 2011), e o modelo de alinhamento
e termos
os resultados obtidos foram comparados
proposto em (Han et al., 2013). Foram com
uma abordagem baseline que utiliza o
enviadas as execuções dos três sistemas de STS e coeficiente
DICE (Rohlf, 1992)
os resultados obtidosdeforam
similaridade
comparados sintática
com uma en-
treabordagem
textos. Abaseline
análise que
de casos
utiliza em que nossoDICE
o coeficiente me-
lhor sistema
(Rohlf, não
1992) de obteve nı́vel sintática
similaridade de acerto desejado
entre textos.
indiciam
A análisemelhorias
de casospara trabalhos
em que futuros.sistema
nosso melhor
não obteve nível de acerto desejado indiciam
melhorias para trabalhos futuros.
2 Trabalhos Relacionados
2 Trabalhos Relacionados
Destacam-se, como estado da arte, os sistemas
Destacam-se,
campeões da tarefa comode estado da arte,
STS das os sistemas
edições do Se-
campeões
mEval 2013, da2014,tarefa
2015.de STS das edições do
SemEval
No SemEval 2013, 2014,
2013,2015.
o sistema campeão foi o
No SemEval
submetido pela equipe 2013, denominada
o sistema campeão
UMBC (Han foi o Figura 1: Fluxo do framework.
submetido pela equipe denominada UMBC (Han et Figura 1: Fluxo do framework.
et al., 2013). Esse sistema consiste de uma abor-
al., 2013). Esse sistema consiste
dagem que agrega conhecimento semântico dede uma abordagem
uma que matriz
agrega conhecimento semânticoalém
LSA e da WordNet, de uma dematriz
apli- 3.1 Análise Morfológica e Sintática
LSA e da WordNet, além de aplicar uma estratégia 3.1 Análise Morfológica e Sintática
car uma estratégia de alinhamento e penalização, Nesta etapa, dados dois textos de entrada t1 e t2, é
que de determina
alinhamento ume conjunto
penalização, que determina
de critérios para umum realizada a detecção das textos
sentenças, a análise
Nesta etapa, dados dois de entrada t1 e
mal alinhamento, e valores e a serem descontadose
conjunto de critérios para um mal alinhamento, morfológica (tokenização, lematização,
t2 , é realizada a detecção das sentenças, a análisePOS
paravalores
cadaetipoa serem
de maldescontados para O
alinhamento. cada tipo de
resultado Tagger) e a análise sintáticalematização,
(dependency POSparsing)
mal alinhamento. O resultado médio da correlação morfológica (tokenização, Tag-
médio da correlação de Pearson foi 0.6181, para de ambos os textos. Inúmeros toolkits disponíveis
ger ) e a análise sintática (dependency parsing) de
de Pearson foi 0.6181, para língua inglesa. podem os realizar estaInúmeros
tarefa paratoolkits
diversasdisponı́veis
línguas.
lı́ngua inglesa. ambos textos.
Em 2014, a equipe vencedora foi a ECNU (Zhao
etEm al.,2014,
2014)a queequipe vencedora
utilizou foi a ECNU
uma abordagem de podem realizar esta tarefa para diversas Toolkit
Em destaque, tem-se o Stanford NLP lı́nguas.
(Zhao et al., 2014) que utilizou uma abordageme (Toutanova
Em et al,
destaque, 2000),o Open
tem-se NLPNLP
Stanford (Baldridge,
Toolkit
aprendizagem de máquina com vários algoritmos 2005), Freeling (Padró e Stanilovsky, 2012).
72 features. O algoritmo que obteve melhor O objetivo desta etapa é gerar, para cada texto de
resultado foi o Gradient Boosting. O resultado entrada, o conjunto de tokens relevantes Tij de cada
médio da correlação de Pearson foi 0,8414, sentença sij. O algorıtmo para a construção do
também para língua inglesa. conjunto Tij, segue os passos listados abaixo:
FlexSTS: Um Framework para Similaridade Semântica Textual Linguamática – 25

(Toutanova et al., 2003), Open NLP (Baldridge, Dentre os modelos do estado da arte, tem-
2005), Freeling (Padró & Stanilovsky, 2012). se a LSA (Latent Semantic Analysis) que se-
O objetivo desta etapa é gerar, para cada gue a hipótese da semântica distribucional, se-
texto de entrada, o conjunto de tokens relevan- gundo a qual “palavras que ocorrem em contex-
tes Tij de cada sentença sij . O algorıtmo para a tos similares tendem a ter significados similares”
construção do conjunto Tij , segue os passos lista- (Harris, 1968). Diversas técnicas de LSA po-
dos abaixo: dem ser aplicadas. HAL (Hyperspace Analog to
Language) (Burgess et al., 1998) é uma técnica
1. Análise morfológica e sintática do texto; de LSA que pode ser aplicada em matriz de co-
ocorrência termo-termo. Singular Value Decom-
2. Reconhecimento de palavras compostas, no- position (SVD) (Landauer & Dumais, 1997) tem
mes próprios, valores numéricos, datas e ex- sido efetiva para melhorar medidas de similari-
pressões de tempo; dade entre palavras, visto que podemos seleci-
3. Aplicação de heurı́sticas, seguindo o traba- onar os k−maiores valores singulares e reduzir
lho de Han et al. (2013): para tamanho k o vetor que representa uma pa-
lavra. Por fim, a similaridade entre duas palavras
(a) Remoção de pontuação; é calculada pela similaridade do cosseno entre os
(b) Expressões numéricas escritas por ex- vetores de cada palavra. Han et al. (2013) apre-
tenso são convertidas para números; sentam uma descrição detalhada do uso do mo-
delo HAL com SVD para lı́ngua inglesa.
(c) Remoção de stop words. O modelo de similaridade semântica inferen-
(d) Referências para tempo são convertidas cialista, proposto por Pinheiro et al. (2014) e Pi-
para o formato militar; nheiro et al. (2010b) define a Word Inferential
Similarity Measure a qual calcula a similaridade
4. Cada token das classes abertas de palavras entre dois conceitos pela interseção entre o con-
(substantivo, verbo, adverbio e adjetivo), junto das pré-condições [ou pós-condições] de uso
incluindo nomes de entidades reconhecidas, dos dois conceitos, aludindo a ideia de que quanto
como nomes próprios e abreviações, passam mais as circunstâncias [ou consequências] de uso
por um processo de desambiguação conforme de ambos os conceitos são similares, mas as in-
definido por Pinheiro et al. (2012). Nesse ferências em que os mesmos podem participar são
passo, cada termo é associado a um conceito similares.
de uma base de conhecimento. Han et al. (2013) propõem uma medida de
5. Finalmente, o conjunto Tij é formado pelos similaridade entre palavras que agrega valor da
tokens e seus atributos morfológicos, lexi- base WordNet à medida LSA.
cais, sintáticos e semânticos.
3.2.2 Estratégias de Alinhamento entre termos
3.2 Similaridade Semântica entre Termos
A estratégia de alinhamento é necessária para de-
A segunda etapa do processo prevê a aplicação de finir quais termos de cada sentença serão compa-
modelos e medidas para cálculo da similaridade rados em termos de similaridade semântica. Con-
entre palavras θ(c, c0 ) e de um algoritmo para ali- sidere os textos de entrada t1 e t2 com as se-
nhamento dos termos c e c0 de cada sentença s1i guintes sentenças {s11 , s12 , s13 } e {s21 , s22 , s23 },
e s2j dos textos t1 e t2 (textos de entrada). respectivamente. Na etapa anterior, os conjun-
tos T11 e T21 com os termos das sentenças s11 e
s21 foram gerados. Propõe-se então uma função
3.2.1 Modelos de Similaridade Semântica entre de alinhamento t-align(c) (Fórmula 1 que busca
Palavras (Word Similarity Models) alinhar o termo c em T11 com um ou mais ter-
mos c0 em T21 , de acordo com uma das seguintes
O framework define a função θ(c, c0 ) como uma
estratégias:
função parametrizável para vários modelos e me-
didas de similaridade entre palavras, possibili- 1. tokens de mesma classe gramatical (POS
tando agregar conhecimento adicional expresso tag) (p.ex. substantivo com substantivo,
em uma ou mais bases de conhecimento e di- verbo com verbo, etc.);
cionários externos, tais como WikiPedia (Milne
& Witten, 2008), WordNet (Miller, 1995), Con- 2. tokens com mesma função sintática (p.ex.
ceptNet (Liu & Singh, 2004), InferenceNet (Pi- sujeito com sujeito, verbo principal com
nheiro et al., 2010a), dentre outras. verbo principal, etc.);
26– Linguamática Jânio Freire, Vládia Pinheiro & David Feitosa

3. tokens com maior valor de similaridade s2 pela média ponderada do somatório das simi-
semântica entre palavras; laridades entre seus termos alinhados.
4. todos os tokens com todos;
Pn Pqi
i=1 θ (c, c0 ) × Pi
Seguindo Han et al. (2013), a estratégia 3 ali- SIMs (s1 , s2 ) = Pnj=1 (3)
i=1 qi × Pi
nha o termo c em Tij com o termo c0 em Tlj ,
que tiver maior valor de similaridade semântica
Onde:
θ(c, c0 ) (Fórmula 1).
 • θ(c, c0 ) é o valor da similaridade entre os to-
0
t-align(c) = argmaxc0 ∈Tlj θ c, c . (1) kens das sentenças s1 e s2 , de acordo com o
modelo de similaridade entre palavras defi-
A flexibilidade de adotar uma dentre várias es- nido na etapa anterior (seção 3.2.1);
tratégias de alinhamento permite adaptar o sis-
tema STS a um domı́nio ou aplicação. No en- • n é a quantidade de “tipos gramaticais” de-
tanto, argumentamos que a estratégia 1 (que uti- finidos na estratégia de alinhamento. Por
liza o critério de POS tag) e a estratégia 2 (que exemplo, usando o critério de alinhamento
utiliza o critério de função sintática) são mais in- por função sintática (estratégia 2), pode-se
tuitivas e linguisticamente fundamentadas, em- ter n = 3, conforme os seguintes tipos: SU-
bora mais complexas. JEITO, VERBAL PRINCIPAL e OBJETO;
• qi é a quantidade de elementos em cada “tipo
gramatical” i;
3.3 Similaridade Semântica Textual
• Pi é o peso do “tipo gramatical” i, permi-
Na última etapa do processo, o framework tindo, por exemplo, que a similaridade entre
prevê duas abordagens para cálculo da STS— verbos tenha um peso maior que a similari-
algoritmos de aprendizagem automática e/ou al- dade entre objetos diretos.
goritmos simbólicos.
A abordagem por aprendizagem de máquina Finalmente, a Fórmula 4 calcula a similari-
preconiza o uso de algoritmos supervisionados, dade semântica entre dois textos de entrada t1 e
tais como definidos por Chang & Lin (2011), Hall t2 , com p e k sentenças, respectivamente.
et al. (2009) e Pedregosa et al. (2011), com uso
de caracterı́sticas (features) sintáticas, lexicais e P
SIMs(s,s-align(s))
s∈t1
semânticas. SIMt(t1 , t2 ) = 2p
Na abordagem simbólica, a intuição básica de P (4)
s∈t2 SIMs(s,s-align(s))
uma medida de similaridade semântica entre tex- + 2k
tos é que, quanto mais as sentenças dos textos
são similares, mais os textos são similares. Da Pinheiro et al. (2014) apresentam um exemplo
mesma forma, quanto mais os conceitos articula- ilustrativo de uso das fórmulas acima.
dos nas sentenças são similares, mas similares as
sentenças também serão. Neste sentido, a medida 4 Sistemas STS para ASSIN
SIMt (Fórmula 4) define a similaridade entre dois
textos de entrada t1 e t2 pela média da similari- O framework FlexSTS foi usado para instan-
dade entre as sentenças s e s0 que são mais simi- ciar três sistemas para STS na lı́ngua portu-
lares. Ou seja, cada sentença s de t1 , é alinhada guesa, cujos resultados foram submetidos à ava-
com a sentença s0 de t2 que lhe é mais similar. liação no Workshop de Avaliação de Similaridade
A Fórmula 2 apresenta nossa função de ali- Semântica e Inferência Textual (ASSIN), reali-
nhamento de sentenças s-align(s), a qual, para a zado durante a conferência PROPOR 2016. A
sentença s de t1 (ou t2 ), retorna sua contraparte seguir serão explanadas a configuração de cada
s0 em t2 (ou t1 ), com maior valor da medida de sistema e do sistema baseline. Ao final, os resul-
similaridade entre sentenças SIMs (Fórmula 3). tados e uma discussão dos mesmos serão apresen-
tados.
 Importante aqui salientar a flexibilidade do
s-align(s) = argmaxs0 ∈ti SIMs s, s0 . (2) framework FlexSTS onde podem ser mesclados
diversos componentes para instanciar ou criar
A Fórmula 3 define a medida de similaridade sistemas de STS. Basicamente são seleciona-
entre sentenças SIMs entre duas sentenças s1 e dos componentes para cada etapa do processo:
FlexSTS: Um Framework para Similaridade Semântica Textual Linguamática – 27

Análise Morfológica, Similaridade entre Palavras,


e Similaridade entre Textos. As tabelas 1, 2 e 3
apresentadas nas subseções a seguir detalham os DICE(c, c0 ) =
  0 0
componentes utilizados em cada sistema. A esco-   isN um(c) ∧ isN um(c ) ∧ c = c
lha dos componentes visou combinar abordagens 

1 se isCorrespondingP ronoun(c, c0 )
simbólicas e estatı́sticas. 

 diceCoefficient(c, c0 ) > 2/3

0 caso contrário
4.1 STS MachineLearning (5)
O sistema STS MachineLearning aplicou uma Onde,
abordagem hı́brida para cálculo da STS — apren-
• isN um(c) retorna verdadeiro se c é um
dizagem automática usando dois atributos (featu-
número;
res) – similaridade entre palavras pelo coeficiente
DICE e similaridade entre palavras pela Word- • isCorrespondingP ronoun(c, c0 ) verifica se
Net. A configuração do sistema está descrita na os termos c e c0 são pronomes corresponden-
Tabela 1. tes. Por exemplo, para os pronomes “eu” e
“me” retorna verdadeiro;
Etapa Componente Ferramenta
/ Modelo • diceCoefficient(c, c0 ) calcula o coeficiente de
Análise Mor- POS Tagger / FreeLing Dice entre os termos c e c0 , conforme definido
fológica/Sintática Lematização por Rohlf (1992).
Similaridade Coeficiente Ver 4.1.1
Semântica de DICE Feature WNET
Palavras
WordNet Ver 4.1.1 Esta feature representa a similaridade
Similaridade Aprendizagem Ridge Regression semântica textual entre os dois textos (exemplo)
Semântica Tex- Automática Model calculada pela Fórmula 4 usando conhecimento
tual
da WordNet para calcular a similaridade entre
palavras, conforme Formula 6:
Tabela 1: Configuração do sistema STS Machi-
neLearning. 0
WNET0 (c, c0 ) = 0.5eαD(c,c ) (6)
Onde,
4.1.1 Modelo de Aprendizagem de Máquina
• D(c, c0 ) é uma função de distância entre os
No cálculo de STS foi usado o algoritmo ridge re- termos na base WordNet, calculado con-
gression model (Pedregosa et al., 2011), um mo- forme segue:
delo de regressão com α = 1.0 e um resolvedor
automático que seleciona o peso de uma coleção 0, caso os termos pertençam ao mesmo
dependendo do tipo de dado. Esses algoritmos fo- conjunto de sinônimos (synset);
ram usados por Sultan et al. (2015), campeão da 1, nos seguintes casos: uma palavra é hi-
tarefa de STS no SemEval 2015. O treinamento peronı́mia direta da outra; um adjetivo
do algoritmo ridge regression model foi realizado tem uma relação direta do tipo similar
com o dataset de treinamento disponibilizado na to com outro; uma palavra é uma forma
ASSIN. A seguir detalhamos os cálculos das duas derivacional da outra.
features usadas para caracterizar o conjunto de 2, nos seguintes casos: uma palavra é 2
exemplos. links de hiperonı́mia indireta da outra;
um adjetivo é 2 links similar to com
Feature DICE outro; uma palavra é cabeça (head ) do
glossário da outra, ou sua hiperônima
Esta feature representa a similaridade direta, ou uma das suas hipônimas di-
semântica textual entre os dois textos (exemplo) retas.
calculada pela Fórmula 4 usando a coeficiente • α, parâmetro de normalização definido por
DICE (Rohlf, 1992) como medida de similari- Han et al. (2013) e fixado em 0,25.
dade entre palavras θ(c, c0 ) = DICE(c, c0 ). A
Fórmula 5 define este cálculo. A versão utilizada da WordNet foi a versão 3.0
em inglês e foi realizada a tradução dos corpus da
28– Linguamática Jânio Freire, Vládia Pinheiro & David Feitosa

ASSIN (Português-Inglês) pelo Google Tradutor. singulares. Assim, o tamanho do vetor que re-
A escolha desta solução deveu-se a dificuldades presenta as palavras foi reduzido de 24000 para
técnicas no uso da OpenWordNet.PT4 . 300. A similaridade entre os termos foi calculada
utilizando a função cosseno entre os vetores.
4.2 STS LSA
4.3 STS WORDNET LSA
O sistema STS LSA aplicou somente a aborda-
gem simbólica para cálculo da STS, usando o O sistema STS WORDNET LSA aplicou so-
modelo LSA de similaridade entre palavras e a mente a abordagem simbólica para cálculo da
estratégia de alinhamento por termos com maior STS, o modelo LSA de similaridade entre pala-
similaridade (estratégia 3). A configuração do vras e a estratégia de alinhamento por termos
sistema STS LSA está descrita na Tabela 2 com maior similaridade (estratégia 3). Como
conhecimento adicional, adicionou informação
Etapa Componente Ferramenta da WordNet no cálculo da similaridade LSA, a
/ Modelo exemplo do trabalho de Han et al. (2013). A con-
Análise Mor- POS Tagger / FreeLing figuração do sistema STS WORDNET LSA está
fológica/Sintática Lematização descrita na Tabela 3.
Similaridade Modelo LSA Ver 4.2.1 Etapa Componente Ferramenta
Semântica de (HAL+SVD) / Modelo
Palavras
Análise Mor- POS Tagger / FreeLing
Estratégia de t-align3 fológica/Sintática Lematização
alinhamento (fórmula 1)
Similaridade Modelo LSA Ver 4.2.1
Similaridade Altoritmo Ma- Fórmulas 2, 3 e 4 Semântica de (HAL+SVD)
Semântica Tex- temático STS Palavras
tual
Estratégia de t-align3
Tabela 2: Configuração do sistema STS LSA. alinhamento (fórmula 1)
Base de Co- Ver 4.3.1
nhecimento /
WordNet
4.2.1 Modelo de Similaridade LSA Similaridade Altoritmo Ma- Fórmulas 2, 3 e 4
Semântica Tex- temático STS
Foi usada a variação da técnica LSA chamada tual
HAL (Hyperspace Analog to Language) (Burgess
et al., 1998) que constrói a matriz de coocorrência Tabela 3: Configuração do sistema
termo-termo. Para a construção da msubatriz, STS WORDNT LSA.
foi usado o corpus CETENFolha5 — um corpus
de cerca de 24 milhões de palavras em Português-
Brasileiro, com base nos textos do jornal Folha 4.3.1 LSA + Conhecimento da WordNet
de S. Paulo que fazem parte do corpus do Núcleo
Interinstitucional de Linguı́stica Computacional À medida de similaridade entre palavras
(NILC), da USP/São Carlos. θ(c, c0 ) = LSA(c, c0 ) (ver 3.2.1) foi adicionado co-
Por questões de desempenho computacio- nhecimento da base WordNet (Han et al., 2013).
nal, foram selecionados os 24000 termos que A Fórmula 7 apresenta este cálculo.
mais ocorrem no corpus, das classes abertas
de palavras (substantivos, verbos, adjetivos e
advérbios). Neste vocabulário não existem no- WNET(c, c0 ) = BASIC(c, c0 )+WNET0 (c, c0 ) (7)
mes próprios. A frequência de coocorrência entre
os 24000 termos foi contada em uma janela de
tamanho fixo que passa por todo o corpus. O ta-
BASIC(c, c0 ) =
manho de janela utilizado foi ±4, pois foi o que

obteve melhor resultado por Han et al. (2013).  θ(c, c0 ) se θ 6= nulo
Por fim, foi aplicada a estratégia de SVD (Sin- 

DICE(c, c0 ) se usaDice = >∧
gle Value Decomposition) de Baglama & Reichel (θ = nulo ∨ θ(c, c0 ) = 0)


(2015), e selecionados os k = 300 maiores valores 
0 caso contário
4
http://wnpt.brlcloud.com/wn/
5
http://www.linguateca.pt/cetenfolha/
FlexSTS: Um Framework para Similaridade Semântica Textual Linguamática – 29

Onde, prejudicado o desempenho dos sistemas que


utilizam esta base.
• θ(c, c0 ) = LSA(c, c0 ) (ver 3.2.1);
• usaDice é um parâmetro que indica se, em O uso do sistema baseline pelo coeficiente
caso valor θ(c, c0 ) nulo ou zerado, deva-se DICE permitiu constatar que uma medida sim-
usar o valor do coeficiente DICE; ples de similaridade sintática obteve resultado
significativo em relação aos corpus PT-BR (0,60)
• DICE(c, c0 ), conforme definido em
e PT-PT (0,69). Em apenas 211 casos do corpus
Fórmula 5;
Gold Standard ASSIN, o valor absoluto da dife-
• WNET0 (c, c0 ), conforme definido em rença entre o valor da similaridade DICE e o valor
Fórmula 6. GOLD foi superior a 2 (|DICE − GOLD| > 2).
No demais casos (1935), estes valores são muito
4.4 STS Baseline próximos. Portanto, conclui-se que os corpus AS-
SIN possuem uma similaridade lexical alta, difi-
O sistema STS Baseline foi usado neste traba- cultando a influência de conhecimento semântico
lho apenas como referência inicial de avaliação, à tarefa de STS.
visto que, antes da ASSIN, inexistia estado da Analisando alguns casos em que o sistema
arte para STS em lı́ngua portuguesa. Nossa pro- STS MachineLearning obteve melhor resultado
posta foi utilizar o coeficiente de similaridade comparado com a solução baseline (DICE),
DICE (conforme definido em 3.1), como sistema identificamos que conhecimento semântico agre-
baseline para a tarefa de STS. gou valor à tarefa. Por exemplo, para o
par de texto t1 e t2 na Figura 2, o sistema
4.5 Resultados e Discussão STS MachineLearning apresentou valor de simi-
laridade mais correlato ao valor GOLD, pois en-
A tabela 4 apresenta os resultados da medida controu valor de similaridade entre as palavras
de correlação de Pearson dos três sistemas STS “intervalo” e “tempo”.
(runs), enviados para ASSIN, após execução no
dataset de teste para Português-Brasileiro (PT-
BR) e Português-Portugal (PT-PT). Nosso me- t1 = “O time treinado por Rafa Benı́tez as-
lhor sistema foi o STS-MachineLearning em am- sumiu uma postura covarde em o segundo
bos os datasets. Na última linha da Tabela 4, tempo e apenas se defendeu”
apresentamos os resultados do sistema baseline, t2 = “O time voltou de o intervalo com uma
que obteve melhor desempenho que qualquer um postura covarde e passou a apenas se defen-
dos sistemas avaliados para PT-PT. der”

Sistema PT-BR PT-PT


STS MachineLearning 0,62 0,64 Figura 2: Exemplo de textos com uso de conhe-
STS LSA 0,56 0,59 cimento da WordNet.
STS WNET LSA 0,61 0,63
STS Baseline 0,60 0,69
5 Conclusão
Tabela 4: Resultados dos sistemas STS desenvol-
vidos a partir do framework FlexSTS. Neste trabalho apresentamos a proposta do fra-
mework FlexSTS, o qual define diversos com-
A seguir elencamos duas dificuldades impor- ponentes a serem conectados para o desenvolvi-
tantes enfrentadas na construção dos sistemas de mento de sistemas de STS, agregando modelos
STS submetidos à ASSIN: e medidas de similaridade, toolkits e algoritmos
do estado da arte, em cada etapa do processo
• No sistema STS LSA, a matriz de coo- de STS.
corrência termo-termo gerada era muito es-
FlexSTS foi instanciado em três sistemas:
parsa, implicando em pouca relevância do
cálculo da similaridade pela LSA. Atribui-se 1. STS MachineLearning: abordagem hı́brida
como causa o tamanho do corpus e tamanho para cálculo da STS com aprendizagem au-
dos textos do corpus; tomática usando dois atributos (features)
• O uso da versão em Inglês da WordNet com — similaridade entre palavras pelo coefici-
a necessidade de solução de tradução Por- ente DICE e similaridade entre palavras pela
tuguês-Inglês dos corpus ASSIN pode ter WordNet;
30– Linguamática Jânio Freire, Vládia Pinheiro & David Feitosa

2. STS LSA: abordagem simbólica que usa ba- Chang, Chih-Chung & Chih-Jen Lin. 2011.
sicamente o modelo de similaridade de pala- LIBSVM: A library for support vector machi-
vras da Latent Semantic Analysis (LSA); nes. ACM Trans. Intell. Syst. Technol. 2(3).
27:1–27:27.
3. STS WORDNET LSA: uma abordagem
também simbólica que agrega conhecimento Ganitkevitch, Juri, Benjamin Van Durme & Ch-
da WordNet à similaridade pela LSA. ris Callison-Burch. 2013. PPDB: The paraph-
rase database. Em Proceedings of NAACL-
Os sistemas foram testados nos datasets de teste HLT, 758–764.
disponı́veis na ASSIN para Português-Brasileiro Hall, Mark, Eibe Frank, Geoffrey Holmes, Ber-
(PT-BR) e Português-Portugal (PT-PT). Nosso nhard Pfahringer, Peter Reutemann & Ian H.
melhor sistema foi o STS-MachineLearning com Witten. 2009. The weka data mining software:
resultado para o PT-PT de 0,64 (correlação de An update. SIGKDD Explorations Newsletter
Pearson). Os principais problemas foram a es- 11(1). 10–18.
parsidade da matriz de coocorrência termo-termo
construı́da a partir do corpus CETEMFolha e o Han, Lushan, Abhay L. Kashyap, Tim Finin,
uso da WordNet em inglês. Um resultado impor- James Mayfield & Johnathan Weese. 2013.
tante foi o desempenho do sistema baseline pelo UMBC EBIQUITY-CORE: Semantic Textual
coeficiente de DICE, que obteve 0,69 para o cor- Similarity Systems. Em Proceedings of the Se-
pus PT-PT, indiciando que os corpus possuem cond Joint Conference on Lexical and Compu-
alta similaridade lexical. tational Semantics, 44–52. ACL.
A análise dos resultados, dos problemas en- Harris, Zellig. 1968. Mathematical structures of
frentados e de erros do sistema indicam os seguin- language. Wiley.
tes trabalhos futuros: criação de mais cenários de
testes com diversificação de algoritmos de ma- Landauer, Thomas & Susan Dumais. 1997. A
chine learning e novas features; construção de solution to Plato’s problem: The Latent Se-
nova matriz LSA a partir de um corpus mais ro- mantic Analysis theory of the acquisition, in-
busto na lı́ngua portuguesa; agregação de conhe- duction, and representation of knowledge. Psy-
cimento da Wikipedia e InferenceNet. chological Review 104(2). 211–240.
Lin, Chin-Yew & Eduard Hovy. 2003. Automa-
tic evaluation of summaries using n-gram co-
Referências occurrence statistics. Em Proceedings of the
2003 Conference of the North American Chap-
Agirre, Eneko, Daniel Cer, Mona Diab, Aitor ter of the Association for Computational Lin-
Gonzalez-Agirre & Weiwei Guo. 2013. *SEM guistics on Human Language Technology - Vo-
2013 shared task: Semantic textual similarity. lume 1 NAACL ’03, 71–78.
Em Second Joint Conference on Lexical and
Computational Semantics (*SEM), 32–43. Liu, Hugo & Push Singh. 2004. Conceptnet — a
practical commonsense reasoning tool-kit. BT
Albuquerque, Adriano, Vládia Pinheiro & Thi- Technology Journal 22(4). 211–226.
ago Leite. 2012. Reuse of experiences applied
to requirements engineering: An approach ba- Miller, George A. 1995. Wordnet: A lexical data-
sed on natural language processing. Em Pro- base for english. Communications of the ACM
ceedings of the 24th International Conference 38. 39–41.
on Software Engineering & Knowledge Engi- Milne, David & Ian H. Witten. 2008. An effec-
neering (SEKE’2012), 574–577. tive, low-cost measure of semantic relatedness
obtained from Wikipedia links. Em Proceeding
Baglama, Jim & Lothar Reichel. 2015. irlba: Fast of AAAI Workshop on Wikipedia and Artificial
truncated svd, pca and symmetric eigen decom- Intelligence: an Evolving Synergy, 25–30.
position for large dense and sparse matrices. r
package version 2.0.0. Padró, Lluı́s & Evgeny Stanilovsky. 2012. Free-
ling 3.0: Towards wider multilinguality. Em
Baldridge, Jason. 2005. The OpenNLP project. Language Resources Evaluation Conference,
http://opennlp.apache.org. 2473–2479.
Burgess, Curt, Kay Livesay & Kevin Lund. 1998. Pedregosa, Fabian, Gaël Varoquaux, Alexandre
Explorations in context space: Words, senten- Gramfort, Vincent Michel, Bertrand Thirion,
ces, discourse. Discourse Processes 25(2–3). Olivier Grisel, Mathieu Blondel, Peter Pret-
211–257. tenhofer, Ron Weiss, Vincent Dubourg, Jake
FlexSTS: Um Framework para Similaridade Semântica Textual Linguamática – 31

Vanderplas, Alexandre Passos, David Courna- Zhao, Jiang, Tiantian Zhu & Man Lan. 2014.
peau, Matthieu Brucher, Matthieu Perrot & ECNU: one stone two birds: Ensemble of he-
Édouard Duchesnay. 2011. Scikit-learn: Ma- terogenous measures for semantic relatedness
chine learning in python. Journal of Machine and textual entailment. Em Proceedings of the
Learning Research 12. 2825–2830. 8th International Workshop on Semantic Eva-
luation, SemEval-COLING 2014, 271–277.
Pinheiro, Vládia, Vasco Furtado & Adriano Al-
buquerque. 2014. Semantic textual similarity
of Portuguese-language texts: An approach
based on the semantic inferentialism model.
Em Jorge Baptista, Nuno Mamede, Sara Can-
deias, Ivandré Paraboni, Thiago A. S. Pardo
& Maria das Graças Volpe Nunes (eds.), Com-
putational Processing of the Portuguese Lan-
guage: 11th International Conference, 183–
188.
Pinheiro, Vládia, Vasco Furtado, Lı́vio Melo
Freire & Caio Ferreira. 2012. Knowledge-
intensive word disambiguation via common-
sense and wikipedia. Em Proceedings of the
21st Brazilian Conference on Advances in Arti-
ficial Intelligence SBIA’12, 182–191. Springer-
Verlag.
Pinheiro, Vladia, Tarcisio Pequeno, Vasco Fur-
tado & Wellington Franco. 2010a. Inferen-
ceNet.Br: Expression of inferentialist seman-
tic content of the portuguese language. Em
Thiago Alexandre Salgueiro Pardo, António
Branco, Aldebaro Klautau, Renata Vieira &
Vera Lúcia Strube de Lima (eds.), Computa-
tional Processing of the Portuguese Language:
9th International Conference, 90–99.
Pinheiro, Vládia, Tarcisio Pequeno & Vasco Fur-
tado. 2010b. Um analisador semântico infe-
rencialista de sentenças em linguagem natural.
Linguamática 2(1). 111–130.
Rohlf, F. James. 1992. Numerical taxonomy and
multivariate analysis system. Department of
Ecology and Evolution, State University of
New York.
Sultan, Md Arafat, Steven Bethard & Tamara
Sumner. 2015. Dls@cu: Sentence similarity
from word alignment and semantic vector com-
position. Em Proceedings of the 9th Internatio-
nal Workshop on Semantic Evaluation (SemE-
val 2015), 148–153.
Toutanova, Kristina, Dan Klein, Christopher D.
Manning & Yoram Singer. 2003. Feature-rich
part-of-speech tagging with a cyclic depen-
dency network. Em Proceedings of the 2003
Conference of the North American Chapter of
the Association for Computational Linguistics
on Human Language Technology - Volume 1
NAACL’03, 173–180.
Proposta recebida em Setembro 2016 e aceite para publicação em Novembro 2016.

INESC-ID@ASSIN: Medição de Similaridade Semântica e


Reconhecimento de Inferência Textual
INESC-ID@ASSIN: Measuring Semantic Similarity and Recognizing Textual Entailment

Pedro Fialho Ricardo Marques


Universidade de Évora, INESC-ID IST/UTL, INESC-ID
pedro.fialho@l2f.inesc-id.pt ricardo.sa.marques@tecnico.ulisboa.pt
Bruno Martins Luı́sa Coheur
IST/UTL, INESC-ID IST/UTL, INESC-ID
bruno.g.martins@tecnico.ulisboa.pt luisa.coheur@l2f.inesc-id.pt
Paulo Quaresma
Universidade de Évora, INESC-ID
pq@di.uevora.pt

Resumo 1 Introdução
Neste artigo apresentamos o sistema INESC- Detetar a quantidade e o tipo de similaridade en-
ID@ASSIN, o qual competiu no evento “Avaliação tre duas frases é uma tarefa complexa de Compre-
de Similaridade Semântica e Inferência Textual” (AS-
SIN) de 2016, nas tarefas de similaridade semântica e
ensão de Lı́ngua Natural, principalmente devido
reconhecimento de paráfrases (i.e., inferência textual). à variabilidade lexical e sintática caracterı́stica da
O sistema INESC-ID@ASSIN aborda o problema de lı́ngua natural. Detetar equivalência entre frases
medir a similaridade entre frases como uma tarefa de pode incluir a medição de semelhança semântica,
regressão e aborda a inferência textual como uma ta- e o problema está também relacionado com as
refa de classificação. Embora o INESC-ID@ASSIN tarefas de identificação de paráfrases ou de in-
seja baseado essencialmente em caracterı́sticas lexi- ferência textual.
cais simples para deteção de paráfrases e reconheci-
mento de inferência textual, foram obtidos resultados
A inferência textual pode ser definida como a
promissores nesta avaliação conjunta. tarefa de estimar a relação entre duas unidades de
lı́ngua natural (por exemplo, entre duas frases),
Palavras chave onde a veracidade de uma requer a veracidade
aprendizagem supervisionada, regressão, classificação da outra. Podemos dizer que de uma frase A se
deduz a frase B se e somente se sempre que A é
verdade B também é verdade.
Abstract
Paráfrases são um tipo especial de in-
ferência, nomeadamente inferência bidirecional.
In this article we present INESC-ID@ASSIN, a Uma paráfrase é uma espécie de equivalência
system that competed in the 2016 joint evaluation semântica, responsável pela interligação de fra-
effort entitled Avaliação de Similaridade Semântica ses através da substituição de classes gramaticais
e Inferência Textual (ASSIN), in the tasks of se- e mantendo variáveis inalteradas entre as estru-
mantic similarity and textual entailment recognition. turas lexicais e sintáticas.
INESC-ID@ASSIN addresses the problem of detec-
ting sentence similarity as a regression task, and it As tarefas de Identificação de Inferência Tex-
addresses textual entailment as a classification task. tual (RTE, do Inglês Recognizing Textual Entail-
Although INESC-ID@ASSIN relies mainly on simple ment) e cálculo da similaridade semântica têm
lexical features for detecting paraphrases and recogni- muitas aplicações práticas, sendo usadas em sis-
zing textual entailment, promising results were achi- temas de pergunta-resposta, para extração de in-
eved in this joint evaluation. formação, sumarização ou tradução automática
Keywords (MT, do Inglês Machine Translation), entre ou-
tros.
supervised learning, regression, classification

This work is licensed under a Linguamática — ISSN: 1647–0818


Creative Commons Attribution 3.0 License Vol. 8 Núm. 2 - Dezembro 2016 - Pág. 33–42
34– Linguamática Pedro Fialho, Ricardo Marques, Bruno Martins, Luı́sa Coheur & Paulo Quaresma

Neste artigo apresentamos o INESC- manualmente ou aprendido através de dados) as


ID@ASSIN, um sistema que deteta paráfrases frases são classificadas como paráfrases.
e faz inferência textual, baseado em aprendiza- Zhang & Patrick (2005) propuseram um
gem automática supervisionada e que explora método de classificação em que o par de frases
propriedades lexicais que relacionam duas é simplificado para formas canónicas através de
frases. Detetar a quantidade de semelhança regras para alterar a voz passiva para ativa, en-
é conseguido com um modelo de regressão, tre outras. Utilizando árvores de decisão, os au-
enquanto o tipo de inferência é previsto com um tores exploram caracterı́sticas baseadas em com-
classificador. parações lexicais, tais como a distância de edição
Avaliámos a nossa abordagem no contexto da entre sı́mbolos (e.g., letras ou palavras).
ASSIN (Avaliação de Similaridade Semântica e Além de utilizar caracterı́sticas de com-
Inferência Textual), uma tarefa de avaliação con- paração lexical, autores como Kozareva & Mon-
junta no PROPOR (Conferência Internacional toyo (2006) ou Ul-Qayyum & Wasif (2012) pro-
sobre o Processamento Computacional do Por- puseram abordagens baseadas em classificação
tuguês) de 2016. A tarefa ASSIN forneceu dados utilizando uma combinação de caracterı́sticas le-
de treino e teste com exemplos em Português Eu- xicais, semânticas e heurı́sticas (por exemplo,
ropeu (PT-PT) e do Brasil (PT-BR). padrões de negação) para auxiliar a deteção de
O resto deste artigo está organizado da se- falsas paráfrases.
guinte forma: A Secção 2 apresenta trabalhos Os métodos utilizados na maioria das ante-
relacionados. A Secção 3 apresenta o sistema riores abordagens funcionam ao nı́vel das fra-
INESC-ID@ASSIN e a Secção 4 detalha a ava- ses, mas visto que as paráfrases utilizam tipi-
liação e resultados. Finalmente, a Secção 5 con- camente sinónimos ou outras formas de pala-
clui e indica trabalho futuro. vras relacionadas, autores como Mihalcea et al.
(2006) ou Fernando & Stevenson (2008) desenvol-
veram métodos de similaridade ao nı́vel de pala-
2 Trabalho relacionado
vras para determinar se uma frase é paráfrase de
outra. Estes métodos são baseados em medidas
O aparecimento de tarefas conjuntas foca-
de similaridade palavra-a-palavra (por exemplo,
das no problema da RTE tem fomentado
métricas baseadas em dados que utilizem a Word-
experiências com várias abordagens baseadas
Net). Métodos baseados em alinhamentos (como
em dados/aprendizagem, aplicadas a tarefas
os formulados para sumarização ou tradução) são
semânticas (Dagan et al., 2009, 2013; Zhao et al.,
também usuais.
2014; Bjerva et al., 2014). Particularmente, a dis-
ponibilidade de conjuntos de dados para apren- Madnani et al. (2012) propuseram uma abor-
dizagem supervisionada tornou possı́vel formular dagem baseada em métricas para alinhamento de
o problema da RTE como uma tarefa de clas- sequências de caracteres, utilizadas em tradução
sificação, em que caracterı́sticas são extraı́das a automática (MT). Embora o uso de métricas de
partir dos exemplos de treino e utilizadas pelos MT para a tarefa de identificação de paráfrases
algoritmos de aprendizagem automática na cons- não seja novidade (Finch et al., 2005), o mérito
trução de um classificador, que é finalmente apli- dos autores está na re-avaliação dessas métricas,
cado aos dados de teste. conjuntamente com a criação de novas métricas,
alcançando um dos melhores resultados sobre o
Abordagens recentes para RTE ou para a
conhecido Microsoft Research Paraphrase Corpus
identificação de paráfrases utilizam algoritmos
(Dolan et al., 2004).
de aprendizagem automática (por exemplo, clas-
sificadores lineares) com uma variedade de ca- Pakray et al. (2011) descrevem uma aborda-
racterı́sticas, baseadas em comparações sobre gem lexical e sintática para resolver o problema
padrões lexicais, sintáticos e/ou semânticos, con- da RTE. Este método resulta da composição
tagem de co-ocorrências em documentos, e regras de vários módulos, nomeadamente módulos de
de primeira ordem para reescrita sintática. pré-processamento, similaridade lexical e simila-
ridade sintática.
Diferentes abordagens têm sido formuladas,
muitas vezes envolvendo a combinação de carac- Tsuchida & Ishikawa (2011) propuseram um
terı́sticas como as acima descritas. Uma aborda- sistema RTE que usa métodos de aprendiza-
gem simples é a estratégia saco-de-palavras, em gem automática com caracterı́sticas baseadas
que a semelhança de um par de frases é calculada em informação lexical e ao nı́vel das estruturas
utilizando a similaridade do cosseno entre repre- predicado-argumento. A ideia subjacente é deli-
sentações vetoriais. Se o valor da similaridade é mitar os pares texto-hipótese identificados como
superior a um limiar pré definido (estabelecido tendo inferência textual, mas que na verdade não
Medição de Similaridade Semântica e Reconhecimento de Inferência Textual Linguamática – 35

têm, ou seja, falsos positivos classificados pelo 3.1 Similaridade lexical


módulo de nı́vel lexical podem ser rejeitados pelo
módulo de nı́vel da frase. As caracterı́sticas de comparação lexical consi-
É importante notar que os trabalhos an- deradas no INESC-ID@ASSIN são as seguintes:
teriores normalmente correspondem a métodos
que são independentes do idioma pelo uso de 1. Maior Subsequência Comum. O tama-
estratégias simples, tal como a contagem n- nho da maior subsequência comum (LCS)
gramas. Da maioria das abordagens RTE des- entre o texto e a hipótese. O valor é fixado
critas também se conclui que os módulos lexicais entre 0 e 1, dividindo o tamanho da LCS
alcançam melhores resultados do que os módulos pelo tamanho da frase mais longa.
sintáticos e baseados na estrutura de frases. 2. Distância de edição. A distância mı́nima
As mais recentes abordagens a estes proble- de edição/alteração entre sı́mbolos (letras ou
mas dependem de recursos dependentes do idi- palavras) do texto e da hipótese.
oma e, como seria de esperar, focam-se na lı́ngua
3. Comprimento. A diferença absoluta de
Inglesa, explorando modelos de semântica dis-
comprimento (número de sı́mbolos) entre
tribuı́da, utilizando recursos como word embed-
o texto e a hipótese. Os comprimentos
dings (Cheng & Kartsaklis, 2015). Apenas muito
máximo e mı́nimo são também considerados
recentemente foram publicados recursos que per-
(separadamente) como caracterı́sticas.
mitiriam replicar algumas destas experiências
tendo em conta o Português (por exemplo, (Ro- 4. Similaridade por Cosseno. A similari-
drigues et al., 2016)). dade do cosseno entre o texto e a hipótese,
com base no número de ocorrências de cada
palavra no texto/hipótese (a representação
3 INESC-ID@ASSIN usa a frequência dos termos nos vetores as-
sociados a cada documento). A fórmula do
Os modelos de regressão/classificação gerados no cosseno é mostrada na Equação 1.
contexto do INESC-ID@ASSIN foram baseados
no formalismo dos kernel methods e usam várias
métricas de similaridade. Vários estudos anterio- →
− →

V (s1 ) · V (s2 )
res, na área de Processamento de Lı́ngua Natural cos (s1 , s2 ) = →− →
− (1)
(NLP, do Inglês Natural Language Processing) e || V (s1 )|| × || V (s2 )||
também em outros domı́nios, usaram métodos se-
melhantes para combinar múltiplas métricas de O resultado é um número contı́nuo entre 0 e
similaridade no contexto de obter a semelhança 1. Quanto maior o valor, maior a semelhança
entre objetos (Martins, 2011; Madnani et al., no par texto-hipótese.
2012). 5. Similaridade de Jaccard. A similaridade
As métricas usadas para extrair carac- de Jaccard entre o texto e a hipótese. O va-
terı́sticas dos dados têm em conta, em especial, lor retornado é um número contı́nuo entre 0
contribuições da informação lexical. Algumas e 1, onde 1 significa que as frases são iguais,
destas métricas inspiram-se em estudos focados e 0 que são totalmente diferentes. O coe-
na identificação de paráfrases; outras em estudos ficiente de similaridade de Jaccard é usado
relativos a RTE. Várias formas de representação para comparar a semelhança e diversidade
do texto são tidas em conta (minúsculas, Me- de conjuntos. Mede a semelhança entre con-
taphone, etc.). juntos finitos, e é definido como a divisão
Os recursos utilizados no INESC-ID@ASSIN entre o número de elementos na intersecção
são explicados nas seguintes secções e descritos e na união dos conjuntos. A similaridade de
mais detalhadamente em Marques (2015). Uma Jaccard entre dois conjuntos de palavras s1
máquina de suporte de vectores (do Inglês Sup- e s2 é assim definida da seguinte forma:
port Vector Machine (SVM)) foi utilizada para a
classificação (RTE e identificação de paráfrases) |s1 ∩ s2 |
e um modelo do tipo Kernel Ridge Regression Jaccard (s1 , s2 ) = (2)
|s1 ∪ s2 |
(KRR) foi utilizado para obter valores contı́nuos
(quantificação de similaridade). Usamos as im- 6. Soft TF-IDF. A métrica Soft TF-IDF mede
plementações SVM/KRR do pacote de ferramen- a similaridade entre representações vetoriais
tas scikit-learn1 , para Python. das frases, mas considerando uma métrica de
similaridade interna para encontrar palavras
1
http://scikit-learn.org/ equivalentes. A métrica Jaro-Winkler para
36– Linguamática Pedro Fialho, Ricardo Marques, Bruno Martins, Luı́sa Coheur & Paulo Quaresma

similaridade entre palavras, com um limiar ao seu comprimento (Papineni et al., 2002).
de 0.9, é utilizada como métrica de similari- O maior n que utilizámos foi 3, para a cober-
dade interna. A distância Jaro(s1 , s2 ) entre tura de frases curtas, visto que é sugerido em
duas sequências s1 e s2 é: Papineni et al. (2002) que este valor produz
um desempenho semelhante, em comparação
com o valor clássico de 4-gramas (BLEU-4).
Jaro
( (s1 , s2 ) =
0  2. METEOR. Esta métrica é uma variação do
 se m = 0 BLEU com base na média harmónica da pre-
1 m m m−t
3 × |s1 | + |s2 | + m 6 0
se m = cisão e cobertura de unigramas, tendo a co-
(3) bertura maior peso do que a precisão (Ba-
Na equação, m é o número de caracteres nerjee & Lavie, 2007).
coincidentes e t é metade do número de 3. TER. A Taxa de Erros de Tradução (TER)
transposições. A métrica Jaro-Winkler mo- é uma extensão da Taxa de Erros em Pala-
difica a métrica Jaro adicionando-lhe mais vras (ou Word Error Rate — WER), que
peso quando há um prefixo em comum. Este é uma métrica simples baseada em pro-
melhoramento define 2 variáveis: (1) PL, o gramação dinâmica e que é definida como o
comprimento do maior prefixo comum entre número de alterações necessárias para trans-
duas sequências, com um limite de 4, e (2) formar uma sequência noutra. A TER in-
PW, o peso a dar ao prefixo. clui um algoritmo heurı́stico para lidar com
transposições, além de inserções, remoções e
substituições (Snover et al., 2006).
JaroWinkler (s1 , s2 ) =
(1 − PL × PW) × Jaro (s1 , s2 ) + PL × PW 4. NCD. A Distância de Compressão Norma-
(4) lizada (NCD) é uma forma geral de medir
a similaridade entre dois objetos (Li et al.,
2004). A ideia subjacente é que ao compac-
3.2 Caracterı́sticas sobre RTE tar duas sequências s1 e s2 somente a in-
formação sobreposta é extraı́da.
As caracterı́sticas inspiradas em estudos com o
foco em RTE são as seguintes: 5. ROUGE-N. Sobreposição de n-gramas com
base em estatı́sticas de co-ocorrência (Lin &
1. Sobreposição NE. A similaridade de Jac- Hovy, 2003).
card considerando apenas entidades men-
6. ROUGE-L. Uma variação da métrica
cionadas (NE – do Inglês Named Enti-
ROUGE-N com base no comprimento da
ties). Para simplificar, entidades menciona-
maior subsequência de palavras comum (Lin
das são todas as palavras que contêm letras
& Och, 2004).
maiúsculas.
7. ROUGE-S. Uma variação da métrica
2. Sobreposição NEG. A similaridade de
ROUGE-N baseada em skip-bigrams (ou
Jaccard considerando apenas palavras ne-
seja, bigramas/pares de palavras, pela or-
gativas. As palavras negativas são: não,
dem em que ocorrem na frase, e possibili-
nunca, jamais, nada, nenhum, ninguém.
tando intervalos entre as palavras) (Lin &
3. Sobreposição Modal. A similaridade de Och, 2004).
Jaccard considerando apenas palavras mo-
dais. As palavras modais são: podia, pode- 3.4 Caracterı́sticas numéricas
ria, dever, deve, devia, deverá, deveria, faria,
possı́vel, possibilidade, possa. A inspiração para estas caracterı́sticas numéricas
é simples: frases que se referem às mesmas en-
3.3 Caracterı́sticas sobre paráfrases tidades, mas com números diferentes, são sus-
cetı́veis de ser contraditórias. O cálculo desta
As caracterı́sticas inspiradas em estudos sobre caracterı́stica é simples, resultando da multi-
identificação de paráfrases são as seguintes: plicação de 2 similaridades de Jaccard. Uma en-
tre os caracteres numéricos no par texto-hipótese,
1. BLEU. Esta métrica de MT corresponde à e outra entre as palavras em torno de tais carac-
quantidade de sobreposições em n-gramas, teres numéricos. O resultado é um valor contı́nuo
para diferentes valores de n, entre duas fra- entre 0 e 1, onde 0 indica que as frases são pos-
ses, ajustada por uma penalização relativa sivelmente contraditórias.
Medição de Similaridade Semântica e Reconhecimento de Inferência Textual Linguamática – 37

3.5 Representações de texto Feature O L S C DM T


As caracterı́sticas anteriormente descritas são LCS ! ! ! ! !
aplicadas a diferentes representações das frases. D. de edição ! ! ! ! !
Nomeadamente, considerámos as seguintes repre- Cosseno ! ! ! ! ! !
sentações:
C. Absoluto ! ! ! ! !
C. Máximo ! ! ! ! !
1. Sı́mbolos originais.
C. Mı́nimo ! ! ! ! !
2. Sı́mbolos em minúsculas. Jaccard ! ! ! ! ! !
Soft TF-IDF ! ! !
3. Sı́mbolos em minúsculas sem variações
NE ! ! ! ! ! !
terminais (obtidos pela aplicação de
NEG ! ! ! ! ! !
! ! ! ! ! !
um algoritmo de stemming ).
Modal
4. Agrupamentos de palavras. O algoritmo BLEU-3 ! ! ! ! !
de Brown para o agrupamento de palavras
METEOR ! ! ! ! !
é um método aglomerativo que agrega pa-
ROUGE N ! ! ! ! !
! ! ! ! !
lavras numa árvore binária de classes (Tu-
rian et al., 2010), através de um critério ba- ROUGE L
seado na probabilidade logarı́tmica de um ROUGE S ! ! ! ! !
texto perante um modelo de lı́ngua baseado TER ! ! ! ! !
em classes. NCD ! ! ! ! !
O procedimento de agrupamento de Brown
foi aplicado a uma coleção de documen-
Numérica ! ! !
tos noticiosos do jornal Português Público, Tabela 1: Combinação de caracterı́sticas com re-
do qual resultaram 1001 agrupamentos. presentações, onde O, L, S, C, DM e T corres-
Nesta representação, as palavras/sı́mbolos pondem a sı́mbolos originais, minúsculas, sem
são substituı́dos pelas classes corresponden- terminações, agrupamentos, Double Metaphone
tes. e trigramas, respetivamente.
5. Double Metaphone. Foi utilizado um al-
goritmo bem conhecido para codificar pala- 4 Avaliação
vras com base na sua fonética, interpretando
cada palavra como uma combinação dos sons O INESC-ID@ASSIN foi avaliado no conjunto de
de 12 consoantes. No entanto, importa refe- dados ASSIN para medir o seu desempenho na
rir que o algoritmo Double Metaphone (Phi- tarefa de quantificar automaticamente a simila-
lips, 1990) é baseado na pronúncia Inglesa, ridade semântica e tipo de inferência textual.
sendo mais adequado para codificar palavras
Reportamos resultados de 2 configurações dis-
em inglês e palavras estrangeiras tipicamente
tintas, uma utilizando um kernel polinomial em
utilizadas nos Estados Unidos.
modelos SVM e KRR e outra utilizando um ker-
6. Trigramas de caracteres. Os trigramas nel linear. Para os modelos lineares, as carac-
são um caso especial do conceito de n-grama, terı́sticas mais informativas também são reporta-
onde n é 3. Os trigramas de caracteres das.
são usados como termos-chave numa repre- Cada experiência gerou resultados para 3 con-
sentação da frase, à semelhança de como as figurações diferentes, em ambas as tarefas e para
palavras são usadas como termos-chave para dados de teste portugueses e brasileiros.
representar um documento. Além disso, também medimos o desempenho
ao treinar o nosso sistema com uma variedade do
Os nossos modelos combinam caracterı́sticas Português e testar com a outra.
com base nestas diferentes representações, con- As configurações diferem nos dados utiliza-
siderando um total de 96 caracterı́sticas. Al- dos para treino dos algoritmos de aprendizagem.
gumas caracterı́sticas não são adequados para Um desses conjuntos de dados corresponde à ex-
serem combinadas com algumas representações, pansão do ASSIN com frases traduzidas automa-
tal como a caracterı́stica numérica com a repre- ticamente desde o corpus SICK (Marelli et al.,
sentação Double Metaphone. As combinações 2014), enquanto que as restantes configurações
consideradas são descritas na Tabela 1. usam partições do ASSIN original.
38– Linguamática Pedro Fialho, Ricardo Marques, Bruno Martins, Luı́sa Coheur & Paulo Quaresma

4.1 Descrição da Tarefa 4.3 Resultados

O ASSIN contém 10000 pares de frases recolhi- A nossa abordagem à tarefa ASSIN foi avali-
das de Google News, particionados em conjuntos ada utilizando o coeficiente de Pearson e o erro
de treino e teste, com um número de exemplos quadrático médio (MSE) como métricas para si-
portugueses e brasileiros igualmente distribuı́do milaridade semântica, e com a Exatidão e a me-
por cada conjunto. Cada par de frases é anotado dida F1 para RTE.
para similaridade semântica e inferência textual. Consideramos 3 configurações/tentativas dife-
A similaridade semântica é um valor contı́nuo rentes para a nossa abordagem, que diferem na
de 1 a 5, de acordo com as seguintes diretrizes quantidade de dados de treino que são usados,
sobre as frases de um par: nomeadamente:

1. Completamente diferentes, sobre diferentes 1. PT-PT or PT-BR: treinar apenas com dados
assuntos; da mesma variedade de Português (Europeu
ou do Brasil, respetivamente) dos dados de
2. Não relacionadas, mas mais ou menos sobre teste (3000 exemplos).
o mesmo assunto; 2. AllPT: juntar os dados de ambas as varieda-
3. Algo relacionadas. Podem descrever factos des para treino, independentemente do teste
diferentes, mas partilham alguns detalhes; pretendido (6000 exemplos).
3. PT+BingSICK: usar ambas as variedades
4. Fortemente relacionadas, mas alguns deta- e os dados do SICK traduzido para treino
lhes são diferentes; (15191 exemplos, dos quais 9191 são do
SICK).
5. Essencialmente a mesma coisa.
Estas configurações foram avaliadas nos dados
A anotação da inferência textual é uma atri- de teste europeus e brasileiros, embora na entrega
buição categórica usando classes que identificam oficial só tenha sido avaliado o teste europeu. Na
inferência, paráfrase ou nenhuma relação. entrega oficial, PT com um kernel polinomial foi
O ASSIN define 2 tarefas para quantifi- a nossa melhor configuração (nos dados de teste
car/calcular a similaridade semântica e classifi- europeus). No entanto, devido a um problema
car o tipo de inferência textual. O desempenho é no software (agora resolvido) os valores oficiais
medido separadamente para as variantes de Por- foram inferiores aos apresentados na Tabela 2.
tugal e do Brasil. Os resultados para a nossa abordagem à tarefa
ASSIN, recorrendo a um kernel polinomial, são
apresentados nas Tabelas 2 e 3.
4.2 Treinar com mais dados
Similaridade RTE
Experimentámos utilizar métodos de MT para Treino Pearson MSE Exatidão F1
expandir o conjunto de dados ASSIN original
com novas frases de um conjunto de dados em PT-PT 0.74 0.60 83.55% 0.68
Inglês, visto que mais dados normalmente con- AllPT 0.74 0.60 83.95% 0.69
PT+BingSICK 0.72 0.68 80.70% 0.59
duzem a melhores resultados.
O conjunto de dados SICK (Marelli et al., Tabela 2: Resultados da avaliação, com um ker-
2014) é muito semelhante ao ASSIN, em tama- nel polinomial e considerando todas as carac-
nho e tipo de anotações. No entanto, é base- terı́sticas — teste europeu.
ado em legendas de imagens e vı́deos, obtidas
por crowdsourcing, logo representa menor vari-
abilidade linguı́stica mas mais similaridade entre Similaridade RTE
pares (ou seja, mais pares similares). Treino Pearson MSE Exatidão F1
O SICK foi traduzido para Português, usando PT-BR 0.73 0.36 85.45% 0.64
um programa Python assente no serviço de AllPT 0.73 0.36 85.70% 0.66
tradução online Microsoft Bing, e conjugado com PT+BingSICK 0.70 0.40 84.30% 0.58
os conjuntos de treino em português europeu e
brasileiro. Assim, adicionamos 9191 exemplos do Tabela 3: Resultados da avaliação, com um ker-
SICK aos 6000 exemplos do ASSIN, para uma nel polinomial e considerando todas as carac-
das configurações. terı́sticas — teste brasileiro.
Medição de Similaridade Semântica e Reconhecimento de Inferência Textual Linguamática – 39

Os resultados para a nossa abordagem à ta- mais próximos dos descritos neste artigo, embora
refa ASSIN, recorrendo a um kernel linear, são só tenha participado na medição de similaridade
apresentados nas Tabelas 4 and 5. semântica.
A abordagem de Freire et al. (2016) intro-
Similaridade RTE duz um conjunto de ferramentas para sistemas
Treino Pearson MSE Exatidão F1
de similaridade entre frases, instanciado com
PT-PT 0.73 0.62 84.90% 0.71 semântica distribuı́da e conhecimento da Word-
AllPT 0.74 0.61 84.05% 0.68 Net. Este sistema também não participou na
PT+BingSICK 0.70 0.73 77.10% 0.47 medição de similaridade semântica.
Por último, o sistema de Alves et al. (2016)
Tabela 4: Resultados da avaliação, com um ker-
apresenta uma abordagem não supervisionada,
nel linear e considerando todas as caracterı́sticas
individualmente e como caracterı́stica de uma
— teste europeu.
abordagem supervisionada. Os piores resulta-
dos são da abordagem não supervisionada, en-
Similaridade RTE quanto que a supervisionada atingiu resultados
Treino Pearson MSE Exatidão F1 semelhantes aos de Barbosa et al. (2016), e os
PT-BR 0.73 0.36 85.35% 0.55 mais próximos dos resultados reportados neste
PT 0.73 0.36 85.85% 0.66 artigo relativamente a RTE.
PT+BingSICK 0.70 0.42 82.60% 0.46 Experimentámos também compreender o de-
sempenho dos modelos treinados com uma varie-
Tabela 5: Resultados da avaliação, com um ker- dade de Português e testados com a outra varie-
nel linear e considerando todas as caracterı́sticas dade. Como apresentado na Tabela 6, compreen-
— teste brasileiro. der uma variedade do Português conhecendo ape-
O desempenho com um kernel linear é seme- nas a outra é melhor do que utilizando o conjunto
lhante ao de um kernel polinomial, mas a van- de dados SICK, traduzido automaticamente pelo
tagem da maior dimensionalidade do espaço de sistema Bing. Para simplificar, só é apresentada
um kernel polinomial é realçada quando existem a experiência com kernels polinomiais, mas com
mais dados, como pode ser visto na queda de kernels lineares foram obtidos resultados seme-
desempenho dos modelos lineares quando se uti- lhantes.
liza o conjunto de dados expandido com MT (em
Similaridade RTE
particular no MSE e F1), comparando com os
Treino Pearson MSE Exatidão F1
resultados obtidos com um kernel polinomial.
Destes resultados podemos concluir que utili- PT-BR 0.73 0.63 82.70% 0.64
PT-PT 0.72 0.37 84.30% 0.66
zar dados de treino selecionados/verificados (ma-
nualmente) pode melhorar ligeiramente o desem-
Tabela 6: Variando o conjunto de treino e tes-
penho, enquanto que dados de treino não filtra-
tando com a outra/restante variedade do Por-
dos (repetitivos e com erros lexicais ou sintáticos
tuguês, utilizando um kernel polinomial e todas
resultantes de MT) prejudica o desempenho da
as caracterı́sticas.
nossa abordagem.
Comparando os resultados por tabela, a confi-
guração que mais consistentemente tem os melho- 4.4 Melhores caracterı́sticas
res resultados é a AllPT, tanto para RTE como
para medição da similaridade. Considerando to- Utilizamos o método Recursive Feature Elimina-
das as tabelas, o nosso sistema tem melhor de- tion, tal como implementado no scikit-learn, para
sempenho nos dados da variante do Brasil. obter as 10 melhores caracterı́sticas com a confi-
Os restantes sistemas que participaram na ta- guração PT (i.e., a que produziu os melhores re-
refa ASSIN obtiveram resultados inferiores aos sultados), para cada tarefa (RTE e quantificação
apresentados. Barbosa et al. (2016) experimenta de similaridade).
SVM e redes neuronais em caracterı́sticas basea- Este é um método para seleção de carac-
das em word embeddings, e apresenta uma visão terı́sticas com base no seu peso relativamente
geral dos resultados obtidos por todos os sistemas ao modelo. Como o scikit-learn só representa
que participaram no ASSIN. os pesos das caracterı́stica em modelos com ker-
Em (Hartmann, 2016) são utilizadas carac- nels lineares, apenas aplicamos seleção de carac-
terı́sticas baseadas em conjuntos de palavras terı́sticas nos nossos modelos lineares.
(logo esparsas), onde também figuram os word
embeddings. Este sistema obteve os resultados
40– Linguamática Pedro Fialho, Ricardo Marques, Bruno Martins, Luı́sa Coheur & Paulo Quaresma

As 10 melhores caracterı́sticas para RTE (clas- 5 Conclusões e trabalho futuro


sificação) são:
Este trabalho tem por foco as tarefas de RTE
• Soft TF-IDF, em sı́mbolos originais; e de quantificação de similaridade textual, abor-
dando as mesmas através da aplicação de várias
• Jaccard, sobre Double Metaphone; caracterı́sticas baseadas em trabalhos anteriores
• Jaccard, sobre sı́mbolos em minúsculas sem para RTE e identificação de paráfrases - essen-
variações terminais; cialmente métricas provenientes dos domı́nios de
MT e sumarização. Estas caracterı́sticas, junta-
• Comprimento Absoluto, em Double Me- mente com outras relativas a similaridade entre
taphone; sequências e aspetos numéricos, representam uma
• LCS, sobre sı́mbolos em minúsculas sem va- nova abordagem que se afasta da mais recente
riações terminais; tendência da área, que essencialmente se foca em
sistemas baseados em alinhamentos semânticos e
• Numérica, em sı́mbolos originais; correspondência entre relações binárias.
• Sobreposição NE, em Double Metaphone; Como trabalho futuro, iremos começar por
comparar o desempenho do sistema INESC-
• ROUGE-N, em sı́mbolos originais;
ID@ASSIN com variantes, usando os mesmos
• ROUGE-L, sobre sı́mbolos em minúsculas algoritmos de aprendizagem, aplicados a carac-
sem variações terminais; terı́sticas mais complexas baseadas em repre-
sentações sintáticas/semânticas e baseadas em
• TER, sobre sı́mbolos em minúsculas sem va-
fontes de conhecimento enriquecidas.
riações terminais.

As 10 melhores caracterı́sticas para quanti- Agradecimentos


ficação de similaridade (regressão) são:
Este trabalho foi suportado por fundos nacionais
• Similaridade do Cosseno, em sı́mbolos origi- através da Fundação para a Ciência e a Tecno-
nais; logia (FCT), através do projeto com referência
UID/CEC/50021/2013. O trabalho foi ainda supor-
• Soft TF-IDF, em sı́mbolos originais; tado pelo projeto internacional RAGE com referência
• Jaccard, em Double Metaphone; H2020-ICT-2014-1/644187 e pelo projeto LAW-
TRAIN com referência H2020-EU.3.7.-653587.
• Jaccard, sobre sı́mbolos em minúsculas sem
variações terminais;
Referências
• Jaccard, em trigramas de caracteres;
• Numérica, sobre sı́mbolos em minúsculas Alves, Ana Oliveira, Ricardo Rodrigues &
sem variações terminais; Hugo Gonçalo Oliveira. 2016. ASAPP: alinha-
mento semântico automático de palavras apli-
• Sobreposição NE, em Double Metaphone; cado ao português. Linguamática 8(2). 43–58.
• ROUGE-N, sobre sı́mbolos originais; Banerjee, Satanjeev & Alon Lavie. 2007. ME-
• ROUGE-N, em agrupamentos de palavras; TEOR: An automatic metric for mt evaluation
with improved correlation with human judg-
• ROUGE-S, sobre sı́mbolos em minúsculas ments. Em Proceedings of the ACL Workshop
sem variações terminais. on Intrinsic and Extrinsic Evaluation Measu-
res for Machine Translation and/or Summari-
As caracterı́sticas baseadas em similaridade zation, 228–231.
lexical contribuem para os melhores resultados
de ambas as tarefas, em especial se se tiver em Barbosa, Luciano, Paulo Cavalin, Victor Gui-
conta as representações que mantêm os sı́mbolos marães & Matthias Kormaksson. 2016. Blue
da frase, como comprovado pela predominância Man Group no ASSIN: Usando representações
destas métricas e representações entre as 10 me- distribuı́das para similaridade semântica e in-
lhores caracterı́sticas. A única caracterı́stica ba- ferência textual. Linguamática 8(2). 15–22.
seada em RTE que teve um desempenho rele- Bjerva, Johannes, Johan Bos, Rob van der Goot
vante é a Sobreposição NE, sobre a representação & Malvina Nissim. 2014. The meaning factory:
de texto processado pelo algoritmo Double Me- Formal semantics for recognizing textual en-
taphone. tailment and determining semantic similarity.
Medição de Similaridade Semântica e Reconhecimento de Inferência Textual Linguamática – 41

Em Proceedings of the International Workshop Conference of the North American Chapter of


on Semantic Evaluation, 642–646. the ACL on Human Language Technology, 71–
Cheng, Jianpeng & Dimitri Kartsaklis. 2015. 78.
Syntax-aware multi-sense word embeddings for Lin, Chin-Yew & Franz Josef Och. 2004. Auto-
deep compositional models of meaning. Em matic evaluation of machine translation quality
Proceedings of the 2015 Conference on Empi- using longest common subsequence and skip-
rical Methods in Natural Language Processing, bigram statistics. Em Proceedings of the An-
1531–1542. nual Meeting of ACL, s. pp.
Dagan, Ido, Bill Dolan, Bernardo Magnini & Dan
Madnani, Nitin, Joel Tetreault & Martin Chodo-
Roth. 2009. Recognizing textual entailment:
row. 2012. Re-examining machine translation
Rational, evaluation and approaches. Natural
metrics for paraphrase identification. Em Pro-
Language Engineering 15(04). i–xvii.
ceedings of the Conference of the North Ame-
Dagan, Ido, Dan Roth, Mark Sammons & Fa- rican Chapter of ACL, 182–190.
bio Massimo Zanzotto. 2013. Recognizing
textual entailment: Models and applications. Marelli, Marco, Stefano Menini, Marco Baroni,
Synthesis Lectures on Human Language Tech- Luisa Bentivogli, Raffaella Bernardi & Roberto
nologies 6(4). 1–220. Zamparelli. 2014. A SICK cure for the evalu-
ation of compositional distributional semantic
Dolan, Bill, Chris Quirk & Chris Brockett. 2004. models. Em Proceedings of the International
Unsupervised construction of large paraphrase Conference on Language Resources and Evalu-
corpora: Exploiting massively parallel news ation, 216–223.
sources. Em Proceedings of the International
Conference on Computational Linguistics, s. Marques, Ricardo. 2015. Detecting contradictions
pp. in news quotations: IST, University of Lisbon.
Fernando, Samuel & Mark Stevenson. 2008. A Tese de Mestrado.
semantic similarity approach to paraphrase de- Martins, Bruno. 2011. A supervised machine le-
tection. Em Proceedings of the Annual Rese- arning approach for duplicate detection over
arch Colloquium on Computational Linguistics gazetteer records. Em Proceedings of the Inter-
in the UK, s. pp. national Conference on GeoSpatial Semantics,
Finch, Andrew, Young-Sook Hwang & Eiichiro 34–51.
Sumita. 2005. Using machine translation eva- Mihalcea, Rada, Courtney Corley & Carlo Strap-
luation techniques to determine sentence-level parava. 2006. Corpus-based and knowledge-
semantic equivalence. Em Proceedings of the based measures of text semantic similarity. Em
International Workshop on Paraphrasing, 17– Proceedings of the National Conference on Ar-
24. tificial Intelligence, 775–780.
Freire, Jânio, Vládia Pinheiro & David Feitosa.
2016. FlexSTS: Um framework para simila- Pakray, Partha, Sivaji Bandyopadhyay & Ale-
ridade semântica textual. Linguamática 8(2). xander Gelbukh. 2011. Textual entailment
23–31. using lexical and syntatic similarity. Internaci-
onal Journal of Artificial Intelligence and Ap-
Hartmann, Nathan Siegle. 2016. Solo queue at plications 2(1). 43–58.
ASSIN: Combinando abordagens tradicionais
e emergentes. Linguamática 8(2). 59–64. Papineni, Kishore, Salim Roukos, Todd Ward &
Wei-Jing Zhu. 2002. BLEU: A method for au-
Kozareva, Zornitsa & Andres Montoyo. 2006. Pa-
tomatic evaluation of machine translation. Em
raphrase identification on the basis of supervi-
Proceedings of the Annual Meeting of ACL,
sed machine learning techniques. Em Procee-
311–318.
dings of the International Conference on Ad-
vances in Natural Language Processing, 524– Philips, L. 1990. Hanging on the metaphone.
533. Computer Language Magazine 7(12). 39–44.
Li, Ming, Xin Chen, Xin Li, Bin Ma & Paul Rodrigues, João António, António Branco, Ste-
Vitányi. 2004. The similarity metric. Infor- ven Neale & João Ricardo Silva. 2016. Lx-
mation Theory, IEEE Transactions on 50(12). dsemvectors: Distributional semantics models
Lin, Chin-Yew & Eduard Hovy. 2003. Automa- for portuguese. Em Computational Processing
tic evaluation of summaries using n-gram co- of the Portuguese Language - 12th Internatio-
occurrence statistics. Em Proceedings of the nal Conference, PROPOR 2016, 259–270.
42– Linguamática Pedro Fialho, Ricardo Marques, Bruno Martins, Luı́sa Coheur & Paulo Quaresma

Snover, Matthew, Bonnie Dorr, Richard


Schwartz, Linnea Micciulla & John Makhoul.
2006. A study of translation edit rate with tar-
geted human annotation. Em Proceedings of
the Conference of the Association for Machine
Translation in the Americas, 223–231.
Tsuchida, Masaaki & Kai Ishikawa. 2011. A
method for recognizing textual entailment
using lexical-level and sentence structure-level
features. Em Proceedings of the Text Analysis
Conference, s. pp.
Turian, Joseph, Lev Ratinov & Yoshua Bengio.
2010. Word representations: a simple and ge-
neral method for semi-supervised learning. Em
Proceedings of the Annual Meeting of ACL,
384–394.
Ul-Qayyum, Zia & Altaf Wasif. 2012. Paraphrase
identification using semantic heuristic features.
Research Journal of Applied Sciences, Engine-
ering and Tecnhology 4(22). 4894–4904.
Zhang, Yitao & Jon Patrick. 2005. Paraphrase
identification by text canonicalization. Em
Proceedings of the Australasian Language Te-
chnology Workshop, 160–166.
Zhao, Jiang, Tiantian Zhu & Man Lan. 2014.
ECNU: One stone two birds: Ensemble of he-
terogenous measures for semantic relatedness
and textual entailment. Em Proceedings of the
International Workshop on Semantic Evalua-
tion, 271–277.
Proposta recebida em Setembro 2016 e aceite para publicação em Novembro 2016.

ASAPP: Alinhamento Semântico Automático de Palavras


aplicado ao Português
ASAPP: Automatic Semantic Alignment for Phrases applied to Portuguese

Ana Oliveira Alves Ricardo Rodrigues


CISUC, Universidade de Coimbra CISUC, Universidade de Coimbra
ISEC, Instituto Politécnico de Coimbra ESEC, Instituto Politécnico de Coimbra
ana@dei.uc.pt rmanuel@dei.uc.pt
Hugo Gonçalo Oliveira
CISUC, Universidade de Coimbra
DEI, Universidade de Coimbra
hroliv@dei.uc.pt

Resumo pairs of sentences, in Portuguese, poses the following


challenges: (a) computing the semantic similarity
Apresentamos duas abordagens distintas à tarefa between the sentences of each pair; and (b) testing
de avaliação conjunta ASSIN onde, dada uma coleção whether one sentence paraphrases or entails the other.
de pares de frases escritas em português, são colo- The first approach, dubbed Reciclagem, is exclusively
cados dois objectivos para cada par: (a) calcular a based on heuristics computed on Portuguese seman-
similaridade semântica entre as duas frases; e (b) ve- tic networks. The second, dubbed ASAPP, is ba-
rificar se uma frase do par é paráfrase ou inferência sed on supervised machine learning. The results of
da outra. Uma primeira abordagem, apelidada de Reciclagem enable an indirect comparison of Portu-
Reciclagem, baseia-se exclusivamente em heurı́sticas guese semantic networks. They were then used as
sobre redes semânticas para a lı́ngua portuguesa. A features of the ASAPP approach, together with lexi-
segunda abordagem, apelidada de ASAPP, baseia-se cal and syntactic features. After comparing our re-
em aprendizagem automática supervisionada. Acima sults with those in the gold collection, it is clear that
de tudo, os resultados da abordagem Reciclagem per- ASAPP consistently outperforms Reciclagem. This
mitem comparar, de forma indireta, um conjunto de happens both for European Portuguese and Brazilian
redes semânticas, através do seu desempenho nesta Portuguese, where the entailment performance rea-
tarefa. Estes resultados, algo modestos, foram de- ches an accuracy of 80.28% ± 0.019, and the seman-
pois utilizados como caracterı́sticas da abordagem tic similarity scores are 66.5% ± 0.021 correlated with
ASAPP, juntamente com caracterı́sticas adicionais, ao those given by humans.
nı́vel lexical e sintático. Após comparação com os re-
sultados da coleção dourada, verifica-se que a abor- Keywords
dagem ASAPP supera a abordagem Reciclagem de semantic similarity, entailment, lexical semantic
forma consistente. Isto ocorre tanto para o Português networks, machine learning
Europeu como para o Português Brasileiro, onde o de-
sempenho atinge uma exatidão de 80.28%±0.019 para
a inferência textual, enquanto que a correlação dos
valores atribuı́dos para a similaridade semântica com 1 Introdução
aqueles atribuı́dos por humanos é de 66.5% ± 0.021.
A Similaridade Semântica e Inferência Tex-
Palavras chave tual (em inglês, Entailment) têm sido alvo de in-
similaridade semântica, inferência textual, redes tensa pesquisa por parte da comunidade cientı́fica
léxico-semânticas, aprendizagem automática em Processamento da Linguagem Natural. Prova
disso é a organização de várias tarefas de ava-
liação sobre o tema (Semantic Textual Similarity
— STS ) e o surgimento de conjuntos de dados
Abstract
anotados nos últimos anos1 (Agirre et al., 2015,
We present two distinct approaches to the ASSIN 1
shared evaluation task where, given a collection with Veja-se, por exemplo, a tarefa mais recente, SemEval-
2016 STS Task: http://alt.qcri.org/semeval 2016/task1/

This work is licensed under a Linguamática — ISSN: 1647–0818


Creative Commons Attribution 3.0 License Vol. 8 Núm. 2 - Dezembro 2016 - Pág. 43–58
44– Linguamática Ana Oliveira Alves, Ricardo Rodrigues & Hugo Gonçalo Oliveira

2014, 2013, 2012). No capı́tulo 2 deste artigo, são Várias ferramentas foram utilizadas para a ex-
precisamente apresentados trabalhos que têm o tração das caracterı́sticas morfo-sintáticas. Estas
objectivo comum de calcular a similaridade e in- incluem a atomização (em inglês, tokenization),
ferência textual, assim como tarefas que incenti- etiquetagem gramatical (part-of-speech tagging),
vem esta pesquisa. lematização, segmentação de orações (chunking)
No entanto, as tarefas anteriores, realizadas e reconhecimento de entidades mencionadas, que
no âmbito das avaliações SemEval, focavam ape- são explicadas em detalhe na secção 3.1. Quanto
nas a lı́ngua inglesa. A tarefa ASSIN, em que às caracterı́sticas semânticas, um conjunto de re-
nos propusemos participar, tem algumas seme- des léxico-semânticas foi explorado e é introdu-
lhanças com as anteriores, mas visa a lı́ngua por- zido na secção 3.2. Nestas redes, que preten-
tuguesa. Dada uma coleção com pares de frases, dem ter uma boa cobertura da lı́ngua portuguesa,
o objectivo dos sistemas participantes passa por: as palavras encontram-se organizadas de acordo
(a) atribuir um valor para a similaridade de cada com os seus sentidos. Elas são utilizadas para
par; e (b) classificar cada par como paráfrase, in- identificar relações entre palavras das duas frases
ferência, ou nenhum dos anteriores. do par.
A nossa participação na tarefa ASSIN se- Os resultados de ambas abordagens se-
guiu dois caminhos distintos e, consequente- guindo diversas combinações de caracterı́sticas e
mente, duas equipas participantes, ainda que aplicação de diferentes algoritmos de aprendiza-
constituı́das pelos mesmos elementos, e onde fo- gem são discutidos no capı́tulo 7. Por fim, o
ram utilizados os mesmos recursos e ferramentas capı́tulo 8 reúne as principais conclusões que fo-
para o processamento computacional da lı́ngua ram determinadas a partir destes resultados e sua
(estes são apresentados no capı́tulo 3). A pri- discussão.
meira abordagem – Reciclagem – baseou-se ex-
clusivamente no cálculo de heurı́sticas sobre um 2 Trabalho Relacionado
conjunto de redes em que palavras portuguesas
estão organizadas de acordo com os seus possı́veis Existem atualmente duas abordagens principais
sentidos. para o cálculo da similaridade. A primeira con-
A segunda abordagem tem como inspiração o siste no uso de um corpo de grande dimensão
sistema ASAP – Automatic Semantic Alignment para estimar a similaridade através de dados es-
for Phrases – que, numa primeira versão, par- tatı́sticos recolhidos sobre a co-ocorrência de pa-
ticipou na tarefa de Evaluation of Compositio- lavras. A segunda é baseada em conhecimento
nal Distributional Semantic Models on Full Sen- léxico-semântico, utilizando relações e entradas
tences through Semantic Relatedness and Textual de um dicionário (Lesk, 1986) ou recurso léxico-
Entailment do SemEval 2014 (Alves et al., 2014) semântico (Banerjee & Pedersen, 2003). As abor-
e, numa segunda instanciação, na tarefa de Se- dagem hı́bridas combinam as duas metodolo-
mantic Textual Similarity do SemEval 2015 (Al- gias (Jiang & Conrath, 1997).
ves et al., 2015). O nome do sistema aqui apre- O algoritmo de Lesk (Lesk, 1986) utiliza de-
sentado acrescenta um P ao nome do sistema ori- finições de entradas de um dicionário (sentidos)
ginal, por se focar na lı́ngua portuguesa. para desambiguar uma palavra polissémica no
Tanto o ASAP como o ASAPP vêem a Si- contexto de uma frase. O principal objectivo
milaridade Textual e o Entailment como uma deste método é contar o número de palavras que
função onde as variáveis são as caracterı́sticas são comuns entre duas definições, no caso do
lexicais, sintáticas e semânticas extraı́das do cálculo da similaridade entre duas entradas do
texto. A extração destas caracterı́sticas nas dicionário. Em alguns casos, as definições obti-
suas várias dimensões é detalhada no capı́tulo 4. das são muito reduzidas em tamanho e mostram-
Uma das nossas principais contribuições prende- se insuficientes para identificar similaridades en-
se com a possibilidade de comparar uma aborda- tre sentidos relacionados de palavras. Para aper-
gem heurı́stica com uma abordagem aprendida de feiçoar este método, Banerjee & Pedersen (2003)
forma supervisionada pela máquina (capı́tulo 6) adaptaram o algoritmo para utilizar a base de
para um mesmo conjunto de caracterı́sticas na conhecimento léxico-semântico WordNet (Fell-
lı́ngua Portuguesa, seja na variante Europeia ou baum, 1998) como dicionário, onde é possı́vel en-
na Brasileira. Há a referir que os resultados das contrar as definições dos sentidos das palavras, e
heurı́sticas de similaridade calculadas na abor- estenderam a medida de Lesk para a utilização
dagem Reciclagem são também utilizados como da rede de relações semânticas entre conceitos,
caracterı́sticas da abordagem ASAPP. na WordNet.
ASAPP: Alinhamento Semântico Automático de Palavras aplicado ao Português Linguamática – 45

A métrica de similaridade de Jiang & Con- conteúdos da base de conhecimento Inference-


rath (1997) calcula a informação partilhada entre Net.Br, utilizada para identificar palavras rela-
conceitos, que é determinada pelo Conteúdo da cionadas em duas frases comparadas. A medida
Informação (Information Content – IC ) do con- proposta foi avaliada numa coleção com a des-
ceito mais especı́fico que seja o hiperónimo de crição de erros reportados num conjunto de pro-
dois conceitos que se pretende comparar. Uti- jetos de engenharia de software, cuja similaridade
lizando a hierarquia de hiperónimos/hipónimos foi posteriormente anotada por dois juı́zes huma-
da WordNet, esta medida calcula a distância nos. O objetivo seria recuperar erros semelhan-
(inverso da similaridade) entre dois conceitos, tes.
através da contagem de relações deste tipo. Relativamente à inferência textual, Barreiro
Mais recentemente, a tarefa de Similadade (2008) estudou o parafraseamento de frases por-
Semântica e Inferência Textual para o inglês têm tuguesas com base em verbos de suporte e anali-
ocorrido desde 2012 nos workshops internacionais sou o impacto da realização destas paráfrases na
de avaliação semântica (Semeval-STS), providen- tradução automática das frases para inglês.
ciando um fórum privilegiado para a avaliação de
algoritmos e modelos. Na última tarefa realizada,
dos sistemas participantes, o vencedor foi uma 3 Ferramentas e Recursos PLN
abordagem baseada em técnicas de deep learning
com sinais de penalização e reforço aplicados à Apresentamos aqui o conjunto de ferramentas e
rede recorrente extraı́dos do WordNet(Rychalska recursos base utilizado neste trabalho para o pro-
et al., 2016) que podem ser combinadas em con- cessamento computacional da lı́ngua portuguesa.
juntos (ensemble) de classificadores. Os autores Mais propriamente, enumeram-se as ferramentas
incluı́ram ainda neste conjunto uma versão do utilizadas para a anotação morfo-sintática das
algoritmo do ano anterior (Sultan et al., 2015) frases e, de seguida, as redes de onde foram obti-
melhorado através do uso de caracterı́sticas que das as caracterı́sticas semânticas.
incluem word embbedings.
Os métodos de reconhecimento de inferência 3.1 Anotação Morfo-Sintática
textual baseiam-se geralmente na assunção que
duas expressões em linguagem natural podem ser Diversas ferramentas foram utilizadas para o pro-
inferidas uma a partir de outra. A paráfrase é cessamento das frases da coleção ASSIN, nomea-
um caso especial de inferência textual bidirec- damente um atomizador (em inglês, tokenizer ),
cional, onde estas duas expressões transmitem um etiquetador gramatical (part-of-speech tag-
de uma forma muito aproximada a mesma in- ger ), um lematizador – tanto na nossa aborda-
formação. Existem diferentes abordagens para gem heurı́stica como na supervisionada – e ainda
identificar a inferência textual (Androutsopou- um reconhecedor de entidades mencionadas e um
los & Malakasiotis, 2010), baseadas em: lógica segmentador de orações (“phrase chunker ”) – uti-
computacional; similaridade lexical de palavras lizados exclusivamente pela abordagem ASAPP.
presentes nos pares de expressões; similaridade À exceção do lematizador, todas as ferramen-
sintática das expressões; construção de um ma- tas para anotação morfo-sintática tiveram como
peamento semântico entre os pares de expressão, base o Apache OpenNLP Toolkit2 , utilizando
de acordo com um modelo vectorial. modelos de máxima entropia, com algumas al-
Dada a inexistência de coleções de teste para terações que identificamos nas descrições que se
este tipo de tarefas, os trabalhos focados na seguem.
lı́ngua portuguesa são escassos. Seno & Nunes
(2008) identificam e agrupam frases semelhantes 3.1.1 Atomização
numa coleção de documentos escritos em Por-
tuguês do Brasil. A distância entre pares de A tarefa de atomização tem como objetivo sepa-
frases é calculada com base no número de pala- rar as frases em átomos simples. Para esta tarefa,
vras em comum, e em duas métricas: o TF-IDF foi usado como ponto de partida o tokenizer do
(frequência de um termo multiplicada pela sua OpenNLP com o modelo para o português3 , com
frequência inversa nos documentos da coleção) e o resultado a ser alvo de pós-processamento, com
o TF-ISF (frequência de um termo multiplicada vista a melhorar a sua qualidade. Por exemplo,
pela sua frequência inversa nas frases da coleção). o resultado inicial é analisado para a eventual
Mais recentemente, Pinheiro et al. (2014) identificação da presença de clı́ticos, procurando
apresentaram uma abordagem precisamente à
2
tarefa de STS para português, baseada nos http://opennlp.apache.org/
3
http://opennlp.sourceforge.net/models-1.5/
46– Linguamática Ana Oliveira Alves, Ricardo Rodrigues & Hugo Gonçalo Oliveira

separar formas verbais de pronomes átonos, de 3.1.4 Reconhecimento de EM


forma a melhorar posteriormente o desempenho
do etiquetador gramatical (e.g., dar-me-ia → da- Para o reconhecimento de entidades menciona-
ria a mim). O mesmo acontece com as con- das (REM) – aqui enquadrado, apesar de as en-
trações, de forma a separar preposições de pro- tidades serem, na verdade, uma caracterı́stica
nomes ou determinantes (e.g., ao → a o). Para semântica – voltou a ser utilizado o Apache
além dos clı́ticos e das contrações, também as OpenNLP, aqui com a diferença de não existir
abreviações são alvo de análise: na prática, para um modelo já criado para o efeito. Foi assim ne-
reverter eventuais casos em que abreviações com- cessário criar um modelo que se baseou no corpo
postas possam ter sido separadas nos resultados Amazónia4 , um dos corpos que compõem a “Flo-
iniciais do tokenizer (e.g., q. b. → q.b.). resta Sintá(c)tica” (Afonso et al., 2001), dispo-
nibilizado pela Linguateca5 . Este corpo é com-
posto por cerca de 4,6 milhões de palavras, cor-
3.1.2 Etiquetagem Gramatical respondentes a cerca de 275 mil frases, retira-
Para a etiquetagem gramatical, foi também uti- das de uma plataforma colaborativa on-line re-
lizado o Apache OpenNLP. Neste caso, dados os ferente à produção cultural brasileira, recolhidas
cuidados anteriores com a atomização, cujos re- em Setembro de 2008 (Freitas & Santos, 2015).
sultados são usados como entrada do etiqueta- O corpo foi utilizado tanto para treinar como
dor, verificou-se que a utilização do modelo já para testar o modelo, tendo-se alcançado uma
disponibilizado também pelo OpenNLP seria su- precisão de 0,80, uma abrangência de 0,75, e
ficiente. Ou seja, os resultados obtidos com o uma medida F 1 de 0,776 . Quanto aos resul-
PoS tagger do OpenNLP foram utilizados dire- tados do REM, estes foram utilizados direta-
tamente nos restantes passos, salvo pequenos as- mente (tal como apresentados pelo entity finder
petos para melhor integração na restante abor- do OpenNLP), também salvos pequenos aspe-
dagem. As possı́veis etiquetas gramaticais são tos para melhor integração na restante aborda-
adjetivo, advérbio, artigo, nome, numeral, nome gem. Relativamente aos diversos tipos de enti-
próprio, preposição e verbo. Se assim desejarmos, dade mencionada identificados, estes são: abs-
também a pontuação pode ser anotada. trações, artigos & produtos, eventos, números,
organizações, pessoas, lugares, coisas e datas &
horas. Importa também referir que os termos
3.1.3 Lematização identificados pelo tokenizer são usados como en-
Para a lematização dos termos presentes nas trada no reconhecedor de entidades mencionadas.
frases, foi utilizado o LemPORT (Rodrigues
et al., 2014), um lematizador baseado em regras 3.1.5 Segmentação de Orações
e também na utilização de um léxico constituı́do
pelas formas base dos termos e respetivas de- Para a segmentação de orações, de forma seme-
clinações. lhante ao que aconteceu com o REM, foi utili-
Recebendo como entrada termos (átomos) e zado o Apache OpenNLP, tendo ainda havido
respetivas etiquetas gramaticais, o LemPORT necessidade de criar um modelo para o efeito.
começa por utilizar o léxico e, dando-se o caso de Neste caso, foi utilizado o Bosque 8.0, outro dos
o termo a lematizar já existir no léxico, devolve a corpos constituintes da “Floresta Sintá(c)tica”,
forma base correspondente. Contudo, sendo um mais uma vez para treinar e para testar o mo-
léxico um recurso que, por natureza da própria delo, tendo-se alcançado uma precisão de 0,95,
lı́ngua, não pode compreender todas as palavras uma abrangência de 0,96, e medida F 1 de 0,95.
existentes ou usadas, são utilizadas regras para O segmentador tem como entrada os “tokens” e
normalizar os termos não incluı́dos, em função do as respetivas etiquetas gramaticais, bem como os
modo, número, grau (superlativo, aumentativo e lemas. As orações podem ser classificadas como
diminutivo), género e conjugações, aplicando-se, nominais, verbais ou preposicionais. Novamente,
consoante os casos, a cada uma das categorias 4
http://www.linguateca.pt/floresta/corpus.html
gramaticais, mas com maior peso em substanti- 5
http://www.linguateca.pt/
vos, adjetivos e verbos. Neste caso, o léxico é 6
Relativamente aos valores de precisão, abrangência
novamente utilizado para validar o resultado da e F 1, da ferramenta e modelo de REM utilizados, inte-
aplicação das regras – regra após regra, deter- ressa reforçar que foram obtidos usando também o corpo
minando quando parar a sua execução. Quando Amazónia (80% para treino e 20% para teste). Usando o
mesmo corpo para treino, mas outro para teste (a coleção
o resultado continua a não constar do léxico, é dourada do HAREM (Mota, 2007)), Fonseca et al. (2015)
usado como critério de término a exaustão das encontraram valores bastantes distintos, com 37,97% para
regras aplicáveis. precisão, 38,14% para abrangência e 38,06% para F 1.
ASAPP: Alinhamento Semântico Automático de Palavras aplicado ao Português Linguamática – 47

à exceção de pequenos aspetos relacionados com lavras com os seus sinónimos, no que vulgar-
a apresentação dos resultados, incluindo-se na mente se chama de synset;
descrição das orações também os lemas (que não
são considerados na versão original do chunker • OpenWordNet-PT (OWN.PT) (de Paiva
OpenNLP), estes foram utilizados diretamente et al., 2012) e PULO (Simões & Guinovart,
na abordagem. 2014), duas wordnets.

Dos recursos anteriores, aqueles que não se


3.2 Redes Semânticas encontram disponı́veis no formato referido ante-
riormente foram nele convertidos. Assim, para
O conhecimento sobre as palavras de uma lı́ngua os tesauros e para as wordnets, cada par de
e os seus possı́veis sentidos pode organizar-se palavras agrupado num synset deu origem a
nas chamadas bases de conhecimento léxico- uma relação de sinonı́mia. Para as wordnets,
semântico onde, para o inglês, se destaca a foi ainda criada uma relação para cada par
WordNet de Princeton (Fellbaum, 1998). Entre de palavras em dois sysets relacionados. Por
as várias tarefas do processamento computacio- exemplo, uma relação do tipo parte-de en-
nal da lı́ngua que podem recorrer a uma destas tre os synsets {porta, portão} e {automóvel,
bases de conhecimento, destaca-se a similaridade carro, viatura} resultaria nos seguintes tri-
semântica. plos: (porta sinónimo-de portão), (automóvel
Para o português, existem atualmente vários sinónimo-de carro), (automóvel sinónimo-de
recursos computacionais com caracterı́sticas se- viatura), (carro sinónimo-de viatura), (porta
melhantes à WordNet, inclusivamente várias parte-de automóvel ), (porta parte-de carro),
wordnets (Gonçalo Oliveira et al., 2015). Al- (porta parte-de viatura), (portão parte-de
ternativamente a escolher uma base de conheci- automóvel ), (portão parte-de carro), (portão
mento, neste trabalho foram utilizados vários re- parte-de viatura).
cursos desse tipo, todos eles abertos. Testaram- Finalmente, foi também utilizada a versão
se várias métricas para o cálculo da similaridade mais recente do CONTO.PT (Gonçalo Oliveira,
semântica com base em cada um dos recursos e 2016), uma wordnet difusa baseada na re-
algumas combinações. De certa forma, podemos dundância de informação nos recursos anteriores.
ver esta parte do trabalho como uma comparação Os synsets do CONTO.PT foram descobertos de
indireta dos recursos nas tarefas alvo. Mais forma automática, com base nas relações de si-
propriamente, foram utilizadas redes semânticas nonı́mia nos vários recursos, e incluem palavras
R(P, L), com |N | palavras (nós) e |L| ligações en- com valores de pertença variáveis, indicadores de
tre palavras. Cada ligação tem associado o nome confiança – quanto maior esse valor, maior a con-
de uma relação semântica (e.g. sinónimo-de, hi- fiança na utilização da palavra para transmitir o
perónimo-de, parte-de, ...) e define um triplo significado do synset. Inclui ainda um conjunto
palavra1 relacionada-com palavra2 (e.g. animal de valores de confiança associados a cada relação
hiperónimo-de cão, roda parte-de carro). As entre synsets.
redes utilizadas foram obtidas a partir dos se-
guintes recursos:
4 Extração de caracterı́sticas
• PAPEL (Gonçalo Oliveira et al., 2008),
relações extraı́das automaticamente a par- As caraterı́sticas obtidas a partir de dados em
tir do Dicionário da Lı́ngua Portuguesa da bruto permitem que estes possam ser trabalha-
Porto Editora, com recurso a gramáticas ba- dos por algoritmos heurı́sticos (baseados em co-
seadas nas regularidades das definições; nhecimento) ou de aprendizagem pela máquina.
• Dicionário Aberto (Simões et al., 2012) e Quando se trata de processamento da lingua-
Wikcionário.PT 7 , dois dicionários de onde gem natural escrita, estas caracterı́sticas po-
foram extraı́das relações com base nas mes- dem envolver as diversas fases de análise tais
mas gramáticas que no PAPEL, e integrados como: Lexical, Sintática, Semântica e do Dis-
na rede CARTÃO (Gonçalo Oliveira et al., cuso. Considerando que a coleção ASSIN é com-
2011); posta essencialmente por pares de frases isola-
das, torna-se difı́cil ter um contexto mais am-
• TeP 2.0 (Maziero et al., 2008) e OpenThe- plo para análise do discurso. Sendo assim, foram
saurus.PT8 , dois tesauros que agrupam pa- consideradas as três primeiras análises para a ex-
7
http://pt.wiktionary.org tração de caracterı́sticas. O nosso principal ob-
8
http://paginas.fe.up.pt/~arocha/AED1/0607/ jetivo é extrair caracterı́sticas de forma comple-
trabalhos/thesaurus.txt tamente automática, com base em ferramentas
48– Linguamática Ana Oliveira Alves, Ricardo Rodrigues & Hugo Gonçalo Oliveira

e recursos existentes. Apesar de algumas carac- semânticas. Algumas dessas heurı́sticas foram
terı́sticas terem sido avaliadas de forma indepen- inspiradas em trabalhos relacionados, inclusiva-
dente (capı́tulo 5), cada uma pode ser conside- mente para o português e sobre algumas das mes-
rada uma métrica de similaridade parcial, parte mas redes semânticas (Gonçalo Oliveira et al.,
de uma análise de regressão (capı́tulo 6). 2014).
As heurı́sticas aplicadas podem agrupar-se em
4.1 Caracterı́sticas Lexicais três tipos:

Considerando as palavras presentes nos pares de • Semelhança entre as vizinhanças das pala-
frases da coleção ASSIN, foram contabilizadas: vras nas redes;

• Contagem de palavras e expressões consi- • Baseadas na estrutura das redes de palavras;


deradas negativas9 presentes em cada frase • Baseadas na presença e pertença em synsets
(Cnf 1 e Cnf 2 ). Assim como o valor abso- difusos.
luto da diferença entre estas duas contagens
(|Cnf 1 − Cnf 2 |), sempre calculadas após a
lematização de cada palavra; 4.3.1 Semelhança entre as vizinhanças

• Contagem dos átomos em comum nas duas O primeiro grupo de heurı́sticas inclui diferentes
frases; formas de calcular a semelhança entre conjuntos
que, neste caso, são formados pela palavra alvo e
• Contagem dos lemas em comum nas duas
por as que lhe são adjacentes na rede semântica, a
frases.
que chamamos a vizinhança (viz, na equação 1).

4.2 Caracterı́sticas Morfo-Sintáticas V iz(palavra) =sinonimos(palavra)


Tendo em consideração a estrutura das frases e ∪ hiperonimos(palavra)
utilizando o segmentador de orações apresentado ∪ hiponimos(palavra) (1)
na secção 3.1.5, foram contabilizadas as conta- ∪ partes(palavra)
gens de grupos nominais, verbais e preposicionais ∪ ...
em cada uma das frases de cada par, e calculado O conjunto das palavras vizinhas podia incluir
o valor absoluto da diferença para cada tipo de efetivamente todas as palavras diretamente re-
grupo. lacionadas, ou poderia restringir-se apenas a al-
Ainda com as ferramentas introduzidas na guns tipos de relação. Por exemplo, em algumas
secção 3.1, o REM foi aplicado de forma a identi- experiências utilizaram-se apenas sinónimos e hi-
ficar a presença de entidades mencionadas (EM) perónimos.
em cada uma das frases. Para cada tipo de EM10 Para calcular a similaridade entre duas frases,
foi calculado o valor absoluto da diferença da con- t e h, cada uma é representada como um conjunto
tagem em ambas as frases de cada par da coleção de palavras, T e H. Partindo da vizinhança de
ASSIN. cada palavra, a similaridade das frases é calcu-
lada de uma de três formas:
4.3 Caracterı́sticas semânticas
• Total: para cada par de frase é primeiro cri-
As caracterı́sticas semânticas foram calculadas ado um conjunto, Ct e Ch , que reúne as vi-
com recurso às redes apresentadas na secção 3.2. zinhanças de todas as palavras da frase t e
Um primeiro conjunto de caracterı́sticas baseou- h, respetivamente (equação 2)11 .
se exclusivamente na contagem de palavras da
|F |
primeira frase de cada par relacionadas com pa- [
CF = V iz(Fi ) (2)
lavras da segunda frase respetiva. i=1
Para além das contagens, foi calculada a simi-
Neste caso, a similaridade é igual à seme-
laridade semântica de cada par de frases, com
lhança entre Ct e Ch (equação 3).
base em heurı́sticas aplicadas sobre as redes
SimT otal (t, h) = Sem(Ct , Ch ) (3)
9
Palavras tais como: “não”, “de modo algum”, “de
11
forma alguma”, “coisa alguma”, “nada”, “nenhum”, “ne- Podem ser consideradas efetivamente todas as pala-
nhuma”, “nem”, “ninguém”, “nunca”, “jamais”, “proi- vras ou apenas aquelas com determinada categoria gra-
bido”, “sem”, “contra”, “incapaz.” matical. Neste caso, foram apenas utilizadas palavras de
10
abstrações, artigos & produtos, eventos, números, or- categoria aberta, ou seja, substantivos, verbos, adjetivos
ganizações, pessoas, lugares, coisas e datas & horas. e advérbios.
ASAPP: Alinhamento Semântico Automático de Palavras aplicado ao Português Linguamática – 49

• m × n: a similaridade é calculada com base 1. Atribuição de um peso a cada nó da rede


na semelhança média entre a vizinhança de semântica, que será |F1 | , se o nó corres-
cada palavra de T com cada palavra de ponder a uma palavra da frase f , ou 0,
H (equação 4). caso contrário;
|T | |H|
X X 2. Com os pesos anteriores, execução do
Simn×m (t, h) = Sem(V iz(Ti ), V iz(Hj )) algoritmo de PageRank na rede;
i=1 j=1
(4) 3. Ordenamento dos nós da rede de acordo
• M ax(m × n): semelhante ao anterior mas, com o seu peso após 30 iterações;
para cada palavra em T é apenas conside- 4. Criação de um conjunto Ef n com as pri-
rada a semelhança mais elevada com uma meiras n palavras.
palavra de H.
A similaridade entre t e h é depois calculada
|t|
X  
Simmax (t, h) = max Sim V iz(Ti ), V iz(Hj )
através da intersecção entre Etn e Ehn . Nas
i=1
experiências realizadas, utilizou-se n = 50.
: Hj ∈ H
(5)
4.3.3 Heurı́stica baseada na presença e pertença
Por sua vez, a semelhança entre as vizinhanças em synsets difusos
podia ser calculada com base em uma de qua-
Para se utilizar a rede CONTO.PT, a abordagem
tro heurı́sticas, todas elas adaptações do algo-
foi um pouco diferente, também devido às dife-
ritmo de Lesk (Banerjee & Pedersen, 2003). A
rentes caracterı́sticas desta rede. A CONTO.PT
semelhança entre duas palavras podia então ser
é estruturada em synsets difusos, onde cada pa-
dada pelo cardinal da intersecção das suas vi-
lavra tem um valor de pertença, para além de
zinhanças (equação 6), ou pelos coeficientes de
relações entre synsets, cada uma com um valor
Jaccard (equação 7), Overlap (equação 8) ou
de confiança associado. Nesta heurı́stica verifica-
Dice (equação 9), também das suas vizinhanças.
se se, para cada par de palavras, (p1, p2) : p1 ∈ h
e p2 ∈ t:
Lesk(A, B) = |V iz(A) ∩ V iz(B)| (6)
1. Há pelo menos um synset S12 : p1 ∈ S12 ∧
|V iz(A) ∩ V iz(B)|
Jaccard(A, B) = (7) p2 ∈ S12 . Neste caso, a similaridade das
|V iz(A) ∪ V iz(B)|
palavras será igual à soma das suas per-
|V iz(A) ∩ V iz(B)| tenças nesse synset, multiplicada por um
Overlap(A, B) = (8)
min(|V iz(A)|, |V iz(B)|) peso ρs . Matematicamente, Sim(p1 , p2 ) =
|V iz(A) ∪ V iz(B)| (µ(p1 , S1 ) + µ(p2 , S2 )) × ρs
Dice(A, B) = 2. (9)
|V iz(A)| + |V iz(B)|
2. Há pelo menos dois synsets S1 , S2 : p1 ∈
Enquanto que os três coeficientes estão den- S1 ∧ p2 ∈ S2 relacionados. Neste caso, a
tro do intervalo [0, 1], a intersecção está no in- similaridade é igual à soma das suas per-
tervalo [0, +∞]. Foi por isso normalizada no in- tenças em cada um desses synsets, multi-
tervalo [0, 1], através da divisão do cardinal da plicada pela soma da confiança na relação
intersecção pelo valor da maior intersecção para e ainda por um peso, que será ρh para hi-
as frases comparadas. peronı́mia ou ρo para outro tipo de relação,
em que fará sentido que ρs > ρh > ρo . Ma-
4.3.2 Heurı́sticas baseadas na estrutura da rede tematicamente, Sim(p1 , p2 ) = (µ(p1 , S1 ) +
µ(p2 , S2 )) × conf (S1 , Relacao, S2 ) × ρ
Foram aplicadas duas medidas que exploram a
estrutura da rede, nomeadamente: A similaridade das frases t e h resulta depois da
soma da similaridade máxima entre cada palavra
• Distância média: entre cada par de palavras de t e qualquer outra palavra de h. Admitimos
em que a primeira palavra é da frase t e a que este tipo de rede poderia ter sido mais explo-
segunda é da frase h. Neste caso, a similari- rado, o que acabou por não acontecer.
dade seria o inverso da distância média.
• Personalized PageRank (Agirre & Soroa, 4.3.4 Contagens de Relações
2009): para se ordenarem os nós da rede de
acordo com a sua relevância estrutural para Para além das heurı́sticas anteriores, um outro
cada frase f é feito o seguinte: conjunto de caracterı́sticas semânticas utilizadas
50– Linguamática Ana Oliveira Alves, Ricardo Rodrigues & Hugo Gonçalo Oliveira

pelo sistema ASAPP baseou-se na contagem sim- Uma comparação noutra tarefa, mas com
ples de relações entre palavras de uma e ou- algumas semelhanças, foi apresentada
tra frase do par. Mais precisamente, para cada em Gonçalo Oliveira et al. (2014).
rede semântica, foram extraı́das quatro conta-
gens: (i) sinonı́mia; (ii) hiperonı́mia/hiponı́mia; O cálculo da similaridade é realizado após uma
(iii) antonı́mia; e (iv) outras relações. fase de pré-processamento, onde as frases são ato-
A tı́tulo de exemplo, considere-se o seguinte mizadas e onde os átomos recebem anotações
par de frases: morfo-sintáticas, para além da identificação do
seu lema, recorrendo às ferramentas descritas na
• Além de Ishan, a polı́cia pediu ordens de de- secção 3.1.
tenção de outras 11 pessoas, a maioria deles O sistema Reciclagem também participou na
estrangeiros. tarefa de inferência textual. Neste caso, recor-
• Além de Ishan, a polı́cia deu ordem de prisão rendo exclusivamente aos synsets e relações de hi-
para outras 11 pessoas, a maioria estrangei- peronı́mia do CONTO.PT. Ao contrário dos va-
ros. lores de similaridade calculados, esta previsão de
inferência textual não foi utilizada pela aborda-
Com base na rede PAPEL, as seguintes contagens gem ASAPP. A classificação de inferência é rela-
são obtidas: tivamente simples e baseia-se em três parâmetros
principais:
• Sinonimia = 3 — {(polı́cia, ordem), (or-
dem, polı́cia), (detenção, prisão)} • δ, a proporção mı́nima de palavras que a
frase t pode ter a mais ou menos que a
• Hiponimia = 1 — {(estrangeiro, pessoa)} frase h.
• Antonimia = 0
• θs , ponto de corte nas pertenças dos synsets,
• Outras = 2 — {(polı́cia SERVE PARA or- isto é, todas as palavras com pertença infe-
dem), (ordem FAZ SE COM polı́cia)} rior a θs são removidas do respectivo synset.
• θh , ponto de corte na confiança das relações
5 Reciclagem de hiperonı́mia, isto é, todas as relações de
hiperonı́mia com confiança inferior a θh são
Reciclagem é um sistema exclusivamente base- ignoradas.
ado em conhecimento léxico-semântico que pro-
cura calcular a similaridade de frases sem qual- Inicialmente, é calculada a diferença absoluta en-
quer tipo de supervisão. Para tal, ele utiliza uni- tre o número de palavras de classe aberta nas fra-
camente as heurı́sticas anteriormente apresenta- ses t e h. Se esse valor for superior a δ, considera-
das. Ou seja, dado um par de frases, uma rede se que não há inferência. Caso contrário, aplica
semântica e uma heurı́stica, ele calcula um valor os pontos de corte e usa-se a (sub-)wordnet re-
para a similaridade das frases. sultante. Depois:
Apesar dos resultados destas heurı́sticas serem
depois utilizados como caracterı́sticas do sistema • Se todas as palavras de t estiverem em h,
ASAPP, o sistema Reciclagem tem dois objetivos ou tiverem um sinónimo em h, as frases são
principais: consideradas paráfrases (Paraphrase);
• Se, por outro lado, todas as palavras de t
• Verificar até que ponto uma abordagem não tiverem um sinónimo ou um hiperónimo em
supervisionada se equipara a uma aborda- h, considera-se que uma frase é inferência da
gem que recorre a treino. Por exemplo, para outra (Entailment).
o inglês, a exploração de bases de conhe-
cimento léxico-semântico levou a resultados • Se nenhuma das condições anteriores se veri-
comparáveis aos de abordagens supervisio- ficar, considera-se que não há qualquer tipo
nadas em tarefas como a desambiguação do de inferência.
sentido das palavras (Agirre et al., 2009;
Ponzetto & Navigli, 2010).
6 ASAPP
• Realizar uma comparação indireta de um
leque das bases de conhecimento léxico- Na classificação, na regressão, no conjunto de
semântico atualmente disponı́veis para a classificadores, na selecção de caracterı́sticas, en-
lı́ngua portuguesa, através do seu desempe- tre outros, o sistema ASAPP utiliza a ferramenta
nho no cálculo de similaridade semântica. Weka (Hall et al., 2009) para aprender, de forma
ASAPP: Alinhamento Semântico Automático de Palavras aplicado ao Português Linguamática – 51

validation). As caracterı́sticas utilizadas foram


todas as apresentadas no capı́tulo 4.
Utilizando a abordagem A, duas das confi-
gurações submetidas foram resultado da com-
binação da classificação de inferência textual ob-
tida por diferentes classificadores (três classifica-
dores num caso e cinco noutro) e foi escolhido
o resultado final por Maioria de Votos (Kittler
et al., 1998) para cada par de frases.
Pela abordagem B por duas vezes, ao combi-
narmos diferentes modelos, como os de regressão
para a similaridade, utilizou-se em uma das con-
figurações uma técnica conhecida por Boosting
que iterativamente cria um modelo melhor com
Figura 1: Abordagens para criar conjuntos de
base no desempenho do modelo criado anterior-
classificadores/modelos de regressão (em inglês
mente (Friedman, 1999). Em outra configuração
ensembles) (Kuncheva, 2004)
submetida para a similaridade, foi selecionado
automaticamente o classificador com melhor de-
sempenho, ou seja, que apresentava o menor erro
supervisionada, a análise de regressão da simila- quadrático médio (mean-squared error ).
ridade e a classificação das três categorias de in-
A abordagem C foi seguida na terceira con-
ferência textual (Paráfrase, Inferência Textual ou
figuração submetida para a inferência textual,
Nenhuma relação). Weka é uma grande coleção
onde um conjunto de caracterı́sticas é selecionado
de algoritmos de aprendizagem implementados
automaticamente, desde que tenham pouca cor-
na linguagem de programação Java e continua-
relação entre si, mas uma alta correlação com a
mente em actualização. Por isso, inclui grande
classe a prever, antes do treino efetivo.
parte dos algoritmos mais recentes que repre-
sentam o estado da arte da aprendizagem au- Como última submissão para a similaridade,
tomática. foi utilizado um processo gaussiano (Mackay,
1998) implementado no Weka de forma simpli-
Seja a aprender, a classificar inferência tex-
ficada sem afinação por hiper-parâmetros.
tual, ou a calcular a similaridade entre frases,
um conjunto de classificadores ou modelos de re- Em resumo, a tabela 1 apresenta todos os al-
gressão geralmente tem melhor desempenho que goritmos utilizados em cada configuração subme-
um isolado (Kuncheva, 2004). Há quatro aborda- tida e respetivamente para cada tarefa em foco:
gens normalmente adotadas para criar conjuntos inferência e similaridade textual. É de notar
em aprendizagem (ver figura 1), cada uma fo- que se procurou utilizar para cada configuração
cada num diferente nı́vel de ação. A abordagem o mesmo conjunto de algoritmos para treinar
A considera as diferentes formas de combinar os os modelos em ambas variantes: Português-
resultados dos classificadores ou modelos de re- Europeu e Português-Brasileiro, tendo apenas
gressão, mas não existe uma evidência que esta sido utilizado em cada caso a coleção própria de
estratégia seja melhor do que usar diferentes mo- cada variante da lı́ngua portuguesa.
delos (Abordagem B). Quanto às caracterı́sticas
(Abordagem C), diferentes subconjuntos podem
ser usados para treinar classificadores (ou mode-
los regressão), sendo que estes possam utilizar o
mesmo algoritmo de classificação (ou regressão) 7 Discussão de Resultados
ou não. Finalmente, a coleção pode ser repartida
de forma a que cada classificador (ou modelo de De forma a comparar a abordagem baseada em
regressão) possa ser treinado no seu próprio con- conhecimento, Reciclagem, com a abordagem su-
junto de dados (Abordagem D). pervisionada, ASAPP, são de seguida apresenta-
Na criação do sistema ASAPP, foram seguidas dos os resultados obtidos por cada sistema no
as três primeiras abordagens de criação de con- âmbito da sua participação na tarefa ASSIN.
juntos de classificadores e modelos de regressão, Os cálculos do coeficiente de correlação de Pe-
já que a nı́vel dos dados (Abordagem D), o con- arson para a similaridade, do erro quadrático
junto foi sempre o mesmo – aquele fornecido pela médio (MSE) e da exatidão da inferência textual
coleção ASSIN para o treino – , com validação foram efetuados a partir do script disponibilizado
cruzada através de 10 conjuntos (10-fold cross- pela organização da tarefa.
52– Linguamática Ana Oliveira Alves, Ricardo Rodrigues & Hugo Gonçalo Oliveira

Configuração Inferência Similaridade


Algoritmo especı́fico do Weka utilizado para cada tarefa
1 Voto por maioria de 3 classificadores Regressão Aditiva
(Kittler et al., 1998; Kuncheva, 2004) por Boosting (Friedman, 1999)
weka.classifiers.meta.Vote -S 1 -R AVG -B (3 classificadores...)
weka.classifiers.meta.AdditiveRegression -S 1.0 -I 10 -W
weka.classifiers.meta.RandomSubSpace --- -P 0.5 -S 1 -I 10 -W
weka.classifiers.trees.REPTree --- -M 2 -V 0.0010 -N 3 -S 1 -L -1
2 Voto por maioria de 5 classificadores Esquema Múltiplo
(Kittler et al., 1998; Kuncheva, 2004) de Seleção (Hall et al., 2009)
weka.classifiers.meta.Vote -S 1 -R AVG -B (5 classificadores...)
weka.classifiers.meta.MultiScheme -X 0 -S 1 -B
(5 modelos de regressão...)
3 Redução Automática de Processo Gaussiano
Caracterı́sticas (Hall et al., 2009) Simples (Mackay, 1998)
weka.classifiers.meta.AttributeSelectedClassifier -E
‘‘weka.attributeSelection.CfsSubsetEval¨-S
‘‘weka.attributeSelection.BestFirst -D 1 -N 5"
-W weka.classifiers.trees.J48 --- -C 0.25 -M 2
weka.classifiers.functions.GaussianProcesses
-L 1.0 -N 0 -K ‘‘weka.classifiers.functions.
supportVector.NormalizedPolyKernel -C 250007 -E 2.0"

Tabela 1: Configurações submetidas (submissões) e como foram treinadas.

7.1 Resultados de similaridade para dife- de se ter verificado empiricamente que não levava
rentes configurações Reciclagem a melhores resultados que, por exemplo, a rede
baseada em redundância.
No sistema Reciclagem, podemos dizer que uma Numa avaliação que recorreu às coleções de
configuração para calcular a similaridade entre treino, a forma de calcular a similaridade que
duas frases tem pelo menos dois parâmetros – levou a um coeficiente de Pearson mais elevado
rede semântica e heurı́stica. No caso de se uti- foi, sem qualquer exceção, a M ax(M × n). Este
lizar uma heurı́stica baseada na semelhança de comportamento foi posteriormente confirmado
vizinhanças, pode ainda variar o método de ob- na coleção de teste. Assim, todos os resulta-
ter as vizinhanças (T otal, m × n e M ax(m × n)). dos mostrados nesta seção foram calculados dessa
No entanto, verificamos empiricamente que os re- forma. No caso da CONTO.PT, foram utilizados
sultados obtidos com vizinhanças calculadas pelo os seguintes parâmetros:
método M ax(m × n) batiam consistentemente
os restantes. Já ao se utilizar a wordnet di- • Pertença mı́nima da palavra a um synset:
fusa CONTO.PT, podem variar-se parâmetros ao min(µ(p, synsets)) = 0.05
nı́vel da consideração da pertença de cada pala- • Corte aplicado nos synsets: cortesynsets =
vra, do ponto de corte a aplicar sobre a pertença 0.05
das palavras aos synsets, ou sobre a confiança das
relações de hiperonı́mia, e ainda o peso a dar a • Peso multiplicado pela pertença num synset:
cada relação (ρ). rhos = 1
Para além da utilização individual de cada • Peso multiplicado pela confiança numa
uma das redes apresentadas na secção 3.2, foi cri- relação de hiperonı́mia: rhoh = 0.1
ada uma rede com os triplos de todos os recursos
e outra baseada na redundância, com os triplos • Peso multiplicado pela confiança numa outra
que ocorriam em pelo menos três recursos (Re- relação: rhoo = 0.02
dun3 ). No entanto, a primeira acabou por não
ser utilizada porque, devido a ser muito grande, As tabelas 2 e 3 mostram as configurações
tornava os cálculos mais demorados, para além que obtiveram melhor classificação na coleção de
ASAPP: Alinhamento Semântico Automático de Palavras aplicado ao Português Linguamática – 53

Rede Sim Frase Métrica Pearson MSE Rede Sim Frase Métrica Pearson MSE
Redun3 M ax(m × n) Overlap 0,600 1,173 TeP M ax(m × n) Overlap 0,593 1,256
Redun3 M ax(m × n) Dice 0,598 1,185 OpenWN-PT M ax(m × n) Dice 0,589 1,312
OpenWN-PT M ax(m × n) Jaccard 0,596 1,159 OpenWN-PT M ax(m × n) Overlap 0,589 1,345
Redun3 M ax(m × n) Jaccard 0,596 1,190 TeP M ax(m × n) Dice 0,588 1,311
PAPEL M ax(m × n) Overlap 0,594 1,195 OpenWN-PT M ax(m × n) Jaccard 0,588 1,329
Redun3 M ax(m × n) Dice 0,588 1,356
TeP M ax(m × n) Dice 0,592 1,330
PULO M ax(m × n) Jaccard 0,590 1,259 PULO M ax(m × n) Dice 0,584 1,326
OpenWN-PT N/A PPR 0,528 1,301 PAPEL M ax(m × n) Dice 0,584 1,335
OpenWN-PT N/A PPR 0,464 1,225
CONTO.PT N/A 0,587 1,189
CONTO.PT N/A 0,580 1,367
Tabela 2: Melhores configurações e configurações
selecionadas de rede semântica + métrica para Tabela 5: Melhores configurações e configurações
similaridade na coleção de treino PT-PT. selecionadas de rede semântica + métrica para
similaridade na coleção de teste PT-BR.
Rede Sim Frase Métrica Pearson MSE
Redun3 M ax(m × n) Overlap 0,546 1,065
OpenWN-PT M ax(m × n) Dice 0,546 1,077
OpenWN-PT M ax(m × n) Jaccard 0,545 1,081
OpenWN-PT M ax(m × n) Overlap 0,544 1,039
Redun3 M ax(m × n) Jaccard 0,544 1,070 son. Isto mostra que a heurı́stica aplicada acaba
Redun3 M ax(m × n) Overlap 0,544 1,052 por ser mais relevante que o conteúdo da própria
PAPEL M ax(m × n) Overlap 0,543 1,027 rede. Por exemplo, os melhores resultados foram
TeP M ax(m × n) Dice 0,543 1,090 sempre obtidos pelo coeficiente Dice, a distância
PULO M ax(m × n) Jaccard 0,541 1,037
PAPEL N/A PPR 0,447 1,150
média levou sempre a resultados muito baixos,
aqui não apresentados, enquanto que o Persona-
CONTO.PT N/A 0,535 1,078
lized PageRank ficou sempre abaixo alguns pon-
tos que as heurı́sticas baseadas na semelhança de
Tabela 3: Melhores configurações e configurações
conjuntos. Ainda assim, as últimas heurı́sticas
selecionadas de rede semântica + métrica para
mereciam uma melhor afinação que acabou por
similaridade na coleção de treino PT-BR.
não ser realizada.
Apesar desta abordagem não depender de um
treino, identificando a rede, a heurı́stica, o va- treino prévio, verifica-se uma curiosidade: en-
lor do coeficiente de Pearson e ainda do erro quanto que, nas coleções de treino, os resultados
quadrático médio (MSE). Cada tabela inclui obtidos para o coeficiente de Pearson eram, de
ainda uma pequena selecção com os melhores re- uma forma geral, superiores para o PT-PT (cerca
sultados que usam redes ou heurı́sticas não con- de 0,6 contra 0,54), nas coleções de teste esta
templados nos anteriores. As tabelas 4 e 5 apre- tendência inverteu-se (cerca de 0,53 contra 0,59).
sentam os mesmos resultados, mas para a coleção Apesar de tudo, é possı́vel especular um pouco
de teste. sobre o desempenho das redes. Por exemplo,
A observação dos resultados mostra que a di- confirma-se que a combinação das sete redes (Re-
ferença entre as melhores configurações para cada dun3) leva consistentemente a bons resultados, e
rede é ténue, sendo muitas vezes necessário recor- só não obtém os melhores resultados na coleção
rer à terceira casa decimal do coeficiente de Pear- de teste para PT-BR. Relativamente a redes in-
dividuais, a OpenWN-PT destaca-se por apa-
Rede Sim Frase Métrica Pearson MSE recer sempre entre as melhores. E apesar de
Redun3 M ax(m × n) Overlap 0,536 1,105 ter sido criada para o português do Brasil e de
Redun3 M ax(m × n) Dice 0,536 1,130 se limitar a cobrir relações de sinonı́mia e an-
Redun3 M ax(m × n) Jaccard 0,535 1,149 tonı́mia, a rede TeP teve um desempenho supe-
OpenWN-PT M ax(m × n) Jaccard 0,533 1,141
TeP M ax(m × n) Dice 0,532 1,131 rior nas coleções de teste, inclusivamente com o
TeP M ax(m × n) Jaccard 0,532 1,151 melhor resultado para o PT-BR. Por fim, ape-
PAPEL M ax(m × n) Dice 0,530 1,146 sar de nunca se chegar aos melhores resultados, a
PULO M ax(m × n) Jaccard 0,527 1,313 utilização do CONTO.PT leva a resultados que
OpenWN-PT N/A PPR 0,513 1,177 ficam apenas entre uma e duas décimas abaixo
CONTO.PT N/A 0,526 1,179 dos melhores. Sendo uma rede criada recente-
mente, pouco explorada, e onde foi aplicada uma
Tabela 4: Melhores configurações e configurações heurı́stica que também deveria ter sido alvo de
selecionadas de rede semântica + métrica para uma afinação mais profunda, vemos os seus re-
similaridade na coleção de teste PT-PT. sultados como promissores.
54– Linguamática Ana Oliveira Alves, Ricardo Rodrigues & Hugo Gonçalo Oliveira

θs θh δ Exatidão Macro F1 Submissão Inferência F1 Similaridade MSE


exatidão Pearson
0,1 0,01 0,5 73,83% 0,45
PT-PT 0,1 0,1 0,4 71,67% 0,38 1 - PTBR 79,87% 0,767 0,620 0,677
0,25 0,2 0,5 73,83% 0,45 1 - PTPT 78,27% 0,766 0,715 0,613
2 - PTBR 80,77% 0,765 0,622 0,677
0,1 0,01 0,3 77,47% 0,31
2 - PTPT 78,73% 0,765 0,716 0,612
PT-BR 0,1 0,1 0,5 76,70% 0,42
3 - PTBR 76,50% 0,759 0,635 0,668
0,2 0,2 0,1 77,70% 0,29
3 - PTPT 77,77% 0,775 0,723 0,606

Tabela 6: Resultados da inferência textual na Tabela 8: Melhores configurações e configurações


coleção de treino com a abordagem Reciclagem. selecionadas para submissão com base no resul-
tado de validação cruzada do treino.
θs θh δ Exatidão Macro F1
0,05 0,01 0,3 70,80% 0,32
PT-PT 0,1 0,1 0,5 73,10% 0,43
0,15 0,1 0,4 72,10% 0,38
gressão para as respetivas tarefas de inferência
0,1 0,01 0,3 78,30% 0,33 e similaridade é apresentada na tabela 8.
PT-BR 0,15 0,1 0,3 79,05% 0,39
0,2 0,2 0,1 77,65% 0,29 Após a divulgação dos resultados de teste pela
organização do ASSIN (tabela 9), foi comprovado
Tabela 7: Resultados da inferência textual na que tanto na fase de treino como na de teste, a
coleção de teste com a abordagem Reciclagem. submissão 2 (Maioria de votos entre 5 classifi-
cadores) apresenta melhores resultados de exa-
7.2 Resultados para a inferência textual tidão para a classificação da inferência textual,
Reciclagem conseguindo-se uma exatidão de 80,77% para o
Português Brasileiro com um MSE de 0,765, e de
As tabelas 6 e 7 apresentam os resultados de al- 78,73% e MSE 0,765 para o Português Europeu.
gumas configurações da abordagem Reciclagem Esta coerência também é verificada na simila-
para a inferência textual, respetivamente nas ridade, uma vez que a terceira submissão (Pro-
coleções de treino e teste. Para além dos valores cesso Gaussiano) apresenta resultados idênticos
da exatidão e Macro F1, são apresentados os va- à primeira na fase de testes, mas ultrapassa-a
lores dos parâmetros utilizados, nomeadamente em muito na fase de treino. Este algoritmo é
os pontos de corte θs e θh , e ainda a proporção δ. atualmente oferecido por outras frameworks de
Olhando apenas para a exatidão, os valores uma forma muito mais completa e com possibili-
nesta tarefa são bastante aceitáveis e, como se dade de estudo da redução de caracterı́sticas de
verá na próxima seção, mais próximos da abor- forma integrada, como é o caso do Simulink em
dagem supervisionada. Por outro lado, o valor da Matlab12 . Como possı́vel melhoria, pretende-se
Macro F1 é inferior a 0,5, e por isso menos pro- explorar variantes deste algoritmo com a adoção
missor. Tanto no treino como teste, a exatidão é desta ferramenta.
superior para o PT-BR. No entanto, constatou- Quanto às caracterı́sticas importa realçar que
se que a coleção PT-PT tinha mais casos de in- algumas acabaram por não ser devidamente ex-
ferência que a PT-BR, o que dificulta a tarefa ploradas, nomeadamente a comparação de n-
para esta variante. Mais propriamente, cerca de gramas, e as caracterı́sticas distribucionais obti-
24% dos pares na coleção de treino PT-PT eram das a partir de modelação de tópicos (topic mo-
casos de inferência e cerca de 7% de paráfrase, deling), propostas inicialmente pelas anteriores
proporções que descem para cerca de 17% e 5% versões do ASAP, para o Inglês (Alves et al.,
em PT-BR. Ou seja, um sistema que, no caso 2014, 2015).
do PT-BR, respondesse sempre que não existia De modo a evitar um aumento do tempo que
inferência, iria obter cerca de 78% de exatidão, o treino irá demorar com este acrescento de no-
ainda que com impacto negativo na Macro F1. vas caracterı́sticas e de forma a perceber a con-
Olhando apenas para a Macro F1, os resulta- tribuição de cada uma em particular no processo
dos para PT-PT são ligeiramente superiores a de aprendizagem, um possı́vel melhoramento será
PT-BR. um estudo de selecção de caracterı́sticas com base
na sua relevância.
7.3 Resultados para diferentes confi-
gurações ASAPP

A avaliação que recorreu às coleções de treino 12


http://www.mathworks.com/products/simulink/
para criar modelos de classificadores e de re- ?requestedDomain=www.mathworks.com
ASAPP: Alinhamento Semântico Automático de Palavras aplicado ao Português Linguamática – 55

Submissão Inferência F1 Similaridade MSE Por exemplo, entre as experiências entretanto


exatidão Pearson realizadas na abordagem Reciclagem, sobre a
1 - PTBR 81,20% 0.5 0,65 0,44 coleção de treino, verificámos que o cálculo da
1 - PTPT 77,75% 0.57 0,68 0,70
2 - PTBR 81,56% 0,47 0,65 0,44
similaridade em dois passos – primeiro, inter-
2 - PTPT 78,90% 0,58 0,67 0,71 secção de lemas, depois, aplicação da heurı́stica
3 - PTBR 77,10% 0,5 0,65 0,44 M ax(m × n) sobre os lemas não partilhados pe-
3 - PTPT 74,35% 0,59 0,68 0,73
las duas frases – leva a melhorias significativas
de desempenho, tanto temporal como qualita-
Tabela 9: Resultado final do teste das tarefas tivo. Na verdade, uma heurı́stica baseada ex-
de inferência e similaridade pela organização do clusivamente na interseção de lemas seria sufici-
ASSIN. ente para ultrapassar os resultados obtidos pelo
sistema Reciclagem em cerca de 0,1 pontos no co-
8 Conclusões eficiente de Pearson. A aplicar, estas melhorias
terão também como consequência a melhoria dos
Foram apresentadas duas abordagens distintas resultados da abordagem ASAPP.
à tarefa de avaliação conjunta ASSIN: uma pri- Entre caracterı́sticas que pretendemos explo-
meira, apelidada de Reciclagem, baseada exclu- rar no futuro, destacamos as caracterı́sticas dis-
sivamente em heurı́sticas sobre redes semânticas tribucionais, quer as obtidas a partir de mo-
para a lı́ngua portuguesa; e uma segunda, apeli- delação de tópicos (topic modeling), propostas
dada de ASAPP, baseada em aprendizagem au- inicialmente pelas anteriores versões do ASAP,
tomática supervisionada. para o Inglês (Alves et al., 2014, 2015), quer
De forma a aproveitar um conjunto de re- as baseadas em word embeddings (Mikolov et al.,
cursos e ferramentas existentes para o processa- 2013).
mento computacional do português, foram apre- Contudo, uma descrição mais aprofundada
sentadas redes semânticas e ferramentas que das novas abordagens a esta tarefa está fora do
estão acessı́veis à comunidade. A partir destes re- âmbito deste artigo e será o alvo de uma pu-
cursos extraı́ram-se caracterı́sticas distintas para blicação futura.
implementar as duas abordagens que participa-
ram na tarefa ASSIN.
Após comparação com os resultados da Agradecimentos
coleção dourada, verificou-se que a abordagem
ASAPP supera a abordagem Reciclagem de Este trabalho é parcialmente financiado por Fundos
forma consistente. Isto ocorre tanto para o Por- FEDER através do Programa Operacional Factores
tuguês Europeu como para o Português Brasi- de Competitividade — COMPETE e por Fundos Na-
leiro, onde o desempenho atinge uma exatidão cionais através da FCT — Fundação para a Ciência
de 80, 28% ± 0.019 para a inferência textual, en- e a Tecnologia no âmbito do projeto Relevance Mi-
quanto que a correlação dos valores atribuı́dos ning and Detection System (REMINDS) Ref. UTAP-
para a similaridade semântica com aqueles ICDT/EEI-CTP/0022/2014
atribuı́dos por humanos é de 66, 5% ± 0.021.
Por outro lado, através da abordagem
Reciclagem verificou-se que é possı́vel obter va- Referências
lores semelhantes através da exploração de dife-
rentes redes, apesar daquela que mais se destacou Afonso, Susana, Eckhard Bick, Renato Haber &
resultar da combinação das sete redes usadas. Diana Santos. 2001. Floresta Sintá(c)tica: um
“Treebank” para o Português. Em Anabela
Gonçalves & Clara Nunes Correia (eds.), Ac-
9 Trabalho Futuro tas do XVII Encontro Nacional da Associação
Portuguesa de Linguı́stica, 533–545.
O trabalho aqui apresentado refere-se a uma
abordagem inicial à tarefa ASSIN, sujeita às res- Agirre, Eneko, Carmen Banea, Claire Car-
trições temporais da avaliação, onde agora nos die, Daniel Cer, Mona Diab, Aitor Gonzalez-
apercebemos que quisemos experimentar e com- Agirre, Weiwei Guo, Inigo Lopez-Gazpio,
parar demasiadas abordagens. Após o perı́odo da Montse Maritxalar, Rada Mihalcea, German
avaliação, identificamos vários aspetos a melho- Rigau, Larraitz Uria & Janyce Wiebe. 2015.
rar na extração de algumas caracterı́sticas, para Semeval-2015 task 2: Semantic textual simi-
além de novas caracterı́sticas a extrair em abor- larity, english, spanish and pilot on interpre-
dagens futuras. tability. Em Proceedings of the 9th internatio-
56– Linguamática Ana Oliveira Alves, Ricardo Rodrigues & Hugo Gonçalo Oliveira

nal workshop on semantic evaluation (SemEval entailment methods. J. Artif. Int. Res. 38(1).
2015), 252–263. 135–187.
Agirre, Eneko, Carmen Banea, Claire Car- Banerjee, Satanjeev & Ted Pedersen. 2003. Ex-
die, Daniel Cer, Mona Diab, Aitor Gonzalez- tended gloss overlaps as a measure of semantic
Agirre, Weiwei Guo, Rada Mihalcea, German relatedness. Em Proceedings of the 18th Inter-
Rigau & Janyce Wiebe. 2014. Semeval-2014 national Joint Conference on Artificial Intelli-
task 10: Multilingual semantic textual simi- gence (IJCAI’03), 805–810.
larity. Em Proceedings of the 8th internatio-
Barreiro, Anabela. 2008. Paramt: A paraphra-
nal workshop on semantic evaluation (SemEval
ser for machine translation. Em Computati-
2014), 81–91.
onal Processing of the Portuguese Language:
Agirre, Eneko, Daniel Cer, Mona Diab, Aitor 8th International Conference, 202–211.
Gonzalez-Agirre & Weiwei Guo. 2013. *sem
Fellbaum, Christiane (ed.). 1998. WordNet: An
2013 shared task: Semantic textual simila-
Electronic Lexical Database (language, speech,
rity. Em Proceedings of 2nd Joint Confe-
and communication). The MIT Press.
rence on Lexical and Computational Seman-
tics (*SEM), Volume 1: Proceedings of the Fonseca, Evandro B., Gabriel C. Chiele &
Main Conference and the Shared Task: Seman- Aline A. Vanin. 2015. Reconhecimento de En-
tic Textual Similarity, 32–43. ACL Press. tidades Nomeadas para o Portugues Usando
o OpenNLP. Em Anais do Encontro Nacio-
Agirre, Eneko, Mona Diab, Daniel Cer & Aitor
nal de Inteligência Artificial e Computacional
Gonzalez-Agirre. 2012. Semeval-2012 task 6: A
(ENIAC 2015), s. pp.
pilot on semantic textual similarity. Em Pro-
ceedings of the 1st Joint Conference on Lexical Freitas, Cláudia & Diana Santos. 2015. Pesquisas
and Computational Semantics-Volume 1: Pro- e Perspectivas em Linguı́stica de Corpus chap.
ceedings of the main conference and the shared Blogs, Amazônia e a Floresta Sintá(c)tica: um
task, and Volume 2: Proceedings of the Sixth Corpus de um novo Gênero?, 123–150. Mer-
International Workshop on Semantic Evalua- cado de Letras.
tion, 385–393. ACL Press.
Friedman, J.H. 1999. Stochastic gradient boos-
Agirre, Eneko, Oier Lopez De Lacalle & Aitor So- ting. Relatório técnico. Stanford University.
roa. 2009. Knowledge-based WSD on specific
Gonçalo Oliveira, Hugo. 2016. CONTO.PT:
domains: performing better than generic su-
Groundwork for the Automatic Creation of a
pervised WSD. Em Proceedings of 21st Inter-
Fuzzy Portuguese Wordnet. Em Proceedings
national Joint Conference on Artificial Intelli-
of 12th International Conference on Computa-
gence IJCAI 2009, 1501–1506. Morgan Kauf-
tional Processing of the Portuguese Language
mann Publishers Inc.
(PROPOR 2016), vol. 9727 LNAI, 283–295.
Agirre, Eneko & Aitor Soroa. 2009. Personali-
Gonçalo Oliveira, Hugo, Leticia Antón Pérez,
zing PageRank for word sense disambiguation.
Hernani Costa & Paulo Gomes. 2011. Uma
Em Proceedings of the 12th Conference of the
rede léxico-semântica de grandes dimensões
European Chapter of the Association for Com-
para o português, extraı́da a partir de di-
putational Linguistics EACL’09, 33–41. ACL
cionários electrónicos. Linguamática 3(2). 23–
Press.
38.
Alves, Ana, David Simões, Hugo Gonçalo Oli-
Gonçalo Oliveira, Hugo, Inês Coelho & Paulo Go-
veira & Adriana Ferrugento. 2015. Asap-ii:
mes. 2014. Exploiting Portuguese lexical kno-
From the alignment of phrases to textual si-
wledge bases for answering open domain cloze
milarity. Em Proceedings of 9th International
questions automatically. Em Proceedings of the
Workshop on Semantic Evaluation (SemEval
9th Language Resources and Evaluation Con-
2015), 184–189. ACL Press.
ference LREC 2014, ELRA.
Alves, Ana O., Adriana Ferrugento, Mariana
Gonçalo Oliveira, Hugo, Valeria de Paiva,
Lourenço & Filipe Rodrigues. 2014. Asap: Au-
Cláudia Freitas, Alexandre Rademaker, Livy
tomatic semantic alignment for phrases. Em
Real & Alberto Simões. 2015. As wordnets do
SemEval Workshop, COLING 2014, Ireland,
português. Em Alberto Simões, Anabela Bar-
104–108.
reiro, Diana Santos, Rui Sousa-Silva & Stella
Androutsopoulos, Ion & Prodromos Malakasio- E. O. Tagnin (eds.), Linguı́stica, Informática e
tis. 2010. A survey of paraphrasing and textual Tradução: Mundos que se Cruzam, vol. 7(1)
ASAPP: Alinhamento Semântico Automático de Palavras aplicado ao Português Linguamática – 57

OSLa: Oslo Studies in Language, 397–424. de Paiva, Valeria, Alexandre Rademaker & Ge-
University of Oslo. rard de Melo. 2012. OpenWordNet-PT: An
open Brazilian wordnet for reasoning. Em Pro-
Gonçalo Oliveira, Hugo, Diana Santos, Paulo Go- ceedings of 24th International Conference on
mes & Nuno Seco. 2008. PAPEL: A dictionary- Computational Linguistics COLING (Demo
based lexical ontology for Portuguese. Em Paper), 353–360.
Proceedings of Computational Processing of
the Portuguese Language – 8th Internatio- Pinheiro, Vladia, Vasco Furtado & Adriano Al-
nal Conference (PROPOR 2008), vol. 5190 buquerque. 2014. Semantic textual simila-
LNCS/LNAI, 31–40. rity of portuguese-language texts: An appro-
ach based on the semantic inferentialism mo-
Hall, Mark, Eibe Frank, Geoffrey Holmes, Ber- del. Em Computational Processing of the Por-
nhard Pfahringer, Peter Reutemann & Ian H. tuguese Language - 11th International Confe-
Witten. 2009. The weka data mining software: rence, PROPOR 2014, São Carlos/SP, Brazil,
An update. SIGKDD Explor. Newsl. 11(1). 10– October 6-8, 2014. Proceedings, 183–188.
18.
Ponzetto, Simone Paolo & Roberto Navigli. 2010.
Jiang, Jay J. & David W. Conrath. 1997. Seman- Knowledge-rich word sense disambiguation ri-
tic similarity based on corpus statistics and le- valing supervised systems. Em Proceedings of
xical taxonomy. Em Proc. of the Int’l. Conf. on 48th Annual Meeting of the Association for
Research in Computational Linguistics, 19–33. Computational Linguistics ACL 2012, 1522–
1531. ACL Press.
Kittler, J., M. Hatef, Robert P.W. Duin & J. Ma-
tas. 1998. On combining classifiers. IEEE Rodrigues, Ricardo, Hugo Gonçalo-Oliveira &
Transactions on Pattern Analysis and Ma- Paulo Gomes. 2014. LemPORT: a High-
chine Intelligence 20(3). 226–239. Accuracy Cross-Platform Lemmatizer for Por-
tuguese. Em Maria João Varanda Pereira,
Kuncheva, Ludmila I. 2004. Combining pattern José Paulo Leal & Alberto Simões (eds.), Pro-
classifiers: Methods and algorithms. Wiley- ceedings of the 3rd Symposium on Languages,
Interscience. Applications and Technologies (SLATE ’14)
Lesk, Michael. 1986. Automatic sense disambi- OpenAccess Series in Informatics, 267–274.
guation using machine readable dictionaries: Rychalska, Barbara, Katarzyna Pakulska,
How to tell a pine cone from an ice cream Krystyna Chodorowska, Wojciech Walczak
cone. Em Proceedings of the 5th Annual In- & Piotr Andruszkiewicz. 2016. Samsung
ternational Conference on Systems Documen- poland NLP team at semeval-2016 task 1:
tation (SIGDOC ’86), 24–26. Necessity for diversity; combining recursive
autoencoders, wordnet and ensemble methods
Mackay, David J.C. 1998. Introduction to gaus-
to measure semantic similarity. Em Procee-
sian processes. Dept. of Physics, Cambridge
dings of the 10th International Workshop on
University, UK.
Semantic Evaluation, 602–608.
Maziero, Erick G., Thiago A. S. Pardo, Ariani Di Seno, Eloize Rossi Marques & Maria das
Felippo & Bento C. Dias-da-Silva. 2008. A Graças Volpe Nunes. 2008. Some experiments
Base de Dados Lexical e a Interface Web do on clustering similar sentences of texts in por-
TeP 2.0 - Thesaurus Eletrônico para o Por- tuguese. Em Computational Processing of the
tuguês do Brasil. Em VI Workshop em Tecno- Portuguese Language, 8th International Con-
logia da Informação e da Linguagem Humana ference, 133–142.
(TIL), 390–392.
Simões, Alberto & Xavier Gómez Guinovart.
Mikolov, Tomas, Kai Chen, Greg Corrado & Jef- 2014. Bootstrapping a Portuguese wordnet
frey Dean. 2013. Efficient estimation of word from Galician, Spanish and English wordnets.
representations in vector space. arXiv CoRR Em Advances in Speech and Language Techno-
arXiv:1301.3781. logies for Iberian Languages, vol. 8854 LNCS,
239–248.
Mota, Cristina. 2007. Reconhecimento de en-
tidades mencionadas em português: Docu- Simões, Alberto, Álvaro Iriarte Sanromán &
mentação e actas do HAREM, a primeira ava- José João Almeida. 2012. Dicionário-Aberto:
liação conjunta na área chap. Estudo Prelimi- A source of resources for the Portuguese lan-
nar para a avaliação de REM em Português, guage processing. Em Proceedings of 10th In-
19–34. Linguateca. ternational Conference on the Computational
58– Linguamática Ana Oliveira Alves, Ricardo Rodrigues & Hugo Gonçalo Oliveira

Processing of the Portuguese Language (PRO-


POR 2012), vol. 7243 LNCS, 121–127.
Sultan, Md Arafat, Steven Bethard & Tamara
Sumner. 2015. Dls@cu: Sentence similarity
from word alignment and semantic vector com-
position. Em Proc. of SemEval 2015, 148–153.
ACL.
Proposta recebida em Setembro 2016 e aceite para publicação em Novembro 2016.

Solo Queue at ASSIN:


Combinando Abordagens Tradicionais e Emergentes
Solo Queue at ASSIN: Mix of Traditional and Emerging Approaches

Nathan Siegle Hartmann


Universidade de São Paulo
nathansh@icmc.usp.br

Resumo and an emergent feature, obtained from processing


word embeddings. The TF-IDF is used to relate texts
No presente artigo apresentamos uma proposta which share words. Word embeddings are known by
para atribuição automática da similaridade entre duas capture the syntax and semantics of a word. Fol-
sentenças, tarefa definida na avaliação conjunta AS- lowing Mikolov et al. (2013a), the sum of embedding
SIN 2016. Nossa proposta consiste no uso de uma vectors can model the meaning of a sentence. Using
feature clássica da classe bag-of-words, a TF-IDF; e both features, we are able to capture the words shared
uma feature emergente, capturada por meio de word between sentences and their semantics. We use linear
embeddings. Sabe-se que a medida TF-IDF pode ser regression to solve this problem, once the dataset is
utilizada para relacionar documentos que contém os labeled as real numbers between 1 and 5. Our results
mesmos elementos e, portanto, pode ser utilizada para are promising. Although the usage of embeddings has
documentos que compartilham palavras. Word em- not overcome our baseline system, when we combined
beddings é uma técnica de semântica distribucional e it with TF-IDF, our system achieved better results
é conhecida por modelar a sintaxe e semântica das than only using TF-IDF. Our results achieved the
palavras e, segundo Mikolov et al. (2013a), pode ser first collocation of ASSIN 2016 for sentence similarity
utilizada para modelar a embedding de uma sentença. shared-task applied on brazilian portuguese senten-
Ao considerar ambas as features, ponderamos as pa- ces and second collocation when applying to Portugal
lavras contidas nas sentenças e a semântica comparti- portuguese sentences.
lhada entre elas. Como o rótulo de similaridade para
o problema em questão é um valor real na escala en- Keywords
tre 1 e 5, aplicamos uma técnica de regressão, a Re- Sentence Similarity, word embeddings, Machine Lear-
gressão Linear. Os resultados obtidos mostraram que, ning
apesar da feature de embeddings ter obtido resulta-
dos similares ao sistema baseline, ao ser combinada à
feature TF-IDF, apresentou resultados levemente su-
periores aos obtidos ao ser usada somente a segunda 1 Introdução
feature. Esse foi o trabalho campeão da competição
ASSIN 2016 de similaridade semântica pela primeira Pesquisas sobre similaridade entre documentos se
colocação entre os trabalhos que participaram da ta- iniciaram com foco na área de Recuperação de
refa de similaridade textual para português do Brasil Informação em que, dada uma query, retorna os
e segunda colocação para português de Portugal. documentos mais similares a ela. A literatura
apresenta diferentes abordagens para modelar a
Palavras chave
similaridade entre documentos. Podemos citar:
Similaridade Sentencial, word embeddings, Aprendiza- abordagens por palavras (bag-of-words), que cal-
gem de Máquina culam a similariade lexical, ou n-grams (Salton,
1989; Damashek, 1995), que conseguem capturar
a semântica contida nas sequências de n palavras;
Abstract e também abordagens mais complexas como La-
tent Semantic Analysis (LSA) (Deerwester et al.,
In this paper we present a proposal to automati- 1990; Landauer & Dumais, 1997), que visa cal-
cally label the similarity between a pair of sentences cular a similaridade semântica de todo o docu-
and the results obtained on ASSIN 2016 sentence si- mento, e não apenas a lexical.
milarity shared-task. Our proposal consists of using a Entre os trabalhos clássicos da literatura
classical feature of bag-of-words, the TF-IDF model; de similaridade de documentos, podemos citar
This work is licensed under a Linguamática — ISSN: 1647–0818
Creative Commons Attribution 3.0 License Vol. 8 Núm. 2 - Dezembro 2016 - Pág. 59–64
60– Linguamática Nathan Siegle Hartmann

trabalhos que calcularam a similaridade tex- mos uma feature clássica, a TF-IDF (term fre-
tual de uma perspectiva matemática, utilizando quency–inverse document frequency), e também
estatı́stica ou teoria de probabilidade (Ponte uma feature emergente, obtida por meio de word
& Croft, 1998), trabalhos que utilizam recur- embeddings. As próximas seções seguem do se-
sos léxicos para calcular a semântica em um guinte modo: na Seção 2, são apresentadas as
parágrafo ou no documento (Rada et al., 1989; duas features propostas nesse trabalho e também
Resnik, 1995) e outros trabalhos que combi- a baseline, desenvolvida para validar a eficácia
nam todas essas ideias (Rodrı́guez & Egenho- das features propostas; na Seção 3, são apresen-
fer, 2003). Esses métodos, no entanto, possuem tados os resultados obtidos e uma breve discussão
dificuldades em lidar com a esparsidade de da- sobre eles; na Seção 4, são descritos alguns traba-
dos, que não proporciona frequência suficiente lhos relacionados, recuperados da SemEval-2014
para métodos probabilı́sticos nem ocorrência de Task 1, cujo objetivo também foi o cálculo da si-
algumas palavras contidas em recursos lexicais. milaridade sentencial e; na Seção 5, são listadas
Portanto, nenhum desses trabalhos é apropriado as conclusões desse trabalho.
para lidar com a similaridade sentencial.
Trabalhos subsequentes foram desenvolvidos
com o propósito de lidar com a esparsidade de 2 Features
dados na similaridade sentencial (Li et al., 2006;
Liu et al., 2007). No entanto, esses trabalhos Nesse trabalho, propomos o uso de duas featu-
possuem a deficiência de serem dependentes de res: uma relacionada com word embeddings e ou-
córpus ou wordnet. Essa dependência restringe tra com o modelo TF-IDF. Também propomos
um método, muitas vezes, a ser aplicado ape- uma feature baseline para validar a eficácia das
nas a uma determinada lı́ngua devido à carac- features propostas. Nas subseções a seguir, apre-
terı́sticas únicas dessa lı́ngua, buscadas em um sentamos as features utilizadas nesse trabalho e
recurso compilado. a motivação para seu uso: na Subseção 2.1, de-
Trabalhos recentes utilizam o conceito de em- talhamos a feature obtido por meio de word em-
beddings (Mikolov et al., 2013b) para calcular beddings; na Subseção 2.2, detalhamos a feature
a similaridade entre sentenças, parágrafos e do- obtida por TF-IDF e, na Subseção 2.3, apresen-
cumentos. Word Embeddings são modelos pre- tamos a feature baseline.
ditivos de semântica distribucional que se ba-
seiam em redes neurais, sendo mais recentes 2.1 Word Embeddings
que trabalhos clássicos como Latent Semantic
Analysis, que utiliza Singular Value Decomposi- A abordagem para modelagem de palavras no
tion (SVD) para fazer matrizes densas (Landauer espaço vetorial utilizada nesse trabalho foi a
et al., 1998), ou os clássicos modelos distribuci- Skip-Ngram, proposta por Mikolov et al. (2013b).
onais descritos e utilizados há 20 anos por Gre- Essa abordagem se baseou nos tradicionais mo-
fenstetti (1996). A vantagem da abordagem por delos de lı́ngua, no entanto, ao invés de utilizar
embeddings, além da baixa esparsidade de dados, uma sequência de n palavras para predizer a pa-
é a independência de recursos léxicos, sintáticos e lavra no instante n+1, ela utiliza uma única pa-
semânticos. Um modelo de embeddings necessita lavra i para predizer a janela j de palavras ao
unicamente de um grande córpus de treinamento seu redor. Dessa forma, a embedding de uma pa-
que, se for apropriado para a tarefa alvo, mo- lavra representa o contexto no qual ela ocorre,
delará bem o contexto das palavras e não acar- capturando relações sintáticas e semânticas. Um
retará na esparsidade de dados. Podemos citar exemplo clássico da literatura para a lı́ngua in-
o trabalho de Kenter e de Kenter & de Rijke glesa mostra que ao subtrair o vetor da embed-
(2015) que utilizou word embeddings para calcu- ding de homem do vetor da embeddings de rei e
lar a similaridade semântica entre textos curtos. somar o vetor da embeddings de mulher, chega-se
Os autores treinaram um modelo de embeddings a um embedding cujo vetor é muito similar ao de
utilizando um córpus de 100 bilhões de palavras rainha (Turney, 2006). Com esse exemplo perce-
obtidas do website Google News. O gênero jor- bemos que a troca do gênero muda o substantivo
nalı́stico é comumente utilizado para treinamento em si, mas mantém a semântica correta, a versão
de embeddings por ser um gênero genérico, o que feminina de rei.
não limita o modelo treinado à um determinado Utilizamos o sistema word2vec1 para a mo-
cenário ou aplicação. delagem das embeddings por contér o algoritmo
Esse trabalho apresenta uma proposta simples
1
para cálculo da similaridade sentencial. Utiliza- Disponı́vel em https://code.google.com/archive/
p/word2vec/.
Solo Queue at ASSIN: Combinando Abordagens Tradicionais e Emergentes Linguamática – 61

de treinamento Skip-Ngram. O córpus utili- 2.2 TF-IDF


zado para treinamento contém 3 bilhões de to-
kens em português brasileiro, composto por tex- A fim de utilizar uma abordagem clássica da área
tos do website G1, da Wikipédia e do córpus de PLN (Processamento de Linguagem Natural)
PLN-Br (Bruckschen et al., 2008). Definimos que para representação sentencial, realizamos uma
cada embedding seria composta por um vetor de modelagem TF-IDF das sentenças do córpus. Sa-
600 dimensões, tamanho considerado suficiente bendo que a modelagem TF-IDF sofre com a es-
nos experimentos realizados por Mikolov et al. parsidade de dados, utilizamos apenas os stems
(2013a). Todas as palavras foram mapeadas para das palavras de conteúdo das sentenças para re-
caixa baixa a fim de reduzir esparsidade de da- presentá-las, conseguindo dessa forma uma ma-
dos no córpus. Também definiu-se um mapea- triz TF-IDF reduzida. Além disso, sabemos que
mento das palavras com apenas uma ocorrência as sentenças a serem avaliadas são curtas e que
no córpus para um token genérico UNK. Toda não necessariamente contém as mesmas pala-
nova palavra não encontrada no vocabulário do vras. Assim, expandimos o vocabulário das sen-
córpus de treinamento também é mapeada para a tenças buscando sinônimos para cada palavra de
embedding de UNK. É interessante observar que conteúdo no TEP (Thesaurus para o português
foi possı́vel replicar o exemplo rei-rainha, clássico do Brasil) (Maziero & Pardo, 2008). Verificamos
na literatura de embeddings da lı́ngua inglesa, que, ao expandir os sinônimos para todas as pa-
para o nosso modelo treinado com textos em por- lavras de conteúdo de uma sentença, os vetores
tuguês brasileiro. Isso reforça que a abordagem TF-IDF das sentenças se tornam muito similares,
de embeddings é independente de lı́ngua, depen- de forma a não conseguirmos distinguir sentenças
dendo apenas do córpus de treinamento. similares das distintas. Portanto, empiricamente,
Para calcularmos a similaridade entre os pa- limitamos a expansão de sinônimos para pala-
res de sentenças, utilizamos o modelo treinado de vras de conteúdo que possuem até 2 sinônimos
word embeddings para representar as sentenças. no TEP. Essa decisão foi tomada com base em
O trabalho de Mikolov et al. (2013b) mostra que experimentos no conjunto de treinamento dispo-
ao somar os vetores das embeddings das palavras nibilizado pela comissão organizadora do ASSIN.
de uma sentença, temos como resultado uma em- O uso do TF-IDF como feature é dado pela
bedding que representa a sentença. Apesar de distância do cosseno entre os vetores TF-IDF dos
não terem sido encontrados trabalhos na litera- pares de sentenças. Utilizamos esse valor como
tura que avaliem a qualidade com que a com- uma feature para o sistema de regressão.
posição de embeddings representa uma sentença,
intuitivamente percebemos que, se a embedding
2.3 Baseline
de uma palavra representa o contexto em que
ela ocorre, a soma das embeddings dessas pala- A fim de avaliar a eficácia das features propos-
vras compõe a soma dos seus contextos. Uma tas nesse trabalho, elaboramos um baseline para
abordagem similar para a tarefa de similaridade avaliação. A feature baseline consiste na pro-
textual foi abordada por Bjerva et al. (2014) na porção de palavras compartilhadas entre as duas
SemEval-2014 Task 1. Os autores utilizaram, en- sentenças. Essa feature não captura a semântica
tre outras features, a similaridade do cosseno en- latente das sentenças. Por exemplo, mesmo que
tre as somas das embeddings das sentenças. O duas sentenças compartilhem uma quantidade
sistema desenvolvido pelos autores obteve a ter- substancal de palavras, um sinal de negação con-
ceira melhor colocação na tarefa de similaridade tido em uma dessas sentenças pode inverter o seu
textual da SemEval-2014 Task 1. No âmbito da significado em relação a outra sentença. Assim,
semântica distribucional composicional, o traba- as features propostas são eficazes se capturarem
lho de Mitchell & Lapata (2008) obteve melho- informações latentes sobre as sentenças, de forma
res resultados ao usar a multiplicação vetorial ao a proporcionar uma melhor performance ao sis-
invés da soma. Apesar de termos avaliado am- tema que automatiza a similaridade sentencial.
bos os métodos, reportamos apenas os resultados
da soma vetorial pois os resultados obtidos foram
melhores. 3 Experimentos
O uso das embeddings como feature é dado
pela similaridade do cosseno entre as embeddings Nós treinamos 2 sistemas de Regressão Linear
dos pares de sentenças. O valor da similaridade com os conjuntos de treinamento compostos
entre os dois vetores de embeddings é utilizamo por pares de sentença em português do Brasil
como uma feature para o sistema de regressão. (PTBR) e em português de Portugal (PTPT)
disponibilizados pela comissão organizadora do
62– Linguamática Nathan Siegle Hartmann

ASSIN. Ambos os conjuntos contém 3,000 pa- of-words, que implica a perda da ordem das pa-
res de sentenças cada. Cada sistema foi treinado lavras e na semântica latente. Não podemos afir-
com variação de features: utilizando a feature ba- mar que o resultado final do nosso sistema, que
seline; utilizando apenas embeddings; utilizando utiliza ambas as features, é superior ao do sistema
apenas TF-IDF ; e uma versão utilizando embed- que utiliza apenas TF-IDF, devido a falta de um
dings e TF-IDF. Avaliamos as versões PTBR do teste de significância estatı́stica. No entanto, es-
nosso sistema sobre o conjunto de teste disponibi- peculamos que o uso das embeddings contribui
lizado na shared-task, composto por 2,000 pares para que o sistema capture a semântica da sen-
de sentenças em PTBR. Analogamente, avalia- tença em casos em que o significado do contexto
mos as versões PTPT do nosso sistema sobre o importa, cenário em que o TF-IDF é insuficiente.
conjunto de testes PTPT da shared-task. Utili- Os resultados obtidos pelo sistema desenvol-
zamos as medidas Correlação de Pearson (CP) vido nesse trabalho obtiveram primeiro lugar
e Erro Quadrado Médio (EQM) para avaliar a entre os competidores ao aplicar o sistema no
qualidade das features propostas na tarefa de si- córpus PTBR e segundo lugar ao aplicar o sis-
milaridade sentencial via método de regressão. tema no córpus PTPT. No caso geral, ao unir os
córpus PTBR e PTPT, nós fomos os melhores
PT-BR PT-PT colocados, com 0,68 de CP e 0,52 de EQM.
Feature CP EQM CP EQM
Baseline 0,57 0,50 0,60 0,49
Embeddings 0,58 0,50 0,55 0,83 4 Trabalhos Relacionados
TF-IDF 0,68 0,41 0,70 0,39
Embeddings + TF-IDF 0,70 0,38 0,70 0,66
O SemEval 2014 disponibilizou uma shared-task
Tabela 1: Avaliação das features propostas para (SemEval-2014 Task 1)2 , cujo um dos objetivos
cálculo de similaridade sentencial, utilizando Re- foi calcular a similaridade sentencial de um par
gressão Linear, nos conjuntos de teste da ASSIN de sentenças. Foi disponibilizado um dataset,
shared-task. o SICK, que contém 10,000 pares de sentenças,
sendo 5,000 pares para treinamento e 5,000 pa-
Verificando os resultados apresentados na Ta- res para teste. Essa shared-task inspirou a or-
bela 1, percebemos que o uso apenas da fea- ganização da ASSIN, competição com propósito
ture obtida das word embeddings não resultou similar cujo foco voltou-se para a lı́ngua portu-
em uma boa performance da Regressão Linear. guesa. Nessa seção serão listados três trabalhos
Entendemos que, apesar da literatura apontar do SemEval-2014 Task 1 que trataram de simila-
que a soma das embeddings de uma sequência ridade sentencial.
de palavras representar a sintaxe-semântica dessa O trabalho de Zhao et al. (2014) considerou
sequência, essa representação se torna genérica, um vasto conjunto de features. Entre as featu-
não representando de fato a informação ali con- res utilizadas, podemos citar: tamanho de sen-
tida. Também devemos ponderar que, como o tenças, similaridade superficial (distância do cos-
modelo de embeddings foi gerado sobre textos seno), similaridade semântica, ngrams com base
em PTBR, ele não está calibrado para lidar com em córpus de referência, entre outras. Esse tra-
a variante da lı́ngua PTPT – o que justifica o balho foi o primeiro colocado para a tarefa de
aumento de EQM na avaliação sobre o conjunto similaridade sentencial, obtendo 0,828 de CP e
PTPT ao adicionar a feature Embeddings à TF- 0,325 de EQM.
IDF. Além disso, a soma das embeddings pode O trabalho de Bjerva et al. (2014) utilizou
não ser a melhor forma de manipular essa in- uma variedade de features, das quais podemos
formação. O trabalho de Gabrilovich & Mar- citar: tamanho das sentenças, substantivos e ver-
kovitch (2007) propõe o ponderamento das em- bos compartilhados entre as sentenças, diferenças
beddings das palavras de um documento pela entre os conceitos Wordnet das palavras das sen-
frequência com que essas palavras aparecem na tenças e distância do cosseno das word embed-
lı́ngua. O trabalho de Yuan et al. (2016) mos- dings das sentenças. Esse trabalho foi o terceiro
tra que o uso dessa modelagem melhora a perfor- colocado para a tarefa de similaridade sentencial,
mance da tarefa de desambiguização lexical de obtendo 0,827 de CP e 0,322 de EQM.
sentidos ao utilizar redes neurais.
O trabalho de Lai & Hockenmaier (2014) uti-
Os resultados também nos mostram que o uso liza features que consideram a proporção de pa-
da feature TF-IDF resultou em uma performance lavras compartilhadas entre as sentenças, alinha-
significativa da Regressão Linear em relação ao
uso da feature baseline. É interessante observar 2
Anais disponı́veis em http://www.aclweb.org/
que a representação TF-IDF segue o modelo bag- anthology/S/S14/S14-2.pdf#page=349.
Solo Queue at ASSIN: Combinando Abordagens Tradicionais e Emergentes Linguamática – 63

mento entre as sentenças, presença de negação e a Agradecimentos


similaridade semântica entre o conjunto de pala-
vras não compartilhado entre as sentenças. Esse Agradecemos ao aporte financeiro da FAPESP (p.
trabalho foi o quinto colocado para a tarefa de 2016/00500-1) que financia esse projeto de pesquisa.
similaridade sentencial, com 0,799 de CP e 0,369
de EQM. Referências

5 Conclusão Bjerva, Johannes, Johan Bos, Rob van der Goot


& Malvina Nissim. 2014. The meaning factory:
Esse artigo apresentou os resultados obtidos pela Formal semantics for recognizing textual en-
equipe Solo Queue na tarefa de similaridade tex- tailment and determining semantic similarity.
tual da ASSIN 2016 shared-task. Nossa pro- Em SemEval 2014: International Workshop on
posta consiste no uso de uma feature clássica Semantic Evaluation, 642–646.
da classe bag-of-words, a TF-IDF; e uma feature Bruckschen, M., F. Muniz, J. Souza, J. Fuchs,
emergente, obtida por meio de word embeddings. K. Infante, M. Muniz, P. Gonçalves, R. Vieira
Sabemos que a medida TF-IDF pode ser utili- & S. Aluı́sio. 2008. Anotação Lingüı́stica em
zada para relacionar documentos que compar- XML do Corpus PLN-BR. NILC–TR–09–08.
tilham palavras e, portanto, pode ser utilizada Relatório técnico. University of São Paulo.
para relacionar sentenças. Word embeddings são
conhecidas por modelar o contexto das palavras Damashek, Marc. 1995. Gauging similarity with
e podem ser utilizadas para modelar o contexto n-grams: Language-independent categoriza-
de uma sentença. Nossa equipe obteve os me- tion of text. Science 267(5199). 843–848.
lhores resultados da shared-task ao avaliar o sis- Deerwester, Scott, Susan T Dumais, George W
tema desenvolvido sobre o conjunto de teste de Furnas, Thomas K Landauer & Richard Harsh-
pares de sentença em português do Brasil e se- man. 1990. Indexing by latent semantic analy-
gundo lugar ao avaliar sobre o conjunto de teste sis. Journal of the American society for infor-
de pares de sentença em português de Portu- mation science 41(6). 391–407.
gal. No caso geral de avaliação, em que juntou-
se os córpus, nosso grupo foi o melhor colocado. Gabrilovich, Evgeniy & Shaul Markovitch.
Acreditamos que melhores resultados podem ser 2007. Computing semantic relatedness using
obtidos ao investigar-se uma melhor ponderação wikipedia-based explicit semantic analysis. Em
das embeddings das palavras para modelar a em- IJCAI, vol. 7, 1606–1611.
bedding de sua sentença, como apresentado por Grefenstetti, Gregory. 1996. Evaluation techni-
Gabrilovich & Markovitch (2007) e Yuan et al. ques for automatic semantic extraction: com-
(2016). Ainda assim, a composição das embed- paring syntactic and window based approa-
dings de uma sequência de palavras não mantém ches. Em Corpus processing for lexical acqui-
a ordem delas, perdendo parte da semântica con- sition, MIT Press.
tida na sentença. Para resolver esse problema,
Hochreiter, Sepp & Jürgen Schmidhuber. 1997.
vale avaliar o uso de uma rede LSTM para mo-
Long short-term memory. Neural computation
delar a embedding de uma sentença a partir das
9(8). 1735–1780.
embeddings das palavras dessa sentença. Redes
LSTM são conhecidas por manterem a ordem de Kenter, Tom & Maarten de Rijke. 2015. Short
entrada dos elementos (Hochreiter & Schmidhu- text similarity with word embeddings. Em Pro-
ber, 1997). Também sabemos que o fato do nosso ceedings of the 24th International on Confe-
conjunto de embeddings ter sido treinado apenas rence on Information and Knowledge Manage-
sobre textos em Português do Brasil desafiou o ment, 1411–1420. ACM.
sistema a lidar com textos em Português de Por- Lai, Alice & Julia Hockenmaier. 2014. Illinois-lh:
tugal. Assim, o treinamento de um modelo de A denotational and distributional approach to
embeddings que contemple ambas as lı́nguas é semantics. Em Proceedings of the 8th Interna-
o ideal pois, apesar das lı́nguas compartilharem tional Workshop on Semantic Evaluation, 329–
muitas caracterı́sticas, suas nuances geram desa- 334.
fios particulares que merecem atenção.
Landauer, Thomas K. & Susan T. Dumais. 1997.
A solution to Plato’s problem: The latent se-
mantic analysis theory of acquisition, induc-
tion, and representation of knowledge. Psy-
chological review 104(2). 211.
64– Linguamática Nathan Siegle Hartmann

Landauer, Thomas K, Peter W Foltz & Darrell Turney, Peter D. 2006. Similarity of semantic re-
Laham. 1998. An introduction to latent se- lations. Computational Linguistics 32(3). 379–
mantic analysis. Discourse processes 25(2-3). 416.
259–284.
Yuan, Dayu, Ryan Doherty, Julian Richardson,
Li, Yuhua, David McLean, Zuhair A Bandar, Ja- Colin Evans & Eric Altendorf. 2016. Word
mes D O’shea & Keeley Crockett. 2006. Sen- sense disambiguation with neural language mo-
tence similarity based on semantic nets and dels. arXiv preprint @ arXiv:1603.07012.
corpus statistics. Knowledge and Data Engi-
Zhao, Jiang, Tian Tian Zhu & Man Lan. 2014.
neering, IEEE Transactions on 18(8). 1138–
Ecnu: One stone two birds: Ensemble of he-
1150.
terogenous measures for semantic relatedness
Liu, Xiaoying, Yiming Zhou & Ruoshi Zheng. and textual entailment. Em Proceedings of the
2007. Sentence similarity based on dynamic 8th International Workshop on Semantic Eva-
time warping. Em Semantic Computing, 2007. luation (SemEval 2014), 271–277.
ICSC 2007. International Conference on, 250–
256. IEEE.
Maziero, Erick & Thiago Pardo. 2008. Interface
de Acesso ao TeP 2.0 - Thesaurus para o por-
tuguês do Brasil. Relatório técnico. University
of São Paulo.
Mikolov, Tomas, Kai Chen, Greg Corrado & Jef-
frey Dean. 2013a. Efficient estimation of word
representations in vector space. arXiv preprint
@ arXiv:1301.3781.
Mikolov, Tomas, Ilya Sutskever, Kai Chen,
Greg S Corrado & Jeff Dean. 2013b. Distribu-
ted representations of words and phrases and
their compositionality. Em Advances in neural
information processing systems, 3111–3119.
Mitchell, Jeff & Mirella Lapata. 2008. Vector-
based models of semantic composition. Em
ACL, 236–244.
Ponte, Jay M & W Bruce Croft. 1998. A lan-
guage modeling approach to information retri-
eval. Em Proceedings of the 21st annual inter-
national ACM SIGIR conference on Research
and development in information retrieval, 275–
281. ACM.
Rada, Roy, Hafedh Mili, Ellen Bicknell & Maria
Blettner. 1989. Development and application
of a metric on semantic nets. Systems, Man
and Cybernetics, IEEE Transactions on 19(1).
17–30.
Resnik, Philip. 1995. Using information content
to evaluate semantic similarity in a taxonomy.
arXiv preprint @ cmp-lg/9511007.
Rodrı́guez, M Andrea & Max J Egenhofer. 2003.
Determining semantic similarity among entity
classes from different ontologies. Knowledge
and Data Engineering, IEEE Transactions on
15(2). 442–456.
Salton, Gerard. 1989. The transformation, analy-
sis, and retrieval of automatic text processing.
Reading: Addison-Wesley.
http://www.linguamatica.com/

Avaliação de Similaridade Semântica e de


Inferência Textual
Visão Geral da ASSIN
Erick Fonseca, Leandro dos Santos, Marcelo Criscuolo & Sandra
Aluı́sio
Usando Representações Distribuı́das para Similaridade
Semântica e Inferência Textual
Luciano Barbosa, Paulo Cavalin, Victor Guimarães & Matthias
Kormaksson
FlexSTS: Um Framework para Similaridade Semântica
Textual
Jânio Freire, Vládia Pinheiro & David Feitosa
Medição de Similaridade Semântica e Reconhecimento de
Inferência Textual
lingua

Pedro Fialho, Ricardo Marques, Bruno Martins, Luı́sa Coheur &


Paulo Quaresma
ASAPP: Alinhamento Semântico Automático de Palavras
aplicado ao Português
Ana Oliveira Alves, Ricardo Rodrigues & Hugo Gonçalo Oliveira
Solo Queue at ASSIN: Combinando Abordagens
Tradicionais e Emergentes
Nathan Siegle Hartmann

Potrebbero piacerti anche