Linguamatica v8n2

lingua
Volume 8, Número 2- Dezembro 2016
ISSN: 1647-0818
Volume 8, Número 2 – Dezembro 2016
Linguamática ISSN: 1647–0818
Editores ASSIN
Erick Fonseca
Leandro Santos
Marcelo Criscuolo
Sandra Aluı́sio
Editores
Alberto Simões
José João Almeida
Xavier Gómez Guinovart
Conteúdo
Avaliação de Similaridade Semântica e de Inferência Textual
Visão Geral da ASSIN

Erick Fonseca, Leandro dos Santos, Marcelo Criscuolo & Sandra Aluı́sio . . . . 3
Blue Man Group no ASSIN: Usando Representações Distribuı́das para

Similaridade Semântica e Inferência Textual
Luciano Barbosa, Paulo Cavalin, Victor Guimarães & Matthias Kormaksson . . 15
FlexSTS: Um Framework para Similaridade Semântica Textual

Jânio Freire, Vládia Pinheiro & David Feitosa . . . . . . . . . . . . . . . . . . . 23
INESC-ID@ASSIN: Medição de Similaridade Semântica e Reconheci-

mento de Inferência Textual
Pedro Fialho, Ricardo Marques, Bruno Martins, Luı́sa Coheur & Paulo Quaresma 33
ASAPP: Alinhamento Semântico Automático de Palavras aplicado ao

Português
Ana Oliveira Alves, Ricardo Rodrigues & Hugo Gonçalo Oliveira . . . . . . . . . 43
Solo Queue at ASSIN: Combinando Abordagens Tradicionais e Emer-

gentes
Nathan Siegle Hartmann . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Editorial
Neste oitavo ano de vida a Linguamática teve, como é seu hábito, duas edições. A
primeira, em Julho, apenas com três artigos, e esta edição, de Dezembro, com artigos
alargados correspondentes a uma workshop realizada com conjunto sim a conferência
PROPOR’2016, a ASSIN: Avaliação de Similaridade Semântica e de Inferência Tex-
tual. Se por um lado o número de artigos publicado é pequeno, por outro, o número
de artigos recebidos para avaliação não o foi, estando dentro da média habitual da
Linguamática.
Mas o ano de 2016, embora mau, como sabemos, para muitas personalidades do
mundo da música, não o foi para a Linguamática, que continua a ser indexada pela
Scopus (embora o site da Scopus ainda não inclua todas as edições recentes), e passou
a ser incluı́da na Web of Science da Thomson Reuters, no ı́ndice ESCI (Emerging
Sources Citation Index), um ı́ndice de revistas selecionadas para avaliação e possı́vel
integração nos ı́ndices de topo. São, sem dúvidas, duas notı́cias que nos fazem muito
orgulhosos dos nossos autores.
Xavier Gómez Guinovart

José João Almeida
Alberto Simões
vii
Prólogo
Avaliação de Similaridade Semântica
e de Inferência Textual
A Avaliação de Similaridade Semântica e de Inferência Textual (ASSIN) foi pro-

posta como um Workshop em paralelo com o PROPOR 2016 para apresentação dos
resultados da avaliação conjunta de duas subtarefas relacionadas, tratando da lı́ngua
portuguesa, especificamente do Português do Brasil (PB) e Europeu (PE). Ambas as
subtarefas dizem respeito ao entendimento de um par de sentenças: a similaridade
semântica (STS, Semantic Textual Similarity) é uma medida numérica de 1 a 5 do
quão similar é o conteúdo das duas sentenças; e a inferência textual (RTE, Recog-
nizing Textual Entailment) consiste em classificar o par como tendo uma relação de
implicação, paráfrase, ou nenhuma das duas.
A avaliação conjunta deixou como legado o córpus ASSIN de 10.000 pares de

sentenças (5.000 em PB e 5.000 em PE) usado pelos participantes e que está publica-
mente disponı́vel em http: // nilc. icmc. usp. br/ assin/ . Somos gratos a todos
os anotadores do córpus, pois sem eles a avaliação não teria sido realizada.
Foram seis os participantes da avaliação: três do Brasil (Solo Queue, Blue Man
Group, LEC-UNIFOR) e três de Portugal (INESC-ID, ASAPP, Reciclagem) sendo
que todos participaram da tarefa STS, e somente quatro deles da tarefa RTE.
Nesta edição especial da Linguamática em homenagem ao Workshop ASSIN, tra-

zemos o artigo com a apresentação da Avaliação Conjunta e mais cinco versões re-
visadas e estendidas dos seguintes artigos apresentados no Workshop, sendo que as
equipes ASAPP e Reciclagem escreveram um único artigo reportando ambos os resul-
tados.
Desejamos a todos uma leitura proveitosa destes trabalhos!
Erick Fonseca
Leandro Santos
Marcelo Criscuolo
Sandra Aluı́sio
ix
Comissão Científica
Alberto Álvarez Lugrı́s, Iñaki Alegria,
Universidade de Vigo Euskal Herriko Unibertsitatea
Alberto Simões, Irene Castellón Masalles,

Universidade do Minho Universitat de Barcelona
Aline Villavicencio, Joaquim Llisterri,

Universidade Federal do Rio Grande do Sul Universitat Autònoma de Barcelona
Álvaro Iriarte Sanroman, José João Almeida,

Universidade do Minho Universidade do Minho
Ana Frankenberg-Garcia, José Paulo Leal,

University of Surrey Universidade do Porto
Anselmo Peñas, Joseba Abaitua,

Univers. Nac. de Educación a Distancia Universidad de Deusto
Antón Santamarina, Juan-Manuel Torres-Moreno,

Universidade de Santiago de Compostela Lab. Informatique d’Avignon - UAPV
Antoni Oliver González, Kepa Sarasola,

Universitat Oberta de Catalunya, Euskal Herriko Unibertsitatea
Antonio Moreno Sandoval, Laura Plaza,

Universidad Autónoma de Madrid Complutense University of Madrid
António Teixeira, Lluı́s Padró,

Universidade de Aveiro Universitat Politècnica de Catalunya
Arantza Dı́az de Ilarraza, Marcos Garcia,

Euskal Herriko Unibertsitatea Universidade de Santiago de Compostela
Arkaitz Zubiaga, Marı́a Inés Torres,

Dublin Institute of Technology Euskal Herriko Unibertsitatea
Belinda Maia, Maria das Graças Volpe Nunes,

Universidade do Porto Universidade de São Paulo
Carmen Garcı́a Mateo, Mercè Lorente Casafont,

Universidade de Vigo Universitat Pompeu Fabra
Diana Santos, Mikel Forcada,

Linguateca/Universidade de Oslo Universitat d’Alacant
Ferran Pla, Pablo Gamallo Otero,

Universitat Politècnica de València Universidade de Santiago de Compostela
Gael Harry Dias, Patrı́cia Cunha França,

Université de Caen Basse-Normandie Universidade do Minho
Gerardo Sierra, Rui Pedro Marques,

Univers. Nacional Autónoma de México Universidade de Lisboa
German Rigau, Salvador Climent Roca,

Euskal Herriko Unibertsitatea Universitat Oberta de Catalunya
Helena de Medeiros Caseli, Susana Afonso Cavadas,

Universidade Federal de São Carlos University of Sheffield
Horacio Saggion, Tony Berber Sardinha,

University of Sheffield Pontifı́cia Univ. Católica de São Paulo
Hugo Gonçalo Oliveira, Xavier Gómez Guinovart,

Universidade de Coimbra Universidade de Vigo
xi
Avaliação de Similaridade
Semântica e de Inferência
Textual
Proposta recebida em Setembro 2016 e aceite para publicação em Novembro 2016.
Visão Geral da Avaliação de

Similaridade Semântica e Inferência Textual
Overview of the Evaluation of Semantic Similarity and Textual Inference
Erick Rocha Fonseca Leandro Borges dos Santos Marcelo Criscuolo

Universidade de São Paulo Universidade de São Paulo Universidade de São Paulo
erickrf@icmc.usp.br leandrobs@usp.br mcrisc@icmc.usp.br
Sandra Maria Aluı́sio
Universidade de São Paulo
sandra@icmc.usp.br
Resumo 1 Introdução
Inferência Textual e Similaridade Semântica são A Avaliação de Similaridade Semântica e de In-
duas tarefas do processamento de lı́nguas naturais
ferência Textual (ASSIN) foi proposta em para-
que tratam de pares de trechos de textos. O obje-
tivo da primeira é determinar se o significado de um lelo com o PROPOR 2016, consistindo em duas
trecho implica o outro, enquanto que a segunda atri- subtarefas relacionadas. Ambas as subtarefas di-
bui uma pontuação de similaridade semântica ao par. zem respeito ao entendimento de um par de sen-
Esse artigo apresenta os resultados da avaliação con- tenças: a similaridade semântica (STS, Semantic
junta ASSIN (Avaliação de Similaridade Semântica e Textual Similarity) (Agirre et al., 2015) é uma
Inferência) e seu corpus, que foi anotado para ambas medida numérica de 1 a 5 do quão similar é o
as tarefas nas variantes brasileira e europeia da lı́ngua conteúdo das duas sentenças; e a inferência tex-
portuguesa. O corpus difere de similares na literatura tual (RTE, Recognizing Textual Entailment) (Da-
em suas três classes para a tarefa de inferência textual
gan et al., 2013) consiste em classificar o par
(Implicação, Paráfrase e Neutro) e por ter sido com-
posto de sentenças extraı́das de textos jornalı́sticos. como tendo uma relação de implicação, paráfrase,
Seis equipes participaram da avaliação conjunta, ex- ou nenhuma das duas.
plorando diferentes estratégias. A definição exata destas tarefas não é uni-
versal. Outros conjuntos de dados apresentam
Palavras chave
escalas diferentes para a similaridade semântica
Avaliação conjunta, inferência textual, similaridade (Agirre et al., 2015) ou a possibilidade de iden-
semântica tificar contradição entre duas sentenças (Benti-
vogli et al., 2009). No caso do ASSIN, decidi-
mos por uma escala de similaridade de 1 a 5 por
Abstract achar mais fácil discriminar os diferentes nı́veis,
enquanto na tarefa de inferência, nosso processo
Recognizing Textual Entailment and Semantic de criação de corpus não resultou em quase ne-
Textual Similarity are two natural language proces- nhum caso de contradição.
sing tasks dealing with pairs of text passages. The
A avaliação ASSIN 2016 trouxe o primeiro cor-
former aims to determine whether the meaning of one
passage entails the other, while the latter assigns a pus anotado para as duas tarefas em português,
semantic similarity score to the pair. This paper pre- incluindo as variantes brasileira e europeia. Fo-
sents the results of the ASSIN shared task and its ram compiladas sentenças de textos reais, do
corpus, annotated for both tasks in the Brazilian and gênero informativo (textos jornalı́sticos) em con-
European varieties of the language. The corpus dif- traste com a abordagem utilizada para a cons-
fers from similar ones in the literature in its three trução de corpora similares em inglês, como SICK
RTE classes (Entailment, Paraphrase and Neutral), (Marelli et al., 2014) e SNLI (Bowman et al.,
and for having been composed of sentences extracted 2015) e dos RTE Challenges (Bentivogli et al.,
from newswire texts. Six teams took part in the sha-
red task, exploring different strategies.
2009).
Aproveitamos os agrupamentos de notı́cias
Keywords por assunto fornecidos pelo Google News 1 para
Shared task, text entailment, semantic similarity 1
https://news.google.com/
This work is licensed under a Linguamática — ISSN: 1647–0818

Creative Commons Attribution 3.0 License Vol. 8 Núm. 2 - Dezembro 2016 - Pág. 3–13
4– Linguamática Erick Fonseca, Leandro dos Santos, Marcelo Criscuolo & Sandra Aluı́sio
criar o corpus ASSIN 2016. Usamos modelos de não foi utilizado em nenhuma avaliação conjunta,
espaço vetorial (Turney & Pantel, 2010) para se- mas diversos artigos têm sido publicados com ex-
lecionar sentenças similares de documentos dife- perimentos sobre o mesmo, focando normalmente
rentes, que passaram por um processo de filtra- em métodos de deep learning (Rocktäschel et al.,
gem manual (onde foram excluı́dos pares consi- 2015; Wang & Jiang, 2015). O SNLI e o SICK fo-
derados ruidosos) e, por fim, foram anotados por ram criados a partir de descrições de imagens. No
juı́zes humanos. Cada par foi anotado por quatro SICK, um processo semi-automático gerou uma
pessoas com respeito às duas tarefas. segunda sentença para cada descrição, introdu-
Participaram do ASSIN seis equipes, sendo zindo negações, trocando palavras, entre outras
três brasileiras e três portuguesas. Cada equipe alterações. Já no SNLI, anotadores escreveram,
participante pôde enviar até três saı́das dos seus para cada sentença original, três outras: uma que
sistemas para cada combinação de variante e sub- fosse implicada pela primeira, outra que a contra-
tarefa. As seis equipes participaram da tarefa de dissesse e uma terceira neutra.
similaridade semântica, e quatro delas participa- A detecção de similaridade semântica textual
ram da inferência textual. É interessante notar foi introduzida em 2012 e, em 2013, foi parte
que foram exploradas diferentes abordagens para do evento *SEM, acontecendo em conjunto com
tratar os problemas, mas nem todas foram capa- o SemEval (Agirre et al., 2012, 2013). Desde
zes de superar os baselines. então, a STS tem sido anualmente uma das tare-
Tratamos brevemente de avaliações conjuntas fas propostas no SemEval. Os pares usados nas
sobre as mesmas tarefas, para inglês, na Seção 2. avaliações de STS incluem sentenças de diferen-
Na Seção 3, apresentamos a definição detalhada tes origens, como descrições de vı́deos e imagens,
das tarefas para o escopo do ASSIN 2016. Na manchetes de jornais e diferentes traduções de
Seção 4 descrevemos o processo de criação do cor- um mesmo texto.
pus, assim como métricas usadas para a avaliação
da concordância entre anotadores. Fornecemos 3 Definição das Tarefas
também diretrizes para reduzir a subjetividade
da anotação. A Seção 5 apresenta as seis equipes Apresentamos nessa seção os dois fenômenos ano-
participantes e um resumo das suas abordagens. tados no corpus.
A Seção 6 descreve os baselines usados na tarefa
e os resultados gerais. As conclusões e possı́veis
trabalhos futuros são apresentados na Seção 7. 3.1 Similaridade semântica
Nossos valores para similaridade semântica va-
2 Trabalhos Relacionados riam de 1 a 5, como no corpus SICK, de modo
que quanto maior o valor, maior a semelhança
A primeira competição de RTE foi o PASCAL do significado das duas sentenças. Esse tipo de
Recognising Textual Entailment Challenge (RTE- medida é inerentemente subjetiva, e não conse-
1) (Dagan et al., 2005), que apresentou pares de guimos chegar a uma definição exata para o que
sentenças coletados manualmente, tentando si- cada valor deveria indicar. Ainda assim, as dire-
mular o cenário de aplicações de PLN. Por exem- trizes gerais para a pontuação utilizadas no AS-
plo, em um cenário de Extração de Informação, SIN 2016 seguem abaixo:
a segunda sentença mencionava alguma proprie-
dade de uma entidade mencionada na primeira. 1. As sentenças são completamente diferentes.
Nos anos seguintes, outras edições do evento fo- É possı́vel que elas falem do mesmo fato,
ram realizadas, trazendo novos corpora anotados. mas isso não é visı́vel examinando-as isola-
Em particular, no RTE-4 (Giampiccolo et al., damente, sem contexto.
2008), a avaliação trouxe a classificação de al- 2. As sentenças se referem a fatos diferentes e
guns pares como contradição. No SemEval 2014, não são semelhantes entre si, mas são sobre
foi utilizado o corpus SICK (Marelli et al., 2014), o mesmo assunto (jogo de futebol, votações,
que trazia anotação tanto de RTE como de STS. variações cambiais, acidentes, lançamento de
Esta foi a última avaliação conjunta para RTE produtos).
em inglês.
3. As sentenças têm alguma semelhança entre
Mais recentemente, foi disponibilizado o cor-
si, e podem se referir ao mesmo fato ou não.
pus SNLI (Stanford Natural Language Inference)
(Bowman et al., 2015), com cerca de 550 mil pa- 4. O conteúdo das sentenças é muito seme-
res de sentenças anotados para inferência textual, lhante, mas uma (ou ambas) tem alguma
o maior corpus do gênero até o momento. O SNLI informação exclusiva. A diferença pode ser
Visão Geral da ASSIN Linguamática – 5
mencionar uma data, local, quantidade dife- 4.1 Coleta e Anotação do Corpus
rente, ou mesmo um sujeito ou objeto dife-
rente. A exploração de agrupamentos de notı́cias para
aquisição de pares de sentenças similares não é
5. As sentenças têm praticamente o mesmo sig- uma ideia nova; já foi explorada com sucesso
nificado, possivelmente com uma diferença em vários trabalhos da literatura (Dolan et al.,
mı́nima (como um adjetivo que não altera a 2004; Dagan et al., 2005). Entretanto, em vez
sua interpretação). de anotadores humanos selecionarem pares com
base na sobreposição de palavras, empregamos
o Latent Dirichlet Allocation (LDA) (Blei et al.,
A Tabela 1 mostra exemplos de pares em cada 2003) para selecionar pares similares.
um dos nı́veis. As diretrizes de anotação requi- O LDA, um método de modelagem de espaços
sitavam que se considerasse o conteúdo das sen- vetoriais, atribui uma pontuação para pares de
tenças em análise, e não os contextos possı́veis documentos, refletindo o quão similares são en-
nos quais elas poderiam aparecer. Por exem- tre si. Em um experimento piloto reportado em
plo, considere o exemplo de similaridade 1 na (Fonseca & Aluı́sio, 2015), notamos que, em com-
Tabela 1. Embora seja possı́vel que ambas as paração com outros métodos de espaço vetorial, o
sentenças venham do mesmo texto e sejam forte- LDA fornecia os pares mais interessantes para in-
mente relacionadas (o que é o caso nesse exem- ferência textual, pois recuperava o menor número
plo), a anotação não deve considerar essas su- de sentenças sem relação de inferência (que cos-
posições. tumam ser a maioria) e era eficiente em detectar
similaridades além da sobreposição de palavras.
Usamos um modelo diferente de LDA para
3.2 Inferência Textual cada variante do português, ambos treinados em
grandes corpora de notı́cias. O modelo para o
Dagan et al. (2013) definem inferência textual português do Brasil foi treinado em um corpus
como uma relação unidirecional entre um texto coletado do site de notı́cias G12 e o para por-
(ou premissa) T e uma hipótese H. Se uma pes- tuguês europeu com textos do jornal Público3 .
soa ao ler T conclui que H é verdadeiro, diz-se Esses corpora foram somente usados para gerar
que T implica (entails) H. Embora seja uma deos modelos LDA, não para coletar os pares de
finição subjetiva, ela é largamente aceita na co- sentenças do corpus ASSIN.
munidade de processamento de lı́nguas naturais, Grupos de notı́cias sobre o mesmo evento fo-
dada a dificuldade de se chegar a uma definição ram coletados do Google News em suas versões
mais precisa. especı́ficas para Brasil e Portugal. Filtramos al-
É comum a distinção entre pares de textos guns domı́nios para evitar sites de notı́cias bra-
sem inferência e com contradições em conjun- sileiros na seção de Portugal e vice-versa. Dados
tos de dados de inferência textual. Embora seja os grupos de notı́cia coletados e um modelo de
interessante a distinção, no corpus ASSIN 2016 espaço vetorial treinado, a criação do nosso cor-
eles são raros e dessa forma decidimos não criar pus seguiu um processo de três etapas:
uma classe separada. Vale lembrar que, tanto no
SICK quanto no SNLI (Bowman et al., 2015), pa- 1. Usamos LDA para encontrar pares de sen-
res com contradição são deliberadamente criados, tenças similares dentro de cada grupo. Esse
seja manual ou semi-automaticamente. passo pode ser parametrizado fixando os va-
Nós também definimos uma classe separada lores mı́nimo e máximo de similaridade smax
para paráfrases, que embora não sejam frequen- e smin : fixando um valor máximo evita pares
tes, aparecem em nosso corpus de textos jor- de sentenças quase iguais, que seriam clas-
nalı́sticos. A Tabela 2 mostra um caso em que sificados trivialmente como paráfrases, e fi-
a primeira sentença implica a segunda; um caso xando um mı́nimo evita pares muito dissimi-
de implicação mútua ou paráfrase; e um terceiro lares que são facilmente classificados como
caso em que não há implicação. sem relação. Fixamos a proporção α de to-
kens que são encontrados em uma sentença
mas não em outra (sem contar stopwords).
Finalmente, sentenças podem ser limitadas
4 Criação do Corpus por um tamanho máximo; em uma análise
Nesta seção descrevemos a criação do corpus e 2
http://g1.globo.com/
3
apresentamos as estatı́sticas da anotação. http://www.publico.pt/
1 Mas esta é a primeira vez que um chefe da Igreja Católica usa a palavra em público.
A Alemanha reconheceu ontem pela primeira vez o genocı́dio armênio.
2 Como era esperado, o primeiro tempo foi marcado pelo equilı́brio.
No segundo tempo, o panorama da partida não mudou.
3 Houve pelo menos sete mortos, entre os quais um cidadão moçambicano, e 300 pessoas foram detidas.
Mais de 300 pessoas foram detidas por participar de atos de vandalismo.
4 A organização criminosa é formada por diversos empresários e por um deputado estadual.
Segundo a investigação, diversos empresários e um deputado estadual integram o grupo.
5 Outros 8.869 fizeram a quadra e ganharão R$ 356,43 cada um.
Na quadra 8.869 apostadores acertaram, o prêmio é de R$ 356,43 para cada.
Tabela 1: Exemplos para os valores de similaridade semântica.
Inferência Como não houve acordo, a reunião será retomada nesta terça, a partir das 10h.
As partes voltam a se reunir nesta terça, às 10h.
Paráfrase Vou convocar um congresso extraordinário para me substituir enquanto presidente.
Vou organizar um congresso extraordinário para se realizar a minha substituição como presidente.
Sem relação As apostas podem ser feitas até as 19h (de Brası́lia).
As apostas podem ser feitas em qualquer lotérica do paı́s.
Tabela 2: Exemplos para as categorias de inferência textual.
preliminar, notamos que sentenças muito anotação de inferência, e estão listadas na Ta-
longas têm muita informação e dificilmente bela 3.
podem ser completamente implicadas por Descartamos pares sem concordância de, pelo
outra. menos, três votos para a tarefa de inferência tex-
2. Revisamos os pares coletados em um pro- tual. Nosso entendimento foi que esses pares
cesso manual. Se um par contém uma sen- eram controversos e assim não seriam boas esco-
tença sem sentido, é descartado. Sentenças lhas para serem incluı́dos no corpus final. Note-
foram também editadas para correção de er- se que os anotadores poderiam indicar implicação
ros ortográficos e gramaticais, ou para alte- tanto da primeira para a segunda sentença como
rar casos em que a presença de implicação é da segunda para a primeira; porém, no corpus
pouco clara. final, invertemos a ordem dos pares necessários
para que todos os casos de inferência fossem da
3. Os pares são anotados. Quatro pessoas primeira sentença para a segunda. O valor final
anotaram cada par, selecionadas aleatoria- de similaridade para cada par é média das qua-
mente pelo sistema de anotação. Cada ano- tro pontuações. Dessa forma, os valores são reais
tador seleciona um valor de similaridade de separados por intervalos de 0,25.
1 a 5, e também uma das quatro opções A anotação foi realizada via uma interface
para inferência: a primeira sentença implica Web construı́da especialmente para a tarefa, mas
a segunda; a segunda implica a primeira; flexı́vel o bastante para permitir customizações
paráfrase, ou nenhuma relação. em futuras anotações. Os anotadores receberam
treinamento para calibrar os conceitos das tarefas
Realizamos esse processo em vários lotes, va- a serem realizadas, com ajuda de um conjunto de
riando os parâmetros. Usamos os valores de smin 18 pares exemplificando todos os fenômenos tra-
de 0.65 e 0.6, sem obter grande diferença no re- tados. Em caso de dúvidas, perguntas poderiam
sultado. smax foi fixado em 0.9. A proporção de ser enviadas via e-mail para a equipe de anotado-
tokens exclusivos para cada sentença foi fixada res, o que permitia discutir casos muito difı́ceis de
em 0.1 como mı́nimo e valores máximos variando decidir, principalmente no começo da anotação.
entre 0.7 ou 0.8. Com o último valor, notamos
Por fim, o corpus foi dividido em seções de
um aumento considerável de pares de sentenças
treinamento (com três mil pares de cada variante)
com valor de similaridade baixo.
e teste (com os dois mil restantes de cada). A
Dada a subjetividade da anotação, defini- metade brasileira do corpus de treinamento foi
mos algumas diretrizes para lidar com alguns disponibilizada em 20 de novembro de 2015, e a
fenômenos linguı́sticos recorrentes que tinham di- metade portuguesa foi disponibilizada dois meses
ferentes interpretações por parte dos anotadores. depois.
As diretrizes são voltadas especialmente para a
Conceito Explicação
Atemporalidade A interpretação das sentenças não deveria levar em conta a data corrente, de modo
que a anotação fizesse sentido no futuro. Assim, embora há 70 anos atrás e em 1945
sejam equivalentes em 2015, devem ser considerados distintos pelos anotadores.
Entidades Nomeadas Entidades nomeadas que aparecem nas duas sentenças, tendo um aposto ou adje-
tivo em uma delas, devem ser consideradas equivalentes. Florianópolis, em Santa
Catarina é equivalente a apenas Florianópolis.
Discurso Indireto Uma sentença com discurso indireto (i.e., O embaixador disse que (...)) pode implicar
outra que contenha apenas a fala atribuı́da. O contrário, no entanto, não é possı́vel.
Quantidades Valores numéricos diferentes só podem ser aceitos para paráfrase/implicação se ti-
verem indicadores explı́citos de serem aproximações: acerca de, pelo menos, quase,
perto de, etc. Por exemplo, arrecadou 7 milhões não implica arrecadou 6 milhões
pois, mesmo sendo uma quantia menor, é possı́vel que se refira a outro evento.
Tabela 3: Resumo das Diretrizes para Anotação.
4.2 Estatı́sticas da Anotação Métrica Valor
O corpus foi anotado por 36 pessoas, que par- Correlação de Pearson 0,74
ticiparam em diferentes quantidades: o anota- Desvio Padrão Médio 0,49
dor com menor participação julgou 25 pares, en- κ de Fleiss 0,61
quanto o com maior participação julgou 6.740. Concordância 0,80
Do total de pares anotados, 11.3% foram des-
cartados por não terem três julgamentos iguais Tabela 4: Estatı́sticas da Anotação. Os primeiros
quanto à implicação. A proporção é um pouco 2 valores se referem à anotação de similaridade;
menor do que as reportadas na criação dos cor- os 2 últimos valores à inferência.
pora RTE Challenge (Dagan et al., 2005; Giam-
piccolo et al., 2007). No total, o ASSIN tem 10
mil pares, sendo metade em português brasileiro O desvio padrão médio avalia a divergência
e metade em português europeu. dos julgamentos de similaridade dos pares. É cal-
A Tabela 4 sumariza estatı́sticas da anotação. culado como a média dos desvios padrão de todos
A correlação ρ de Pearson é uma boa métrica os pares no corpus; esses, por sua vez, são calcula-
para a concordância entre anotadores (ou para dos como o desvio padrão das quatro pontuações
o desempenho de um sistema), tendo sido usada em relação à média do par. O valor reportado
também pelos organizadores das competições de na anotação do SICK é de 0,76, indicando que
STS. Essa medida avalia a dependência linear en- as pontuações dos nossos anotadores divergiram
tre duas variáveis, o que é mais informativo do menos.
que apenas a correlação de ranqueamento (com- Com relação à inferência, o valor da con-
putável com a correlação de Spearman). Por cordância κ de Fleiss foi relativamente baixo, o
exemplo, se um anotador avalia três pares com que indica que a anotação desta tarefa de fato
semelhança 2, 3 e 4, enquanto outro avalia os envolveu boa quantidade de subjetividade. Os
mesmos com 2, 4 e 5, o ranqueamento é idêntico, corpora dos desafios RTE, por exemplo, tiveram
mas o valor de ρ está abaixo de 1 por não se- uma taxa de concordância maior: 0,6 na primeira
rem duas variáveis (perfeitamente) linearmente edição (Dagan et al., 2005), mas chegando a 0,75
dependentes. ou mais nas subsequentes (Giampiccolo et al.,
O valor de ρ apresentado na tabela se re- 2007). Entretanto, deve ser notado que esses cor-
fere à média das correlações calculadas entre to- pora tratam de sentenças curtas como segundo
dos os anotadores, ponderada pela quantidade de componente do par (a sentença implicada), o que
pares que cada um anotou. Para cada anota- torna a decisão mais fácil.
dor, calculamos a correlação das suas pontuações A última linha da tabela se refere à con-
de similaridade com as médias das pontuações cordância simples entre os anotadores. Isso sig-
dos pares que ele ou ela anotou (excluindo a nifica que, em 80% dos casos, dois anotadores
sua anotação do cômputo). Para efeito de com- que julgaram o mesmo par escolheram a mesma
paração, a anotação do STS 2015 obteve valores categoria de inferência.
entre 0.65 e 0.85, o que mostra que alcançamos As tabelas 5 e 6 mostram estatı́sticas sobre as
boa concordância entre anotadores quanto à si- anotações de similaridade e inferência, respecti-
milaridade. vamente. Pode-se ver que as pontuações de si-
milaridade mais comuns estão no intervalo entre sentenças, caso as alterações possibilitassem a in-
2 e 3. Já quanto à inferência, percebe-se que a ferência. Apesar da proporção final estar menos
relação neutra é a classe majoritária, enquanto as desequilibrada que o observado em nosso corpus
paráfrases são uma porção pequena do corpus. piloto, ainda temos menos pares com inferência
e especialmente paráfrases do que o que gos-
Similaridade PB PE Total tarı́amos.
4,0 – 5,00 1.074 1.336 2.410
3,0 – 3,75 1.591 1.281 2.872 5 Sistemas Participantes
2,0 – 2,75 1.986 1.828 3.814
1,0 – 1,75 349 555 904 Participaram do ASSIN seis equipes, sendo três
brasileiras e três portuguesas. Cada equipe par-
Média 3,05 3,05 3,05
ticipante pôde enviar o resultado de até três
Tabela 5: Estatı́sticas de similaridade do ASSIN. execuções de seus sistemas para cada combinação
de variante da lı́ngua e subtarefa.
Na tarefa de similaridade, participaram to-
Relação PB PE Total das as seis equipes inscritas, enquanto quatro
Sem relação 3.884 3.432 7.316 participaram da tarefa de inferência textual. A
Implicação 870 1.210 2.080 L2F/INESC-ID foi a única a reportar resultados
Paráfrase 246 358 604 apenas para uma variante; no caso, o português
europeu4 .
Tabela 6: Estatı́sticas de inferência do ASSIN. É interessante notar que os participantes ado-
taram estratégias bastante diversas entre si, o
A pouca quantidade de pares com relação de que permite uma análise de diferentes pontos de
inferência foi notada já durante nossa análise de vista sobre as tarefas. Ressaltamos também que
um corpus piloto, que não foi incluı́do no cor- as equipes que participaram de ambas as tarefas
pus final. Isso se devia ao fato de que, em muitos usaram os mesmos atributos para treinar diferen-
casos, apenas alguns detalhes impediam que hou- tes modelos (em alguns casos, com uma etapa in-
vesse tal relação: a menção a um local, tempo, termediária de seleção automática de atributos).
propósito, entre outros. Essa situação é ilustrada
Portanto, não fazemos aqui uma separação
no exemplo a seguir.
entre abordagens especı́ficas de cada subtarefa;
em vez disso, resumimos brevemente o funciona-
(1) a. O Internacional manteve a boa fase
mento dos sistemas dos participantes a seguir.
e venceu o Strongest por 1 a 0 nesta
quarta-feira, garantindo a liderança do
Grupo 4 da Libertadores. 5.1 Abordagens
A equipe Solo Queue (Hartmann, 2016) utilizou
b. Em casa, a equipe gaúcha derrotou o uma abordagem bastante simples, baseada ape-
The Strongest, por 1 a 0, e garantiu a nas no valor da similaridade do cosseno de duas
primeira colocação do Grupo 4 da Copa representações vetoriais de cada sentença. Tais
Libertadores. representações são geradas como a soma dos ve-
tores de cada palavra, que por sua vez são obtidas
por meio de TF-IDF e word2vec (Mikolov et al.,
Apesar de as duas sentenças compartilharem a 2013).
maior parte do conteúdo, cada uma tem alguma Em seguida, os cossenos entre as duas repre-
informação especı́fica que não é implicada pela sentações (TF-IDF e word2vec) de cada sentença
outra. A primeira menciona o nome da equipe, são dadas como entrada para um regressor linear
além de que estava em boa fase e que o jogo que determina a similaridade do par.
foi na quarta-feira. Já a segunda diz que o jogo O sistema de L2F/INESC-ID (Fialho et al.,
foi na casa da equipe, sem explicitar seu nome. 2016) consistiu em extrair diversas métricas dos
Esse tipo de fenômeno é particularmente comum pares de sentenças, como distância de edição,
quando se tratam de sentenças longas. palavras em comum (incluindo métricas separa-
Visando aumentar a proporção de pares com das para entidades nomeadas ou verbos modais),
inferência, realizamos pequenas mudanças nas 4
Os autores informaram que não houve tempo o sufi-
sentenças durante a segunda etapa do nosso pro- ciente para treinar os seus modelos para o português do
cesso listado na Seção 4.1. Assim, passamos a Brasil antes do prazo da avaliação conjunta. Ainda assim,
remover pequenos trechos de uma ou ambas as apresentam em seu artigo resultados obtidos após a data.
BLEU, ROUGE etc. Tais métricas foram compu- e o método Lasso, e para a inferência, apenas um
tadas tanto das sentenças originais como de ou- SVM.
tras versões, que poderiam estar em caixa baixa, Também foram explorados métodos baseados
com palavras radicalizadas, usando clusters de em redes neurais recorrentes e convolucionais,
palavras (Turian et al., 2010), entre outras mo- usando uma arquitetura siamesa. Esse tipo de
dificações. A combinação de diferentes versões arquitetura usa o mesmo conjunto de pesos para
das sentenças com as diferentes métricas gerou mapear cada uma das sentenças para um vetor.
mais de 90 atributos para descrever cada par, que Dados os dois vetores, pode ser calculado direta-
são então usados para treinar um Kernel Ridge mente o seu cosseno, que é então mapeado para
Regression (para similaridade) e um SVM (para um valor de similaridade. No entanto, a despeito
inferência). dos bons resultados reportados na literatura re-
Fialho et al. (2016) experimentaram ainda cente em PLN, as redes neurais obtiveram resul-
aumentar o conjunto de treinamento com uma tados muito abaixo dos outros métodos usados
versão do corpus SICK traduzida automatica- pela equipe. A provável causa desta desparidade
mente para o português. No entanto, os resul- é a quantidade relativamente pequena de dados
tados obtidos ao se treinar o regressor na versão disponı́veis no ASSIN.
aumentada foram inferiores, provavelmente de- A equipe FlexSTS (Freire et al., 2016) apre-
vido aos erros de tradução. Por fim, os autores sentou um framework para calcular a similari-
avaliam seus modelos quando treinados em uma dade semântica textual baseada em combinar
variante do português e testados na outra. medidas de semelhança entre tokens de acordo
As equipes ASAPP e Reciclagem (Alves et al., com alinhamentos entre eles. Foram exploradas
2016) compartilharam um módulo de análises três configurações: a primeira treina um regres-
de relações lexicais baseado em redes semânticas sor usando apenas uma função DICE e medidas
(como tesauros e wordnets). Diversas métricas de distâncias entre os tokens na WordNet. Foi
baseadas em tais relações foram extraı́das dessas usada a WordNet da lı́ngua inglesa, e os pares do
redes. ASSIN foram traduzidos automaticamente para
O Reciclagem não conta com nenhum módulo consultá-la.
de aprendizado de máquina, empregando apenas A segunda abordagem do FlexSTS usou ape-
métricas de similaridade baseadas nas relações nas o modelo HAL (Hyperspace Analogue to
semânticas entre as palavras das duas sentenças. Language) para calcular a similaridade entre as
Nesse sentido, o método teve um caráter explo- palavras mais similares, enquanto a terceira abor-
ratório quanto à capacidade de diferentes redes dagem combina o modelo HAL com a WordNet.
semânticas contribuı́rem para a tarefa de STS e Essas duas não usam nenhum componente de
do quanto um sistema sem treinamento poderia aprendizado de máquina, recorrendo a fórmulas
alcançar em termos de performance. pré-definidas para computar o valor de similari-
Já o ASAPP emprega, além das métricas usa- dade de cada par.
das pelo Reciclagem, atributos como contagem
de tokens de cada sentença, orações nominais,
tipos de entidades nomeadas etc., todos dados 6 Avaliação e Resultados
como entrada para classificadores e regressores.
Em suas três execuções, foram exploradas formas
Os participantes receberam o conjunto de teste
de partição de dados, combinação de modelos e
(sem os rótulos corretos dos pares) em 4 de março
redução da quantidade de atributos.
de 2016, e tiveram 8 dias para enviar aos organi-
Barbosa et al. (2016) utilizaram a estratégia zadores os arquivos com as respostas produzidas
proposta por Kenter & de Rijke (2015): são ob- por seus sistemas. Cada participante pôde enviar
tidas representações vetoriais das palavras (no até três resultados.
caso, foi usado o word2vec) e, em seguida, os ve-
As métricas usadas na avaliação das duas ta-
tores de uma sentença são comparados com os da
refas são consoantes com as usadas em avaliações
outra, obtendo-se medidas baseadas no cosseno e
conjuntas internacionais. Na tarefa de simila-
a distância euclidiana.
ridade textual, foi usada a correlação de Pear-
Todas as medidas obtidas são então agrupa- son, tendo o erro quadrático médio (MSE, mean
das em histogramas, com intervalos pré-definidos. square error ) como medida secundária. Ideal-
São usados diferentes histogramas para cada me- mente, os sistemas devem ter a maior correlação
dida, e as suas contagens são dados como entrada possı́vel e o menor MSE possı́vel. Para a in-
para os modelos de aprendizado de máquina. ferência, foi usada a medida F1, tendo a acurácia
Para a tarefa de similaridade, foram usados SVR como medida secundária.
6.1 Baselines no ASSIN é fortemente relacionada com a sobre-

posição lexical, ainda que tenhamos nos esforçado
Foram usadas duas estratégias como baseline em incluir tanto pares com inferência que tives-
para o ASSIN: a primeira memoriza a média das sem palavras distintas quanto pares sem relação
similaridades do corpus de treino e a classe de in- e palavras compartilhadas.
ferência mais comum, e emite esses valores para
todos os pares de teste. A segunda, um pouco
mais sofisticada, consiste no treinamento de um 7 Conclusões
classificador baseado em regressão logı́stica e um
regressor linear. Estes dois modelos são treinados Descrevemos a proposta da Avaliação de Simila-
com apenas dois atributos: a proporção de tokens ridade Semântica e Inferência Textual, como foi
exclusivos da primeira e da segunda sentença. criado seu corpus anotado, quais foram as equi-
pes participantes da avaliação conjunta e os re-
sultados que obtiveram. Apresentamos, ainda,
6.2 Resultados dois sistemas baseline bastante simples, mas dos
quais um superou a maioria dos participantes na
As Tabelas 7 e 8 listam os resultados das ta- tarefa de inferência textual.
refas de similaridade e inferência, respectiva-
mente, obtidos por cada participante em suas três O ASSIN 2016 cumpriu seu objetivo de trazer
execuções, bem como os resultados dos sistemas a primeira avaliação conjunta de inferência tex-
baseline. tual e similaridade semântica para o português.
Listamos a seguir algumas conclusões que dizem
A equipe Solo Queue (Hartmann, 2016) ob- respeito à criação do corpus e aos sistemas de-
teve os melhores resultados da similaridade senvolvidos para a tarefa.
semântica para o português do Brasil, enquanto o
Blue Man Group (Barbosa et al., 2016) obteve os
melhores resultados para inferência textual . Já 7.1 Criação do Corpus
com o português europeu, a L2F/INESC-ID (Fi-
alho et al., 2016) alcançou os melhores resultados O método que usamos para a compilação do cor-
nas duas tarefas. pus, apesar de funcional, apresenta alguns em-
O primeiro baseline obteve 0 na correlação de pecilhos. O primeiro é o gargalo da etapa de
Pearson pelo fato de não haver variação em suas limpeza antes da anotação em si. Durante essa
respostas, e a medida ser baseada na correlação etapa, os critérios para se eliminar ou editar pares
de duas variáveis. Ao se combinar as respostas são bastante delicados, como nossa experiência
para as duas metades do corpus, é obtido um mostrou. É uma parte da anotação que deve ficar
valor negativo, indicando uma performance pior a cargo de pessoas que tenham conhecimento so-
que dar a mesma resposta sempre. bre a tarefa e seus objetivos, e dificilmente pode-
No entanto, considerando o MSE, esse ba- ria ser delegada para uma plataforma de crowd-
seline teve resultados melhores que algumas sourcing.
execuções dos participantes, o que significa que Outra dificuldade diz respeito à subjetividade
tais execuções computaram valores muito distan- da tarefa. Em alguns casos, os anotadores gasta-
tes da similaridade real dos pares. Já o segundo ram bastante tempo tentando se decidir quanto
baseline teve resultados competitivos, chegando aos julgamentos que deveriam dar para certos pa-
a superar diversas execuções. res. Esse tipo de problema retoma o anterior:
Quanto à inferência, com resultados na Ta- certas alterações no conteúdo das sentenças torna
bela 8, o primeiro baseline é também facilmente as decisões mais fáceis, e portanto, a anotação
superado, mas o segundo se saiu bastante bem. mais confiável e produtiva.
Na variante brasileira, chegou a superar todos
os três participantes e, na europeia, apenas uma 7.2 Sistemas Participantes
execução da L2F/INESC-ID se saiu melhor.
O último resultado foi bastante inesperado. Os participantes do ASSIN exploraram diferen-
Apesar de toda a modelagem do problema feita tes tipos de estratégia para as duas tarefas pro-
pelas equipes participantes, um baseline com postas. É particularmente interessante notar
apenas dois atributos simples, sem acesso a ne- que dentre os melhores resultados obtidos estão
nhum recurso externo e usando apenas modelos duas abordagens muito simples: na similaridade
lineares foi capaz de superar quase todos os sis- semântica, a comparação da combinação de ve-
temas empregados na tarefa. Ao mesmo tempo, tores de palavras, como feito pelo Solo Queue; e
esse resultado indica que a presença de inferência para inferência, a comparação da proporção de
PB PE Geral
Equipe Exec. Pearson MSE Pearson MSE Pearson MSE
1 0,58 0,50 0,55 0,83 0,56 0,66
Solo Queue 2 0,68 0,41 0,00 1,55 0,29 0,98
3 0,70 0,38 0,70 0,66 0,68 0,52
1 0,59 1,36 0,54 1,10 0,53 1,23
Reciclagem 2 0,59 1,31 0,53 1,14 0,54 1,23
3 0,58 1,37 0,53 1,18 0,53 1,27
1 0,65 0,44 0,63 0,73 0,63 0,59
Blue Man Group
2 0,64 0,45 0,64 0,72 0,63 0,59
1 0,65 0,44 0,68 0,70 0,65 0,57
ASAPP 2 0,65 0,44 0,67 0,71 0,64 0,58
3 0,65 0,44 0,68 0,73 0,65 0,58
1 0,62 0,47 0,64 0,72 0,62 0,59
LEC-UNIFOR 2 0,56 2,83 0,59 2,49 0,57 2,66
3 0,61 1,29 0,63 1,04 0,61 1,17
1 0,73 0,61
L2F/INESC-ID 2 0,63 0,70
3 0,63 0,70
Baseline (média) – 0,00 0,76 0,00 1,19 -0,08 0,97
Baseline (sobreposição) – 0,63 0,46 0,64 0,75 0,62 0,60
Tabela 7: Resultados de todas as execuções para a tarefa de similaridade semântica.
PB PE Geral
Equipe Exec. Acurácia F1 Acurácia F1 Acurácia F1
1 77,65% 0,29 73,10% 0,43 75,38% 0,40
Reciclagem 2 79,05% 0,39 72,10% 0,38 75,58% 0,38
3 78,30% 0,33 70,80% 0,32 74,55% 0,32
Blue Man Group 2 81,65% 0,52 77,60% 0,61 79,62% 0,58
1 81,20% 0,50 77,75% 0,57 79,47% 0,54
ASAPP 2 81,65% 0,47 78,90% 0,58 80,27% 0,54
3 77,10% 0,50 74,35% 0,59 75,72% 0,55
1 83,85% 0,70
L2F/INESC-ID 2 78,50% 0,58
3 78,50% 0,58
Baseline (maioria) – 77,65% 0,29 69.30% 0,27 73,47% 0,28
Baseline (sobreposição) – 82,80% 0,64 81,75% 0,70 82,27% 0,67
Tabela 8: Resultados de todas as execuções para a tarefa de inferência textual.
palavras exclusivas de cada sentença, que foi um Outra linha de pesquisa bastante bem suce-
dos baselines propostos. dida na literatura recente são redes neurais re-
Todavia, a equipe L2F/INESC-ID obteve os correntes (como LSTMs) ou convolucionais. O
melhores resultados do ASSIN na variante euro- Blue Man Group foi o único grupo a explorá-las,
peia (a única em que competiu), empregando um mas as descartou após obter resultados prelimi-
sistema baseado em um rico conjunto de atribu- nares negativos. Uma possı́vel explicação para
tos. Esse resultado indica que superar métodos esse fato é que o conjunto de dados do ASSIN é
simples como os listados acima requer uma mo- menor e com sentenças mais complexas do que
delagem extensiva do problema. as que se encontram para conjuntos semelhantes
em inglês, onde os modelos neurais obtêm os me- Referências

lhores resultados.
Por fim, notamos que nenhum dos participan- Agirre, Eneko, Carmen Banea, Claire Car-
tes modelou as sentenças em alguma estrutura die, Daniel Cer, Mona Diab, Aitor Gonzalez-
sintática ou semântica; em vez disso, todos ex- Agirre, Weiwei Guo, Iñigo Lopez-Gazpio,
ploraram apenas o nı́vel lexical. Pelo menos para Montse Maritxalar, Rada Mihalcea, German
a inferência textual, há evidências na literatura Rigau, Larraitz Uria & Janyce Wiebe. 2015.
de que a compreensão da estrutura das sentenças SemEval-2015 Task 2: Semantic Textual Simi-
tem um papel importante (Dagan et al., 2013), e larity, English, Spanish and Pilot on Interpre-
a ausência desse tipo de análise pode explicar o tability. Em Proceedings of the 9th Internatio-
desempenho dos sistemas abaixo do baseline. nal Workshop on Semantic Evaluation (SemE-
val 2015), 252–263.
Agirre, Eneko, Daniel Cer, Mona Diab, Aitor
7.3 Trabalhos Futuros
Gonzalez-Agirre & Weiwei Guo. 2013. *SEM
Novas edições do ASSIN teriam o potencial de 2013 shared task: Semantic textual similarity.
estimular e melhorar a pesquisa nas duas tarefas Em *SEM 2013: The Second Joint Conference
propostas para a lı́ngua portuguesa. No entanto, on Lexical and Computational Semantics., 32–
acreditamos que seria interessante trabalhar com 43. Association for Computational Linguistics.
outros tipos de pares de sentença, especialmente Agirre, Eneko, Daniel M. Cer, Mona T. Diab
na tarefa de inferência. & Aitor Gonzalez-Agirre. 2012. Semeval-
Uma possibilidade seria o uso de pares de sen- 2012 task 6: A pilot on semantic textual si-
tenças escritos especificamente com o objetivo de milarity. Em Proceedings of the 6th Inter-
terem ou não uma relação de implicação, como national Workshop on Semantic Evaluation,
foi feito no SICK e SNLI. Nesse caso, a subjetivi- SemEval@NAACL-HLT 2012, Montréal, Ca-
dade da anotação é reduzida drasticamente, com nada, June 7-8, 2012, 385–393.
o preço de não se trabalhar com um cenário re-
alista. De fato, a motivação principal da criação Alves, Ana Oliveira, Ricardo Rodrigues &
destes dois corpora foi fornecer um ambiente para Hugo Gonçalo Oliveira. 2016. ASAPP: alinha-
sistemas de PLN aprenderem o funcionamento de mento semântico automático de palavras apli-
certos mecanismos da linguagem humana. cado ao português. Linguamática 8(2). 43–58.
Outro direcionamento seria usar apenas fatos Barbosa, Luciano, Paulo Cavalin, Victor Gui-
simples, na forma de sentenças com uma única marães & Matthias Kormaksson. 2016. Blue
oração, como o segundo componente de cada Man Group no ASSIN: Usando representações
par. Essa foi a estratégia adotada na criação distribuı́das para similaridade semântica e in-
dos corpora dos RTE Challenges, e mantêm o ferência textual. Linguamática 8(2). 15–22.
realismo da tarefa na medida em que a primeira
Bentivogli, Luisa, Ido Dagan, Hoa Trang Dang,
sentença pode ser extraı́da de um jornal ou ou-
Danilo Giampiccolo & Bernardo Magnini.
tra fonte real. Por outro lado, esse cenário não
2009. The fifth Pascal recognizing textual en-
requer que os sistemas processem e comparem
tailment challenge. Em Proceedings of the Text
duas sentenças inteiras, mas apenas busque por
Analysis Conference 2009, s.pp.
confirmação de um fato.
Por fim, uma estratégia que facilitasse a Blei, David M., Andrew Y. Ng & Michael I. Jor-
anotação do corpus seria também interessante dan. 2003. Latent Dirichlet allocation. Journal
por permitir a criação um novo recurso em maior of Machine Learning Research 3. 993–1022.
escala, tornando mais viável a exploração de
Bowman, Samuel R., Gabor Angeli, Christopher
métodos neurais que necessitam de grandes bases
Potts & Christopher D. Manning. 2015. A
de treinamento.
large annotated corpus for learning natural
language inference. Em Proceedings of the 2015
Conference on Empirical Methods in Natural
Agradecimentos
Language Processing, 632–642. ACL.
Agradecemos o apoio da Fapesp, processos número Dagan, Ido, Oren Glickman & Bernardo Mag-
2016/02466-5 e 2013/22973-0, o apoio do CNPq, proces- nini. 2005. The PASCAL recognising tex-
sos número 155137/2015-8 e 153047/2016-0, e também o
apoio da Google via programa Google Research Awards for
tual entailment challenge. Em Proceedings of
Latin America, projeto 23327 Google/FUNDEP Google the PASCAL challenges on Recognizing Tex-
Research Grant para o desenvolvimento dessa pesquisa. tual Entailment, 177–190.
Dagan, Ido, Dan Roth, Mark Sammons & Fa- Mikolov, Tomas, Kai Chen, eg Corrado & Jeffrey
bio Massimo Zanzotto. 2013. Recognizing Dean. 2013. Efficient estimation of word re-
Textual Entailment: Models and Applications presentations in vector space. Available from
Synthesis Lectures on Human Language Tech- arXiv:1301.3781.
nologies. Morgan & Claypool.
Rocktäschel, Tim, Edward Grefenstette,
Dolan, Bill, Chris Quirk & Chris Brockett. 2004. Karl Moritz Hermann, Tomáš Kočiský &
Unsupervised Construction of Large Paraph- Phil Blunsom. 2015. Reasoning about entail-
rase Corpora: Exploiting Massively Parallel ment with neural attention. Available from
News Sources. Em Proceedings of the 20th In- arXiv:1509.06664.
ternational Conference on Computational Lin- Turian, Joseph, Lev Ratinov & Yoshua Bengio.
guistics, 350–356. 2010. Word representations: A simple and
general method for semi-supervised learning.
Fialho, Pedro, Ricardo Marques, Bruno Mar-
Em Proceedings of the 48th Annual Meeting of
tins, Luı́sa Coheur & Paulo Quaresma. 2016.
the Association for Computational Linguistics,
INESC-ID@ASSIN: Medição de similaridade
384–394.
semântica e reconhecimento de inferência tex-
tual. Linguamática 8(2). 33–42. Turney, Peter D. & Patrick Pantel. 2010. From
frequency to meaning: Vector space models
Fonseca, Erick R. & Sandra M. Aluı́sio. 2015. of semantics. Journal of Artificial Intelligence
Semi-Automatic Construction of a Textual En- Research 37. 141–188.
tailment Dataset: Selecting Candidates with
Vector Space Models. Em Proceedings of STIL Wang, Shuohang & Jing Jiang. 2015. Learning
2015, 201–210. natural language inference with LSTM. Avai-
lable from arXiv:1512.08849.
Freire, Jânio, Vládia Pinheiro & David Feitosa.
2016. FlexSTS: Um framework para simila-
ridade semântica textual. Linguamática 8(2).
23–31.
Giampiccolo, Danilo, Hoa Trang Dang, Bernardo
Magnini, Ido Dagan, Elena Cabrio & Bill Do-
lan. 2008. The fourth PASCAL recognizing
textual entailment challenge. Em Proceedings
of the First Text Analysis Conference, 1–9.
Giampiccolo, Danilo, Bernardo Magnini, Ido Da-
gan & Bill Dolan. 2007. The third PASCAL
recognizing textual entailment challenge. Em
Proceedings of the Workshop on Textual En-
tailment and Paraphrasing, 1–9.
Hartmann, Nathan Siegle. 2016. Solo queue at
ASSIN: Combinando abordagens tradicionais
e emergentes. Linguamática 8(2). 59–64.
Kenter, Tom & Maarten de Rijke. 2015. Short
text similarity with word embeddings. Em
Proceedings of the 24th ACM International
on Conference on Information and Knowledge
Management, 1411–1420.
Marelli, Marco, Luisa Bentivogli, Marco Baroni,
Raffaella Bernardi, Stefano Menini & Roberto
Zamparelli. 2014. SemEval-2014 Task 1: Eva-
luation of compositional distributional seman-
tic models on full sentences through semantic
relatedness and textual entailment. Em Pro-
ceedings of the 8th International Workshop on
Semantic Evaluation, 1–8.
Blue Man Group no ASSIN: Usando Representações Distribuı́das

para Similaridade Semântica e Inferência Textual
Blue Man Group at ASSIN:
Using Distributed Representations for Semantic Similarity and Entailment Recognition
Luciano Barbosa Paulo Cavalin Victor Guimarães

IBM Research IBM Research IBM Research
lucianoa@br.ibm.com pcavalin@br.ibm.com victorl@br.ibm.com
Matthias Kormaksson
IBM Research
matkorm@br.ibm.com
Resumo Our team’s strategy consisted of evaluating

methods based on semantic word vectors, fol-
Neste artigo apresentamos a metodologia e os re- lowing two distinct directions: 1) to make use
sultados obtidos pela equipe Blue Man Group, na of low-dimensional, compact, feature sets, and 2)
competição de Avaliação de Similaridade Semântica deep learning-based strategies dealing with high-
e Inferência Textual do PROPOR 2016.1 dimensional feature vectors. Evaluation results de-
A estratégia da equipe consistiu em avaliar monstrated that the first strategy was more promi-
métodos baseados no uso de vetores semânticos de pa- sing, so that the results from the second strategy have
lavras, com duas frentes básicas: 1) uso de vetores de been discarded.
caracterı́sticas de pequena dimensão, e 2) estratégias As a result, by considering the best run of each of
de deep learning para vectores de caracterı́sticas de the six participant teams, we have been able to achi-
grandes dimensões. Os resultados nas bases de ava-
eve the best accuracy and F1 values in entailment
liação demonstraram que a primeira frente seria mais
promissora, e os resultados submetidos para a com- recognition, in the Brazilian Portuguese set, and the
petição da segunda frente foram descartados. best F1 score considering also the Portuguse from Por-
tugal set. In the semantic similarity task, our team
Com isso, considerando o melhor resultado de cada
was ranked second in the Brazilian Portuguese set,
uma das seis equipes, conseguimos atingir os melho-
and third considering both sets.
res resultados de acurácia e medida F1 na tarefa de
inferência textual, na base de português brasileiro, e Keywords
o melhor resultado geral de F1 considerando também
Semantic Similarity, Entailment Recognition, Deep
a base de português de Portugal. Na tarefa de simi-
Learning, Word Vectors
laridade semântica, a equipe atingiu o segundo lugar
na base de português brasileiro, e terceiro lugar con-
siderando ambas as bases.
1 Introdução
Palavras chave
Similaridade Semântica, Inferência Textual, Deep Le- Neste trabalho, apresentamos a metodologia e
arning, Vetores Semânticos de Palavras resultados obtidos pela nossa equipe, nome-
ada Blue Man group, na competição intitulada
Avaliação de Similaridade e Inferência Textual
Abstract (ASSIN), a qual foi juntamente realizado com
o congresso PROPOR (International Conference
In this paper, we present the methodology and on the Computational Processing of Portuguese)
the results obtained by our team, dubbed Blue Man em 2016.
Group, in the ASSIN (from the Portuguese Avaliação
de Similaridade Semântica e Inferência Textual) com- A competição ASSIN atribuı́u duas tarefas
petition, held at PROPOR 2016. para os participantes: avaliação da similaridade
semântica, e reconhecimento de inferência tex-
1
International Conference on the Computational Pro-
tual. Dadas as sentenças s1 e s2 , a primeira ta-
cessing of the Portuguese Language (http://propor2016. refa consiste em atribuir um valor, representando
di.fc.ul.pt/) o grau de relação semântica entre s1 e s2 . A se-
16– Linguamática Luciano Barbosa, Paulo Cavalin, Victor Guimarães & Matthias Kormaksson
gunda tarefa envolve determinar se s1 implica s2 reconhecimento de inferência textual, alcançando

(a sentença s1 implica a sentença s2 se, depois de o segundo melhor valor de F1, mas ficou apenas
ler ambas e sabendo que s1 é verdade, é possı́vel em quarto lugar na outra tarefa.
concluir que s2 também é verdade). Dadas estas No restante deste documento, apresentamos
duas tarefas, os pesquisadores foram convidados com mais detalhes como o nosso sistema foi de-
a formar equipes e participar na competição com senvolvido e avaliado.
o desenvolvimento de sistemas para resolver uma
ou ambas as tarefas, fazendo uso de dados rotu-
lados fornecidos pela organização da competição, 2 Competição ASSIN
e enviar os seus resultados em um teste cego, ou
seja, em dados sem o conhecimento da rotula- Tal como já referido, a competição ASSIN consis-
gem. Vale ressaltar que textos tanto em por- tiu em um fórum de avaliação para duas tarefas,
tuguês do Brasil como em português de Portu- a similaridade semântica e o reconhecimento de
gal estavam disponı́veis, aqui denotados PT-BR inferência textual, para o qual participantes (ou
e PT-PT, respectivamente, e as equipes podiam equipes) poderiam desenvolver sistemas e apre-
optar por apresentar resultados para apenas um sentar os seus resultados nos dados fornecidos
ou ambas as variações do português. pela comissão organizadora. Um grande conjunto
Nossa equipe (Blue Man Group) focou em de dados contendo pares de sentenças, nas va-
abordagens baseadas em vetores semânticos de riações de português tanto do Brasil como de Por-
palavras (do inglês word vectors ou word embed- tugal, foi criado para permitir que os participan-
dings) para resolver as duas tarefas (maiores de- tes desenvolvessem e avaliassem os sistemas. Os
talhes são apresentados na Seção 3). Conside- participantes poderiam enviar os resultados para
rando vetores semânticos de palavras criados com uma ou ambas as tarefas, e também para uma ou
toda a Wikipedia em lı́ngua portuguesa, segui- ambas as variações de português. Em seguida,
mos duas frentes distintas. Na primeira, imple- as equipes seriam classificadas pelos resultados
mentamos um conjunto de caracterı́sticas da li- de seus sistemas considerando uma avaliação em
teratura, proposto por Kenter & de Rijke (2015), outro conjunto de dados, isto é, o conjunto de tes-
para treinar tanto modelos de regressão e classi- tes. Tanto as métricas e os conjuntos de dados,
ficação baseados em vetores de suporte (do inglês assim como as tarefas em questão, são explicadas
support vectors), assim como o modelo de re- em detalhes no restante desta seção.
gressão Lasso (do inglês least absolute shrinkage O conjunto de dados ASSIN, contendo um to-
and selection operator) (Tibshirani, 1996). Na tal de 10.000 pares de frases, pode ser dividido
segunda frente, exploramos métodos de apren- nos seguintes subconjuntos. O conjunto de trei-
dizagem profunda (do inglês deep learning) tais namento PT-BR contém 3.000 pares rotulados
quais redes neurais siamesas (do inglês siamese de frases coletadas do sı́tio Google News, apenas
networks) (Chopra et al., 2005). As avaliações de fontes brasileiras. O conjunto de treinamento
preliminares com os conjuntos de dados de trei- PT-PT também contém 3.000 pares rotulados de
namento e experimentação demonstrou que a pri- frases coletadas do Google News, porém apenas
meira direção era mais promissora, fazendo com de fontes portuguesas neste caso. E os conjuntos
que decidı́ssemos por apresentar apenas os resul- de testes cegos PT-BR e PT-PT, contêm 2.000
tados da primeira estratégia. pares não rotulados de sentenças cada um, das
No total, seis equipes participaram da com- mesmas fontes utilizadas para os dados de trei-
petição. Considerando apenas o melhor resul- namento. Vale ressaltar que as etiquetas dos con-
tado de cada equipe, os resultados demonstram juntos de teste foram disponibilizados para os
que nosso sistema funcionou melhor na tarefa de participantes apenas depois que as equipes apre-
reconhecimento de inferência textual, já que con- sentaram os seus resultados.
quistou o primeiro lugar em acurácia e F1 para o Para a primeira tarefa, isto é, avaliação de
conjunto PT-BR, e o segundo lugar na acurácia e similaridade semântica, a similaridade é medida
primeiro lugar em F1 na avaliação geral. Na ta- numa escala entre 1 e 5, onde 1 representa que
refa de avaliação similaridade semântica, os nos- as sentenças são completamente diferentes e 5 re-
sos melhores resultados foram o segundo lugar presenta sentenças com essencialmente o mesmo
tanto em correlação de Pearson como em Erro significado. Assim sendo, as escalas são variações
Quadrático Médio (MSE) para o conjunto PT- graduais destes dois conceitos. Neste contexto,
BR, e segundo lugar em Pearson e terceiro em esta tarefa consiste na construção de um modelo
MSE na avaliação geral. Para o conjunto PT-PT, que, dado o par de sentenças p(i) = (s1 (i), s2 (i)),
o sistema obteve um desempenho melhor para o contendo a sentenças s1 (i) e s2 (i), prediz o valor
de similaridade semântica y(i). Dados os valores
Usando Representações Distribuı́das para Similaridade Semântica e Inferência Textual Linguamática – 17
de similaridade x(i) definidos manualmente, os tintas, se estas duas palavras apresentarem sig-
sistemas são avaliadas por meio da correlação de nificados semânticos semelhantes, seus vetores de
Pearson entre o conjunto que contém todos x(i) palavra correspondentes devem ser muito simila-
e y(i), e o erro quadrático médio (do inglês mean res. Estes vectores tornam possı́vel não apenas
squared error - MSE). a criação de método de PLN que são capazes de
A segunda tarefa — reconhecimento de in- codificar de maneira mais precisa o significado
ferência textual (RTE) — consiste em determi- semântico das palavras do vocabulário compa-
nar se o significado da hipótese está implicado rado com o uso apenas de suas formas lexicais,
no texto (Bentivogli et al., 2011). Ou seja, su- mas estes métodos também permitem tirar pro-
ponha s1 é o texto e s2 é a hipótese, s1 implica veito de grandes conjuntos de texto sem que haja
s2 se, após a leitura de ambos e sabendo que s1 a necessidade de alguma forma de rotulagem. Os
é verdade, uma pessoa concluiu que s2 também vetores de palavra podem ser criados de maneiras
deve ser verdade. Dado que o conjunto de dados totalmente não-supervisionada.
fornecido pelo ASSIN também distingue casos de A aprendizagem de vetores de palavras é feita
vinculação bidirecional, ou paráfrases, o par de da seguinte maneira. Dado um grande conjunto
frases s1 e s2 devem ser classificados em uma das de textos, os vetores de palavra são aprendidos ao
seguintes classes: Inferência Textual, Paráfrase se considerar a frequência de distribuição de pala-
e Nenhuma Relação. Considerando as etiquetas vras. Isto é, dada uma palavra e as suas palavras
definidas por inspeção manual, os sistemas são anteriores e posteriores em uma frase, um mo-
medidos com as medidas denotadas acurácia e delo de aprendizagem de máquina tal qual uma
pontuação F1. rede neural pode ser aprendido, usando as pala-
vras vizinhas como entrada, e a palavra central
como saı́da.
3 Metodologia Neste trabalho, os vetores de palavras fo-
ram criados com a ferramenta word2vec,2 uti-
Como já mencionado, a estratégia empregada lizando como entrada todos os textos em por-
pela nossa equipe consistiu em avaliar aborda- tuguês disponı́veis na Wikipédia. Este conjunto
gens baseadas em vetores de palavras, onde estes contém um total de 636,597 linhas de texto, com
representam o significado semântico das palavras 229,658,430 ocorrências de palavras, e um voca-
(ver Seção 3.1). Como consequência, duas es- bulário com um total 540.638 palavras distintas.
tratégias distintas foram seguidas. A primeira, A ferramenta word2vec foi configurada com os
apresentada na Seção 3.2, consistiu em imple- seguintes parâmetros: modelo skip n-gram; ta-
mentar um conjunto de caracterı́sticas proposto manho de vetor de palavra igual a 300; com-
na literatura para representar a semelhança en- primento máximo de salto entre as palavras de-
tre os pares de sentenças, para o uso de modelos finido como 5; 10 exemplos negativos; softmax
de regressão como a regressão de vetores de su- hierárquica não usada; limiar de ocorrência de
porte (support vector regression, SVR) para ava- palavras estabelecidas para 10−4 ; e 15 iterações
liação de similaridade semântica, e máquinas de de treinamento.
vetor de suporte (support vector machines, SVM)
para o reconhecimento de inferência textual. E
a segunda estratégia, apresentada na Seção 3.3, 3.2 Estratégia 1:
explorou redes neurais siamesas de aprendizado Caracterı́sticas de Kenter e Rijke
profundo, com o objetivo de aprender a melhor
representação a partir dos dados brutos, ou seja, 3.2.1 Conjunto de caracterı́sticas
diretamente a partir dos vectores de palavras dos O conjunto de caracterı́sticas proposto por Ken-
pares de sentenças. ter & de Rijke (2015), consiste em extrair
um único vetor de caracterı́sticas, denotado
3.1 Vetores de palavras x̄i = xi1 , . . . , xiK , para codificar a similaridade
semântica do par de sentenças s1 (i) e s2 (i). Neste
Vetores de palavras (do inglês word vectors ou trabalho, propomos o uso de tal conjunto de
word embeddings) têm sido utilizados com sucesso caracterı́sticas para ambas as tarefas da com-
ao longo dos últimos anos para aprender repre- petição, ou seja, para a avaliação de similari-
sentações úteis de palavras, as quais codificam o dade semântica e reconhecimento de inferência
significado semântico das palavras por meio de textual.
vetores contı́nuos (Collobert et al., 2011). Em Dados os conjuntos de vetores de palavra Ωi,1
outras palavras, mesmo que duas palavras sejam
2
lexicamente escritas de maneiras totalmente dis- http://code.google.com/archive/p/word2vec/
e Ωi,2 , calculados a partir das sentenças si,1 e si,2 , um histograma é calculado a partir dos valo-
este conjunto de caracterı́sticas é composto por res reais apresentados pelos vetores de pala-
dois tipos de atributos: 1) atributos baseados em vra médios do par de sentenças. Neste caso,
redes semânticas; e 2) atributos de nı́vel textual. os limites para o histograma foram definidos
Em suma, redes semânticas consistem em como −∞–0, 001; 0, 001–0, 01; 0, 01–0, 02 e
construir uma rede (ou grafo) considerando 0, 02–∞.
as distâncias dos pares de vetores de palavra
O conjunto de caracterı́sticas resultante é con-
(ω1,j , ω2,k ) relacionados a si,1 e si,2 , onde
sequentemente composto por um vetor de 15
ω1,j ∈ Ωi,1 e ω2,j ∈ Ωi,2 . posições, que correspondem a: 3 caracterı́sticas
de histograma de redes semânticas ponderados
Nesse caso, dois tipos de redes são construı́das. por saliência, 2 × 3 a partir dos histogramas das
O primeiro, denominado rede semântica ponde- duas redes semânticas não ponderadas, 2 basea-
rada por saliência, combina a frequência inversa dos nas distâncias dos vetores de palavra médios,
em documentos (do inglês inverse document fre- e 4 a partir do histograma dos valores das di-
quency - IDF) para definir as conexões entre os mensões.
nós, ao considerar, para cada vetor de palavra Além disso, vale a pena mencionar que
ω1,j pertencente a Ωi,1 , o vetor de palavra ω2,k estas 15 caracterı́sticas podem ser replicadas
pertencente a Ωi,2 que é o mais similar àquele através do uso de outros conjuntos de vetores de
vetor, isto é, o vetor de palavra ω2,k com a me- palavras. Em outras palavras, para cada con-
nor distância cosseno para ω1,j . Os links na rede junto distinto de vetores de palavra, um novo ve-
ponderada representam as distâncias entre os vetor de caracterı́sticas com 15 posições pode ser
tores de palavra correspondentes, multiplicadas extraı́do. E estes vetores de caracterı́stica po-
pelo IDF do termo correspondente em si,1 . Neste dem ser combinados, por exemplo, a partir da
trabalho, o IDF é computado no mesmo conjunto concatenação dos vetores. Neste trabalho, no en-
usado para criar o conjunto de vetores de pala- tanto, consideramos apenas um único conjunto
vras, isto é, a Wikipedia português. O segundo de vetores de palavra, isto é, aquele descrito na
tipo de rede, ao qual nos referimos como rede Seção 3.1, por questão de simplicidade.
semântica não ponderada, apresenta uma ideia Os detalhes sobre estas caracterı́sticas, assim
similar à rede já descrita, porém, não se baseia como informação sobre como foram definidos os
no uso dos IDFs. Neste caso, duas redes não pon- limites dos histogramas, seguiram a proposta de
deradas são criadas. Uma contém as distâncias Kenter & de Rijke (2015).
entre todos os pares de termos (ω1,j , ω2,k ). E
a outra contém as distâncias apenas dos pares
(ω1,j , ω2,k ), com menor distância entre si, assim 3.2.2 Regressão e Classificação Baseada em Ve-
como é feito com as redes semânticas ponderadas tores de Suporte
por saliência. Máquinas de vetores de suporte (do inglês Sup-
No final, as informações nas redes semânticas port vector machines - SVM), e o seu método
descritas no parágrafo anterior são usadas para correspondente para problemas de regressão, isto
criar histogramas, os quais são concatenadas para é, regressão com vetores de suporte (do inglês
compor um único vetor de caracterı́sticas. Os Support Vector Regression - SVR), tornaram-se
limites para estes histogramas foram definidos muito populares nos últimos anos, dado o bom
da seguinte maneira. Para o caracterı́sticas cal- desempenho em um grande número de tarefas
culadas a partir da rede semântica ponderadas (Byun & Lee, 2002). SVM e SVR empregam a
por saliência, os valores são 0–0, 15; 0, 15–0, 4 seguinte ideia: os vetores de entrada, denotados
e 0, 4–∞. Para ambas as redes semânticas não xi1 , . . . , xiK , são não-linearmente mapeados para
ponderadas, os valores são −1–0, 45; 0, 45–0, 8 e um espaço de caracterı́sticas de muito alta di-
0, 8–∞. mensão. Neste espaço de caracterı́sticas, uma su-
Além disso, o conjunto de caracterı́sticas perfı́cie de decisão não linear é construı́da, com o
também inclui atributos de nı́vel textual. Estes intuito de se prever o valor de classe yi ∈ [−1, 1],
atributos são definido de duas formas: no caso de classificação, ou o valor real yi , no
caso de regressão. Propriedades especiais da su-
1. a distância entre os vetores de palavra, onde perfı́cie de decisão garantem a alta capacidade de
tanto o cosseno e distâncias euclidianas são generalização dessas máquinas de aprendizagem
computados entre os vetores palavra médios (Cortes & Vapnik, 1995).
de si,1 e si,2 ;
Para este trabalho, ambos SVR e SVM fo-
2. histograma dos valores das dimensões, onde ram implementadas com a biblioteca Scikit Le-
arn3 . Para ambas abordagens, utilizou-se o 3.3 Estratégia 2: Redes Siamesas

núcleo Gaussiano após algumas experimentações
preliminares. E os parâmetros de configuração Redes siamesas (Chopra et al., 2005) têm sido
de foram configurados por meio de uma busca amplamente utilizadas no processamento de ima-
em grid com validação cruzada, baseada em 5 re- gens e textos, como o objetivo de aprender uma
partições, usando o conjunto de treinamento. métrica de similaridade de dados. Para a ta-
refa especı́fica proposta no ASSIN, utilizamos re-
des siamesas para aprender a semelhança entre
3.2.3 Lasso
duas sentenças em português. Essencialmente,
Seja yi o valor ser predito e xi1 , . . . , xiK deno- dado um par de sentenças, uma rede siamesa
tam as K caracterı́sticas calculadas para cada projeta cada frase em um novo espaço de re-
observação i. Considerou-se o seguinte modelo presentação, utilizando, por exemplo, redes con-
de regressão: volucionais ou recorrentes. Os parâmetros W
de cada projeção de sentença são compartilha-
K
X X dos. Estas representações são então dadas como
yi = β0 + βk xik + α`k xi` xik + εi , entrada para uma métrica de similaridade pré-
k=1 `6=k definida, tal qual as distâncias cosseno ou Eucli-
diana que calculam a semelhança entre as duas
onde εi denota o erro associado com a observação
representações. Durante o treinamento, a rede
i. O modelo acima é linear nas caracterı́sticas e
aprende a matriz de parâmetros (W ) que mini-
inclui todas as interações bidirecionais possı́veis,
miza uma dada função de perda. Em nossos ex-
xi` xik , entre pares de caracterı́sticas. Consi-
perimentos, utilizamos o erro quadrático médio
derando que θ denote o conjunto de todos os
como a função de perda. O erro é a diferença en-
parâmetros (βk )k e (α`k )`k . Ao especificar cor-
tre o verdadeiro valor de semelhança dada nos
retamente uma matriz de design X (cujas co-
dados de treino e o previsto. A partir deste
lunas são as caracterı́sticas e correspondente in-
quadro, tentamos diferentes configurações. Por
terações bidirecionais), podemos formular a re-
exemplo, para projetar as frases tentamos o uso
gressão acima em uma notação de matriz mais
de redes convolutivas (CNN) (Collobert et al.,
simples:
2011) e um tipo de redes recorrentes chamada de
y = Xθ + ,
rede de memória a longo-curto prazo (do inglês
onde y e ε são os valores preditos e o vetor de Long-Short Term Memory - LSTM) (Hochreiter
erro, respectivamente. & Schmidhuber, 1997). Usamos similaridade cos-
Observe que, se tivéssemos de estimar o mo- seno como a medida de similaridade. E para im-
delo acima, utilizando o método dos mı́nimos plementar as redes, usamos a plataforma Keras
quadrados poderı́amos facilmente ter problemas (Chollet, 2015).
com over-fitting devido à grande quantidade de Como mostramos na Seção 4, estas diferentes
parâmetros a serem estimados: configurações de redes siamesas não resultaram
em bom desempenho no conjunto de dados de
(K − 1) · K
nparam = K + 1 + ∼ O(K 2 ). teste. Por essa razão, nós não apresentamos os
2 seus resultados para a competição ASSIN.
A regressão Lasso (Tibshirani, 1996) foi pro-
jetada para lidar com este problema em potencial
de over-fitting, e pertence a uma classe de mode- 4 Resultados de Avaliação
los chamados de regressão regularizada. Através
da aplicação de mı́nimos quadrados com uma res- Nesta seção, discutimos os resultados obtidos
trição L1 adicional sobre os parâmetros, com os métodos descritos no Seção 3. Para
X tal avaliação, consideramos o conjunto de dados
kθk1 = |θk | ≤ C, Trial como conjunto de teste, e ambos os conjun-
k tos de treinamento PT-BR e PT-PT. É impor-
tante comentar que, no conjunto de treino PT-
para algum C > 0, somos capazes de evitar o BR, fizemos a remoção de todas as amostras que
over-fitting. Este método tem a vantagem de ser- também aparecem no conjunto Trial, já que per-
vir como um método de seleção de variáveis, as- cebemos tal duplicação.
sim como, uma vez que a penalidade L1 obriga
Uma comparação dos resultados para cada
efetivamente que algumas das estimativas dos
método é apresentada na Tabela 1. Neste caso, os
parâmetros sejam exatamente igual a 0.
melhores resultados foram alcançados com carac-
3
http://scikit-learn.org terı́sticas de Kenter e Rijke tanto com SVRs ou
Configuração Similaridade RTE

Baseline: Bag of Words Geral 0.47
Caracterı́sticas de Kenter e Rijke - SVR(M) PT-BR 0.51 79.60/0.45
Caracterı́sticas de Kenter e Rijke - SVR(M) PT-PT 0.49 74.20/0.50
Caracterı́sticas de Kenter e Rijke - SVR(M) Geral 0.50 77.00/0.51
Caracterı́sticas de Kenter e Rijke - Lasso PT-BR 0.52
Caracterı́sticas de Kenter e Rijke - Lasso PT-PT 0.50
Caracterı́sticas de Kenter e Rijke - Lasso Geral 0.52
CNN - PT-BR 0.35
LSTM - PT-BR 0.41
Tabela 1: Resultados de avaliação (correlação de Pearson), considerando conjunto Trial como conjunto
de teste.
PT-BR PT-PT Geral
Sim RTE Sim RTE Sim RTE
Equipe P MSE Acc F1 P MSE Acc F1 P MSE Acc F1
Solo Queue 0.70 0.38 - - 0.70 0.66 - - 0.68 0.52 - -
Reciclagem 0.59 1.31 79.05 0.39 0.54 1.10 73.10 0.43 0.54 1.23 75.58 0.40
ASAPP 0.65 0.44 81.65 0.47 0.68 0.70 78.90 0.58 0.65 0.58 80.23 0.54
LEC-UNIFOR 0.62 0.47 - - 0.64 0.72 - - 0.62 0.59 - -
L2F/INESC-ID - - - - 0.73 0.61 83.85 0.70 - - - -
Blue Man Group 0.65 0.44 81.65 0.52 0.64 0.72 77.60 0.61 0.63 0.59 79.62 0.58
Tabela 2: Os melhores resultados de cada time na competição (Sim: tarefa de avaliação de similaridade
semântca; RTE: tarefa de reconhecimento de inferência textual; Acc: acurácia; F1: medida F1; MSE:
erro médio quadrático).
Lasso para a avaliação similaridade semântica, e foi o desempenho destes métodos comparado aos
com SVMs para o reconhecimento inferência tex- métodos dos outros concorrentes.
tual. Com SVR, correlação de Pearson de 0,51, No total, seis equipes participaram da com-
0,49, e 0,50 foram atingidos nos conjuntos PT- petição. Além de nossa equipe, apenas duas ou-
BR, PT-PT, e no geral, respectivamente. Na ta- tras equipes apresentaram resultados para am-
refa de reconhecimento de reconhecimento de in- bas as tarefas e para ambos conjuntos PT-BR e
ferência textual, as pontuações F1 de 0,45, 0,50, PT-PT. Das três equipes restantes, duas focaram
e 0,51, foram alcançados nos mesmos conjuntos, apenas na tarefa de similaridade semântica, con-
respectivamente. Além disso, observa-se que com siderando ambos os conjuntos, e a outra equipe
Lasso, os resultados são muito semelhantes para apenas no conjunto PT-PT, nas duas tarefas.
aqueles do SVR. O melhor resultado de cada equipe,4 ou seja,
A segunda estratégia, recorrendo às redes si- a melhor tentativa, é apresentado na Tabela 2,
amesas, não alcançou bons resultados. No me- e o ranking de cada equipe, também conside-
lhor resultado, a rede LSTM obteu correlação rando apenas a melhor tentativa, é apresentada
de Pearson de 0,41 usando PT-BR como dados na Tabela 3. Considerando apenas a melhor
de treinamento, o qual é 0,11 pontos abaixo da tentativa de cada equipe, conseguimos alcançar
nossa melhor estratégia. Por esta razão, deci- resultados muito bons com o conjuntos PT-BR
dimos por apresentar apenas os resultados com e geral, porém resultados distantes do primeiro
as caracterı́sticas de Kenter, enviando os resul- lugar no conjunto PT-PT. Com PT-BR, fica-
tados tanto de SVR e Lasso para a similaridade mos classificados em primeiro lugar tanto em
semântica, e os resultados com SVM para o re- acurácia como F1 para o reconhecimento de in-
conhecimento de inferência textual. ferência textual, e segundo lugar em similaridade
semântica. Além dos bons resultados, foi surpre-
endente que as caracterı́sticas de Kenter apresen-
5 Resultados da Competição
taram desempenho melhor em reconhecimento de
inferência textual do que na avaliação de simi-
Nesta seção, vamos discutir os resultados dos nos-
sos melhores métodos nos dados do teste cego, 4
Para cada equipe, foi permitido o envio de até três
ou seja, os dados não rotulados de teste, e como tentativas diferentes.
PT-BR PT-PT Geral

Sim RTE Sim RTE Sim RTE
Equipe P MSE Acc F1 P MSE Acc F1 P MSE Acc F1
Solo Queue 1st 1st - - 2nd 2nd - - 1st 1st - -
Reciclagem 5th 5th 3rd 3rd 6th 6th 4th 4th 5th 5th 3rd 3rd
ASAPP 2nd 2nd 1st 2nd 3rd 3rd 2nd 3rd 2nd 2nd 1st 2nd
LEC-UNIFOR 4th 4th - - 4th 4th - - 4th 3rd - -
L2F/INESC-ID - - - - 1st 1st 1st 1st - - - -
Blue Man Group 2nd 2nd 1st 1st 4th 4th 3rd 2nd 2nd 3rd 2nd 1st
Tabela 3: Posição das equipes considerando a melhor abordagem em cada tarefa e conjunto (Sim:
tarefa de avaliação de similaridade semântca; RTE: tarefa de reconhecimento de inferência textual;
Acc: acurácia; F1: medida F1; MSE: erro médio quadrático).
laridade semântica, uma vez que o conjunto de um conjunto de caracterı́sticas da literatura para
caracterı́sticas foi originalmente proposto para a a codificação de similaridade semântica; e a se-
última tarefa. No geral, ficamos em primeiro lu- gunda é baseada em redes neurais. Tendo em
gar em reconhecimento de inferência textual con- conta os maus resultados da segunda estratégia
siderando F1, e em segundo lugar em acurácia. nos conjuntos de dados de avaliação, nós prosse-
Na similaridade semântica, nossa equipe apre- guimos na competição somente com o método da
sentou o segundo melhor valor de correlação de primeira estratégia. Com esta abordagem, ob-
Pearson e o terceiro melhor valor de MSE. No tivemos melhores resultados na tarefa de reco-
conjunto PT-PT, conseguimos nos classificar em nhecimento de inferência textual, alcançando o
segundo lugar em F1 para a inferência textual, e melhor valor de medida F1 no geral, e a melhor
terceiro em acurácia. Entretanto, para a simila- acurácia e F1 no conjunto PT-BR. Na tarefa de
ridade semântica, apenas o quarto lugar (empa- similaridade semântica, nosso melhor resultado
tado com outra equipe) foi atingido. foi o segundo lugar no conjunto PT-BR.
Uma observação importante, é que em al- A experiência de participar na competição
gumas tarefas ou conjuntos as equipes que al- foi muito valiosa, e esperamos continuar traba-
cançaram os melhores resultados foram aquelas lhando nestes problemas para melhorar os nossos
que focaram apenas numa tarefa ou conjunto métodos e resultados atuais. Dentre os traba-
especı́fico. Por exemplo, a equipe Solo Queue lhos futuros, um deles consiste em entender me-
apresentou resultados apenas para a similaridade lhor o motivo das redes siamesas não terem apre-
semântica, e eles venceram esta tarefa tanto para sentado um desempenho tão bom quanto a es-
PT-BR quanto geral, e ficaram em segundo lu- tratégia baseada nas caracterı́sticas de Kenter e
gar para PT-PT. A equipe L2F/INESC-ID, em Rijke. Além disso, gostarı́amos investigar melhor
contrapartida, apresentou resultados apenas para as caracterı́sticas de Kenter, a fim de obter me-
PT-PT, para ambas as tarefas, e obtiveram os lhores resultados nestas tarefas.
melhores resultados em ambos os casos. No nosso
caso, nós apresentado um único método, com
Referências
quase nenhuma diferença com exceção do con-
junto de dados usado para treinamento. Assim
Bentivogli, Luisa, Peter Clark, Ido Dagan,
sendo, como lição aprendida, acreditamos que
Hoa Trang Dang & Danilo Giampiccolo. 2011.
em uma competição futura devemos investir mais
PASCAL recognizing textual entailment chal-
tempo no ajuste fino do algoritmos para as tare-
lenge (RTE-7) at TAC 2011. Available from
fas e conjuntos especı́ficos.
http://www.nist.gov/tac/2011/RTE/.
Byun, Hyeran & Seong-Whan Lee. 2002. Appli-
6 Conclusões e Trabalhos Futuros cations of support vector machines for pattern
recognition: A survey. Em Proceedings of the
Neste artigo apresentamos os métodos e resul- First International Workshop on Pattern Re-
tados seguidos por nossa equipe na competição cognition with Support Vector Machines, 213–
ASSIN, e avaliamos os resultados obtidos, em 236.
comparação com as outras equipes. No nosso
Chollet, François. 2015. Keras: Theano-based
caso, decidimos por explorar abordagens base-
deep learning library. Available from http:
adas em vetores de palavra, seguindo duas es-
//keras.io.
tratégias distintas: a primeira estratégia é base-
ada em modelos de regressão tradicionais usando Chopra, Sumit, Raia Hadsell & Yann LeCun.
2005. Learning a similarity metric discrimina-

tively, with application to face verification. Em
IEEE Computer Society Conference on Com-
puter Vision and Pattern Recognition, vol. 1,
539–546.
Collobert, R., J. Weston, L. Bottou, M. Kar-
len, K. Kavukcuoglu & P. Kuksa. 2011. Natu-
ral language processing (almost) from scratch.
Journal of Machine Learning Research 12.
2493–2537.
Cortes, Corinna & Vladimir Vapnik. 1995.
Support-vector networks. Machine Learning
20(3). 273–297.
Hochreiter, Sepp & Jürgen Schmidhuber. 1997.
Long short-term memory. Neural computation
9(8). 1735–1780.
Kenter, Tom & Maarten de Rijke. 2015. Short
text similarity with word embeddings. Em 24th
ACM Conference on Information and Kno-
wledge Management, 1411–1420. ACM.
Tibshirani, Robert. 1996. Regression shrinkage
and selection via the lasso. Journal of the
Royal Statistical Society. Series B (Methodo-
logical) 267–288.
FlexSTS: Um Framework para Similaridade Semântica Textual

FlexSTS: A Framework for Semantic Textual Similarity
Jânio Freire Vládia Pinheiro David Feitosa

Universidade de Fortaleza Universidade de Fortaleza Universidade de Fortaleza
janio.freire@gmail.com vladiacelia@unifor.br davidfeitosa@gmail.com
Desde 2012, os eventos de Semantic Evalua-
A tarefa de Similaridade Semântica Textual
tion (SemEval) propõem a tarefa de Similaridade
Semântica Textual (STS) como um tema de com- (STS) (Agirre et al., 2013) visa medir o grau de
petição, demonstrando sua relevância. Em 2016, a equivalência semântica entre dois textos, captu-
tarefa foi, pela primeira vez, proposta para lı́ngua rando a noção de que alguns textos são mais simi-
portuguesa, no Workshop de Avaliação de Similari- lares que outros. Por exemplo, o par de sentenças
dade Semântica e Inferência Textual (ASSIN), rea- “A organização criminosa é formada por diver-
lizado durante a conferência PROPOR 2016. Neste sos empresários e por um deputado estadual ” e
trabalho, apresentamos o FlexSTS — um framework “Segundo a investigação, diversos empresários e
flexı́vel para STS que combina diversos componen- um deputado estadual integram o grupo.” devem
tes como parsers morfológicos e sintáticos, bases de
receber um valor de similaridade mais alto que
conhecimento e lexicais, algoritmos de aprendizagem
automática, e algoritmos de alinhamento e cálculo da o par de sentenças “Mas esta é a primeira vez
similaridade. Para a ASSIN, FlexSTS foi instanciado que um chefe da Igreja Católica usa a palavra
em três sistemas de STS para lı́ngua portuguesa. Os em público.” e “A Alemanha reconheceu ontem
resultados obtidos foram comparados com uma abor- pela primeira vez o genocı́dio armênio”. STS di-
dagem baseline que utiliza o coeficiente DICE. fere das tarefas de Inferência textual (RTE) e De-
tecção de Paráfrase, principalmente por assumir
Palavras chave
uma equivalência bidirecional.
Similaridade Textual, Similaridade Semântica, Ava- Computar a similaridade textual é útil para
liação Semântica um número crescente de tarefas de Processa-
mento de Linguagem Natural (PLN) e Inte-
ligência Artificial (IA), tais como a sumarização
Abstract (Lin & Hovy, 2003) ou o reuso de experiência
(Albuquerque et al., 2012).
Since 2012, Semantic Evaluation series (SemEval) Desde 2012, os eventos de Semantic Evalua-
propose the task of Semantic Textual Similarity (STS) tion (SemEval)1 propõem esta tarefa como um
as a evaluation theme, demonstrating the relevance of tema de competição, demonstrando a relevância
this research topic. In 2016, the task was first propo- da mesma e um tema de pesquisa ainda em
sed to the Portuguese language, in the Workshop of aberto. Em 2016, a tarefa foi novamente pro-
Semantic Textual Similarity and Inference Evaluation posta para lı́ngua inglesa na edição do SemE-
(ASSIN), held during the conference PROPOR 2016. val 20162 e, de forma inédita para lı́ngua por-
In this paper, we present the FlexSTS — a flexible tuguesa, no Workshop de Avaliação de Simila-
framework for STS combining several components as ridade Semântica e Inferência Textual (ASSIN),
morphological and syntactic parsers, knowledge and realizado durante a conferência PROPOR 20163 .
lexical databases, machine learning algorithms, and
Tradicionalmente, a tarefa consiste em com-
algorithms for alignment and similarity. For ASSIN,
putar o grau de similaridade semântica entre
FlexSTS was instantiated into three STS systems for
duas sentenças, usando a seguinte escala:
Portuguese. The results were compared with a base-
line approach that uses DICE coefficient.
1. Sentenças completamente diferentes, em as-
Keywords suntos diferentes;
Textual Similarity, Semantic Similarity, Semantic
1
Evaluation. https://en.wikipedia.org/wiki/SemEval
2
http://alt.qcri.org/semeval2016/task1/
3
http://propor2016.di.fc.ul.pt

24– Linguamática Jânio Freire, Vládia Pinheiro & David Feitosa
2. Sentenças não relacionadas, mas que com- de aprendizagem de máquina com vários algorit-
pactuam do mesmo assunto; mos e 72 features. O algoritmo que obteve me-
lhor resultado foi o Gradient Boosting. O resul-
3. Sentenças de certa forma relacionadas, que tado médio da correlação de Pearson foi 0,8414,
podem descrever fatos diferentes mas com- também para lı́ngua inglesa.
partilham alguns detalhes;
O sistema campeão da edição de 2015 foi apre-
4. Sentenças fortemente relacionadas, que di- sentado por Sultan et al. (2015) que propôs uma
vergem apenas em alguns detalhes; abordagem de aprendizagem de máquina utili-
zando o algoritmo Ridge Requession Model. As
5. Sentenças significam exatamente a mesma caracterı́sticas (features) definidas para represen-
coisa. tar o problema baseiam-se na similaridade en-
tre as sentenças, calculada por uma função que
Neste trabalho, apresentamos o FlexSTS — usa uma representação vetorial,
divergem apenas em alguns detalhes; (5) Sentenças sentenças, calculada por uma função criada
que usaaumapar-
um framework genérico que facilita e flexibiliza o tir da matriz LSA, de uma base de paráfrase
significam exatamente a mesma coisa. representação vetorial, criada a partir da matriz
desenvolvimento de sistemas de STS, pois com- (Ganitkevitch et al.,
Neste trabalho, apresentamos o FlexSTS - um LSA, de uma base de 2013) e da
paráfrase árvore de et
(Ganitkevitch de-
bina diversos componentes como parsers mor- pendência sintática. Este sistema obteve resul-
framework genérico que facilita e flexibiliza o al.,2013) e da árvore de dependência sintática. Este
fológicos e sintáticos (NLP toolkits), bases de tado de obteve
0,8015resultado
(correlação de Pearson).
desenvolvimento de sistemas de STS, pois combina sistema de 0,8015 (correlação de
conhecimento e lexicais, algoritmos de aprendi-
diversos componentes como parsers morfológicos Pearson).
zagem automática, e algoritmos
e sintáticos (NLP toolkits), bases de alinhamento
de conhecimento
e cálculo da similaridade. Especificamente para 3 FlexSTS: Framework para Similari-
e lexicais, algoritmos de aprendizagem automática,
avaliação no Workshop ASSIN, FlexSTS foi ins-
3 FlexSTS
dade - Framework
Semântica para Similaridade
Textual
e algoritmos de alinhamento e cálculo da Semântica Textual
tanciado
similaridade. Especificamente para avaliaçãocon-
para lı́ngua portuguesa em três no
figurações Nesta seção apresentamos a proposta do fra-
Workshop(sistemas)
ASSIN, FlexSTSusando foi o parser Freeling
instanciado para Nesta seção apresentamos a proposta do
mework FlexSTS, o qual define diversos compo-
(Padró & Stanilovsky, 2012), o modelo
língua portuguesa em três configurações (sistemas)de simila- framework FlexSTS, o qual define diversos
ridade entre palavras HAL (Padró
(Hyperspace Analog nentes a serem conectados e usados no desenvol-
usando o parser Freeling e Stanilovsky, componentes a serem conectados e usados no
to2012),
Language) (Burgess et al., 1998), a base de co- vimento de sistemas de STS, agregando modelos
desenvolvimento de sistemas de STS, agregando
o modelo de similaridade entre palavras emodelos
medidase de similaridade, toolkits e toolkits
algoritmos
nhecimento Wordnet (Miller, 1995),
HAL (Hyperspace Analog to Language) (Burgess, o algoritmo medidas de similaridade, e
deLivesay
aprendizagem do estado do
algoritmos da estado
arte, emda cada etapa
arte, em cadadoetapa
processo
do
e Lund,automática
1998), a base proposto por Pedre-
de conhecimento de STS. A
gosa
Wordnet (Miller, 1995), o algoritmo en-
et al. (2011), e o modelo de alinhamento de processo de Figura
STS. A1 Figura
apresenta o fluxo ogeral
1 apresenta fluxodo
treaprendizagem
termos proposto por Han et al. (2013). Foram processo
geral do processo de STS e os diversosou
de STS e os diversos componentes
automática proposto em (Pedregosa
enviadas as execuções dos três sistemas de entreSTS plugins necessários.
componentes ou plugins necessários.
et al., 2011), e o modelo de alinhamento
e termos
os resultados obtidos foram comparados
proposto em (Han et al., 2013). Foram com
uma abordagem baseline que utiliza o
enviadas as execuções dos três sistemas de STS e coeficiente
DICE (Rohlf, 1992)
os resultados obtidosdeforam
similaridade
comparados sintática
com uma en-
treabordagem
textos. Abaseline
análise que
de casos
utiliza em que nossoDICE
o coeficiente me-
lhor sistema
(Rohlf, não
1992) de obteve nı́vel sintática
similaridade de acerto desejado
entre textos.
indiciam
A análisemelhorias
de casospara trabalhos
em que futuros.sistema
nosso melhor
não obteve nível de acerto desejado indiciam
melhorias para trabalhos futuros.
2 Trabalhos Relacionados
2 Trabalhos Relacionados
Destacam-se, como estado da arte, os sistemas
Destacam-se,
campeões da tarefa comode estado da arte,
STS das os sistemas
edições do Se-
campeões
mEval 2013, da2014,tarefa
2015.de STS das edições do
SemEval
No SemEval 2013, 2014,
2013,2015.
o sistema campeão foi o
No SemEval
submetido pela equipe 2013, denominada
o sistema campeão
UMBC (Han foi o Figura 1: Fluxo do framework.
submetido pela equipe denominada UMBC (Han et Figura 1: Fluxo do framework.
et al., 2013). Esse sistema consiste de uma abor-
al., 2013). Esse sistema consiste
dagem que agrega conhecimento semântico dede uma abordagem
uma que matriz
agrega conhecimento semânticoalém
LSA e da WordNet, de uma dematriz
apli- 3.1 Análise Morfológica e Sintática
LSA e da WordNet, além de aplicar uma estratégia 3.1 Análise Morfológica e Sintática
car uma estratégia de alinhamento e penalização, Nesta etapa, dados dois textos de entrada t1 e t2, é
que de determina
alinhamento ume conjunto
penalização, que determina
de critérios para umum realizada a detecção das textos
sentenças, a análise
Nesta etapa, dados dois de entrada t1 e
mal alinhamento, e valores e a serem descontadose
conjunto de critérios para um mal alinhamento, morfológica (tokenização, lematização,
t2 , é realizada a detecção das sentenças, a análisePOS
paravalores
cadaetipoa serem
de maldescontados para O
alinhamento. cada tipo de
resultado Tagger) e a análise sintáticalematização,
(dependency POSparsing)
mal alinhamento. O resultado médio da correlação morfológica (tokenização, Tag-
médio da correlação de Pearson foi 0.6181, para de ambos os textos. Inúmeros toolkits disponíveis
ger ) e a análise sintática (dependency parsing) de
de Pearson foi 0.6181, para língua inglesa. podem os realizar estaInúmeros
tarefa paratoolkits
diversasdisponı́veis
línguas.
lı́ngua inglesa. ambos textos.
Em 2014, a equipe vencedora foi a ECNU (Zhao
etEm al.,2014,
2014)a queequipe vencedora
utilizou foi a ECNU
uma abordagem de podem realizar esta tarefa para diversas Toolkit
Em destaque, tem-se o Stanford NLP lı́nguas.
(Zhao et al., 2014) que utilizou uma abordageme (Toutanova
Em et al,
destaque, 2000),o Open
tem-se NLPNLP
Stanford (Baldridge,
Toolkit
aprendizagem de máquina com vários algoritmos 2005), Freeling (Padró e Stanilovsky, 2012).
72 features. O algoritmo que obteve melhor O objetivo desta etapa é gerar, para cada texto de
resultado foi o Gradient Boosting. O resultado entrada, o conjunto de tokens relevantes Tij de cada
médio da correlação de Pearson foi 0,8414, sentença sij. O algorıtmo para a construção do
também para língua inglesa. conjunto Tij, segue os passos listados abaixo:
FlexSTS: Um Framework para Similaridade Semântica Textual Linguamática – 25
(Toutanova et al., 2003), Open NLP (Baldridge, Dentre os modelos do estado da arte, tem-
2005), Freeling (Padró & Stanilovsky, 2012). se a LSA (Latent Semantic Analysis) que se-
O objetivo desta etapa é gerar, para cada gue a hipótese da semântica distribucional, se-
texto de entrada, o conjunto de tokens relevan- gundo a qual “palavras que ocorrem em contex-
tes Tij de cada sentença sij . O algorıtmo para a tos similares tendem a ter significados similares”
construção do conjunto Tij , segue os passos lista- (Harris, 1968). Diversas técnicas de LSA po-
dos abaixo: dem ser aplicadas. HAL (Hyperspace Analog to
Language) (Burgess et al., 1998) é uma técnica
1. Análise morfológica e sintática do texto; de LSA que pode ser aplicada em matriz de co-
ocorrência termo-termo. Singular Value Decom-
2. Reconhecimento de palavras compostas, no- position (SVD) (Landauer & Dumais, 1997) tem
mes próprios, valores numéricos, datas e ex- sido efetiva para melhorar medidas de similari-
pressões de tempo; dade entre palavras, visto que podemos seleci-
3. Aplicação de heurı́sticas, seguindo o traba- onar os k−maiores valores singulares e reduzir
lho de Han et al. (2013): para tamanho k o vetor que representa uma pa-
lavra. Por fim, a similaridade entre duas palavras
(a) Remoção de pontuação; é calculada pela similaridade do cosseno entre os
(b) Expressões numéricas escritas por ex- vetores de cada palavra. Han et al. (2013) apre-
tenso são convertidas para números; sentam uma descrição detalhada do uso do mo-
delo HAL com SVD para lı́ngua inglesa.
(c) Remoção de stop words. O modelo de similaridade semântica inferen-
(d) Referências para tempo são convertidas cialista, proposto por Pinheiro et al. (2014) e Pi-
para o formato militar; nheiro et al. (2010b) define a Word Inferential
Similarity Measure a qual calcula a similaridade
4. Cada token das classes abertas de palavras entre dois conceitos pela interseção entre o con-
(substantivo, verbo, adverbio e adjetivo), junto das pré-condições [ou pós-condições] de uso
incluindo nomes de entidades reconhecidas, dos dois conceitos, aludindo a ideia de que quanto
como nomes próprios e abreviações, passam mais as circunstâncias [ou consequências] de uso
por um processo de desambiguação conforme de ambos os conceitos são similares, mas as in-
definido por Pinheiro et al. (2012). Nesse ferências em que os mesmos podem participar são
passo, cada termo é associado a um conceito similares.
de uma base de conhecimento. Han et al. (2013) propõem uma medida de
5. Finalmente, o conjunto Tij é formado pelos similaridade entre palavras que agrega valor da
tokens e seus atributos morfológicos, lexi- base WordNet à medida LSA.
cais, sintáticos e semânticos.
3.2.2 Estratégias de Alinhamento entre termos
3.2 Similaridade Semântica entre Termos
A estratégia de alinhamento é necessária para de-
A segunda etapa do processo prevê a aplicação de finir quais termos de cada sentença serão compa-
modelos e medidas para cálculo da similaridade rados em termos de similaridade semântica. Con-
entre palavras θ(c, c0 ) e de um algoritmo para ali- sidere os textos de entrada t1 e t2 com as se-
nhamento dos termos c e c0 de cada sentença s1i guintes sentenças {s11 , s12 , s13 } e {s21 , s22 , s23 },
e s2j dos textos t1 e t2 (textos de entrada). respectivamente. Na etapa anterior, os conjun-
tos T11 e T21 com os termos das sentenças s11 e
s21 foram gerados. Propõe-se então uma função
3.2.1 Modelos de Similaridade Semântica entre de alinhamento t-align(c) (Fórmula 1 que busca
Palavras (Word Similarity Models) alinhar o termo c em T11 com um ou mais ter-
mos c0 em T21 , de acordo com uma das seguintes
O framework define a função θ(c, c0 ) como uma
estratégias:
função parametrizável para vários modelos e me-
didas de similaridade entre palavras, possibili- 1. tokens de mesma classe gramatical (POS
tando agregar conhecimento adicional expresso tag) (p.ex. substantivo com substantivo,
em uma ou mais bases de conhecimento e di- verbo com verbo, etc.);
cionários externos, tais como WikiPedia (Milne
& Witten, 2008), WordNet (Miller, 1995), Con- 2. tokens com mesma função sintática (p.ex.
ceptNet (Liu & Singh, 2004), InferenceNet (Pi- sujeito com sujeito, verbo principal com
nheiro et al., 2010a), dentre outras. verbo principal, etc.);
3. tokens com maior valor de similaridade s2 pela média ponderada do somatório das simi-
semântica entre palavras; laridades entre seus termos alinhados.
4. todos os tokens com todos;
Pn Pqi
i=1 θ (c, c0 ) × Pi
Seguindo Han et al. (2013), a estratégia 3 ali- SIMs (s1 , s2 ) = Pnj=1 (3)
i=1 qi × Pi
nha o termo c em Tij com o termo c0 em Tlj ,
que tiver maior valor de similaridade semântica
Onde:
θ(c, c0 ) (Fórmula 1).
• θ(c, c0 ) é o valor da similaridade entre os to-
0
t-align(c) = argmaxc0 ∈Tlj θ c, c . (1) kens das sentenças s1 e s2 , de acordo com o
modelo de similaridade entre palavras defi-
A flexibilidade de adotar uma dentre várias es- nido na etapa anterior (seção 3.2.1);
tratégias de alinhamento permite adaptar o sis-
tema STS a um domı́nio ou aplicação. No en- • n é a quantidade de “tipos gramaticais” de-
tanto, argumentamos que a estratégia 1 (que uti- finidos na estratégia de alinhamento. Por
liza o critério de POS tag) e a estratégia 2 (que exemplo, usando o critério de alinhamento
utiliza o critério de função sintática) são mais in- por função sintática (estratégia 2), pode-se
tuitivas e linguisticamente fundamentadas, em- ter n = 3, conforme os seguintes tipos: SU-
bora mais complexas. JEITO, VERBAL PRINCIPAL e OBJETO;
• qi é a quantidade de elementos em cada “tipo
gramatical” i;
3.3 Similaridade Semântica Textual
• Pi é o peso do “tipo gramatical” i, permi-
Na última etapa do processo, o framework tindo, por exemplo, que a similaridade entre
prevê duas abordagens para cálculo da STS— verbos tenha um peso maior que a similari-
algoritmos de aprendizagem automática e/ou al- dade entre objetos diretos.
goritmos simbólicos.
A abordagem por aprendizagem de máquina Finalmente, a Fórmula 4 calcula a similari-
preconiza o uso de algoritmos supervisionados, dade semântica entre dois textos de entrada t1 e
tais como definidos por Chang & Lin (2011), Hall t2 , com p e k sentenças, respectivamente.
et al. (2009) e Pedregosa et al. (2011), com uso
de caracterı́sticas (features) sintáticas, lexicais e P
SIMs(s,s-align(s))
s∈t1
semânticas. SIMt(t1 , t2 ) = 2p
Na abordagem simbólica, a intuição básica de P (4)
s∈t2 SIMs(s,s-align(s))
uma medida de similaridade semântica entre tex- + 2k
tos é que, quanto mais as sentenças dos textos
são similares, mais os textos são similares. Da Pinheiro et al. (2014) apresentam um exemplo
mesma forma, quanto mais os conceitos articula- ilustrativo de uso das fórmulas acima.
dos nas sentenças são similares, mas similares as
sentenças também serão. Neste sentido, a medida 4 Sistemas STS para ASSIN
SIMt (Fórmula 4) define a similaridade entre dois
textos de entrada t1 e t2 pela média da similari- O framework FlexSTS foi usado para instan-
dade entre as sentenças s e s0 que são mais simi- ciar três sistemas para STS na lı́ngua portu-
lares. Ou seja, cada sentença s de t1 , é alinhada guesa, cujos resultados foram submetidos à ava-
com a sentença s0 de t2 que lhe é mais similar. liação no Workshop de Avaliação de Similaridade
A Fórmula 2 apresenta nossa função de ali- Semântica e Inferência Textual (ASSIN), reali-
nhamento de sentenças s-align(s), a qual, para a zado durante a conferência PROPOR 2016. A
sentença s de t1 (ou t2 ), retorna sua contraparte seguir serão explanadas a configuração de cada
s0 em t2 (ou t1 ), com maior valor da medida de sistema e do sistema baseline. Ao final, os resul-
similaridade entre sentenças SIMs (Fórmula 3). tados e uma discussão dos mesmos serão apresen-
tados.
Importante aqui salientar a flexibilidade do
s-align(s) = argmaxs0 ∈ti SIMs s, s0 . (2) framework FlexSTS onde podem ser mesclados
diversos componentes para instanciar ou criar
A Fórmula 3 define a medida de similaridade sistemas de STS. Basicamente são seleciona-
entre sentenças SIMs entre duas sentenças s1 e dos componentes para cada etapa do processo:
Análise Morfológica, Similaridade entre Palavras,

e Similaridade entre Textos. As tabelas 1, 2 e 3
apresentadas nas subseções a seguir detalham os DICE(c, c0 ) =
  0 0
componentes utilizados em cada sistema. A esco-   isN um(c) ∧ isN um(c ) ∧ c = c
lha dos componentes visou combinar abordagens 

1 se isCorrespondingP ronoun(c, c0 )
simbólicas e estatı́sticas. 

 diceCoefficient(c, c0 ) > 2/3

0 caso contrário
4.1 STS MachineLearning (5)
O sistema STS MachineLearning aplicou uma Onde,
abordagem hı́brida para cálculo da STS — apren-
• isN um(c) retorna verdadeiro se c é um
dizagem automática usando dois atributos (featu-
número;
res) – similaridade entre palavras pelo coeficiente
DICE e similaridade entre palavras pela Word- • isCorrespondingP ronoun(c, c0 ) verifica se
Net. A configuração do sistema está descrita na os termos c e c0 são pronomes corresponden-
Tabela 1. tes. Por exemplo, para os pronomes “eu” e
“me” retorna verdadeiro;
Etapa Componente Ferramenta
/ Modelo • diceCoefficient(c, c0 ) calcula o coeficiente de
Análise Mor- POS Tagger / FreeLing Dice entre os termos c e c0 , conforme definido
fológica/Sintática Lematização por Rohlf (1992).
Similaridade Coeficiente Ver 4.1.1
Semântica de DICE Feature WNET
Palavras
WordNet Ver 4.1.1 Esta feature representa a similaridade
Similaridade Aprendizagem Ridge Regression semântica textual entre os dois textos (exemplo)
Semântica Tex- Automática Model calculada pela Fórmula 4 usando conhecimento
tual
da WordNet para calcular a similaridade entre
palavras, conforme Formula 6:
Tabela 1: Configuração do sistema STS Machi-
neLearning. 0
WNET0 (c, c0 ) = 0.5eαD(c,c ) (6)
Onde,
4.1.1 Modelo de Aprendizagem de Máquina
• D(c, c0 ) é uma função de distância entre os
No cálculo de STS foi usado o algoritmo ridge re- termos na base WordNet, calculado con-
gression model (Pedregosa et al., 2011), um mo- forme segue:
delo de regressão com α = 1.0 e um resolvedor
automático que seleciona o peso de uma coleção 0, caso os termos pertençam ao mesmo
dependendo do tipo de dado. Esses algoritmos fo- conjunto de sinônimos (synset);
ram usados por Sultan et al. (2015), campeão da 1, nos seguintes casos: uma palavra é hi-
tarefa de STS no SemEval 2015. O treinamento peronı́mia direta da outra; um adjetivo
do algoritmo ridge regression model foi realizado tem uma relação direta do tipo similar
com o dataset de treinamento disponibilizado na to com outro; uma palavra é uma forma
ASSIN. A seguir detalhamos os cálculos das duas derivacional da outra.
features usadas para caracterizar o conjunto de 2, nos seguintes casos: uma palavra é 2
exemplos. links de hiperonı́mia indireta da outra;
um adjetivo é 2 links similar to com
Feature DICE outro; uma palavra é cabeça (head ) do
glossário da outra, ou sua hiperônima
Esta feature representa a similaridade direta, ou uma das suas hipônimas di-
semântica textual entre os dois textos (exemplo) retas.
calculada pela Fórmula 4 usando a coeficiente • α, parâmetro de normalização definido por
DICE (Rohlf, 1992) como medida de similari- Han et al. (2013) e fixado em 0,25.
dade entre palavras θ(c, c0 ) = DICE(c, c0 ). A
Fórmula 5 define este cálculo. A versão utilizada da WordNet foi a versão 3.0
em inglês e foi realizada a tradução dos corpus da
ASSIN (Português-Inglês) pelo Google Tradutor. singulares. Assim, o tamanho do vetor que re-
A escolha desta solução deveu-se a dificuldades presenta as palavras foi reduzido de 24000 para
técnicas no uso da OpenWordNet.PT4 . 300. A similaridade entre os termos foi calculada
utilizando a função cosseno entre os vetores.
4.2 STS LSA
4.3 STS WORDNET LSA
O sistema STS LSA aplicou somente a aborda-
gem simbólica para cálculo da STS, usando o O sistema STS WORDNET LSA aplicou so-
modelo LSA de similaridade entre palavras e a mente a abordagem simbólica para cálculo da
estratégia de alinhamento por termos com maior STS, o modelo LSA de similaridade entre pala-
similaridade (estratégia 3). A configuração do vras e a estratégia de alinhamento por termos
sistema STS LSA está descrita na Tabela 2 com maior similaridade (estratégia 3). Como
conhecimento adicional, adicionou informação
Etapa Componente Ferramenta da WordNet no cálculo da similaridade LSA, a
/ Modelo exemplo do trabalho de Han et al. (2013). A con-
Análise Mor- POS Tagger / FreeLing figuração do sistema STS WORDNET LSA está
fológica/Sintática Lematização descrita na Tabela 3.
Similaridade Modelo LSA Ver 4.2.1 Etapa Componente Ferramenta
Semântica de (HAL+SVD) / Modelo
Palavras
Análise Mor- POS Tagger / FreeLing
Estratégia de t-align3 fológica/Sintática Lematização
alinhamento (fórmula 1)
Similaridade Modelo LSA Ver 4.2.1
Similaridade Altoritmo Ma- Fórmulas 2, 3 e 4 Semântica de (HAL+SVD)
Semântica Tex- temático STS Palavras
tual
Estratégia de t-align3
Tabela 2: Configuração do sistema STS LSA. alinhamento (fórmula 1)
Base de Co- Ver 4.3.1
nhecimento /
WordNet
4.2.1 Modelo de Similaridade LSA Similaridade Altoritmo Ma- Fórmulas 2, 3 e 4
Semântica Tex- temático STS
Foi usada a variação da técnica LSA chamada tual
HAL (Hyperspace Analog to Language) (Burgess
et al., 1998) que constrói a matriz de coocorrência Tabela 3: Configuração do sistema
termo-termo. Para a construção da msubatriz, STS WORDNT LSA.
foi usado o corpus CETENFolha5 — um corpus
de cerca de 24 milhões de palavras em Português-
Brasileiro, com base nos textos do jornal Folha 4.3.1 LSA + Conhecimento da WordNet
de S. Paulo que fazem parte do corpus do Núcleo
Interinstitucional de Linguı́stica Computacional À medida de similaridade entre palavras
(NILC), da USP/São Carlos. θ(c, c0 ) = LSA(c, c0 ) (ver 3.2.1) foi adicionado co-
Por questões de desempenho computacio- nhecimento da base WordNet (Han et al., 2013).
nal, foram selecionados os 24000 termos que A Fórmula 7 apresenta este cálculo.
mais ocorrem no corpus, das classes abertas
de palavras (substantivos, verbos, adjetivos e
advérbios). Neste vocabulário não existem no- WNET(c, c0 ) = BASIC(c, c0 )+WNET0 (c, c0 ) (7)
mes próprios. A frequência de coocorrência entre
os 24000 termos foi contada em uma janela de
tamanho fixo que passa por todo o corpus. O ta-
BASIC(c, c0 ) =
manho de janela utilizado foi ±4, pois foi o que

obteve melhor resultado por Han et al. (2013).  θ(c, c0 ) se θ 6= nulo
Por fim, foi aplicada a estratégia de SVD (Sin- 

DICE(c, c0 ) se usaDice = >∧
gle Value Decomposition) de Baglama & Reichel (θ = nulo ∨ θ(c, c0 ) = 0)


(2015), e selecionados os k = 300 maiores valores 
0 caso contário
4
http://wnpt.brlcloud.com/wn/
5
http://www.linguateca.pt/cetenfolha/
Onde, prejudicado o desempenho dos sistemas que

utilizam esta base.
• θ(c, c0 ) = LSA(c, c0 ) (ver 3.2.1);
• usaDice é um parâmetro que indica se, em O uso do sistema baseline pelo coeficiente
caso valor θ(c, c0 ) nulo ou zerado, deva-se DICE permitiu constatar que uma medida sim-
usar o valor do coeficiente DICE; ples de similaridade sintática obteve resultado
significativo em relação aos corpus PT-BR (0,60)
• DICE(c, c0 ), conforme definido em
e PT-PT (0,69). Em apenas 211 casos do corpus
Fórmula 5;
Gold Standard ASSIN, o valor absoluto da dife-
• WNET0 (c, c0 ), conforme definido em rença entre o valor da similaridade DICE e o valor
Fórmula 6. GOLD foi superior a 2 (|DICE − GOLD| > 2).
No demais casos (1935), estes valores são muito
4.4 STS Baseline próximos. Portanto, conclui-se que os corpus AS-
SIN possuem uma similaridade lexical alta, difi-
O sistema STS Baseline foi usado neste traba- cultando a influência de conhecimento semântico
lho apenas como referência inicial de avaliação, à tarefa de STS.
visto que, antes da ASSIN, inexistia estado da Analisando alguns casos em que o sistema
arte para STS em lı́ngua portuguesa. Nossa pro- STS MachineLearning obteve melhor resultado
posta foi utilizar o coeficiente de similaridade comparado com a solução baseline (DICE),
DICE (conforme definido em 3.1), como sistema identificamos que conhecimento semântico agre-
baseline para a tarefa de STS. gou valor à tarefa. Por exemplo, para o
par de texto t1 e t2 na Figura 2, o sistema
4.5 Resultados e Discussão STS MachineLearning apresentou valor de simi-
laridade mais correlato ao valor GOLD, pois en-
A tabela 4 apresenta os resultados da medida controu valor de similaridade entre as palavras
de correlação de Pearson dos três sistemas STS “intervalo” e “tempo”.
(runs), enviados para ASSIN, após execução no
dataset de teste para Português-Brasileiro (PT-
BR) e Português-Portugal (PT-PT). Nosso me- t1 = “O time treinado por Rafa Benı́tez as-
lhor sistema foi o STS-MachineLearning em am- sumiu uma postura covarde em o segundo
bos os datasets. Na última linha da Tabela 4, tempo e apenas se defendeu”
apresentamos os resultados do sistema baseline, t2 = “O time voltou de o intervalo com uma
que obteve melhor desempenho que qualquer um postura covarde e passou a apenas se defen-
dos sistemas avaliados para PT-PT. der”
Sistema PT-BR PT-PT

STS MachineLearning 0,62 0,64 Figura 2: Exemplo de textos com uso de conhe-
STS LSA 0,56 0,59 cimento da WordNet.
STS WNET LSA 0,61 0,63
STS Baseline 0,60 0,69
5 Conclusão
Tabela 4: Resultados dos sistemas STS desenvol-
vidos a partir do framework FlexSTS. Neste trabalho apresentamos a proposta do fra-
mework FlexSTS, o qual define diversos com-
A seguir elencamos duas dificuldades impor- ponentes a serem conectados para o desenvolvi-
tantes enfrentadas na construção dos sistemas de mento de sistemas de STS, agregando modelos
STS submetidos à ASSIN: e medidas de similaridade, toolkits e algoritmos
do estado da arte, em cada etapa do processo
• No sistema STS LSA, a matriz de coo- de STS.
corrência termo-termo gerada era muito es-
FlexSTS foi instanciado em três sistemas:
parsa, implicando em pouca relevância do
cálculo da similaridade pela LSA. Atribui-se 1. STS MachineLearning: abordagem hı́brida
como causa o tamanho do corpus e tamanho para cálculo da STS com aprendizagem au-
dos textos do corpus; tomática usando dois atributos (features)
• O uso da versão em Inglês da WordNet com — similaridade entre palavras pelo coefici-
a necessidade de solução de tradução Por- ente DICE e similaridade entre palavras pela
tuguês-Inglês dos corpus ASSIN pode ter WordNet;
2. STS LSA: abordagem simbólica que usa ba- Chang, Chih-Chung & Chih-Jen Lin. 2011.
sicamente o modelo de similaridade de pala- LIBSVM: A library for support vector machi-
vras da Latent Semantic Analysis (LSA); nes. ACM Trans. Intell. Syst. Technol. 2(3).
27:1–27:27.
3. STS WORDNET LSA: uma abordagem
também simbólica que agrega conhecimento Ganitkevitch, Juri, Benjamin Van Durme & Ch-
da WordNet à similaridade pela LSA. ris Callison-Burch. 2013. PPDB: The paraph-
rase database. Em Proceedings of NAACL-
Os sistemas foram testados nos datasets de teste HLT, 758–764.
disponı́veis na ASSIN para Português-Brasileiro Hall, Mark, Eibe Frank, Geoffrey Holmes, Ber-
(PT-BR) e Português-Portugal (PT-PT). Nosso nhard Pfahringer, Peter Reutemann & Ian H.
melhor sistema foi o STS-MachineLearning com Witten. 2009. The weka data mining software:
resultado para o PT-PT de 0,64 (correlação de An update. SIGKDD Explorations Newsletter
Pearson). Os principais problemas foram a es- 11(1). 10–18.
parsidade da matriz de coocorrência termo-termo
construı́da a partir do corpus CETEMFolha e o Han, Lushan, Abhay L. Kashyap, Tim Finin,
uso da WordNet em inglês. Um resultado impor- James Mayfield & Johnathan Weese. 2013.
tante foi o desempenho do sistema baseline pelo UMBC EBIQUITY-CORE: Semantic Textual
coeficiente de DICE, que obteve 0,69 para o cor- Similarity Systems. Em Proceedings of the Se-
pus PT-PT, indiciando que os corpus possuem cond Joint Conference on Lexical and Compu-
alta similaridade lexical. tational Semantics, 44–52. ACL.
A análise dos resultados, dos problemas en- Harris, Zellig. 1968. Mathematical structures of
frentados e de erros do sistema indicam os seguin- language. Wiley.
tes trabalhos futuros: criação de mais cenários de
testes com diversificação de algoritmos de ma- Landauer, Thomas & Susan Dumais. 1997. A
chine learning e novas features; construção de solution to Plato’s problem: The Latent Se-
nova matriz LSA a partir de um corpus mais ro- mantic Analysis theory of the acquisition, in-
busto na lı́ngua portuguesa; agregação de conhe- duction, and representation of knowledge. Psy-
cimento da Wikipedia e InferenceNet. chological Review 104(2). 211–240.
Lin, Chin-Yew & Eduard Hovy. 2003. Automa-
tic evaluation of summaries using n-gram co-
Referências occurrence statistics. Em Proceedings of the
2003 Conference of the North American Chap-
Agirre, Eneko, Daniel Cer, Mona Diab, Aitor ter of the Association for Computational Lin-
Gonzalez-Agirre & Weiwei Guo. 2013. *SEM guistics on Human Language Technology - Vo-
2013 shared task: Semantic textual similarity. lume 1 NAACL ’03, 71–78.
Em Second Joint Conference on Lexical and
Computational Semantics (*SEM), 32–43. Liu, Hugo & Push Singh. 2004. Conceptnet — a
practical commonsense reasoning tool-kit. BT
Albuquerque, Adriano, Vládia Pinheiro & Thi- Technology Journal 22(4). 211–226.
ago Leite. 2012. Reuse of experiences applied
to requirements engineering: An approach ba- Miller, George A. 1995. Wordnet: A lexical data-
sed on natural language processing. Em Pro- base for english. Communications of the ACM
ceedings of the 24th International Conference 38. 39–41.
on Software Engineering & Knowledge Engi- Milne, David & Ian H. Witten. 2008. An effec-
neering (SEKE’2012), 574–577. tive, low-cost measure of semantic relatedness
obtained from Wikipedia links. Em Proceeding
Baglama, Jim & Lothar Reichel. 2015. irlba: Fast of AAAI Workshop on Wikipedia and Artificial
truncated svd, pca and symmetric eigen decom- Intelligence: an Evolving Synergy, 25–30.
position for large dense and sparse matrices. r
package version 2.0.0. Padró, Lluı́s & Evgeny Stanilovsky. 2012. Free-
ling 3.0: Towards wider multilinguality. Em
Baldridge, Jason. 2005. The OpenNLP project. Language Resources Evaluation Conference,
http://opennlp.apache.org. 2473–2479.
Burgess, Curt, Kay Livesay & Kevin Lund. 1998. Pedregosa, Fabian, Gaël Varoquaux, Alexandre
Explorations in context space: Words, senten- Gramfort, Vincent Michel, Bertrand Thirion,
ces, discourse. Discourse Processes 25(2–3). Olivier Grisel, Mathieu Blondel, Peter Pret-
211–257. tenhofer, Ron Weiss, Vincent Dubourg, Jake
Vanderplas, Alexandre Passos, David Courna- Zhao, Jiang, Tiantian Zhu & Man Lan. 2014.
peau, Matthieu Brucher, Matthieu Perrot & ECNU: one stone two birds: Ensemble of he-
Édouard Duchesnay. 2011. Scikit-learn: Ma- terogenous measures for semantic relatedness
chine learning in python. Journal of Machine and textual entailment. Em Proceedings of the
Learning Research 12. 2825–2830. 8th International Workshop on Semantic Eva-
luation, SemEval-COLING 2014, 271–277.
Pinheiro, Vládia, Vasco Furtado & Adriano Al-
buquerque. 2014. Semantic textual similarity
of Portuguese-language texts: An approach
based on the semantic inferentialism model.
Em Jorge Baptista, Nuno Mamede, Sara Can-
deias, Ivandré Paraboni, Thiago A. S. Pardo
& Maria das Graças Volpe Nunes (eds.), Com-
putational Processing of the Portuguese Lan-
guage: 11th International Conference, 183–
188.
Pinheiro, Vládia, Vasco Furtado, Lı́vio Melo
Freire & Caio Ferreira. 2012. Knowledge-
intensive word disambiguation via common-
sense and wikipedia. Em Proceedings of the
21st Brazilian Conference on Advances in Arti-
ficial Intelligence SBIA’12, 182–191. Springer-
Verlag.
Pinheiro, Vladia, Tarcisio Pequeno, Vasco Fur-
tado & Wellington Franco. 2010a. Inferen-
ceNet.Br: Expression of inferentialist seman-
tic content of the portuguese language. Em
Thiago Alexandre Salgueiro Pardo, António
Branco, Aldebaro Klautau, Renata Vieira &
Vera Lúcia Strube de Lima (eds.), Computa-
tional Processing of the Portuguese Language:
9th International Conference, 90–99.
Pinheiro, Vládia, Tarcisio Pequeno & Vasco Fur-
tado. 2010b. Um analisador semântico infe-
rencialista de sentenças em linguagem natural.
Linguamática 2(1). 111–130.
Rohlf, F. James. 1992. Numerical taxonomy and
multivariate analysis system. Department of
Ecology and Evolution, State University of
New York.
Sultan, Md Arafat, Steven Bethard & Tamara
Sumner. 2015. Dls@cu: Sentence similarity
from word alignment and semantic vector com-
position. Em Proceedings of the 9th Internatio-
nal Workshop on Semantic Evaluation (SemE-
val 2015), 148–153.
Toutanova, Kristina, Dan Klein, Christopher D.
Manning & Yoram Singer. 2003. Feature-rich
part-of-speech tagging with a cyclic depen-
dency network. Em Proceedings of the 2003
Conference of the North American Chapter of
the Association for Computational Linguistics
on Human Language Technology - Volume 1
NAACL’03, 173–180.
INESC-ID@ASSIN: Medição de Similaridade Semântica e

Reconhecimento de Inferência Textual
INESC-ID@ASSIN: Measuring Semantic Similarity and Recognizing Textual Entailment
Pedro Fialho Ricardo Marques

Universidade de Évora, INESC-ID IST/UTL, INESC-ID
pedro.fialho@l2f.inesc-id.pt ricardo.sa.marques@tecnico.ulisboa.pt
Bruno Martins Luı́sa Coheur
IST/UTL, INESC-ID IST/UTL, INESC-ID
bruno.g.martins@tecnico.ulisboa.pt luisa.coheur@l2f.inesc-id.pt
Paulo Quaresma
Universidade de Évora, INESC-ID
pq@di.uevora.pt
Neste artigo apresentamos o sistema INESC- Detetar a quantidade e o tipo de similaridade en-
ID@ASSIN, o qual competiu no evento “Avaliação tre duas frases é uma tarefa complexa de Compre-
de Similaridade Semântica e Inferência Textual” (AS-
SIN) de 2016, nas tarefas de similaridade semântica e
ensão de Lı́ngua Natural, principalmente devido
reconhecimento de paráfrases (i.e., inferência textual). à variabilidade lexical e sintática caracterı́stica da
O sistema INESC-ID@ASSIN aborda o problema de lı́ngua natural. Detetar equivalência entre frases
medir a similaridade entre frases como uma tarefa de pode incluir a medição de semelhança semântica,
regressão e aborda a inferência textual como uma ta- e o problema está também relacionado com as
refa de classificação. Embora o INESC-ID@ASSIN tarefas de identificação de paráfrases ou de in-
seja baseado essencialmente em caracterı́sticas lexi- ferência textual.
cais simples para deteção de paráfrases e reconheci-
mento de inferência textual, foram obtidos resultados
A inferência textual pode ser definida como a
promissores nesta avaliação conjunta. tarefa de estimar a relação entre duas unidades de
lı́ngua natural (por exemplo, entre duas frases),
Palavras chave onde a veracidade de uma requer a veracidade
aprendizagem supervisionada, regressão, classificação da outra. Podemos dizer que de uma frase A se
deduz a frase B se e somente se sempre que A é
verdade B também é verdade.
Abstract
Paráfrases são um tipo especial de in-
ferência, nomeadamente inferência bidirecional.
In this article we present INESC-ID@ASSIN, a Uma paráfrase é uma espécie de equivalência
system that competed in the 2016 joint evaluation semântica, responsável pela interligação de fra-
effort entitled Avaliação de Similaridade Semântica ses através da substituição de classes gramaticais
e Inferência Textual (ASSIN), in the tasks of se- e mantendo variáveis inalteradas entre as estru-
mantic similarity and textual entailment recognition. turas lexicais e sintáticas.
INESC-ID@ASSIN addresses the problem of detec-
ting sentence similarity as a regression task, and it As tarefas de Identificação de Inferência Tex-
addresses textual entailment as a classification task. tual (RTE, do Inglês Recognizing Textual Entail-
Although INESC-ID@ASSIN relies mainly on simple ment) e cálculo da similaridade semântica têm
lexical features for detecting paraphrases and recogni- muitas aplicações práticas, sendo usadas em sis-
zing textual entailment, promising results were achi- temas de pergunta-resposta, para extração de in-
eved in this joint evaluation. formação, sumarização ou tradução automática
Keywords (MT, do Inglês Machine Translation), entre ou-
tros.
supervised learning, regression, classification

34– Linguamática Pedro Fialho, Ricardo Marques, Bruno Martins, Luı́sa Coheur & Paulo Quaresma
Neste artigo apresentamos o INESC- manualmente ou aprendido através de dados) as

ID@ASSIN, um sistema que deteta paráfrases frases são classificadas como paráfrases.
e faz inferência textual, baseado em aprendiza- Zhang & Patrick (2005) propuseram um
gem automática supervisionada e que explora método de classificação em que o par de frases
propriedades lexicais que relacionam duas é simplificado para formas canónicas através de
frases. Detetar a quantidade de semelhança regras para alterar a voz passiva para ativa, en-
é conseguido com um modelo de regressão, tre outras. Utilizando árvores de decisão, os au-
enquanto o tipo de inferência é previsto com um tores exploram caracterı́sticas baseadas em com-
classificador. parações lexicais, tais como a distância de edição
Avaliámos a nossa abordagem no contexto da entre sı́mbolos (e.g., letras ou palavras).
ASSIN (Avaliação de Similaridade Semântica e Além de utilizar caracterı́sticas de com-
Inferência Textual), uma tarefa de avaliação con- paração lexical, autores como Kozareva & Mon-
junta no PROPOR (Conferência Internacional toyo (2006) ou Ul-Qayyum & Wasif (2012) pro-
sobre o Processamento Computacional do Por- puseram abordagens baseadas em classificação
tuguês) de 2016. A tarefa ASSIN forneceu dados utilizando uma combinação de caracterı́sticas le-
de treino e teste com exemplos em Português Eu- xicais, semânticas e heurı́sticas (por exemplo,
ropeu (PT-PT) e do Brasil (PT-BR). padrões de negação) para auxiliar a deteção de
O resto deste artigo está organizado da se- falsas paráfrases.
guinte forma: A Secção 2 apresenta trabalhos Os métodos utilizados na maioria das ante-
relacionados. A Secção 3 apresenta o sistema riores abordagens funcionam ao nı́vel das fra-
INESC-ID@ASSIN e a Secção 4 detalha a ava- ses, mas visto que as paráfrases utilizam tipi-
liação e resultados. Finalmente, a Secção 5 con- camente sinónimos ou outras formas de pala-
clui e indica trabalho futuro. vras relacionadas, autores como Mihalcea et al.
(2006) ou Fernando & Stevenson (2008) desenvol-
veram métodos de similaridade ao nı́vel de pala-
2 Trabalho relacionado
vras para determinar se uma frase é paráfrase de
outra. Estes métodos são baseados em medidas
O aparecimento de tarefas conjuntas foca-
de similaridade palavra-a-palavra (por exemplo,
das no problema da RTE tem fomentado
métricas baseadas em dados que utilizem a Word-
experiências com várias abordagens baseadas
Net). Métodos baseados em alinhamentos (como
em dados/aprendizagem, aplicadas a tarefas
os formulados para sumarização ou tradução) são
semânticas (Dagan et al., 2009, 2013; Zhao et al.,
também usuais.
2014; Bjerva et al., 2014). Particularmente, a dis-
ponibilidade de conjuntos de dados para apren- Madnani et al. (2012) propuseram uma abor-
dizagem supervisionada tornou possı́vel formular dagem baseada em métricas para alinhamento de
o problema da RTE como uma tarefa de clas- sequências de caracteres, utilizadas em tradução
sificação, em que caracterı́sticas são extraı́das a automática (MT). Embora o uso de métricas de
partir dos exemplos de treino e utilizadas pelos MT para a tarefa de identificação de paráfrases
algoritmos de aprendizagem automática na cons- não seja novidade (Finch et al., 2005), o mérito
trução de um classificador, que é finalmente apli- dos autores está na re-avaliação dessas métricas,
cado aos dados de teste. conjuntamente com a criação de novas métricas,
alcançando um dos melhores resultados sobre o
Abordagens recentes para RTE ou para a
conhecido Microsoft Research Paraphrase Corpus
identificação de paráfrases utilizam algoritmos
(Dolan et al., 2004).
de aprendizagem automática (por exemplo, clas-
sificadores lineares) com uma variedade de ca- Pakray et al. (2011) descrevem uma aborda-
racterı́sticas, baseadas em comparações sobre gem lexical e sintática para resolver o problema
padrões lexicais, sintáticos e/ou semânticos, con- da RTE. Este método resulta da composição
tagem de co-ocorrências em documentos, e regras de vários módulos, nomeadamente módulos de
de primeira ordem para reescrita sintática. pré-processamento, similaridade lexical e simila-
ridade sintática.
Diferentes abordagens têm sido formuladas,
muitas vezes envolvendo a combinação de carac- Tsuchida & Ishikawa (2011) propuseram um
terı́sticas como as acima descritas. Uma aborda- sistema RTE que usa métodos de aprendiza-
gem simples é a estratégia saco-de-palavras, em gem automática com caracterı́sticas baseadas
que a semelhança de um par de frases é calculada em informação lexical e ao nı́vel das estruturas
utilizando a similaridade do cosseno entre repre- predicado-argumento. A ideia subjacente é deli-
sentações vetoriais. Se o valor da similaridade é mitar os pares texto-hipótese identificados como
superior a um limiar pré definido (estabelecido tendo inferência textual, mas que na verdade não
Medição de Similaridade Semântica e Reconhecimento de Inferência Textual Linguamática – 35
têm, ou seja, falsos positivos classificados pelo 3.1 Similaridade lexical

módulo de nı́vel lexical podem ser rejeitados pelo
módulo de nı́vel da frase. As caracterı́sticas de comparação lexical consi-
É importante notar que os trabalhos an- deradas no INESC-ID@ASSIN são as seguintes:
teriores normalmente correspondem a métodos
que são independentes do idioma pelo uso de 1. Maior Subsequência Comum. O tama-
estratégias simples, tal como a contagem n- nho da maior subsequência comum (LCS)
gramas. Da maioria das abordagens RTE des- entre o texto e a hipótese. O valor é fixado
critas também se conclui que os módulos lexicais entre 0 e 1, dividindo o tamanho da LCS
alcançam melhores resultados do que os módulos pelo tamanho da frase mais longa.
sintáticos e baseados na estrutura de frases. 2. Distância de edição. A distância mı́nima
As mais recentes abordagens a estes proble- de edição/alteração entre sı́mbolos (letras ou
mas dependem de recursos dependentes do idi- palavras) do texto e da hipótese.
oma e, como seria de esperar, focam-se na lı́ngua
3. Comprimento. A diferença absoluta de
Inglesa, explorando modelos de semântica dis-
comprimento (número de sı́mbolos) entre
tribuı́da, utilizando recursos como word embed-
o texto e a hipótese. Os comprimentos
dings (Cheng & Kartsaklis, 2015). Apenas muito
máximo e mı́nimo são também considerados
recentemente foram publicados recursos que per-
(separadamente) como caracterı́sticas.
mitiriam replicar algumas destas experiências
tendo em conta o Português (por exemplo, (Ro- 4. Similaridade por Cosseno. A similari-
drigues et al., 2016)). dade do cosseno entre o texto e a hipótese,
com base no número de ocorrências de cada
palavra no texto/hipótese (a representação
3 INESC-ID@ASSIN usa a frequência dos termos nos vetores as-
sociados a cada documento). A fórmula do
Os modelos de regressão/classificação gerados no cosseno é mostrada na Equação 1.
contexto do INESC-ID@ASSIN foram baseados
no formalismo dos kernel methods e usam várias
métricas de similaridade. Vários estudos anterio- →
− →
−
V (s1 ) · V (s2 )
res, na área de Processamento de Lı́ngua Natural cos (s1 , s2 ) = →− →
− (1)
(NLP, do Inglês Natural Language Processing) e || V (s1 )|| × || V (s2 )||
também em outros domı́nios, usaram métodos se-
melhantes para combinar múltiplas métricas de O resultado é um número contı́nuo entre 0 e
similaridade no contexto de obter a semelhança 1. Quanto maior o valor, maior a semelhança
entre objetos (Martins, 2011; Madnani et al., no par texto-hipótese.
2012). 5. Similaridade de Jaccard. A similaridade
As métricas usadas para extrair carac- de Jaccard entre o texto e a hipótese. O va-
terı́sticas dos dados têm em conta, em especial, lor retornado é um número contı́nuo entre 0
contribuições da informação lexical. Algumas e 1, onde 1 significa que as frases são iguais,
destas métricas inspiram-se em estudos focados e 0 que são totalmente diferentes. O coe-
na identificação de paráfrases; outras em estudos ficiente de similaridade de Jaccard é usado
relativos a RTE. Várias formas de representação para comparar a semelhança e diversidade
do texto são tidas em conta (minúsculas, Me- de conjuntos. Mede a semelhança entre con-
taphone, etc.). juntos finitos, e é definido como a divisão
Os recursos utilizados no INESC-ID@ASSIN entre o número de elementos na intersecção
são explicados nas seguintes secções e descritos e na união dos conjuntos. A similaridade de
mais detalhadamente em Marques (2015). Uma Jaccard entre dois conjuntos de palavras s1
máquina de suporte de vectores (do Inglês Sup- e s2 é assim definida da seguinte forma:
port Vector Machine (SVM)) foi utilizada para a
classificação (RTE e identificação de paráfrases) |s1 ∩ s2 |
e um modelo do tipo Kernel Ridge Regression Jaccard (s1 , s2 ) = (2)
|s1 ∪ s2 |
(KRR) foi utilizado para obter valores contı́nuos
(quantificação de similaridade). Usamos as im- 6. Soft TF-IDF. A métrica Soft TF-IDF mede
plementações SVM/KRR do pacote de ferramen- a similaridade entre representações vetoriais
tas scikit-learn1 , para Python. das frases, mas considerando uma métrica de
similaridade interna para encontrar palavras
1
http://scikit-learn.org/ equivalentes. A métrica Jaro-Winkler para
similaridade entre palavras, com um limiar ao seu comprimento (Papineni et al., 2002).
de 0.9, é utilizada como métrica de similari- O maior n que utilizámos foi 3, para a cober-
dade interna. A distância Jaro(s1 , s2 ) entre tura de frases curtas, visto que é sugerido em
duas sequências s1 e s2 é: Papineni et al. (2002) que este valor produz
um desempenho semelhante, em comparação
com o valor clássico de 4-gramas (BLEU-4).
Jaro
( (s1 , s2 ) =
0 2. METEOR. Esta métrica é uma variação do
se m = 0 BLEU com base na média harmónica da pre-
1 m m m−t
3 × |s1 | + |s2 | + m 6 0
se m = cisão e cobertura de unigramas, tendo a co-
(3) bertura maior peso do que a precisão (Ba-
Na equação, m é o número de caracteres nerjee & Lavie, 2007).
coincidentes e t é metade do número de 3. TER. A Taxa de Erros de Tradução (TER)
transposições. A métrica Jaro-Winkler mo- é uma extensão da Taxa de Erros em Pala-
difica a métrica Jaro adicionando-lhe mais vras (ou Word Error Rate — WER), que
peso quando há um prefixo em comum. Este é uma métrica simples baseada em pro-
melhoramento define 2 variáveis: (1) PL, o gramação dinâmica e que é definida como o
comprimento do maior prefixo comum entre número de alterações necessárias para trans-
duas sequências, com um limite de 4, e (2) formar uma sequência noutra. A TER in-
PW, o peso a dar ao prefixo. clui um algoritmo heurı́stico para lidar com
transposições, além de inserções, remoções e
substituições (Snover et al., 2006).
JaroWinkler (s1 , s2 ) =
(1 − PL × PW) × Jaro (s1 , s2 ) + PL × PW 4. NCD. A Distância de Compressão Norma-
(4) lizada (NCD) é uma forma geral de medir
a similaridade entre dois objetos (Li et al.,
2004). A ideia subjacente é que ao compac-
3.2 Caracterı́sticas sobre RTE tar duas sequências s1 e s2 somente a in-
formação sobreposta é extraı́da.
As caracterı́sticas inspiradas em estudos com o
foco em RTE são as seguintes: 5. ROUGE-N. Sobreposição de n-gramas com
base em estatı́sticas de co-ocorrência (Lin &
1. Sobreposição NE. A similaridade de Jac- Hovy, 2003).
card considerando apenas entidades men-
6. ROUGE-L. Uma variação da métrica
cionadas (NE – do Inglês Named Enti-
ROUGE-N com base no comprimento da
ties). Para simplificar, entidades menciona-
maior subsequência de palavras comum (Lin
das são todas as palavras que contêm letras
& Och, 2004).
maiúsculas.
7. ROUGE-S. Uma variação da métrica
2. Sobreposição NEG. A similaridade de
ROUGE-N baseada em skip-bigrams (ou
Jaccard considerando apenas palavras ne-
seja, bigramas/pares de palavras, pela or-
gativas. As palavras negativas são: não,
dem em que ocorrem na frase, e possibili-
nunca, jamais, nada, nenhum, ninguém.
tando intervalos entre as palavras) (Lin &
3. Sobreposição Modal. A similaridade de Och, 2004).
Jaccard considerando apenas palavras mo-
dais. As palavras modais são: podia, pode- 3.4 Caracterı́sticas numéricas
ria, dever, deve, devia, deverá, deveria, faria,
possı́vel, possibilidade, possa. A inspiração para estas caracterı́sticas numéricas
é simples: frases que se referem às mesmas en-
3.3 Caracterı́sticas sobre paráfrases tidades, mas com números diferentes, são sus-
cetı́veis de ser contraditórias. O cálculo desta
As caracterı́sticas inspiradas em estudos sobre caracterı́stica é simples, resultando da multi-
identificação de paráfrases são as seguintes: plicação de 2 similaridades de Jaccard. Uma en-
tre os caracteres numéricos no par texto-hipótese,
1. BLEU. Esta métrica de MT corresponde à e outra entre as palavras em torno de tais carac-
quantidade de sobreposições em n-gramas, teres numéricos. O resultado é um valor contı́nuo
para diferentes valores de n, entre duas fra- entre 0 e 1, onde 0 indica que as frases são pos-
ses, ajustada por uma penalização relativa sivelmente contraditórias.
3.5 Representações de texto Feature O L S C DM T

As caracterı́sticas anteriormente descritas são LCS ! ! ! ! !
aplicadas a diferentes representações das frases. D. de edição ! ! ! ! !
Nomeadamente, considerámos as seguintes repre- Cosseno ! ! ! ! ! !
sentações:
C. Absoluto ! ! ! ! !
C. Máximo ! ! ! ! !
1. Sı́mbolos originais.
C. Mı́nimo ! ! ! ! !
2. Sı́mbolos em minúsculas. Jaccard ! ! ! ! ! !
Soft TF-IDF ! ! !
3. Sı́mbolos em minúsculas sem variações
NE ! ! ! ! ! !
terminais (obtidos pela aplicação de
NEG ! ! ! ! ! !
! ! ! ! ! !
um algoritmo de stemming ).
Modal
4. Agrupamentos de palavras. O algoritmo BLEU-3 ! ! ! ! !
de Brown para o agrupamento de palavras
METEOR ! ! ! ! !
é um método aglomerativo que agrega pa-
ROUGE N ! ! ! ! !
! ! ! ! !
lavras numa árvore binária de classes (Tu-
rian et al., 2010), através de um critério ba- ROUGE L
seado na probabilidade logarı́tmica de um ROUGE S ! ! ! ! !
texto perante um modelo de lı́ngua baseado TER ! ! ! ! !
em classes. NCD ! ! ! ! !
O procedimento de agrupamento de Brown
foi aplicado a uma coleção de documen-
Numérica ! ! !
tos noticiosos do jornal Português Público, Tabela 1: Combinação de caracterı́sticas com re-
do qual resultaram 1001 agrupamentos. presentações, onde O, L, S, C, DM e T corres-
Nesta representação, as palavras/sı́mbolos pondem a sı́mbolos originais, minúsculas, sem
são substituı́dos pelas classes corresponden- terminações, agrupamentos, Double Metaphone
tes. e trigramas, respetivamente.
5. Double Metaphone. Foi utilizado um al-
goritmo bem conhecido para codificar pala- 4 Avaliação
vras com base na sua fonética, interpretando
cada palavra como uma combinação dos sons O INESC-ID@ASSIN foi avaliado no conjunto de
de 12 consoantes. No entanto, importa refe- dados ASSIN para medir o seu desempenho na
rir que o algoritmo Double Metaphone (Phi- tarefa de quantificar automaticamente a simila-
lips, 1990) é baseado na pronúncia Inglesa, ridade semântica e tipo de inferência textual.
sendo mais adequado para codificar palavras
Reportamos resultados de 2 configurações dis-
em inglês e palavras estrangeiras tipicamente
tintas, uma utilizando um kernel polinomial em
utilizadas nos Estados Unidos.
modelos SVM e KRR e outra utilizando um ker-
6. Trigramas de caracteres. Os trigramas nel linear. Para os modelos lineares, as carac-
são um caso especial do conceito de n-grama, terı́sticas mais informativas também são reporta-
onde n é 3. Os trigramas de caracteres das.
são usados como termos-chave numa repre- Cada experiência gerou resultados para 3 con-
sentação da frase, à semelhança de como as figurações diferentes, em ambas as tarefas e para
palavras são usadas como termos-chave para dados de teste portugueses e brasileiros.
representar um documento. Além disso, também medimos o desempenho
ao treinar o nosso sistema com uma variedade do
Os nossos modelos combinam caracterı́sticas Português e testar com a outra.
com base nestas diferentes representações, con- As configurações diferem nos dados utiliza-
siderando um total de 96 caracterı́sticas. Al- dos para treino dos algoritmos de aprendizagem.
gumas caracterı́sticas não são adequados para Um desses conjuntos de dados corresponde à ex-
serem combinadas com algumas representações, pansão do ASSIN com frases traduzidas automa-
tal como a caracterı́stica numérica com a repre- ticamente desde o corpus SICK (Marelli et al.,
sentação Double Metaphone. As combinações 2014), enquanto que as restantes configurações
consideradas são descritas na Tabela 1. usam partições do ASSIN original.
4.1 Descrição da Tarefa 4.3 Resultados
O ASSIN contém 10000 pares de frases recolhi- A nossa abordagem à tarefa ASSIN foi avali-
das de Google News, particionados em conjuntos ada utilizando o coeficiente de Pearson e o erro
de treino e teste, com um número de exemplos quadrático médio (MSE) como métricas para si-
portugueses e brasileiros igualmente distribuı́do milaridade semântica, e com a Exatidão e a me-
por cada conjunto. Cada par de frases é anotado dida F1 para RTE.
para similaridade semântica e inferência textual. Consideramos 3 configurações/tentativas dife-
A similaridade semântica é um valor contı́nuo rentes para a nossa abordagem, que diferem na
de 1 a 5, de acordo com as seguintes diretrizes quantidade de dados de treino que são usados,
sobre as frases de um par: nomeadamente:
1. Completamente diferentes, sobre diferentes 1. PT-PT or PT-BR: treinar apenas com dados
assuntos; da mesma variedade de Português (Europeu
ou do Brasil, respetivamente) dos dados de
2. Não relacionadas, mas mais ou menos sobre teste (3000 exemplos).
o mesmo assunto; 2. AllPT: juntar os dados de ambas as varieda-
3. Algo relacionadas. Podem descrever factos des para treino, independentemente do teste
diferentes, mas partilham alguns detalhes; pretendido (6000 exemplos).
3. PT+BingSICK: usar ambas as variedades
4. Fortemente relacionadas, mas alguns deta- e os dados do SICK traduzido para treino
lhes são diferentes; (15191 exemplos, dos quais 9191 são do
SICK).
5. Essencialmente a mesma coisa.
Estas configurações foram avaliadas nos dados
A anotação da inferência textual é uma atri- de teste europeus e brasileiros, embora na entrega
buição categórica usando classes que identificam oficial só tenha sido avaliado o teste europeu. Na
inferência, paráfrase ou nenhuma relação. entrega oficial, PT com um kernel polinomial foi
O ASSIN define 2 tarefas para quantifi- a nossa melhor configuração (nos dados de teste
car/calcular a similaridade semântica e classifi- europeus). No entanto, devido a um problema
car o tipo de inferência textual. O desempenho é no software (agora resolvido) os valores oficiais
medido separadamente para as variantes de Por- foram inferiores aos apresentados na Tabela 2.
tugal e do Brasil. Os resultados para a nossa abordagem à tarefa
ASSIN, recorrendo a um kernel polinomial, são
apresentados nas Tabelas 2 e 3.
4.2 Treinar com mais dados
Similaridade RTE
Experimentámos utilizar métodos de MT para Treino Pearson MSE Exatidão F1
expandir o conjunto de dados ASSIN original
com novas frases de um conjunto de dados em PT-PT 0.74 0.60 83.55% 0.68
Inglês, visto que mais dados normalmente con- AllPT 0.74 0.60 83.95% 0.69
PT+BingSICK 0.72 0.68 80.70% 0.59
duzem a melhores resultados.
O conjunto de dados SICK (Marelli et al., Tabela 2: Resultados da avaliação, com um ker-
2014) é muito semelhante ao ASSIN, em tama- nel polinomial e considerando todas as carac-
nho e tipo de anotações. No entanto, é base- terı́sticas — teste europeu.
ado em legendas de imagens e vı́deos, obtidas
por crowdsourcing, logo representa menor vari-
abilidade linguı́stica mas mais similaridade entre Similaridade RTE
pares (ou seja, mais pares similares). Treino Pearson MSE Exatidão F1
O SICK foi traduzido para Português, usando PT-BR 0.73 0.36 85.45% 0.64
um programa Python assente no serviço de AllPT 0.73 0.36 85.70% 0.66
tradução online Microsoft Bing, e conjugado com PT+BingSICK 0.70 0.40 84.30% 0.58
os conjuntos de treino em português europeu e
brasileiro. Assim, adicionamos 9191 exemplos do Tabela 3: Resultados da avaliação, com um ker-
SICK aos 6000 exemplos do ASSIN, para uma nel polinomial e considerando todas as carac-
das configurações. terı́sticas — teste brasileiro.
Os resultados para a nossa abordagem à ta- mais próximos dos descritos neste artigo, embora
refa ASSIN, recorrendo a um kernel linear, são só tenha participado na medição de similaridade
apresentados nas Tabelas 4 and 5. semântica.
A abordagem de Freire et al. (2016) intro-
Similaridade RTE duz um conjunto de ferramentas para sistemas
Treino Pearson MSE Exatidão F1
de similaridade entre frases, instanciado com
PT-PT 0.73 0.62 84.90% 0.71 semântica distribuı́da e conhecimento da Word-
AllPT 0.74 0.61 84.05% 0.68 Net. Este sistema também não participou na
PT+BingSICK 0.70 0.73 77.10% 0.47 medição de similaridade semântica.
Por último, o sistema de Alves et al. (2016)
Tabela 4: Resultados da avaliação, com um ker-
apresenta uma abordagem não supervisionada,
nel linear e considerando todas as caracterı́sticas
individualmente e como caracterı́stica de uma
— teste europeu.
abordagem supervisionada. Os piores resulta-
dos são da abordagem não supervisionada, en-
Similaridade RTE quanto que a supervisionada atingiu resultados
Treino Pearson MSE Exatidão F1 semelhantes aos de Barbosa et al. (2016), e os
PT-BR 0.73 0.36 85.35% 0.55 mais próximos dos resultados reportados neste
PT 0.73 0.36 85.85% 0.66 artigo relativamente a RTE.
PT+BingSICK 0.70 0.42 82.60% 0.46 Experimentámos também compreender o de-
sempenho dos modelos treinados com uma varie-
Tabela 5: Resultados da avaliação, com um ker- dade de Português e testados com a outra varie-
nel linear e considerando todas as caracterı́sticas dade. Como apresentado na Tabela 6, compreen-
— teste brasileiro. der uma variedade do Português conhecendo ape-
O desempenho com um kernel linear é seme- nas a outra é melhor do que utilizando o conjunto
lhante ao de um kernel polinomial, mas a van- de dados SICK, traduzido automaticamente pelo
tagem da maior dimensionalidade do espaço de sistema Bing. Para simplificar, só é apresentada
um kernel polinomial é realçada quando existem a experiência com kernels polinomiais, mas com
mais dados, como pode ser visto na queda de kernels lineares foram obtidos resultados seme-
desempenho dos modelos lineares quando se uti- lhantes.
liza o conjunto de dados expandido com MT (em
Similaridade RTE
particular no MSE e F1), comparando com os
Treino Pearson MSE Exatidão F1
resultados obtidos com um kernel polinomial.
Destes resultados podemos concluir que utili- PT-BR 0.73 0.63 82.70% 0.64
PT-PT 0.72 0.37 84.30% 0.66
zar dados de treino selecionados/verificados (ma-
nualmente) pode melhorar ligeiramente o desem-
Tabela 6: Variando o conjunto de treino e tes-
penho, enquanto que dados de treino não filtra-
tando com a outra/restante variedade do Por-
dos (repetitivos e com erros lexicais ou sintáticos
tuguês, utilizando um kernel polinomial e todas
resultantes de MT) prejudica o desempenho da
as caracterı́sticas.
nossa abordagem.
Comparando os resultados por tabela, a confi-
guração que mais consistentemente tem os melho- 4.4 Melhores caracterı́sticas
res resultados é a AllPT, tanto para RTE como
para medição da similaridade. Considerando to- Utilizamos o método Recursive Feature Elimina-
das as tabelas, o nosso sistema tem melhor de- tion, tal como implementado no scikit-learn, para
sempenho nos dados da variante do Brasil. obter as 10 melhores caracterı́sticas com a confi-
Os restantes sistemas que participaram na ta- guração PT (i.e., a que produziu os melhores re-
refa ASSIN obtiveram resultados inferiores aos sultados), para cada tarefa (RTE e quantificação
apresentados. Barbosa et al. (2016) experimenta de similaridade).
SVM e redes neuronais em caracterı́sticas basea- Este é um método para seleção de carac-
das em word embeddings, e apresenta uma visão terı́sticas com base no seu peso relativamente
geral dos resultados obtidos por todos os sistemas ao modelo. Como o scikit-learn só representa
que participaram no ASSIN. os pesos das caracterı́stica em modelos com ker-
Em (Hartmann, 2016) são utilizadas carac- nels lineares, apenas aplicamos seleção de carac-
terı́sticas baseadas em conjuntos de palavras terı́sticas nos nossos modelos lineares.
(logo esparsas), onde também figuram os word
embeddings. Este sistema obteve os resultados
As 10 melhores caracterı́sticas para RTE (clas- 5 Conclusões e trabalho futuro

sificação) são:
Este trabalho tem por foco as tarefas de RTE
• Soft TF-IDF, em sı́mbolos originais; e de quantificação de similaridade textual, abor-
dando as mesmas através da aplicação de várias
• Jaccard, sobre Double Metaphone; caracterı́sticas baseadas em trabalhos anteriores
• Jaccard, sobre sı́mbolos em minúsculas sem para RTE e identificação de paráfrases - essen-
variações terminais; cialmente métricas provenientes dos domı́nios de
MT e sumarização. Estas caracterı́sticas, junta-
• Comprimento Absoluto, em Double Me- mente com outras relativas a similaridade entre
taphone; sequências e aspetos numéricos, representam uma
• LCS, sobre sı́mbolos em minúsculas sem va- nova abordagem que se afasta da mais recente
riações terminais; tendência da área, que essencialmente se foca em
sistemas baseados em alinhamentos semânticos e
• Numérica, em sı́mbolos originais; correspondência entre relações binárias.
• Sobreposição NE, em Double Metaphone; Como trabalho futuro, iremos começar por
comparar o desempenho do sistema INESC-
• ROUGE-N, em sı́mbolos originais;
ID@ASSIN com variantes, usando os mesmos
• ROUGE-L, sobre sı́mbolos em minúsculas algoritmos de aprendizagem, aplicados a carac-
sem variações terminais; terı́sticas mais complexas baseadas em repre-
sentações sintáticas/semânticas e baseadas em
• TER, sobre sı́mbolos em minúsculas sem va-
fontes de conhecimento enriquecidas.
riações terminais.
As 10 melhores caracterı́sticas para quanti- Agradecimentos

ficação de similaridade (regressão) são:
Este trabalho foi suportado por fundos nacionais
• Similaridade do Cosseno, em sı́mbolos origi- através da Fundação para a Ciência e a Tecno-
nais; logia (FCT), através do projeto com referência
UID/CEC/50021/2013. O trabalho foi ainda supor-
• Soft TF-IDF, em sı́mbolos originais; tado pelo projeto internacional RAGE com referência
• Jaccard, em Double Metaphone; H2020-ICT-2014-1/644187 e pelo projeto LAW-
TRAIN com referência H2020-EU.3.7.-653587.
• Jaccard, sobre sı́mbolos em minúsculas sem
variações terminais;
Referências
• Jaccard, em trigramas de caracteres;
• Numérica, sobre sı́mbolos em minúsculas Alves, Ana Oliveira, Ricardo Rodrigues &
sem variações terminais; Hugo Gonçalo Oliveira. 2016. ASAPP: alinha-
mento semântico automático de palavras apli-
• Sobreposição NE, em Double Metaphone; cado ao português. Linguamática 8(2). 43–58.
• ROUGE-N, sobre sı́mbolos originais; Banerjee, Satanjeev & Alon Lavie. 2007. ME-
• ROUGE-N, em agrupamentos de palavras; TEOR: An automatic metric for mt evaluation
with improved correlation with human judg-
• ROUGE-S, sobre sı́mbolos em minúsculas ments. Em Proceedings of the ACL Workshop
sem variações terminais. on Intrinsic and Extrinsic Evaluation Measu-
res for Machine Translation and/or Summari-
As caracterı́sticas baseadas em similaridade zation, 228–231.
lexical contribuem para os melhores resultados
de ambas as tarefas, em especial se se tiver em Barbosa, Luciano, Paulo Cavalin, Victor Gui-
conta as representações que mantêm os sı́mbolos marães & Matthias Kormaksson. 2016. Blue
da frase, como comprovado pela predominância Man Group no ASSIN: Usando representações
destas métricas e representações entre as 10 me- distribuı́das para similaridade semântica e in-
lhores caracterı́sticas. A única caracterı́stica ba- ferência textual. Linguamática 8(2). 15–22.
seada em RTE que teve um desempenho rele- Bjerva, Johannes, Johan Bos, Rob van der Goot
vante é a Sobreposição NE, sobre a representação & Malvina Nissim. 2014. The meaning factory:
de texto processado pelo algoritmo Double Me- Formal semantics for recognizing textual en-
taphone. tailment and determining semantic similarity.
Em Proceedings of the International Workshop Conference of the North American Chapter of

on Semantic Evaluation, 642–646. the ACL on Human Language Technology, 71–
Cheng, Jianpeng & Dimitri Kartsaklis. 2015. 78.
Syntax-aware multi-sense word embeddings for Lin, Chin-Yew & Franz Josef Och. 2004. Auto-
deep compositional models of meaning. Em matic evaluation of machine translation quality
Proceedings of the 2015 Conference on Empi- using longest common subsequence and skip-
rical Methods in Natural Language Processing, bigram statistics. Em Proceedings of the An-
1531–1542. nual Meeting of ACL, s. pp.
Dagan, Ido, Bill Dolan, Bernardo Magnini & Dan
Madnani, Nitin, Joel Tetreault & Martin Chodo-
Roth. 2009. Recognizing textual entailment:
row. 2012. Re-examining machine translation
Rational, evaluation and approaches. Natural
metrics for paraphrase identification. Em Pro-
Language Engineering 15(04). i–xvii.
ceedings of the Conference of the North Ame-
Dagan, Ido, Dan Roth, Mark Sammons & Fa- rican Chapter of ACL, 182–190.
bio Massimo Zanzotto. 2013. Recognizing
textual entailment: Models and applications. Marelli, Marco, Stefano Menini, Marco Baroni,
Synthesis Lectures on Human Language Tech- Luisa Bentivogli, Raffaella Bernardi & Roberto
nologies 6(4). 1–220. Zamparelli. 2014. A SICK cure for the evalu-
ation of compositional distributional semantic
Dolan, Bill, Chris Quirk & Chris Brockett. 2004. models. Em Proceedings of the International
Unsupervised construction of large paraphrase Conference on Language Resources and Evalu-
corpora: Exploiting massively parallel news ation, 216–223.
sources. Em Proceedings of the International
Conference on Computational Linguistics, s. Marques, Ricardo. 2015. Detecting contradictions
pp. in news quotations: IST, University of Lisbon.
Fernando, Samuel & Mark Stevenson. 2008. A Tese de Mestrado.
semantic similarity approach to paraphrase de- Martins, Bruno. 2011. A supervised machine le-
tection. Em Proceedings of the Annual Rese- arning approach for duplicate detection over
arch Colloquium on Computational Linguistics gazetteer records. Em Proceedings of the Inter-
in the UK, s. pp. national Conference on GeoSpatial Semantics,
Finch, Andrew, Young-Sook Hwang & Eiichiro 34–51.
Sumita. 2005. Using machine translation eva- Mihalcea, Rada, Courtney Corley & Carlo Strap-
luation techniques to determine sentence-level parava. 2006. Corpus-based and knowledge-
semantic equivalence. Em Proceedings of the based measures of text semantic similarity. Em
International Workshop on Paraphrasing, 17– Proceedings of the National Conference on Ar-
24. tificial Intelligence, 775–780.
Freire, Jânio, Vládia Pinheiro & David Feitosa.
2016. FlexSTS: Um framework para simila- Pakray, Partha, Sivaji Bandyopadhyay & Ale-
ridade semântica textual. Linguamática 8(2). xander Gelbukh. 2011. Textual entailment
23–31. using lexical and syntatic similarity. Internaci-
onal Journal of Artificial Intelligence and Ap-
Hartmann, Nathan Siegle. 2016. Solo queue at plications 2(1). 43–58.
ASSIN: Combinando abordagens tradicionais
e emergentes. Linguamática 8(2). 59–64. Papineni, Kishore, Salim Roukos, Todd Ward &
Wei-Jing Zhu. 2002. BLEU: A method for au-
Kozareva, Zornitsa & Andres Montoyo. 2006. Pa-
tomatic evaluation of machine translation. Em
raphrase identification on the basis of supervi-
Proceedings of the Annual Meeting of ACL,
sed machine learning techniques. Em Procee-
311–318.
dings of the International Conference on Ad-
vances in Natural Language Processing, 524– Philips, L. 1990. Hanging on the metaphone.
533. Computer Language Magazine 7(12). 39–44.
Li, Ming, Xin Chen, Xin Li, Bin Ma & Paul Rodrigues, João António, António Branco, Ste-
Vitányi. 2004. The similarity metric. Infor- ven Neale & João Ricardo Silva. 2016. Lx-
mation Theory, IEEE Transactions on 50(12). dsemvectors: Distributional semantics models
Lin, Chin-Yew & Eduard Hovy. 2003. Automa- for portuguese. Em Computational Processing
tic evaluation of summaries using n-gram co- of the Portuguese Language - 12th Internatio-
occurrence statistics. Em Proceedings of the nal Conference, PROPOR 2016, 259–270.
Snover, Matthew, Bonnie Dorr, Richard

Schwartz, Linnea Micciulla & John Makhoul.
2006. A study of translation edit rate with tar-
geted human annotation. Em Proceedings of
the Conference of the Association for Machine
Translation in the Americas, 223–231.
Tsuchida, Masaaki & Kai Ishikawa. 2011. A
method for recognizing textual entailment
using lexical-level and sentence structure-level
features. Em Proceedings of the Text Analysis
Conference, s. pp.
Turian, Joseph, Lev Ratinov & Yoshua Bengio.
2010. Word representations: a simple and ge-
neral method for semi-supervised learning. Em
Proceedings of the Annual Meeting of ACL,
384–394.
Ul-Qayyum, Zia & Altaf Wasif. 2012. Paraphrase
identification using semantic heuristic features.
Research Journal of Applied Sciences, Engine-
ering and Tecnhology 4(22). 4894–4904.
Zhang, Yitao & Jon Patrick. 2005. Paraphrase
identification by text canonicalization. Em
Proceedings of the Australasian Language Te-
chnology Workshop, 160–166.
Zhao, Jiang, Tiantian Zhu & Man Lan. 2014.
ECNU: One stone two birds: Ensemble of he-
terogenous measures for semantic relatedness
and textual entailment. Em Proceedings of the
International Workshop on Semantic Evalua-
tion, 271–277.
ASAPP: Alinhamento Semântico Automático de Palavras

aplicado ao Português
ASAPP: Automatic Semantic Alignment for Phrases applied to Portuguese
Ana Oliveira Alves Ricardo Rodrigues

CISUC, Universidade de Coimbra CISUC, Universidade de Coimbra
ISEC, Instituto Politécnico de Coimbra ESEC, Instituto Politécnico de Coimbra
ana@dei.uc.pt rmanuel@dei.uc.pt
Hugo Gonçalo Oliveira
CISUC, Universidade de Coimbra
DEI, Universidade de Coimbra
hroliv@dei.uc.pt
Resumo pairs of sentences, in Portuguese, poses the following

challenges: (a) computing the semantic similarity
Apresentamos duas abordagens distintas à tarefa between the sentences of each pair; and (b) testing
de avaliação conjunta ASSIN onde, dada uma coleção whether one sentence paraphrases or entails the other.
de pares de frases escritas em português, são colo- The first approach, dubbed Reciclagem, is exclusively
cados dois objectivos para cada par: (a) calcular a based on heuristics computed on Portuguese seman-
similaridade semântica entre as duas frases; e (b) ve- tic networks. The second, dubbed ASAPP, is ba-
rificar se uma frase do par é paráfrase ou inferência sed on supervised machine learning. The results of
da outra. Uma primeira abordagem, apelidada de Reciclagem enable an indirect comparison of Portu-
Reciclagem, baseia-se exclusivamente em heurı́sticas guese semantic networks. They were then used as
sobre redes semânticas para a lı́ngua portuguesa. A features of the ASAPP approach, together with lexi-
segunda abordagem, apelidada de ASAPP, baseia-se cal and syntactic features. After comparing our re-
em aprendizagem automática supervisionada. Acima sults with those in the gold collection, it is clear that
de tudo, os resultados da abordagem Reciclagem per- ASAPP consistently outperforms Reciclagem. This
mitem comparar, de forma indireta, um conjunto de happens both for European Portuguese and Brazilian
redes semânticas, através do seu desempenho nesta Portuguese, where the entailment performance rea-
tarefa. Estes resultados, algo modestos, foram de- ches an accuracy of 80.28% ± 0.019, and the seman-
pois utilizados como caracterı́sticas da abordagem tic similarity scores are 66.5% ± 0.021 correlated with
ASAPP, juntamente com caracterı́sticas adicionais, ao those given by humans.
nı́vel lexical e sintático. Após comparação com os re-
sultados da coleção dourada, verifica-se que a abor- Keywords
dagem ASAPP supera a abordagem Reciclagem de semantic similarity, entailment, lexical semantic
forma consistente. Isto ocorre tanto para o Português networks, machine learning
Europeu como para o Português Brasileiro, onde o de-
sempenho atinge uma exatidão de 80.28%±0.019 para
a inferência textual, enquanto que a correlação dos
valores atribuı́dos para a similaridade semântica com 1 Introdução
aqueles atribuı́dos por humanos é de 66.5% ± 0.021.
A Similaridade Semântica e Inferência Tex-
Palavras chave tual (em inglês, Entailment) têm sido alvo de in-
similaridade semântica, inferência textual, redes tensa pesquisa por parte da comunidade cientı́fica
léxico-semânticas, aprendizagem automática em Processamento da Linguagem Natural. Prova
disso é a organização de várias tarefas de ava-
liação sobre o tema (Semantic Textual Similarity
— STS ) e o surgimento de conjuntos de dados
Abstract
anotados nos últimos anos1 (Agirre et al., 2015,
We present two distinct approaches to the ASSIN 1
shared evaluation task where, given a collection with Veja-se, por exemplo, a tarefa mais recente, SemEval-
2016 STS Task: http://alt.qcri.org/semeval 2016/task1/

44– Linguamática Ana Oliveira Alves, Ricardo Rodrigues & Hugo Gonçalo Oliveira
2014, 2013, 2012). No capı́tulo 2 deste artigo, são Várias ferramentas foram utilizadas para a ex-
precisamente apresentados trabalhos que têm o tração das caracterı́sticas morfo-sintáticas. Estas
objectivo comum de calcular a similaridade e in- incluem a atomização (em inglês, tokenization),
ferência textual, assim como tarefas que incenti- etiquetagem gramatical (part-of-speech tagging),
vem esta pesquisa. lematização, segmentação de orações (chunking)
No entanto, as tarefas anteriores, realizadas e reconhecimento de entidades mencionadas, que
no âmbito das avaliações SemEval, focavam ape- são explicadas em detalhe na secção 3.1. Quanto
nas a lı́ngua inglesa. A tarefa ASSIN, em que às caracterı́sticas semânticas, um conjunto de re-
nos propusemos participar, tem algumas seme- des léxico-semânticas foi explorado e é introdu-
lhanças com as anteriores, mas visa a lı́ngua por- zido na secção 3.2. Nestas redes, que preten-
tuguesa. Dada uma coleção com pares de frases, dem ter uma boa cobertura da lı́ngua portuguesa,
o objectivo dos sistemas participantes passa por: as palavras encontram-se organizadas de acordo
(a) atribuir um valor para a similaridade de cada com os seus sentidos. Elas são utilizadas para
par; e (b) classificar cada par como paráfrase, in- identificar relações entre palavras das duas frases
ferência, ou nenhum dos anteriores. do par.
A nossa participação na tarefa ASSIN se- Os resultados de ambas abordagens se-
guiu dois caminhos distintos e, consequente- guindo diversas combinações de caracterı́sticas e
mente, duas equipas participantes, ainda que aplicação de diferentes algoritmos de aprendiza-
constituı́das pelos mesmos elementos, e onde fo- gem são discutidos no capı́tulo 7. Por fim, o
ram utilizados os mesmos recursos e ferramentas capı́tulo 8 reúne as principais conclusões que fo-
para o processamento computacional da lı́ngua ram determinadas a partir destes resultados e sua
(estes são apresentados no capı́tulo 3). A pri- discussão.
meira abordagem – Reciclagem – baseou-se ex-
clusivamente no cálculo de heurı́sticas sobre um 2 Trabalho Relacionado
conjunto de redes em que palavras portuguesas
estão organizadas de acordo com os seus possı́veis Existem atualmente duas abordagens principais
sentidos. para o cálculo da similaridade. A primeira con-
A segunda abordagem tem como inspiração o siste no uso de um corpo de grande dimensão
sistema ASAP – Automatic Semantic Alignment para estimar a similaridade através de dados es-
for Phrases – que, numa primeira versão, par- tatı́sticos recolhidos sobre a co-ocorrência de pa-
ticipou na tarefa de Evaluation of Compositio- lavras. A segunda é baseada em conhecimento
nal Distributional Semantic Models on Full Sen- léxico-semântico, utilizando relações e entradas
tences through Semantic Relatedness and Textual de um dicionário (Lesk, 1986) ou recurso léxico-
Entailment do SemEval 2014 (Alves et al., 2014) semântico (Banerjee & Pedersen, 2003). As abor-
e, numa segunda instanciação, na tarefa de Se- dagem hı́bridas combinam as duas metodolo-
mantic Textual Similarity do SemEval 2015 (Al- gias (Jiang & Conrath, 1997).
ves et al., 2015). O nome do sistema aqui apre- O algoritmo de Lesk (Lesk, 1986) utiliza de-
sentado acrescenta um P ao nome do sistema ori- finições de entradas de um dicionário (sentidos)
ginal, por se focar na lı́ngua portuguesa. para desambiguar uma palavra polissémica no
Tanto o ASAP como o ASAPP vêem a Si- contexto de uma frase. O principal objectivo
milaridade Textual e o Entailment como uma deste método é contar o número de palavras que
função onde as variáveis são as caracterı́sticas são comuns entre duas definições, no caso do
lexicais, sintáticas e semânticas extraı́das do cálculo da similaridade entre duas entradas do
texto. A extração destas caracterı́sticas nas dicionário. Em alguns casos, as definições obti-
suas várias dimensões é detalhada no capı́tulo 4. das são muito reduzidas em tamanho e mostram-
Uma das nossas principais contribuições prende- se insuficientes para identificar similaridades en-
se com a possibilidade de comparar uma aborda- tre sentidos relacionados de palavras. Para aper-
gem heurı́stica com uma abordagem aprendida de feiçoar este método, Banerjee & Pedersen (2003)
forma supervisionada pela máquina (capı́tulo 6) adaptaram o algoritmo para utilizar a base de
para um mesmo conjunto de caracterı́sticas na conhecimento léxico-semântico WordNet (Fell-
lı́ngua Portuguesa, seja na variante Europeia ou baum, 1998) como dicionário, onde é possı́vel en-
na Brasileira. Há a referir que os resultados das contrar as definições dos sentidos das palavras, e
heurı́sticas de similaridade calculadas na abor- estenderam a medida de Lesk para a utilização
dagem Reciclagem são também utilizados como da rede de relações semânticas entre conceitos,
caracterı́sticas da abordagem ASAPP. na WordNet.
ASAPP: Alinhamento Semântico Automático de Palavras aplicado ao Português Linguamática – 45
A métrica de similaridade de Jiang & Con- conteúdos da base de conhecimento Inference-

rath (1997) calcula a informação partilhada entre Net.Br, utilizada para identificar palavras rela-
conceitos, que é determinada pelo Conteúdo da cionadas em duas frases comparadas. A medida
Informação (Information Content – IC ) do con- proposta foi avaliada numa coleção com a des-
ceito mais especı́fico que seja o hiperónimo de crição de erros reportados num conjunto de pro-
dois conceitos que se pretende comparar. Uti- jetos de engenharia de software, cuja similaridade
lizando a hierarquia de hiperónimos/hipónimos foi posteriormente anotada por dois juı́zes huma-
da WordNet, esta medida calcula a distância nos. O objetivo seria recuperar erros semelhan-
(inverso da similaridade) entre dois conceitos, tes.
através da contagem de relações deste tipo. Relativamente à inferência textual, Barreiro
Mais recentemente, a tarefa de Similadade (2008) estudou o parafraseamento de frases por-
Semântica e Inferência Textual para o inglês têm tuguesas com base em verbos de suporte e anali-
ocorrido desde 2012 nos workshops internacionais sou o impacto da realização destas paráfrases na
de avaliação semântica (Semeval-STS), providen- tradução automática das frases para inglês.
ciando um fórum privilegiado para a avaliação de
algoritmos e modelos. Na última tarefa realizada,
dos sistemas participantes, o vencedor foi uma 3 Ferramentas e Recursos PLN
abordagem baseada em técnicas de deep learning
com sinais de penalização e reforço aplicados à Apresentamos aqui o conjunto de ferramentas e
rede recorrente extraı́dos do WordNet(Rychalska recursos base utilizado neste trabalho para o pro-
et al., 2016) que podem ser combinadas em con- cessamento computacional da lı́ngua portuguesa.
juntos (ensemble) de classificadores. Os autores Mais propriamente, enumeram-se as ferramentas
incluı́ram ainda neste conjunto uma versão do utilizadas para a anotação morfo-sintática das
algoritmo do ano anterior (Sultan et al., 2015) frases e, de seguida, as redes de onde foram obti-
melhorado através do uso de caracterı́sticas que das as caracterı́sticas semânticas.
incluem word embbedings.
Os métodos de reconhecimento de inferência 3.1 Anotação Morfo-Sintática
textual baseiam-se geralmente na assunção que
duas expressões em linguagem natural podem ser Diversas ferramentas foram utilizadas para o pro-
inferidas uma a partir de outra. A paráfrase é cessamento das frases da coleção ASSIN, nomea-
um caso especial de inferência textual bidirec- damente um atomizador (em inglês, tokenizer ),
cional, onde estas duas expressões transmitem um etiquetador gramatical (part-of-speech tag-
de uma forma muito aproximada a mesma in- ger ), um lematizador – tanto na nossa aborda-
formação. Existem diferentes abordagens para gem heurı́stica como na supervisionada – e ainda
identificar a inferência textual (Androutsopou- um reconhecedor de entidades mencionadas e um
los & Malakasiotis, 2010), baseadas em: lógica segmentador de orações (“phrase chunker ”) – uti-
computacional; similaridade lexical de palavras lizados exclusivamente pela abordagem ASAPP.
presentes nos pares de expressões; similaridade À exceção do lematizador, todas as ferramen-
sintática das expressões; construção de um ma- tas para anotação morfo-sintática tiveram como
peamento semântico entre os pares de expressão, base o Apache OpenNLP Toolkit2 , utilizando
de acordo com um modelo vectorial. modelos de máxima entropia, com algumas al-
Dada a inexistência de coleções de teste para terações que identificamos nas descrições que se
este tipo de tarefas, os trabalhos focados na seguem.
lı́ngua portuguesa são escassos. Seno & Nunes
(2008) identificam e agrupam frases semelhantes 3.1.1 Atomização
numa coleção de documentos escritos em Por-
tuguês do Brasil. A distância entre pares de A tarefa de atomização tem como objetivo sepa-
frases é calculada com base no número de pala- rar as frases em átomos simples. Para esta tarefa,
vras em comum, e em duas métricas: o TF-IDF foi usado como ponto de partida o tokenizer do
(frequência de um termo multiplicada pela sua OpenNLP com o modelo para o português3 , com
frequência inversa nos documentos da coleção) e o resultado a ser alvo de pós-processamento, com
o TF-ISF (frequência de um termo multiplicada vista a melhorar a sua qualidade. Por exemplo,
pela sua frequência inversa nas frases da coleção). o resultado inicial é analisado para a eventual
Mais recentemente, Pinheiro et al. (2014) identificação da presença de clı́ticos, procurando
apresentaram uma abordagem precisamente à
2
tarefa de STS para português, baseada nos http://opennlp.apache.org/
3
http://opennlp.sourceforge.net/models-1.5/
separar formas verbais de pronomes átonos, de 3.1.4 Reconhecimento de EM

forma a melhorar posteriormente o desempenho
do etiquetador gramatical (e.g., dar-me-ia → da- Para o reconhecimento de entidades menciona-
ria a mim). O mesmo acontece com as con- das (REM) – aqui enquadrado, apesar de as en-
trações, de forma a separar preposições de pro- tidades serem, na verdade, uma caracterı́stica
nomes ou determinantes (e.g., ao → a o). Para semântica – voltou a ser utilizado o Apache
além dos clı́ticos e das contrações, também as OpenNLP, aqui com a diferença de não existir
abreviações são alvo de análise: na prática, para um modelo já criado para o efeito. Foi assim ne-
reverter eventuais casos em que abreviações com- cessário criar um modelo que se baseou no corpo
postas possam ter sido separadas nos resultados Amazónia4 , um dos corpos que compõem a “Flo-
iniciais do tokenizer (e.g., q. b. → q.b.). resta Sintá(c)tica” (Afonso et al., 2001), dispo-
nibilizado pela Linguateca5 . Este corpo é com-
posto por cerca de 4,6 milhões de palavras, cor-
3.1.2 Etiquetagem Gramatical respondentes a cerca de 275 mil frases, retira-
Para a etiquetagem gramatical, foi também uti- das de uma plataforma colaborativa on-line re-
lizado o Apache OpenNLP. Neste caso, dados os ferente à produção cultural brasileira, recolhidas
cuidados anteriores com a atomização, cujos re- em Setembro de 2008 (Freitas & Santos, 2015).
sultados são usados como entrada do etiqueta- O corpo foi utilizado tanto para treinar como
dor, verificou-se que a utilização do modelo já para testar o modelo, tendo-se alcançado uma
disponibilizado também pelo OpenNLP seria su- precisão de 0,80, uma abrangência de 0,75, e
ficiente. Ou seja, os resultados obtidos com o uma medida F 1 de 0,776 . Quanto aos resul-
PoS tagger do OpenNLP foram utilizados dire- tados do REM, estes foram utilizados direta-
tamente nos restantes passos, salvo pequenos as- mente (tal como apresentados pelo entity finder
petos para melhor integração na restante abor- do OpenNLP), também salvos pequenos aspe-
dagem. As possı́veis etiquetas gramaticais são tos para melhor integração na restante aborda-
adjetivo, advérbio, artigo, nome, numeral, nome gem. Relativamente aos diversos tipos de enti-
próprio, preposição e verbo. Se assim desejarmos, dade mencionada identificados, estes são: abs-
também a pontuação pode ser anotada. trações, artigos & produtos, eventos, números,
organizações, pessoas, lugares, coisas e datas &
horas. Importa também referir que os termos
3.1.3 Lematização identificados pelo tokenizer são usados como en-
Para a lematização dos termos presentes nas trada no reconhecedor de entidades mencionadas.
frases, foi utilizado o LemPORT (Rodrigues
et al., 2014), um lematizador baseado em regras 3.1.5 Segmentação de Orações
e também na utilização de um léxico constituı́do
pelas formas base dos termos e respetivas de- Para a segmentação de orações, de forma seme-
clinações. lhante ao que aconteceu com o REM, foi utili-
Recebendo como entrada termos (átomos) e zado o Apache OpenNLP, tendo ainda havido
respetivas etiquetas gramaticais, o LemPORT necessidade de criar um modelo para o efeito.
começa por utilizar o léxico e, dando-se o caso de Neste caso, foi utilizado o Bosque 8.0, outro dos
o termo a lematizar já existir no léxico, devolve a corpos constituintes da “Floresta Sintá(c)tica”,
forma base correspondente. Contudo, sendo um mais uma vez para treinar e para testar o mo-
léxico um recurso que, por natureza da própria delo, tendo-se alcançado uma precisão de 0,95,
lı́ngua, não pode compreender todas as palavras uma abrangência de 0,96, e medida F 1 de 0,95.
existentes ou usadas, são utilizadas regras para O segmentador tem como entrada os “tokens” e
normalizar os termos não incluı́dos, em função do as respetivas etiquetas gramaticais, bem como os
modo, número, grau (superlativo, aumentativo e lemas. As orações podem ser classificadas como
diminutivo), género e conjugações, aplicando-se, nominais, verbais ou preposicionais. Novamente,
consoante os casos, a cada uma das categorias 4
http://www.linguateca.pt/floresta/corpus.html
gramaticais, mas com maior peso em substanti- 5
http://www.linguateca.pt/
vos, adjetivos e verbos. Neste caso, o léxico é 6
Relativamente aos valores de precisão, abrangência
novamente utilizado para validar o resultado da e F 1, da ferramenta e modelo de REM utilizados, inte-
aplicação das regras – regra após regra, deter- ressa reforçar que foram obtidos usando também o corpo
minando quando parar a sua execução. Quando Amazónia (80% para treino e 20% para teste). Usando o
mesmo corpo para treino, mas outro para teste (a coleção
o resultado continua a não constar do léxico, é dourada do HAREM (Mota, 2007)), Fonseca et al. (2015)
usado como critério de término a exaustão das encontraram valores bastantes distintos, com 37,97% para
regras aplicáveis. precisão, 38,14% para abrangência e 38,06% para F 1.
à exceção de pequenos aspetos relacionados com lavras com os seus sinónimos, no que vulgar-
a apresentação dos resultados, incluindo-se na mente se chama de synset;
descrição das orações também os lemas (que não
são considerados na versão original do chunker • OpenWordNet-PT (OWN.PT) (de Paiva
OpenNLP), estes foram utilizados diretamente et al., 2012) e PULO (Simões & Guinovart,
na abordagem. 2014), duas wordnets.
Dos recursos anteriores, aqueles que não se

3.2 Redes Semânticas encontram disponı́veis no formato referido ante-
riormente foram nele convertidos. Assim, para
O conhecimento sobre as palavras de uma lı́ngua os tesauros e para as wordnets, cada par de
e os seus possı́veis sentidos pode organizar-se palavras agrupado num synset deu origem a
nas chamadas bases de conhecimento léxico- uma relação de sinonı́mia. Para as wordnets,
semântico onde, para o inglês, se destaca a foi ainda criada uma relação para cada par
WordNet de Princeton (Fellbaum, 1998). Entre de palavras em dois sysets relacionados. Por
as várias tarefas do processamento computacio- exemplo, uma relação do tipo parte-de en-
nal da lı́ngua que podem recorrer a uma destas tre os synsets {porta, portão} e {automóvel,
bases de conhecimento, destaca-se a similaridade carro, viatura} resultaria nos seguintes tri-
semântica. plos: (porta sinónimo-de portão), (automóvel
Para o português, existem atualmente vários sinónimo-de carro), (automóvel sinónimo-de
recursos computacionais com caracterı́sticas se- viatura), (carro sinónimo-de viatura), (porta
melhantes à WordNet, inclusivamente várias parte-de automóvel ), (porta parte-de carro),
wordnets (Gonçalo Oliveira et al., 2015). Al- (porta parte-de viatura), (portão parte-de
ternativamente a escolher uma base de conheci- automóvel ), (portão parte-de carro), (portão
mento, neste trabalho foram utilizados vários re- parte-de viatura).
cursos desse tipo, todos eles abertos. Testaram- Finalmente, foi também utilizada a versão
se várias métricas para o cálculo da similaridade mais recente do CONTO.PT (Gonçalo Oliveira,
semântica com base em cada um dos recursos e 2016), uma wordnet difusa baseada na re-
algumas combinações. De certa forma, podemos dundância de informação nos recursos anteriores.
ver esta parte do trabalho como uma comparação Os synsets do CONTO.PT foram descobertos de
indireta dos recursos nas tarefas alvo. Mais forma automática, com base nas relações de si-
propriamente, foram utilizadas redes semânticas nonı́mia nos vários recursos, e incluem palavras
R(P, L), com |N | palavras (nós) e |L| ligações en- com valores de pertença variáveis, indicadores de
tre palavras. Cada ligação tem associado o nome confiança – quanto maior esse valor, maior a con-
de uma relação semântica (e.g. sinónimo-de, hi- fiança na utilização da palavra para transmitir o
perónimo-de, parte-de, ...) e define um triplo significado do synset. Inclui ainda um conjunto
palavra1 relacionada-com palavra2 (e.g. animal de valores de confiança associados a cada relação
hiperónimo-de cão, roda parte-de carro). As entre synsets.
redes utilizadas foram obtidas a partir dos se-
guintes recursos:
4 Extração de caracterı́sticas
• PAPEL (Gonçalo Oliveira et al., 2008),
relações extraı́das automaticamente a par- As caraterı́sticas obtidas a partir de dados em
tir do Dicionário da Lı́ngua Portuguesa da bruto permitem que estes possam ser trabalha-
Porto Editora, com recurso a gramáticas ba- dos por algoritmos heurı́sticos (baseados em co-
seadas nas regularidades das definições; nhecimento) ou de aprendizagem pela máquina.
• Dicionário Aberto (Simões et al., 2012) e Quando se trata de processamento da lingua-
Wikcionário.PT 7 , dois dicionários de onde gem natural escrita, estas caracterı́sticas po-
foram extraı́das relações com base nas mes- dem envolver as diversas fases de análise tais
mas gramáticas que no PAPEL, e integrados como: Lexical, Sintática, Semântica e do Dis-
na rede CARTÃO (Gonçalo Oliveira et al., cuso. Considerando que a coleção ASSIN é com-
2011); posta essencialmente por pares de frases isola-
das, torna-se difı́cil ter um contexto mais am-
• TeP 2.0 (Maziero et al., 2008) e OpenThe- plo para análise do discurso. Sendo assim, foram
saurus.PT8 , dois tesauros que agrupam pa- consideradas as três primeiras análises para a ex-
7
http://pt.wiktionary.org tração de caracterı́sticas. O nosso principal ob-
8
http://paginas.fe.up.pt/~arocha/AED1/0607/ jetivo é extrair caracterı́sticas de forma comple-
trabalhos/thesaurus.txt tamente automática, com base em ferramentas
e recursos existentes. Apesar de algumas carac- semânticas. Algumas dessas heurı́sticas foram
terı́sticas terem sido avaliadas de forma indepen- inspiradas em trabalhos relacionados, inclusiva-
dente (capı́tulo 5), cada uma pode ser conside- mente para o português e sobre algumas das mes-
rada uma métrica de similaridade parcial, parte mas redes semânticas (Gonçalo Oliveira et al.,
de uma análise de regressão (capı́tulo 6). 2014).
As heurı́sticas aplicadas podem agrupar-se em
4.1 Caracterı́sticas Lexicais três tipos:
Considerando as palavras presentes nos pares de • Semelhança entre as vizinhanças das pala-
frases da coleção ASSIN, foram contabilizadas: vras nas redes;
• Contagem de palavras e expressões consi- • Baseadas na estrutura das redes de palavras;

deradas negativas9 presentes em cada frase • Baseadas na presença e pertença em synsets
(Cnf 1 e Cnf 2 ). Assim como o valor abso- difusos.
luto da diferença entre estas duas contagens
(|Cnf 1 − Cnf 2 |), sempre calculadas após a
lematização de cada palavra; 4.3.1 Semelhança entre as vizinhanças
• Contagem dos átomos em comum nas duas O primeiro grupo de heurı́sticas inclui diferentes
frases; formas de calcular a semelhança entre conjuntos
que, neste caso, são formados pela palavra alvo e
• Contagem dos lemas em comum nas duas
por as que lhe são adjacentes na rede semântica, a
frases.
que chamamos a vizinhança (viz, na equação 1).
4.2 Caracterı́sticas Morfo-Sintáticas V iz(palavra) =sinonimos(palavra)

Tendo em consideração a estrutura das frases e ∪ hiperonimos(palavra)
utilizando o segmentador de orações apresentado ∪ hiponimos(palavra) (1)
na secção 3.1.5, foram contabilizadas as conta- ∪ partes(palavra)
gens de grupos nominais, verbais e preposicionais ∪ ...
em cada uma das frases de cada par, e calculado O conjunto das palavras vizinhas podia incluir
o valor absoluto da diferença para cada tipo de efetivamente todas as palavras diretamente re-
grupo. lacionadas, ou poderia restringir-se apenas a al-
Ainda com as ferramentas introduzidas na guns tipos de relação. Por exemplo, em algumas
secção 3.1, o REM foi aplicado de forma a identi- experiências utilizaram-se apenas sinónimos e hi-
ficar a presença de entidades mencionadas (EM) perónimos.
em cada uma das frases. Para cada tipo de EM10 Para calcular a similaridade entre duas frases,
foi calculado o valor absoluto da diferença da con- t e h, cada uma é representada como um conjunto
tagem em ambas as frases de cada par da coleção de palavras, T e H. Partindo da vizinhança de
ASSIN. cada palavra, a similaridade das frases é calcu-
lada de uma de três formas:
4.3 Caracterı́sticas semânticas
• Total: para cada par de frase é primeiro cri-
As caracterı́sticas semânticas foram calculadas ado um conjunto, Ct e Ch , que reúne as vi-
com recurso às redes apresentadas na secção 3.2. zinhanças de todas as palavras da frase t e
Um primeiro conjunto de caracterı́sticas baseou- h, respetivamente (equação 2)11 .
se exclusivamente na contagem de palavras da
|F |
primeira frase de cada par relacionadas com pa- [
CF = V iz(Fi ) (2)
lavras da segunda frase respetiva. i=1
Para além das contagens, foi calculada a simi-
Neste caso, a similaridade é igual à seme-
laridade semântica de cada par de frases, com
lhança entre Ct e Ch (equação 3).
base em heurı́sticas aplicadas sobre as redes
SimT otal (t, h) = Sem(Ct , Ch ) (3)
9
Palavras tais como: “não”, “de modo algum”, “de
11
forma alguma”, “coisa alguma”, “nada”, “nenhum”, “ne- Podem ser consideradas efetivamente todas as pala-
nhuma”, “nem”, “ninguém”, “nunca”, “jamais”, “proi- vras ou apenas aquelas com determinada categoria gra-
bido”, “sem”, “contra”, “incapaz.” matical. Neste caso, foram apenas utilizadas palavras de
10
abstrações, artigos & produtos, eventos, números, or- categoria aberta, ou seja, substantivos, verbos, adjetivos
ganizações, pessoas, lugares, coisas e datas & horas. e advérbios.
• m × n: a similaridade é calculada com base 1. Atribuição de um peso a cada nó da rede

na semelhança média entre a vizinhança de semântica, que será |F1 | , se o nó corres-
cada palavra de T com cada palavra de ponder a uma palavra da frase f , ou 0,
H (equação 4). caso contrário;
|T | |H|
X X 2. Com os pesos anteriores, execução do
Simn×m (t, h) = Sem(V iz(Ti ), V iz(Hj )) algoritmo de PageRank na rede;
i=1 j=1
(4) 3. Ordenamento dos nós da rede de acordo
• M ax(m × n): semelhante ao anterior mas, com o seu peso após 30 iterações;
para cada palavra em T é apenas conside- 4. Criação de um conjunto Ef n com as pri-
rada a semelhança mais elevada com uma meiras n palavras.
palavra de H.
A similaridade entre t e h é depois calculada
|t|
X
Simmax (t, h) = max Sim V iz(Ti ), V iz(Hj )
através da intersecção entre Etn e Ehn . Nas
i=1
experiências realizadas, utilizou-se n = 50.
: Hj ∈ H
(5)
4.3.3 Heurı́stica baseada na presença e pertença
Por sua vez, a semelhança entre as vizinhanças em synsets difusos
podia ser calculada com base em uma de qua-
Para se utilizar a rede CONTO.PT, a abordagem
tro heurı́sticas, todas elas adaptações do algo-
foi um pouco diferente, também devido às dife-
ritmo de Lesk (Banerjee & Pedersen, 2003). A
rentes caracterı́sticas desta rede. A CONTO.PT
semelhança entre duas palavras podia então ser
é estruturada em synsets difusos, onde cada pa-
dada pelo cardinal da intersecção das suas vi-
lavra tem um valor de pertença, para além de
zinhanças (equação 6), ou pelos coeficientes de
relações entre synsets, cada uma com um valor
Jaccard (equação 7), Overlap (equação 8) ou
de confiança associado. Nesta heurı́stica verifica-
Dice (equação 9), também das suas vizinhanças.
se se, para cada par de palavras, (p1, p2) : p1 ∈ h
e p2 ∈ t:
Lesk(A, B) = |V iz(A) ∩ V iz(B)| (6)
1. Há pelo menos um synset S12 : p1 ∈ S12 ∧
|V iz(A) ∩ V iz(B)|
Jaccard(A, B) = (7) p2 ∈ S12 . Neste caso, a similaridade das
|V iz(A) ∪ V iz(B)|
palavras será igual à soma das suas per-
|V iz(A) ∩ V iz(B)| tenças nesse synset, multiplicada por um
Overlap(A, B) = (8)
min(|V iz(A)|, |V iz(B)|) peso ρs . Matematicamente, Sim(p1 , p2 ) =
|V iz(A) ∪ V iz(B)| (µ(p1 , S1 ) + µ(p2 , S2 )) × ρs
Dice(A, B) = 2. (9)
|V iz(A)| + |V iz(B)|
2. Há pelo menos dois synsets S1 , S2 : p1 ∈
Enquanto que os três coeficientes estão den- S1 ∧ p2 ∈ S2 relacionados. Neste caso, a
tro do intervalo [0, 1], a intersecção está no in- similaridade é igual à soma das suas per-
tervalo [0, +∞]. Foi por isso normalizada no in- tenças em cada um desses synsets, multi-
tervalo [0, 1], através da divisão do cardinal da plicada pela soma da confiança na relação
intersecção pelo valor da maior intersecção para e ainda por um peso, que será ρh para hi-
as frases comparadas. peronı́mia ou ρo para outro tipo de relação,
em que fará sentido que ρs > ρh > ρo . Ma-
4.3.2 Heurı́sticas baseadas na estrutura da rede tematicamente, Sim(p1 , p2 ) = (µ(p1 , S1 ) +
µ(p2 , S2 )) × conf (S1 , Relacao, S2 ) × ρ
Foram aplicadas duas medidas que exploram a
estrutura da rede, nomeadamente: A similaridade das frases t e h resulta depois da
soma da similaridade máxima entre cada palavra
• Distância média: entre cada par de palavras de t e qualquer outra palavra de h. Admitimos
em que a primeira palavra é da frase t e a que este tipo de rede poderia ter sido mais explo-
segunda é da frase h. Neste caso, a similari- rado, o que acabou por não acontecer.
dade seria o inverso da distância média.
• Personalized PageRank (Agirre & Soroa, 4.3.4 Contagens de Relações
2009): para se ordenarem os nós da rede de
acordo com a sua relevância estrutural para Para além das heurı́sticas anteriores, um outro
cada frase f é feito o seguinte: conjunto de caracterı́sticas semânticas utilizadas
pelo sistema ASAPP baseou-se na contagem sim- Uma comparação noutra tarefa, mas com
ples de relações entre palavras de uma e ou- algumas semelhanças, foi apresentada
tra frase do par. Mais precisamente, para cada em Gonçalo Oliveira et al. (2014).
rede semântica, foram extraı́das quatro conta-
gens: (i) sinonı́mia; (ii) hiperonı́mia/hiponı́mia; O cálculo da similaridade é realizado após uma
(iii) antonı́mia; e (iv) outras relações. fase de pré-processamento, onde as frases são ato-
A tı́tulo de exemplo, considere-se o seguinte mizadas e onde os átomos recebem anotações
par de frases: morfo-sintáticas, para além da identificação do
seu lema, recorrendo às ferramentas descritas na
• Além de Ishan, a polı́cia pediu ordens de de- secção 3.1.
tenção de outras 11 pessoas, a maioria deles O sistema Reciclagem também participou na
estrangeiros. tarefa de inferência textual. Neste caso, recor-
• Além de Ishan, a polı́cia deu ordem de prisão rendo exclusivamente aos synsets e relações de hi-
para outras 11 pessoas, a maioria estrangei- peronı́mia do CONTO.PT. Ao contrário dos va-
ros. lores de similaridade calculados, esta previsão de
inferência textual não foi utilizada pela aborda-
Com base na rede PAPEL, as seguintes contagens gem ASAPP. A classificação de inferência é rela-
são obtidas: tivamente simples e baseia-se em três parâmetros
principais:
• Sinonimia = 3 — {(polı́cia, ordem), (or-
dem, polı́cia), (detenção, prisão)} • δ, a proporção mı́nima de palavras que a
frase t pode ter a mais ou menos que a
• Hiponimia = 1 — {(estrangeiro, pessoa)} frase h.
• Antonimia = 0
• θs , ponto de corte nas pertenças dos synsets,
• Outras = 2 — {(polı́cia SERVE PARA or- isto é, todas as palavras com pertença infe-
dem), (ordem FAZ SE COM polı́cia)} rior a θs são removidas do respectivo synset.
• θh , ponto de corte na confiança das relações
5 Reciclagem de hiperonı́mia, isto é, todas as relações de
hiperonı́mia com confiança inferior a θh são
Reciclagem é um sistema exclusivamente base- ignoradas.
ado em conhecimento léxico-semântico que pro-
cura calcular a similaridade de frases sem qual- Inicialmente, é calculada a diferença absoluta en-
quer tipo de supervisão. Para tal, ele utiliza uni- tre o número de palavras de classe aberta nas fra-
camente as heurı́sticas anteriormente apresenta- ses t e h. Se esse valor for superior a δ, considera-
das. Ou seja, dado um par de frases, uma rede se que não há inferência. Caso contrário, aplica
semântica e uma heurı́stica, ele calcula um valor os pontos de corte e usa-se a (sub-)wordnet re-
para a similaridade das frases. sultante. Depois:
Apesar dos resultados destas heurı́sticas serem
depois utilizados como caracterı́sticas do sistema • Se todas as palavras de t estiverem em h,
ASAPP, o sistema Reciclagem tem dois objetivos ou tiverem um sinónimo em h, as frases são
principais: consideradas paráfrases (Paraphrase);
• Se, por outro lado, todas as palavras de t
• Verificar até que ponto uma abordagem não tiverem um sinónimo ou um hiperónimo em
supervisionada se equipara a uma aborda- h, considera-se que uma frase é inferência da
gem que recorre a treino. Por exemplo, para outra (Entailment).
o inglês, a exploração de bases de conhe-
cimento léxico-semântico levou a resultados • Se nenhuma das condições anteriores se veri-
comparáveis aos de abordagens supervisio- ficar, considera-se que não há qualquer tipo
nadas em tarefas como a desambiguação do de inferência.
sentido das palavras (Agirre et al., 2009;
Ponzetto & Navigli, 2010).
6 ASAPP
• Realizar uma comparação indireta de um
leque das bases de conhecimento léxico- Na classificação, na regressão, no conjunto de
semântico atualmente disponı́veis para a classificadores, na selecção de caracterı́sticas, en-
lı́ngua portuguesa, através do seu desempe- tre outros, o sistema ASAPP utiliza a ferramenta
nho no cálculo de similaridade semântica. Weka (Hall et al., 2009) para aprender, de forma
validation). As caracterı́sticas utilizadas foram

todas as apresentadas no capı́tulo 4.
Utilizando a abordagem A, duas das confi-
gurações submetidas foram resultado da com-
binação da classificação de inferência textual ob-
tida por diferentes classificadores (três classifica-
dores num caso e cinco noutro) e foi escolhido
o resultado final por Maioria de Votos (Kittler
et al., 1998) para cada par de frases.
Pela abordagem B por duas vezes, ao combi-
narmos diferentes modelos, como os de regressão
para a similaridade, utilizou-se em uma das con-
figurações uma técnica conhecida por Boosting
que iterativamente cria um modelo melhor com
Figura 1: Abordagens para criar conjuntos de
base no desempenho do modelo criado anterior-
classificadores/modelos de regressão (em inglês
mente (Friedman, 1999). Em outra configuração
ensembles) (Kuncheva, 2004)
submetida para a similaridade, foi selecionado
automaticamente o classificador com melhor de-
sempenho, ou seja, que apresentava o menor erro
supervisionada, a análise de regressão da simila- quadrático médio (mean-squared error ).
ridade e a classificação das três categorias de in-
A abordagem C foi seguida na terceira con-
ferência textual (Paráfrase, Inferência Textual ou
figuração submetida para a inferência textual,
Nenhuma relação). Weka é uma grande coleção
onde um conjunto de caracterı́sticas é selecionado
de algoritmos de aprendizagem implementados
automaticamente, desde que tenham pouca cor-
na linguagem de programação Java e continua-
relação entre si, mas uma alta correlação com a
mente em actualização. Por isso, inclui grande
classe a prever, antes do treino efetivo.
parte dos algoritmos mais recentes que repre-
sentam o estado da arte da aprendizagem au- Como última submissão para a similaridade,
tomática. foi utilizado um processo gaussiano (Mackay,
1998) implementado no Weka de forma simpli-
Seja a aprender, a classificar inferência tex-
ficada sem afinação por hiper-parâmetros.
tual, ou a calcular a similaridade entre frases,
um conjunto de classificadores ou modelos de re- Em resumo, a tabela 1 apresenta todos os al-
gressão geralmente tem melhor desempenho que goritmos utilizados em cada configuração subme-
um isolado (Kuncheva, 2004). Há quatro aborda- tida e respetivamente para cada tarefa em foco:
gens normalmente adotadas para criar conjuntos inferência e similaridade textual. É de notar
em aprendizagem (ver figura 1), cada uma fo- que se procurou utilizar para cada configuração
cada num diferente nı́vel de ação. A abordagem o mesmo conjunto de algoritmos para treinar
A considera as diferentes formas de combinar os os modelos em ambas variantes: Português-
resultados dos classificadores ou modelos de re- Europeu e Português-Brasileiro, tendo apenas
gressão, mas não existe uma evidência que esta sido utilizado em cada caso a coleção própria de
estratégia seja melhor do que usar diferentes mo- cada variante da lı́ngua portuguesa.
delos (Abordagem B). Quanto às caracterı́sticas
(Abordagem C), diferentes subconjuntos podem
ser usados para treinar classificadores (ou mode-
los regressão), sendo que estes possam utilizar o
mesmo algoritmo de classificação (ou regressão) 7 Discussão de Resultados
ou não. Finalmente, a coleção pode ser repartida
de forma a que cada classificador (ou modelo de De forma a comparar a abordagem baseada em
regressão) possa ser treinado no seu próprio con- conhecimento, Reciclagem, com a abordagem su-
junto de dados (Abordagem D). pervisionada, ASAPP, são de seguida apresenta-
Na criação do sistema ASAPP, foram seguidas dos os resultados obtidos por cada sistema no
as três primeiras abordagens de criação de con- âmbito da sua participação na tarefa ASSIN.
juntos de classificadores e modelos de regressão, Os cálculos do coeficiente de correlação de Pe-
já que a nı́vel dos dados (Abordagem D), o con- arson para a similaridade, do erro quadrático
junto foi sempre o mesmo – aquele fornecido pela médio (MSE) e da exatidão da inferência textual
coleção ASSIN para o treino – , com validação foram efetuados a partir do script disponibilizado
cruzada através de 10 conjuntos (10-fold cross- pela organização da tarefa.
Configuração Inferência Similaridade

Algoritmo especı́fico do Weka utilizado para cada tarefa
1 Voto por maioria de 3 classificadores Regressão Aditiva
(Kittler et al., 1998; Kuncheva, 2004) por Boosting (Friedman, 1999)
weka.classifiers.meta.Vote -S 1 -R AVG -B (3 classificadores...)
weka.classifiers.meta.AdditiveRegression -S 1.0 -I 10 -W
weka.classifiers.meta.RandomSubSpace --- -P 0.5 -S 1 -I 10 -W
weka.classifiers.trees.REPTree --- -M 2 -V 0.0010 -N 3 -S 1 -L -1
2 Voto por maioria de 5 classificadores Esquema Múltiplo
(Kittler et al., 1998; Kuncheva, 2004) de Seleção (Hall et al., 2009)
weka.classifiers.meta.Vote -S 1 -R AVG -B (5 classificadores...)
weka.classifiers.meta.MultiScheme -X 0 -S 1 -B
(5 modelos de regressão...)
3 Redução Automática de Processo Gaussiano
Caracterı́sticas (Hall et al., 2009) Simples (Mackay, 1998)
weka.classifiers.meta.AttributeSelectedClassifier -E
‘‘weka.attributeSelection.CfsSubsetEval¨-S
‘‘weka.attributeSelection.BestFirst -D 1 -N 5"
-W weka.classifiers.trees.J48 --- -C 0.25 -M 2
weka.classifiers.functions.GaussianProcesses
-L 1.0 -N 0 -K ‘‘weka.classifiers.functions.
supportVector.NormalizedPolyKernel -C 250007 -E 2.0"
Tabela 1: Configurações submetidas (submissões) e como foram treinadas.
7.1 Resultados de similaridade para dife- de se ter verificado empiricamente que não levava
rentes configurações Reciclagem a melhores resultados que, por exemplo, a rede
baseada em redundância.
No sistema Reciclagem, podemos dizer que uma Numa avaliação que recorreu às coleções de
configuração para calcular a similaridade entre treino, a forma de calcular a similaridade que
duas frases tem pelo menos dois parâmetros – levou a um coeficiente de Pearson mais elevado
rede semântica e heurı́stica. No caso de se uti- foi, sem qualquer exceção, a M ax(M × n). Este
lizar uma heurı́stica baseada na semelhança de comportamento foi posteriormente confirmado
vizinhanças, pode ainda variar o método de ob- na coleção de teste. Assim, todos os resulta-
ter as vizinhanças (T otal, m × n e M ax(m × n)). dos mostrados nesta seção foram calculados dessa
No entanto, verificamos empiricamente que os re- forma. No caso da CONTO.PT, foram utilizados
sultados obtidos com vizinhanças calculadas pelo os seguintes parâmetros:
método M ax(m × n) batiam consistentemente
os restantes. Já ao se utilizar a wordnet di- • Pertença mı́nima da palavra a um synset:
fusa CONTO.PT, podem variar-se parâmetros ao min(µ(p, synsets)) = 0.05
nı́vel da consideração da pertença de cada pala- • Corte aplicado nos synsets: cortesynsets =
vra, do ponto de corte a aplicar sobre a pertença 0.05
das palavras aos synsets, ou sobre a confiança das
relações de hiperonı́mia, e ainda o peso a dar a • Peso multiplicado pela pertença num synset:
cada relação (ρ). rhos = 1
Para além da utilização individual de cada • Peso multiplicado pela confiança numa
uma das redes apresentadas na secção 3.2, foi cri- relação de hiperonı́mia: rhoh = 0.1
ada uma rede com os triplos de todos os recursos
e outra baseada na redundância, com os triplos • Peso multiplicado pela confiança numa outra
que ocorriam em pelo menos três recursos (Re- relação: rhoo = 0.02
dun3 ). No entanto, a primeira acabou por não
ser utilizada porque, devido a ser muito grande, As tabelas 2 e 3 mostram as configurações
tornava os cálculos mais demorados, para além que obtiveram melhor classificação na coleção de
Rede Sim Frase Métrica Pearson MSE Rede Sim Frase Métrica Pearson MSE
Redun3 M ax(m × n) Overlap 0,600 1,173 TeP M ax(m × n) Overlap 0,593 1,256
Redun3 M ax(m × n) Dice 0,598 1,185 OpenWN-PT M ax(m × n) Dice 0,589 1,312
OpenWN-PT M ax(m × n) Jaccard 0,596 1,159 OpenWN-PT M ax(m × n) Overlap 0,589 1,345
Redun3 M ax(m × n) Jaccard 0,596 1,190 TeP M ax(m × n) Dice 0,588 1,311
PAPEL M ax(m × n) Overlap 0,594 1,195 OpenWN-PT M ax(m × n) Jaccard 0,588 1,329
Redun3 M ax(m × n) Dice 0,588 1,356
TeP M ax(m × n) Dice 0,592 1,330
PULO M ax(m × n) Jaccard 0,590 1,259 PULO M ax(m × n) Dice 0,584 1,326
OpenWN-PT N/A PPR 0,528 1,301 PAPEL M ax(m × n) Dice 0,584 1,335
OpenWN-PT N/A PPR 0,464 1,225
CONTO.PT N/A 0,587 1,189
CONTO.PT N/A 0,580 1,367
Tabela 2: Melhores configurações e configurações
selecionadas de rede semântica + métrica para Tabela 5: Melhores configurações e configurações
similaridade na coleção de treino PT-PT. selecionadas de rede semântica + métrica para
similaridade na coleção de teste PT-BR.
Rede Sim Frase Métrica Pearson MSE
Redun3 M ax(m × n) Overlap 0,546 1,065
OpenWN-PT M ax(m × n) Dice 0,546 1,077
OpenWN-PT M ax(m × n) Jaccard 0,545 1,081
OpenWN-PT M ax(m × n) Overlap 0,544 1,039
Redun3 M ax(m × n) Jaccard 0,544 1,070 son. Isto mostra que a heurı́stica aplicada acaba
Redun3 M ax(m × n) Overlap 0,544 1,052 por ser mais relevante que o conteúdo da própria
PAPEL M ax(m × n) Overlap 0,543 1,027 rede. Por exemplo, os melhores resultados foram
TeP M ax(m × n) Dice 0,543 1,090 sempre obtidos pelo coeficiente Dice, a distância
PULO M ax(m × n) Jaccard 0,541 1,037
PAPEL N/A PPR 0,447 1,150
média levou sempre a resultados muito baixos,
aqui não apresentados, enquanto que o Persona-
CONTO.PT N/A 0,535 1,078
lized PageRank ficou sempre abaixo alguns pon-
tos que as heurı́sticas baseadas na semelhança de
Tabela 3: Melhores configurações e configurações
conjuntos. Ainda assim, as últimas heurı́sticas
selecionadas de rede semântica + métrica para
mereciam uma melhor afinação que acabou por
similaridade na coleção de treino PT-BR.
não ser realizada.
Apesar desta abordagem não depender de um
treino, identificando a rede, a heurı́stica, o va- treino prévio, verifica-se uma curiosidade: en-
lor do coeficiente de Pearson e ainda do erro quanto que, nas coleções de treino, os resultados
quadrático médio (MSE). Cada tabela inclui obtidos para o coeficiente de Pearson eram, de
ainda uma pequena selecção com os melhores re- uma forma geral, superiores para o PT-PT (cerca
sultados que usam redes ou heurı́sticas não con- de 0,6 contra 0,54), nas coleções de teste esta
templados nos anteriores. As tabelas 4 e 5 apre- tendência inverteu-se (cerca de 0,53 contra 0,59).
sentam os mesmos resultados, mas para a coleção Apesar de tudo, é possı́vel especular um pouco
de teste. sobre o desempenho das redes. Por exemplo,
A observação dos resultados mostra que a di- confirma-se que a combinação das sete redes (Re-
ferença entre as melhores configurações para cada dun3) leva consistentemente a bons resultados, e
rede é ténue, sendo muitas vezes necessário recor- só não obtém os melhores resultados na coleção
rer à terceira casa decimal do coeficiente de Pear- de teste para PT-BR. Relativamente a redes in-
dividuais, a OpenWN-PT destaca-se por apa-
Rede Sim Frase Métrica Pearson MSE recer sempre entre as melhores. E apesar de
Redun3 M ax(m × n) Overlap 0,536 1,105 ter sido criada para o português do Brasil e de
Redun3 M ax(m × n) Dice 0,536 1,130 se limitar a cobrir relações de sinonı́mia e an-
Redun3 M ax(m × n) Jaccard 0,535 1,149 tonı́mia, a rede TeP teve um desempenho supe-
OpenWN-PT M ax(m × n) Jaccard 0,533 1,141
TeP M ax(m × n) Dice 0,532 1,131 rior nas coleções de teste, inclusivamente com o
TeP M ax(m × n) Jaccard 0,532 1,151 melhor resultado para o PT-BR. Por fim, ape-
PAPEL M ax(m × n) Dice 0,530 1,146 sar de nunca se chegar aos melhores resultados, a
PULO M ax(m × n) Jaccard 0,527 1,313 utilização do CONTO.PT leva a resultados que
OpenWN-PT N/A PPR 0,513 1,177 ficam apenas entre uma e duas décimas abaixo
CONTO.PT N/A 0,526 1,179 dos melhores. Sendo uma rede criada recente-
mente, pouco explorada, e onde foi aplicada uma
Tabela 4: Melhores configurações e configurações heurı́stica que também deveria ter sido alvo de
selecionadas de rede semântica + métrica para uma afinação mais profunda, vemos os seus re-
similaridade na coleção de teste PT-PT. sultados como promissores.
θs θh δ Exatidão Macro F1 Submissão Inferência F1 Similaridade MSE

exatidão Pearson
0,1 0,01 0,5 73,83% 0,45
PT-PT 0,1 0,1 0,4 71,67% 0,38 1 - PTBR 79,87% 0,767 0,620 0,677
0,25 0,2 0,5 73,83% 0,45 1 - PTPT 78,27% 0,766 0,715 0,613
2 - PTBR 80,77% 0,765 0,622 0,677
0,1 0,01 0,3 77,47% 0,31
2 - PTPT 78,73% 0,765 0,716 0,612
PT-BR 0,1 0,1 0,5 76,70% 0,42
3 - PTBR 76,50% 0,759 0,635 0,668
0,2 0,2 0,1 77,70% 0,29
3 - PTPT 77,77% 0,775 0,723 0,606
Tabela 6: Resultados da inferência textual na Tabela 8: Melhores configurações e configurações

coleção de treino com a abordagem Reciclagem. selecionadas para submissão com base no resul-
tado de validação cruzada do treino.
θs θh δ Exatidão Macro F1
0,05 0,01 0,3 70,80% 0,32
PT-PT 0,1 0,1 0,5 73,10% 0,43
0,15 0,1 0,4 72,10% 0,38
gressão para as respetivas tarefas de inferência
0,1 0,01 0,3 78,30% 0,33 e similaridade é apresentada na tabela 8.
PT-BR 0,15 0,1 0,3 79,05% 0,39
0,2 0,2 0,1 77,65% 0,29 Após a divulgação dos resultados de teste pela
organização do ASSIN (tabela 9), foi comprovado
Tabela 7: Resultados da inferência textual na que tanto na fase de treino como na de teste, a
coleção de teste com a abordagem Reciclagem. submissão 2 (Maioria de votos entre 5 classifi-
cadores) apresenta melhores resultados de exa-
7.2 Resultados para a inferência textual tidão para a classificação da inferência textual,
Reciclagem conseguindo-se uma exatidão de 80,77% para o
Português Brasileiro com um MSE de 0,765, e de
As tabelas 6 e 7 apresentam os resultados de al- 78,73% e MSE 0,765 para o Português Europeu.
gumas configurações da abordagem Reciclagem Esta coerência também é verificada na simila-
para a inferência textual, respetivamente nas ridade, uma vez que a terceira submissão (Pro-
coleções de treino e teste. Para além dos valores cesso Gaussiano) apresenta resultados idênticos
da exatidão e Macro F1, são apresentados os va- à primeira na fase de testes, mas ultrapassa-a
lores dos parâmetros utilizados, nomeadamente em muito na fase de treino. Este algoritmo é
os pontos de corte θs e θh , e ainda a proporção δ. atualmente oferecido por outras frameworks de
Olhando apenas para a exatidão, os valores uma forma muito mais completa e com possibili-
nesta tarefa são bastante aceitáveis e, como se dade de estudo da redução de caracterı́sticas de
verá na próxima seção, mais próximos da abor- forma integrada, como é o caso do Simulink em
dagem supervisionada. Por outro lado, o valor da Matlab12 . Como possı́vel melhoria, pretende-se
Macro F1 é inferior a 0,5, e por isso menos pro- explorar variantes deste algoritmo com a adoção
missor. Tanto no treino como teste, a exatidão é desta ferramenta.
superior para o PT-BR. No entanto, constatou- Quanto às caracterı́sticas importa realçar que
se que a coleção PT-PT tinha mais casos de in- algumas acabaram por não ser devidamente ex-
ferência que a PT-BR, o que dificulta a tarefa ploradas, nomeadamente a comparação de n-
para esta variante. Mais propriamente, cerca de gramas, e as caracterı́sticas distribucionais obti-
24% dos pares na coleção de treino PT-PT eram das a partir de modelação de tópicos (topic mo-
casos de inferência e cerca de 7% de paráfrase, deling), propostas inicialmente pelas anteriores
proporções que descem para cerca de 17% e 5% versões do ASAP, para o Inglês (Alves et al.,
em PT-BR. Ou seja, um sistema que, no caso 2014, 2015).
do PT-BR, respondesse sempre que não existia De modo a evitar um aumento do tempo que
inferência, iria obter cerca de 78% de exatidão, o treino irá demorar com este acrescento de no-
ainda que com impacto negativo na Macro F1. vas caracterı́sticas e de forma a perceber a con-
Olhando apenas para a Macro F1, os resulta- tribuição de cada uma em particular no processo
dos para PT-PT são ligeiramente superiores a de aprendizagem, um possı́vel melhoramento será
PT-BR. um estudo de selecção de caracterı́sticas com base
na sua relevância.
7.3 Resultados para diferentes confi-
gurações ASAPP
A avaliação que recorreu às coleções de treino 12

http://www.mathworks.com/products/simulink/
para criar modelos de classificadores e de re- ?requestedDomain=www.mathworks.com
Submissão Inferência F1 Similaridade MSE Por exemplo, entre as experiências entretanto

exatidão Pearson realizadas na abordagem Reciclagem, sobre a
1 - PTBR 81,20% 0.5 0,65 0,44 coleção de treino, verificámos que o cálculo da
1 - PTPT 77,75% 0.57 0,68 0,70
2 - PTBR 81,56% 0,47 0,65 0,44
similaridade em dois passos – primeiro, inter-
2 - PTPT 78,90% 0,58 0,67 0,71 secção de lemas, depois, aplicação da heurı́stica
3 - PTBR 77,10% 0,5 0,65 0,44 M ax(m × n) sobre os lemas não partilhados pe-
3 - PTPT 74,35% 0,59 0,68 0,73
las duas frases – leva a melhorias significativas
de desempenho, tanto temporal como qualita-
Tabela 9: Resultado final do teste das tarefas tivo. Na verdade, uma heurı́stica baseada ex-
de inferência e similaridade pela organização do clusivamente na interseção de lemas seria sufici-
ASSIN. ente para ultrapassar os resultados obtidos pelo
sistema Reciclagem em cerca de 0,1 pontos no co-
8 Conclusões eficiente de Pearson. A aplicar, estas melhorias
terão também como consequência a melhoria dos
Foram apresentadas duas abordagens distintas resultados da abordagem ASAPP.
à tarefa de avaliação conjunta ASSIN: uma pri- Entre caracterı́sticas que pretendemos explo-
meira, apelidada de Reciclagem, baseada exclu- rar no futuro, destacamos as caracterı́sticas dis-
sivamente em heurı́sticas sobre redes semânticas tribucionais, quer as obtidas a partir de mo-
para a lı́ngua portuguesa; e uma segunda, apeli- delação de tópicos (topic modeling), propostas
dada de ASAPP, baseada em aprendizagem au- inicialmente pelas anteriores versões do ASAP,
tomática supervisionada. para o Inglês (Alves et al., 2014, 2015), quer
De forma a aproveitar um conjunto de re- as baseadas em word embeddings (Mikolov et al.,
cursos e ferramentas existentes para o processa- 2013).
mento computacional do português, foram apre- Contudo, uma descrição mais aprofundada
sentadas redes semânticas e ferramentas que das novas abordagens a esta tarefa está fora do
estão acessı́veis à comunidade. A partir destes re- âmbito deste artigo e será o alvo de uma pu-
cursos extraı́ram-se caracterı́sticas distintas para blicação futura.
implementar as duas abordagens que participa-
ram na tarefa ASSIN.
Após comparação com os resultados da Agradecimentos
coleção dourada, verificou-se que a abordagem
ASAPP supera a abordagem Reciclagem de Este trabalho é parcialmente financiado por Fundos
forma consistente. Isto ocorre tanto para o Por- FEDER através do Programa Operacional Factores
tuguês Europeu como para o Português Brasi- de Competitividade — COMPETE e por Fundos Na-
leiro, onde o desempenho atinge uma exatidão cionais através da FCT — Fundação para a Ciência
de 80, 28% ± 0.019 para a inferência textual, en- e a Tecnologia no âmbito do projeto Relevance Mi-
quanto que a correlação dos valores atribuı́dos ning and Detection System (REMINDS) Ref. UTAP-
para a similaridade semântica com aqueles ICDT/EEI-CTP/0022/2014
atribuı́dos por humanos é de 66, 5% ± 0.021.
Por outro lado, através da abordagem
Reciclagem verificou-se que é possı́vel obter va- Referências
lores semelhantes através da exploração de dife-
rentes redes, apesar daquela que mais se destacou Afonso, Susana, Eckhard Bick, Renato Haber &
resultar da combinação das sete redes usadas. Diana Santos. 2001. Floresta Sintá(c)tica: um
“Treebank” para o Português. Em Anabela
Gonçalves & Clara Nunes Correia (eds.), Ac-
9 Trabalho Futuro tas do XVII Encontro Nacional da Associação
Portuguesa de Linguı́stica, 533–545.
O trabalho aqui apresentado refere-se a uma
abordagem inicial à tarefa ASSIN, sujeita às res- Agirre, Eneko, Carmen Banea, Claire Car-
trições temporais da avaliação, onde agora nos die, Daniel Cer, Mona Diab, Aitor Gonzalez-
apercebemos que quisemos experimentar e com- Agirre, Weiwei Guo, Inigo Lopez-Gazpio,
parar demasiadas abordagens. Após o perı́odo da Montse Maritxalar, Rada Mihalcea, German
avaliação, identificamos vários aspetos a melho- Rigau, Larraitz Uria & Janyce Wiebe. 2015.
rar na extração de algumas caracterı́sticas, para Semeval-2015 task 2: Semantic textual simi-
além de novas caracterı́sticas a extrair em abor- larity, english, spanish and pilot on interpre-
dagens futuras. tability. Em Proceedings of the 9th internatio-
nal workshop on semantic evaluation (SemEval entailment methods. J. Artif. Int. Res. 38(1).
2015), 252–263. 135–187.
Agirre, Eneko, Carmen Banea, Claire Car- Banerjee, Satanjeev & Ted Pedersen. 2003. Ex-
die, Daniel Cer, Mona Diab, Aitor Gonzalez- tended gloss overlaps as a measure of semantic
Agirre, Weiwei Guo, Rada Mihalcea, German relatedness. Em Proceedings of the 18th Inter-
Rigau & Janyce Wiebe. 2014. Semeval-2014 national Joint Conference on Artificial Intelli-
task 10: Multilingual semantic textual simi- gence (IJCAI’03), 805–810.
larity. Em Proceedings of the 8th internatio-
Barreiro, Anabela. 2008. Paramt: A paraphra-
nal workshop on semantic evaluation (SemEval
ser for machine translation. Em Computati-
2014), 81–91.
onal Processing of the Portuguese Language:
Agirre, Eneko, Daniel Cer, Mona Diab, Aitor 8th International Conference, 202–211.
Gonzalez-Agirre & Weiwei Guo. 2013. *sem
Fellbaum, Christiane (ed.). 1998. WordNet: An
2013 shared task: Semantic textual simila-
Electronic Lexical Database (language, speech,
rity. Em Proceedings of 2nd Joint Confe-
and communication). The MIT Press.
rence on Lexical and Computational Seman-
tics (*SEM), Volume 1: Proceedings of the Fonseca, Evandro B., Gabriel C. Chiele &
Main Conference and the Shared Task: Seman- Aline A. Vanin. 2015. Reconhecimento de En-
tic Textual Similarity, 32–43. ACL Press. tidades Nomeadas para o Portugues Usando
o OpenNLP. Em Anais do Encontro Nacio-
Agirre, Eneko, Mona Diab, Daniel Cer & Aitor
nal de Inteligência Artificial e Computacional
Gonzalez-Agirre. 2012. Semeval-2012 task 6: A
(ENIAC 2015), s. pp.
pilot on semantic textual similarity. Em Pro-
ceedings of the 1st Joint Conference on Lexical Freitas, Cláudia & Diana Santos. 2015. Pesquisas
and Computational Semantics-Volume 1: Pro- e Perspectivas em Linguı́stica de Corpus chap.
ceedings of the main conference and the shared Blogs, Amazônia e a Floresta Sintá(c)tica: um
task, and Volume 2: Proceedings of the Sixth Corpus de um novo Gênero?, 123–150. Mer-
International Workshop on Semantic Evalua- cado de Letras.
tion, 385–393. ACL Press.
Friedman, J.H. 1999. Stochastic gradient boos-
Agirre, Eneko, Oier Lopez De Lacalle & Aitor So- ting. Relatório técnico. Stanford University.
roa. 2009. Knowledge-based WSD on specific
Gonçalo Oliveira, Hugo. 2016. CONTO.PT:
domains: performing better than generic su-
Groundwork for the Automatic Creation of a
pervised WSD. Em Proceedings of 21st Inter-
Fuzzy Portuguese Wordnet. Em Proceedings
national Joint Conference on Artificial Intelli-
of 12th International Conference on Computa-
gence IJCAI 2009, 1501–1506. Morgan Kauf-
tional Processing of the Portuguese Language
mann Publishers Inc.
(PROPOR 2016), vol. 9727 LNAI, 283–295.
Agirre, Eneko & Aitor Soroa. 2009. Personali-
Gonçalo Oliveira, Hugo, Leticia Antón Pérez,
zing PageRank for word sense disambiguation.
Hernani Costa & Paulo Gomes. 2011. Uma
Em Proceedings of the 12th Conference of the
rede léxico-semântica de grandes dimensões
European Chapter of the Association for Com-
para o português, extraı́da a partir de di-
putational Linguistics EACL’09, 33–41. ACL
cionários electrónicos. Linguamática 3(2). 23–
Press.
38.
Alves, Ana, David Simões, Hugo Gonçalo Oli-
Gonçalo Oliveira, Hugo, Inês Coelho & Paulo Go-
veira & Adriana Ferrugento. 2015. Asap-ii:
mes. 2014. Exploiting Portuguese lexical kno-
From the alignment of phrases to textual si-
wledge bases for answering open domain cloze
milarity. Em Proceedings of 9th International
questions automatically. Em Proceedings of the
Workshop on Semantic Evaluation (SemEval
9th Language Resources and Evaluation Con-
2015), 184–189. ACL Press.
ference LREC 2014, ELRA.
Alves, Ana O., Adriana Ferrugento, Mariana
Gonçalo Oliveira, Hugo, Valeria de Paiva,
Lourenço & Filipe Rodrigues. 2014. Asap: Au-
Cláudia Freitas, Alexandre Rademaker, Livy
tomatic semantic alignment for phrases. Em
Real & Alberto Simões. 2015. As wordnets do
SemEval Workshop, COLING 2014, Ireland,
português. Em Alberto Simões, Anabela Bar-
104–108.
reiro, Diana Santos, Rui Sousa-Silva & Stella
Androutsopoulos, Ion & Prodromos Malakasio- E. O. Tagnin (eds.), Linguı́stica, Informática e
tis. 2010. A survey of paraphrasing and textual Tradução: Mundos que se Cruzam, vol. 7(1)
OSLa: Oslo Studies in Language, 397–424. de Paiva, Valeria, Alexandre Rademaker & Ge-
University of Oslo. rard de Melo. 2012. OpenWordNet-PT: An
open Brazilian wordnet for reasoning. Em Pro-
Gonçalo Oliveira, Hugo, Diana Santos, Paulo Go- ceedings of 24th International Conference on
mes & Nuno Seco. 2008. PAPEL: A dictionary- Computational Linguistics COLING (Demo
based lexical ontology for Portuguese. Em Paper), 353–360.
Proceedings of Computational Processing of
the Portuguese Language – 8th Internatio- Pinheiro, Vladia, Vasco Furtado & Adriano Al-
nal Conference (PROPOR 2008), vol. 5190 buquerque. 2014. Semantic textual simila-
LNCS/LNAI, 31–40. rity of portuguese-language texts: An appro-
ach based on the semantic inferentialism mo-
Hall, Mark, Eibe Frank, Geoffrey Holmes, Ber- del. Em Computational Processing of the Por-
nhard Pfahringer, Peter Reutemann & Ian H. tuguese Language - 11th International Confe-
Witten. 2009. The weka data mining software: rence, PROPOR 2014, São Carlos/SP, Brazil,
An update. SIGKDD Explor. Newsl. 11(1). 10– October 6-8, 2014. Proceedings, 183–188.
18.
Ponzetto, Simone Paolo & Roberto Navigli. 2010.
Jiang, Jay J. & David W. Conrath. 1997. Seman- Knowledge-rich word sense disambiguation ri-
tic similarity based on corpus statistics and le- valing supervised systems. Em Proceedings of
xical taxonomy. Em Proc. of the Int’l. Conf. on 48th Annual Meeting of the Association for
Research in Computational Linguistics, 19–33. Computational Linguistics ACL 2012, 1522–
1531. ACL Press.
Kittler, J., M. Hatef, Robert P.W. Duin & J. Ma-
tas. 1998. On combining classifiers. IEEE Rodrigues, Ricardo, Hugo Gonçalo-Oliveira &
Transactions on Pattern Analysis and Ma- Paulo Gomes. 2014. LemPORT: a High-
chine Intelligence 20(3). 226–239. Accuracy Cross-Platform Lemmatizer for Por-
tuguese. Em Maria João Varanda Pereira,
Kuncheva, Ludmila I. 2004. Combining pattern José Paulo Leal & Alberto Simões (eds.), Pro-
classifiers: Methods and algorithms. Wiley- ceedings of the 3rd Symposium on Languages,
Interscience. Applications and Technologies (SLATE ’14)
Lesk, Michael. 1986. Automatic sense disambi- OpenAccess Series in Informatics, 267–274.
guation using machine readable dictionaries: Rychalska, Barbara, Katarzyna Pakulska,
How to tell a pine cone from an ice cream Krystyna Chodorowska, Wojciech Walczak
cone. Em Proceedings of the 5th Annual In- & Piotr Andruszkiewicz. 2016. Samsung
ternational Conference on Systems Documen- poland NLP team at semeval-2016 task 1:
tation (SIGDOC ’86), 24–26. Necessity for diversity; combining recursive
autoencoders, wordnet and ensemble methods
Mackay, David J.C. 1998. Introduction to gaus-
to measure semantic similarity. Em Procee-
sian processes. Dept. of Physics, Cambridge
dings of the 10th International Workshop on
University, UK.
Semantic Evaluation, 602–608.
Maziero, Erick G., Thiago A. S. Pardo, Ariani Di Seno, Eloize Rossi Marques & Maria das
Felippo & Bento C. Dias-da-Silva. 2008. A Graças Volpe Nunes. 2008. Some experiments
Base de Dados Lexical e a Interface Web do on clustering similar sentences of texts in por-
TeP 2.0 - Thesaurus Eletrônico para o Por- tuguese. Em Computational Processing of the
tuguês do Brasil. Em VI Workshop em Tecno- Portuguese Language, 8th International Con-
logia da Informação e da Linguagem Humana ference, 133–142.
(TIL), 390–392.
Simões, Alberto & Xavier Gómez Guinovart.
Mikolov, Tomas, Kai Chen, Greg Corrado & Jef- 2014. Bootstrapping a Portuguese wordnet
frey Dean. 2013. Efficient estimation of word from Galician, Spanish and English wordnets.
representations in vector space. arXiv CoRR Em Advances in Speech and Language Techno-
arXiv:1301.3781. logies for Iberian Languages, vol. 8854 LNCS,
239–248.
Mota, Cristina. 2007. Reconhecimento de en-
tidades mencionadas em português: Docu- Simões, Alberto, Álvaro Iriarte Sanromán &
mentação e actas do HAREM, a primeira ava- José João Almeida. 2012. Dicionário-Aberto:
liação conjunta na área chap. Estudo Prelimi- A source of resources for the Portuguese lan-
nar para a avaliação de REM em Português, guage processing. Em Proceedings of 10th In-
19–34. Linguateca. ternational Conference on the Computational
Processing of the Portuguese Language (PRO-

POR 2012), vol. 7243 LNCS, 121–127.
Sultan, Md Arafat, Steven Bethard & Tamara
Sumner. 2015. Dls@cu: Sentence similarity
from word alignment and semantic vector com-
position. Em Proc. of SemEval 2015, 148–153.
ACL.
Solo Queue at ASSIN:

Combinando Abordagens Tradicionais e Emergentes
Solo Queue at ASSIN: Mix of Traditional and Emerging Approaches
Nathan Siegle Hartmann

Universidade de São Paulo
nathansh@icmc.usp.br
Resumo and an emergent feature, obtained from processing

word embeddings. The TF-IDF is used to relate texts
No presente artigo apresentamos uma proposta which share words. Word embeddings are known by
para atribuição automática da similaridade entre duas capture the syntax and semantics of a word. Fol-
sentenças, tarefa definida na avaliação conjunta AS- lowing Mikolov et al. (2013a), the sum of embedding
SIN 2016. Nossa proposta consiste no uso de uma vectors can model the meaning of a sentence. Using
feature clássica da classe bag-of-words, a TF-IDF; e both features, we are able to capture the words shared
uma feature emergente, capturada por meio de word between sentences and their semantics. We use linear
embeddings. Sabe-se que a medida TF-IDF pode ser regression to solve this problem, once the dataset is
utilizada para relacionar documentos que contém os labeled as real numbers between 1 and 5. Our results
mesmos elementos e, portanto, pode ser utilizada para are promising. Although the usage of embeddings has
documentos que compartilham palavras. Word em- not overcome our baseline system, when we combined
beddings é uma técnica de semântica distribucional e it with TF-IDF, our system achieved better results
é conhecida por modelar a sintaxe e semântica das than only using TF-IDF. Our results achieved the
palavras e, segundo Mikolov et al. (2013a), pode ser first collocation of ASSIN 2016 for sentence similarity
utilizada para modelar a embedding de uma sentença. shared-task applied on brazilian portuguese senten-
Ao considerar ambas as features, ponderamos as pa- ces and second collocation when applying to Portugal
lavras contidas nas sentenças e a semântica comparti- portuguese sentences.
lhada entre elas. Como o rótulo de similaridade para
o problema em questão é um valor real na escala en- Keywords
tre 1 e 5, aplicamos uma técnica de regressão, a Re- Sentence Similarity, word embeddings, Machine Lear-
gressão Linear. Os resultados obtidos mostraram que, ning
apesar da feature de embeddings ter obtido resulta-
dos similares ao sistema baseline, ao ser combinada à
feature TF-IDF, apresentou resultados levemente su-
periores aos obtidos ao ser usada somente a segunda 1 Introdução
feature. Esse foi o trabalho campeão da competição
ASSIN 2016 de similaridade semântica pela primeira Pesquisas sobre similaridade entre documentos se
colocação entre os trabalhos que participaram da ta- iniciaram com foco na área de Recuperação de
refa de similaridade textual para português do Brasil Informação em que, dada uma query, retorna os
e segunda colocação para português de Portugal. documentos mais similares a ela. A literatura
apresenta diferentes abordagens para modelar a
Palavras chave
similaridade entre documentos. Podemos citar:
Similaridade Sentencial, word embeddings, Aprendiza- abordagens por palavras (bag-of-words), que cal-
gem de Máquina culam a similariade lexical, ou n-grams (Salton,
1989; Damashek, 1995), que conseguem capturar
a semântica contida nas sequências de n palavras;
Abstract e também abordagens mais complexas como La-
tent Semantic Analysis (LSA) (Deerwester et al.,
In this paper we present a proposal to automati- 1990; Landauer & Dumais, 1997), que visa cal-
cally label the similarity between a pair of sentences cular a similaridade semântica de todo o docu-
and the results obtained on ASSIN 2016 sentence si- mento, e não apenas a lexical.
milarity shared-task. Our proposal consists of using a Entre os trabalhos clássicos da literatura
classical feature of bag-of-words, the TF-IDF model; de similaridade de documentos, podemos citar
60– Linguamática Nathan Siegle Hartmann
trabalhos que calcularam a similaridade tex- mos uma feature clássica, a TF-IDF (term fre-
tual de uma perspectiva matemática, utilizando quency–inverse document frequency), e também
estatı́stica ou teoria de probabilidade (Ponte uma feature emergente, obtida por meio de word
& Croft, 1998), trabalhos que utilizam recur- embeddings. As próximas seções seguem do se-
sos léxicos para calcular a semântica em um guinte modo: na Seção 2, são apresentadas as
parágrafo ou no documento (Rada et al., 1989; duas features propostas nesse trabalho e também
Resnik, 1995) e outros trabalhos que combi- a baseline, desenvolvida para validar a eficácia
nam todas essas ideias (Rodrı́guez & Egenho- das features propostas; na Seção 3, são apresen-
fer, 2003). Esses métodos, no entanto, possuem tados os resultados obtidos e uma breve discussão
dificuldades em lidar com a esparsidade de da- sobre eles; na Seção 4, são descritos alguns traba-
dos, que não proporciona frequência suficiente lhos relacionados, recuperados da SemEval-2014
para métodos probabilı́sticos nem ocorrência de Task 1, cujo objetivo também foi o cálculo da si-
algumas palavras contidas em recursos lexicais. milaridade sentencial e; na Seção 5, são listadas
Portanto, nenhum desses trabalhos é apropriado as conclusões desse trabalho.
para lidar com a similaridade sentencial.
Trabalhos subsequentes foram desenvolvidos
com o propósito de lidar com a esparsidade de 2 Features
dados na similaridade sentencial (Li et al., 2006;
Liu et al., 2007). No entanto, esses trabalhos Nesse trabalho, propomos o uso de duas featu-
possuem a deficiência de serem dependentes de res: uma relacionada com word embeddings e ou-
córpus ou wordnet. Essa dependência restringe tra com o modelo TF-IDF. Também propomos
um método, muitas vezes, a ser aplicado ape- uma feature baseline para validar a eficácia das
nas a uma determinada lı́ngua devido à carac- features propostas. Nas subseções a seguir, apre-
terı́sticas únicas dessa lı́ngua, buscadas em um sentamos as features utilizadas nesse trabalho e
recurso compilado. a motivação para seu uso: na Subseção 2.1, de-
Trabalhos recentes utilizam o conceito de em- talhamos a feature obtido por meio de word em-
beddings (Mikolov et al., 2013b) para calcular beddings; na Subseção 2.2, detalhamos a feature
a similaridade entre sentenças, parágrafos e do- obtida por TF-IDF e, na Subseção 2.3, apresen-
cumentos. Word Embeddings são modelos pre- tamos a feature baseline.
ditivos de semântica distribucional que se ba-
seiam em redes neurais, sendo mais recentes 2.1 Word Embeddings
que trabalhos clássicos como Latent Semantic
Analysis, que utiliza Singular Value Decomposi- A abordagem para modelagem de palavras no
tion (SVD) para fazer matrizes densas (Landauer espaço vetorial utilizada nesse trabalho foi a
et al., 1998), ou os clássicos modelos distribuci- Skip-Ngram, proposta por Mikolov et al. (2013b).
onais descritos e utilizados há 20 anos por Gre- Essa abordagem se baseou nos tradicionais mo-
fenstetti (1996). A vantagem da abordagem por delos de lı́ngua, no entanto, ao invés de utilizar
embeddings, além da baixa esparsidade de dados, uma sequência de n palavras para predizer a pa-
é a independência de recursos léxicos, sintáticos e lavra no instante n+1, ela utiliza uma única pa-
semânticos. Um modelo de embeddings necessita lavra i para predizer a janela j de palavras ao
unicamente de um grande córpus de treinamento seu redor. Dessa forma, a embedding de uma pa-
que, se for apropriado para a tarefa alvo, mo- lavra representa o contexto no qual ela ocorre,
delará bem o contexto das palavras e não acar- capturando relações sintáticas e semânticas. Um
retará na esparsidade de dados. Podemos citar exemplo clássico da literatura para a lı́ngua in-
o trabalho de Kenter e de Kenter & de Rijke glesa mostra que ao subtrair o vetor da embed-
(2015) que utilizou word embeddings para calcu- ding de homem do vetor da embeddings de rei e
lar a similaridade semântica entre textos curtos. somar o vetor da embeddings de mulher, chega-se
Os autores treinaram um modelo de embeddings a um embedding cujo vetor é muito similar ao de
utilizando um córpus de 100 bilhões de palavras rainha (Turney, 2006). Com esse exemplo perce-
obtidas do website Google News. O gênero jor- bemos que a troca do gênero muda o substantivo
nalı́stico é comumente utilizado para treinamento em si, mas mantém a semântica correta, a versão
de embeddings por ser um gênero genérico, o que feminina de rei.
não limita o modelo treinado à um determinado Utilizamos o sistema word2vec1 para a mo-
cenário ou aplicação. delagem das embeddings por contér o algoritmo
Esse trabalho apresenta uma proposta simples
1
para cálculo da similaridade sentencial. Utiliza- Disponı́vel em https://code.google.com/archive/
p/word2vec/.
Solo Queue at ASSIN: Combinando Abordagens Tradicionais e Emergentes Linguamática – 61
de treinamento Skip-Ngram. O córpus utili- 2.2 TF-IDF

zado para treinamento contém 3 bilhões de to-
kens em português brasileiro, composto por tex- A fim de utilizar uma abordagem clássica da área
tos do website G1, da Wikipédia e do córpus de PLN (Processamento de Linguagem Natural)
PLN-Br (Bruckschen et al., 2008). Definimos que para representação sentencial, realizamos uma
cada embedding seria composta por um vetor de modelagem TF-IDF das sentenças do córpus. Sa-
600 dimensões, tamanho considerado suficiente bendo que a modelagem TF-IDF sofre com a es-
nos experimentos realizados por Mikolov et al. parsidade de dados, utilizamos apenas os stems
(2013a). Todas as palavras foram mapeadas para das palavras de conteúdo das sentenças para re-
caixa baixa a fim de reduzir esparsidade de da- presentá-las, conseguindo dessa forma uma ma-
dos no córpus. Também definiu-se um mapea- triz TF-IDF reduzida. Além disso, sabemos que
mento das palavras com apenas uma ocorrência as sentenças a serem avaliadas são curtas e que
no córpus para um token genérico UNK. Toda não necessariamente contém as mesmas pala-
nova palavra não encontrada no vocabulário do vras. Assim, expandimos o vocabulário das sen-
córpus de treinamento também é mapeada para a tenças buscando sinônimos para cada palavra de
embedding de UNK. É interessante observar que conteúdo no TEP (Thesaurus para o português
foi possı́vel replicar o exemplo rei-rainha, clássico do Brasil) (Maziero & Pardo, 2008). Verificamos
na literatura de embeddings da lı́ngua inglesa, que, ao expandir os sinônimos para todas as pa-
para o nosso modelo treinado com textos em por- lavras de conteúdo de uma sentença, os vetores
tuguês brasileiro. Isso reforça que a abordagem TF-IDF das sentenças se tornam muito similares,
de embeddings é independente de lı́ngua, depende forma a não conseguirmos distinguir sentenças
dendo apenas do córpus de treinamento. similares das distintas. Portanto, empiricamente,
Para calcularmos a similaridade entre os pa- limitamos a expansão de sinônimos para pala-
res de sentenças, utilizamos o modelo treinado de vras de conteúdo que possuem até 2 sinônimos
word embeddings para representar as sentenças. no TEP. Essa decisão foi tomada com base em
O trabalho de Mikolov et al. (2013b) mostra que experimentos no conjunto de treinamento dispo-
ao somar os vetores das embeddings das palavras nibilizado pela comissão organizadora do ASSIN.
de uma sentença, temos como resultado uma em- O uso do TF-IDF como feature é dado pela
bedding que representa a sentença. Apesar de distância do cosseno entre os vetores TF-IDF dos
não terem sido encontrados trabalhos na litera- pares de sentenças. Utilizamos esse valor como
tura que avaliem a qualidade com que a com- uma feature para o sistema de regressão.
posição de embeddings representa uma sentença,
intuitivamente percebemos que, se a embedding
2.3 Baseline
de uma palavra representa o contexto em que
ela ocorre, a soma das embeddings dessas pala- A fim de avaliar a eficácia das features propos-
vras compõe a soma dos seus contextos. Uma tas nesse trabalho, elaboramos um baseline para
abordagem similar para a tarefa de similaridade avaliação. A feature baseline consiste na pro-
textual foi abordada por Bjerva et al. (2014) na porção de palavras compartilhadas entre as duas
SemEval-2014 Task 1. Os autores utilizaram, en- sentenças. Essa feature não captura a semântica
tre outras features, a similaridade do cosseno en- latente das sentenças. Por exemplo, mesmo que
tre as somas das embeddings das sentenças. O duas sentenças compartilhem uma quantidade
sistema desenvolvido pelos autores obteve a ter- substancal de palavras, um sinal de negação con-
ceira melhor colocação na tarefa de similaridade tido em uma dessas sentenças pode inverter o seu
textual da SemEval-2014 Task 1. No âmbito da significado em relação a outra sentença. Assim,
semântica distribucional composicional, o traba- as features propostas são eficazes se capturarem
lho de Mitchell & Lapata (2008) obteve melho- informações latentes sobre as sentenças, de forma
res resultados ao usar a multiplicação vetorial ao a proporcionar uma melhor performance ao sis-
invés da soma. Apesar de termos avaliado am- tema que automatiza a similaridade sentencial.
bos os métodos, reportamos apenas os resultados
da soma vetorial pois os resultados obtidos foram
melhores. 3 Experimentos
O uso das embeddings como feature é dado
pela similaridade do cosseno entre as embeddings Nós treinamos 2 sistemas de Regressão Linear
dos pares de sentenças. O valor da similaridade com os conjuntos de treinamento compostos
entre os dois vetores de embeddings é utilizamo por pares de sentença em português do Brasil
como uma feature para o sistema de regressão. (PTBR) e em português de Portugal (PTPT)
disponibilizados pela comissão organizadora do
ASSIN. Ambos os conjuntos contém 3,000 pa- of-words, que implica a perda da ordem das pa-
res de sentenças cada. Cada sistema foi treinado lavras e na semântica latente. Não podemos afir-
com variação de features: utilizando a feature ba- mar que o resultado final do nosso sistema, que
seline; utilizando apenas embeddings; utilizando utiliza ambas as features, é superior ao do sistema
apenas TF-IDF ; e uma versão utilizando embed- que utiliza apenas TF-IDF, devido a falta de um
dings e TF-IDF. Avaliamos as versões PTBR do teste de significância estatı́stica. No entanto, es-
nosso sistema sobre o conjunto de teste disponibi- peculamos que o uso das embeddings contribui
lizado na shared-task, composto por 2,000 pares para que o sistema capture a semântica da sen-
de sentenças em PTBR. Analogamente, avalia- tença em casos em que o significado do contexto
mos as versões PTPT do nosso sistema sobre o importa, cenário em que o TF-IDF é insuficiente.
conjunto de testes PTPT da shared-task. Utili- Os resultados obtidos pelo sistema desenvol-
zamos as medidas Correlação de Pearson (CP) vido nesse trabalho obtiveram primeiro lugar
e Erro Quadrado Médio (EQM) para avaliar a entre os competidores ao aplicar o sistema no
qualidade das features propostas na tarefa de si- córpus PTBR e segundo lugar ao aplicar o sis-
milaridade sentencial via método de regressão. tema no córpus PTPT. No caso geral, ao unir os
córpus PTBR e PTPT, nós fomos os melhores
PT-BR PT-PT colocados, com 0,68 de CP e 0,52 de EQM.
Feature CP EQM CP EQM
Baseline 0,57 0,50 0,60 0,49
Embeddings 0,58 0,50 0,55 0,83 4 Trabalhos Relacionados
TF-IDF 0,68 0,41 0,70 0,39
Embeddings + TF-IDF 0,70 0,38 0,70 0,66
O SemEval 2014 disponibilizou uma shared-task
Tabela 1: Avaliação das features propostas para (SemEval-2014 Task 1)2 , cujo um dos objetivos
cálculo de similaridade sentencial, utilizando Re- foi calcular a similaridade sentencial de um par
gressão Linear, nos conjuntos de teste da ASSIN de sentenças. Foi disponibilizado um dataset,
shared-task. o SICK, que contém 10,000 pares de sentenças,
sendo 5,000 pares para treinamento e 5,000 pa-
Verificando os resultados apresentados na Ta- res para teste. Essa shared-task inspirou a or-
bela 1, percebemos que o uso apenas da fea- ganização da ASSIN, competição com propósito
ture obtida das word embeddings não resultou similar cujo foco voltou-se para a lı́ngua portu-
em uma boa performance da Regressão Linear. guesa. Nessa seção serão listados três trabalhos
Entendemos que, apesar da literatura apontar do SemEval-2014 Task 1 que trataram de simila-
que a soma das embeddings de uma sequência ridade sentencial.
de palavras representar a sintaxe-semântica dessa O trabalho de Zhao et al. (2014) considerou
sequência, essa representação se torna genérica, um vasto conjunto de features. Entre as featu-
não representando de fato a informação ali con- res utilizadas, podemos citar: tamanho de sen-
tida. Também devemos ponderar que, como o tenças, similaridade superficial (distância do cos-
modelo de embeddings foi gerado sobre textos seno), similaridade semântica, ngrams com base
em PTBR, ele não está calibrado para lidar com em córpus de referência, entre outras. Esse tra-
a variante da lı́ngua PTPT – o que justifica o balho foi o primeiro colocado para a tarefa de
aumento de EQM na avaliação sobre o conjunto similaridade sentencial, obtendo 0,828 de CP e
PTPT ao adicionar a feature Embeddings à TF- 0,325 de EQM.
IDF. Além disso, a soma das embeddings pode O trabalho de Bjerva et al. (2014) utilizou
não ser a melhor forma de manipular essa in- uma variedade de features, das quais podemos
formação. O trabalho de Gabrilovich & Mar- citar: tamanho das sentenças, substantivos e ver-
kovitch (2007) propõe o ponderamento das em- bos compartilhados entre as sentenças, diferenças
beddings das palavras de um documento pela entre os conceitos Wordnet das palavras das sen-
frequência com que essas palavras aparecem na tenças e distância do cosseno das word embed-
lı́ngua. O trabalho de Yuan et al. (2016) mos- dings das sentenças. Esse trabalho foi o terceiro
tra que o uso dessa modelagem melhora a perfor- colocado para a tarefa de similaridade sentencial,
mance da tarefa de desambiguização lexical de obtendo 0,827 de CP e 0,322 de EQM.
sentidos ao utilizar redes neurais.
O trabalho de Lai & Hockenmaier (2014) uti-
Os resultados também nos mostram que o uso liza features que consideram a proporção de pa-
da feature TF-IDF resultou em uma performance lavras compartilhadas entre as sentenças, alinha-
significativa da Regressão Linear em relação ao
uso da feature baseline. É interessante observar 2
Anais disponı́veis em http://www.aclweb.org/
que a representação TF-IDF segue o modelo bag- anthology/S/S14/S14-2.pdf#page=349.
Solo Queue at ASSIN: Combinando Abordagens Tradicionais e Emergentes Linguamática – 63
mento entre as sentenças, presença de negação e a Agradecimentos

similaridade semântica entre o conjunto de pala-
vras não compartilhado entre as sentenças. Esse Agradecemos ao aporte financeiro da FAPESP (p.
trabalho foi o quinto colocado para a tarefa de 2016/00500-1) que financia esse projeto de pesquisa.
similaridade sentencial, com 0,799 de CP e 0,369
de EQM. Referências
5 Conclusão Bjerva, Johannes, Johan Bos, Rob van der Goot

& Malvina Nissim. 2014. The meaning factory:
Esse artigo apresentou os resultados obtidos pela Formal semantics for recognizing textual en-
equipe Solo Queue na tarefa de similaridade tex- tailment and determining semantic similarity.
tual da ASSIN 2016 shared-task. Nossa pro- Em SemEval 2014: International Workshop on
posta consiste no uso de uma feature clássica Semantic Evaluation, 642–646.
da classe bag-of-words, a TF-IDF; e uma feature Bruckschen, M., F. Muniz, J. Souza, J. Fuchs,
emergente, obtida por meio de word embeddings. K. Infante, M. Muniz, P. Gonçalves, R. Vieira
Sabemos que a medida TF-IDF pode ser utili- & S. Aluı́sio. 2008. Anotação Lingüı́stica em
zada para relacionar documentos que compar- XML do Corpus PLN-BR. NILC–TR–09–08.
tilham palavras e, portanto, pode ser utilizada Relatório técnico. University of São Paulo.
para relacionar sentenças. Word embeddings são
conhecidas por modelar o contexto das palavras Damashek, Marc. 1995. Gauging similarity with
e podem ser utilizadas para modelar o contexto n-grams: Language-independent categoriza-
de uma sentença. Nossa equipe obteve os me- tion of text. Science 267(5199). 843–848.
lhores resultados da shared-task ao avaliar o sis- Deerwester, Scott, Susan T Dumais, George W
tema desenvolvido sobre o conjunto de teste de Furnas, Thomas K Landauer & Richard Harsh-
pares de sentença em português do Brasil e seman. 1990. Indexing by latent semantic analy-
gundo lugar ao avaliar sobre o conjunto de teste sis. Journal of the American society for infor-
de pares de sentença em português de Portu- mation science 41(6). 391–407.
gal. No caso geral de avaliação, em que juntou-
se os córpus, nosso grupo foi o melhor colocado. Gabrilovich, Evgeniy & Shaul Markovitch.
Acreditamos que melhores resultados podem ser 2007. Computing semantic relatedness using
obtidos ao investigar-se uma melhor ponderação wikipedia-based explicit semantic analysis. Em
das embeddings das palavras para modelar a em- IJCAI, vol. 7, 1606–1611.
bedding de sua sentença, como apresentado por Grefenstetti, Gregory. 1996. Evaluation techni-
Gabrilovich & Markovitch (2007) e Yuan et al. ques for automatic semantic extraction: com-
(2016). Ainda assim, a composição das embed- paring syntactic and window based approa-
dings de uma sequência de palavras não mantém ches. Em Corpus processing for lexical acqui-
a ordem delas, perdendo parte da semântica con- sition, MIT Press.
tida na sentença. Para resolver esse problema,
Hochreiter, Sepp & Jürgen Schmidhuber. 1997.
vale avaliar o uso de uma rede LSTM para mo-
Long short-term memory. Neural computation
delar a embedding de uma sentença a partir das
9(8). 1735–1780.
embeddings das palavras dessa sentença. Redes
LSTM são conhecidas por manterem a ordem de Kenter, Tom & Maarten de Rijke. 2015. Short
entrada dos elementos (Hochreiter & Schmidhu- text similarity with word embeddings. Em Pro-
ber, 1997). Também sabemos que o fato do nosso ceedings of the 24th International on Confe-
conjunto de embeddings ter sido treinado apenas rence on Information and Knowledge Manage-
sobre textos em Português do Brasil desafiou o ment, 1411–1420. ACM.
sistema a lidar com textos em Português de Por- Lai, Alice & Julia Hockenmaier. 2014. Illinois-lh:
tugal. Assim, o treinamento de um modelo de A denotational and distributional approach to
embeddings que contemple ambas as lı́nguas é semantics. Em Proceedings of the 8th Interna-
o ideal pois, apesar das lı́nguas compartilharem tional Workshop on Semantic Evaluation, 329–
muitas caracterı́sticas, suas nuances geram desa- 334.
fios particulares que merecem atenção.
Landauer, Thomas K. & Susan T. Dumais. 1997.
A solution to Plato’s problem: The latent se-
mantic analysis theory of acquisition, induc-
tion, and representation of knowledge. Psy-
chological review 104(2). 211.
Landauer, Thomas K, Peter W Foltz & Darrell Turney, Peter D. 2006. Similarity of semantic re-
Laham. 1998. An introduction to latent se- lations. Computational Linguistics 32(3). 379–
mantic analysis. Discourse processes 25(2-3). 416.
259–284.
Yuan, Dayu, Ryan Doherty, Julian Richardson,
Li, Yuhua, David McLean, Zuhair A Bandar, Ja- Colin Evans & Eric Altendorf. 2016. Word
mes D O’shea & Keeley Crockett. 2006. Sen- sense disambiguation with neural language mo-
tence similarity based on semantic nets and dels. arXiv preprint @ arXiv:1603.07012.
corpus statistics. Knowledge and Data Engi-
Zhao, Jiang, Tian Tian Zhu & Man Lan. 2014.
neering, IEEE Transactions on 18(8). 1138–
Ecnu: One stone two birds: Ensemble of he-
1150.
terogenous measures for semantic relatedness
Liu, Xiaoying, Yiming Zhou & Ruoshi Zheng. and textual entailment. Em Proceedings of the
2007. Sentence similarity based on dynamic 8th International Workshop on Semantic Eva-
time warping. Em Semantic Computing, 2007. luation (SemEval 2014), 271–277.
ICSC 2007. International Conference on, 250–
256. IEEE.
Maziero, Erick & Thiago Pardo. 2008. Interface
de Acesso ao TeP 2.0 - Thesaurus para o por-
tuguês do Brasil. Relatório técnico. University
of São Paulo.
Mikolov, Tomas, Kai Chen, Greg Corrado & Jef-
frey Dean. 2013a. Efficient estimation of word
representations in vector space. arXiv preprint
@ arXiv:1301.3781.
Mikolov, Tomas, Ilya Sutskever, Kai Chen,
Greg S Corrado & Jeff Dean. 2013b. Distribu-
ted representations of words and phrases and
their compositionality. Em Advances in neural
information processing systems, 3111–3119.
Mitchell, Jeff & Mirella Lapata. 2008. Vector-
based models of semantic composition. Em
ACL, 236–244.
Ponte, Jay M & W Bruce Croft. 1998. A lan-
guage modeling approach to information retri-
eval. Em Proceedings of the 21st annual inter-
national ACM SIGIR conference on Research
and development in information retrieval, 275–
281. ACM.
Rada, Roy, Hafedh Mili, Ellen Bicknell & Maria
Blettner. 1989. Development and application
of a metric on semantic nets. Systems, Man
and Cybernetics, IEEE Transactions on 19(1).
17–30.
Resnik, Philip. 1995. Using information content
to evaluate semantic similarity in a taxonomy.
arXiv preprint @ cmp-lg/9511007.
Rodrı́guez, M Andrea & Max J Egenhofer. 2003.
Determining semantic similarity among entity
classes from different ontologies. Knowledge
and Data Engineering, IEEE Transactions on
15(2). 442–456.
Salton, Gerard. 1989. The transformation, analy-
sis, and retrieval of automatic text processing.
Reading: Addison-Wesley.
http://www.linguamatica.com/
Avaliação de Similaridade Semântica e de

Inferência Textual
Visão Geral da ASSIN
Erick Fonseca, Leandro dos Santos, Marcelo Criscuolo & Sandra
Aluı́sio
Usando Representações Distribuı́das para Similaridade
Semântica e Inferência Textual
Luciano Barbosa, Paulo Cavalin, Victor Guimarães & Matthias
Kormaksson
FlexSTS: Um Framework para Similaridade Semântica
Textual
Jânio Freire, Vládia Pinheiro & David Feitosa
Medição de Similaridade Semântica e Reconhecimento de
Inferência Textual
lingua
Pedro Fialho, Ricardo Marques, Bruno Martins, Luı́sa Coheur &

Paulo Quaresma
ASAPP: Alinhamento Semântico Automático de Palavras
aplicado ao Português
Ana Oliveira Alves, Ricardo Rodrigues & Hugo Gonçalo Oliveira
Solo Queue at ASSIN: Combinando Abordagens
Tradicionais e Emergentes
Nathan Siegle Hartmann

Linguamatica v8n2

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Linguamatica v8n2

Caricato da

Copyright:

Formati disponibili

lingua

Volume 8, Número 2- Dezembro 2016

Linguamática ISSN: 1647–0818

Visão Geral da ASSIN

Blue Man Group no ASSIN: Usando Representações Distribuı́das para

FlexSTS: Um Framework para Similaridade Semântica Textual

INESC-ID@ASSIN: Medição de Similaridade Semântica e Reconheci-

ASAPP: Alinhamento Semântico Automático de Palavras aplicado ao

Solo Queue at ASSIN: Combinando Abordagens Tradicionais e Emer-

Xavier Gómez Guinovart

A Avaliação de Similaridade Semântica e de Inferência Textual (ASSIN) foi pro-

A avaliação conjunta deixou como legado o córpus ASSIN de 10.000 pares de

Nesta edição especial da Linguamática em homenagem ao Workshop ASSIN, tra-

Desejamos a todos uma leitura proveitosa destes trabalhos!

Alberto Simões, Irene Castellón Masalles,

Aline Villavicencio, Joaquim Llisterri,

Álvaro Iriarte Sanroman, José João Almeida,

Ana Frankenberg-Garcia, José Paulo Leal,

Anselmo Peñas, Joseba Abaitua,

Antón Santamarina, Juan-Manuel Torres-Moreno,

Antoni Oliver González, Kepa Sarasola,

Antonio Moreno Sandoval, Laura Plaza,

António Teixeira, Lluı́s Padró,

Arantza Dı́az de Ilarraza, Marcos Garcia,

Arkaitz Zubiaga, Marı́a Inés Torres,

Belinda Maia, Maria das Graças Volpe Nunes,

Carmen Garcı́a Mateo, Mercè Lorente Casafont,

Diana Santos, Mikel Forcada,

Ferran Pla, Pablo Gamallo Otero,

Gael Harry Dias, Patrı́cia Cunha França,

Gerardo Sierra, Rui Pedro Marques,

German Rigau, Salvador Climent Roca,

Helena de Medeiros Caseli, Susana Afonso Cavadas,

Horacio Saggion, Tony Berber Sardinha,

Hugo Gonçalo Oliveira, Xavier Gómez Guinovart,

Visão Geral da Avaliação de

Erick Rocha Fonseca Leandro Borges dos Santos Marcelo Criscuolo

This work is licensed under a Linguamática — ISSN: 1647–0818

Tabela 1: Exemplos para os valores de similaridade semântica.

Tabela 2: Exemplos para as categorias de inferência textual.

Tabela 3: Resumo das Diretrizes para Anotação.

4.2 Estatı́sticas da Anotação Métrica Valor

6.1 Baselines no ASSIN é fortemente relacionada com a sobre-

Tabela 7: Resultados de todas as execuções para a tarefa de similaridade semântica.

Tabela 8: Resultados de todas as execuções para a tarefa de inferência textual.

em inglês, onde os modelos neurais obtêm os me- Referências

Blue Man Group no ASSIN: Usando Representações Distribuı́das

Luciano Barbosa Paulo Cavalin Victor Guimarães

Resumo Our team’s strategy consisted of evaluating

gunda tarefa envolve determinar se s1 implica s2 reconhecimento de inferência textual, alcançando

arn3 . Para ambas abordagens, utilizou-se o 3.3 Estratégia 2: Redes Siamesas

Configuração Similaridade RTE

PT-BR PT-PT Geral

2005. Learning a similarity metric discrimina-

FlexSTS: Um Framework para Similaridade Semântica Textual

Jânio Freire Vládia Pinheiro David Feitosa

This work is licensed under a Linguamática — ISSN: 1647–0818

Análise Morfológica, Similaridade entre Palavras,

Onde, prejudicado o desempenho dos sistemas que

Sistema PT-BR PT-PT

INESC-ID@ASSIN: Medição de Similaridade Semântica e

Pedro Fialho Ricardo Marques

This work is licensed under a Linguamática — ISSN: 1647–0818