Dissertacao DanielLeite

UNIVERSIDADE FEDERAL DE SO CARLOS
CENTRO DE CINCIAS EXATAS E DE TECNOLOGIA

PROGRAMA DE PS-GRADUAO EM CINCIA DA COMPUTAO

UM ESTUDO COMPARATIVO DE MODELOS
BASEADOS EM ESTATSTICAS TEXTUAIS, GRAFOS
E APRENDIZADO DE MQUINA PARA
SUMARIZAO AUTOMTICA DE
TEXTOS EM PORTUGUS

DANIEL SARAIVA LEITE

ORIENTADORA: PROF. DR. LUCIA HELENA MACHADO RINO

So Carlos - SP
Novembro/2010

UNIVERSIDADE FEDERAL DE SO CARLOS
CENTRO DE CINCIAS EXATAS E DE TECNOLOGIA
PROGRAMA DE PS-GRADUAO EM CINCIA DA COMPUTAO

UM ESTUDO COMPARATIVO DE MODELOS
BASEADOS EM ESTATSTICAS TEXTUAIS,
GRAFOS E APRENDIZADO DE MQUINA PARA
SUMARIZAO AUTOMTICA DE
TEXTOS EM PORTUGUS

DANIEL SARAIVA LEITE

Dissertao apresentada ao Programa de Ps-
Graduao em Cincia da Computao da
Universidade Federal de So Carlos, como
parte dos requisitos para a obteno do ttulo
de Mestre em Cincia da Computao, rea de
concentrao Inteligncia Artificial
Orientadora: Dra. Lcia Helena Machado Rino

So Carlos - SP
Novembro/2010

Aos meus pais, Srgio e Nilva, e Ariani.

AGRADECIMENTOS
A minha orientadora Lucia Rino pelos ensinamentos, incentivo ao mestrado e pela
pacincia.
Aos meus pais pelo incentivo e exemplo.
Ao amigo e colega de mestrado Igor Vitrio Custdio, que sempre ajudou quando
precisei.
Aos professores Thiago Pardo e Maria das Graas Volpe Nunes por estarem sempre
dispostos a ajudar e pela colaborao no trabalho do artigo para o workshop da
NAACL 2007.
A Marcelo Mdolo pela ajuda com o SuPor.
A Lucas Antiqueira pelo trabalho conjunto realizado com as medidas de Redes
Complexas e pelo fornecimento do clculo dessas caractersticas para o corpus
TeMrio-2003.
Ao professor Joo Luis Rosa pelas contribuies na qualificao e pela disposio
em responder dvidas sobre o sistema SABio.
professora Heloisa de Arruda Camargo pela tima disciplina ministrada de
Sistemas Nebulosas e pela sugesto do trabalho que foi a primeira verso do SuPor-
2 Fuzzy.
Aos colegas pesquisadores do Lalic e do NILC, pelas ajudas ao longo deste
trabalho.
Rada Mihalcea pela prestatividade ao responder dvidas sobre o TextRank e sua
avaliao.
Aos professores e funcionrios do DC/UFSCar e do Programa de Ps-Graduao
em Cincia da Computao.
UFSCar e aos professores dessa universidade pela formao desde a graduao,
CAPES, FAPESP e CNPq pelo auxlio financeiro.

Tudo deveria se tornar o mais simples possvel, mas no
simplificado.
(Albert Einstein)

RESUMO
A tarefa de Sumarizao Automtica de textos vem ganhando importncia dentro
da rea de Processamento de Linguagem Natural devido ao gigantesco volume
de informao disponibilizado nos diversos meios de comunicao. Dado esse
fato, buscam-se mecanismos em larga escala para sintetizar e facilitar o acesso
a essas informaes, com a preservao do contedo mais relevante e com
pouca ou nenhuma interveno humana. Partindo do sumarizador extrativo
SuPor e contemplando o Portugus, este trabalho de mestrado visou explorar
variadas caractersticas de sumarizao pela utilizao de mtodos
computacionais baseados em estatsticas textuais, grafos e aprendizado de
mquina. Esta explorao consistiu de uma extenso significativa do SuPor, pela
definio de novos modelos baseados nas trs abordagens de forma individual
ou hbrida. Por serem originrios desse sistema, manteve-se a relao com seu
nome, o que resultou na denominao genrica SuPor-2. Os diversos modelos
propostos foram comparados entre si em diversos experimentos, avaliando-se
intrnseca e automaticamente a informatividade dos extratos produzidos. Foram
realizadas tambm comparaes com outros sistemas conhecidos para o
Portugus. Os resultados obtidos evidenciam uma melhora expressiva de alguns
sistemas propostos em relao aos demais sumarizadores extrativos existentes
para o Portugus. Os sistemas que se evidenciaram superiores podem ser
disponibilizados para utilizao por usurios comuns ou ainda para utilizao
como ferramentas em outras tarefas do Processamento de Lngua Natural ou em
reas relacionadas. A dependncia de lngua est somente nos recursos
lingusticos empregados, permitindo assim a portabilidade. Os modelos
supervisionados foram treinados com textos jornalsticos. O treino para outros
gneros pode ser feito pelos usurios atravs dos prprios sistemas
desenvolvidos.

Palavras-chave: SUMARIZAO AUTOMTICA EXTRATIVA, SUMARIZAO AUTOMTICA
BASEADA EM GRAFOS, SUMARIZAO AUTOMTICA BASEADA EM ESTATSTICAS TEXTUAIS,
SUMARIZAO AUTOMTICA BASEADA EM APRENDIZADO DE MQUINA, SUMARIZAO
AUTOMTICA BASEADA EM TCNICAS HBRIDAS, SUMARIZAO AUTOMTICA DE TEXTOS,
PROCESSAMENTO DE LNGUA NATURAL, INTELIGNCIA ARTIFICIAL

ABSTRACT
The Automatic text summarization task is gaining importance in the field of
Natural Language Processing due to the huge amount of information delivered by
communication means. Due to this fact, research have been made pursuing find
large-scale methods for summarize and facilitate the access to that information
with few or even no human interference. Building on SuPor extractive
summarizer we focused on Portuguese summarization by employing varied
features. Those features were explored in several ways using text statistics,
graph measures and machine learning. The exploration involved defining
summarization models based upon such three approaches combined or
individually explored. Though the developed models extend SuPor, they are still
related to it and were generically called SuPor-2. All models were assessed in
some automatic experiments comparing the informativity of the produced
extracts. Comparisons to others Brazilian Portuguese summarizers were also
made. The results obtained are significant in comparison to such summarizers.
Most promising models may be made available for common users. They also
might be employed as tools for Natural Language Processing applications or
related areas. Portability to other languages only relies on replacing some
linguistic resources. Despite supervised systems were trained with news texts,
they can be trained for other genres. This can be accomplished by common
users through systems interface.

Keywords: EXTRACTIVE AUTOMATIC SUMMARIZATION, GRAPH-BASED AUTOMATIC
SUMMARIZATION, AUTOMATIC SUMMARIZATION BASED UPON STATISTICS, MACHINE
LEARNING APPROACH FOR AUTOMATIC SUMMARIZATION, HYBRID METHODS FOR
AUTOMATIC SUMMARIZATION, AUTOMATIC SUMMARIZATION, NATURAL LANGUAGE
PROCESSING, ARTIFICIAL INTELLIGENCE

NDICE
CAPTULO 1 - INTRODUO....................................................................................1
CAPTULO 2 - AVALIAO DE SUMRIOS ............................................................8
2.1 Conceitos Iniciais...................................................................................................8
2.2 Tipos de Avaliao................................................................................................9
2.3 Metodologias Objetivas de Avaliao Intrnseca.................................................10
2.3.1 Medidas de Preciso, Cobertura e F-Measure.................................................10
2.3.2 Medidas de Informatividade da Ferramenta ROUGE.......................................11
2.3.3 Comparaes objetivas entre sistemas de SA.................................................12
2.4 Metodologias Subjetivas de Avaliao Intrnseca ...............................................13
2.4.1 Questionrio de Avaliao Qualitativa das DUCs e TACs................................13
2.4.2 O Mtodo da Cobertura de Unidades Elementares..........................................15
2.4.3 O Mtodo da Pirmide......................................................................................16
CAPTULO 3 - ABORDAGENS DE SA EXTRATIVA...............................................17
3.1 Modelos Clssicos de Sumarizao Automtica Extrativa..................................17
3.1.1 Modelo de Frequncia das Palavras ................................................................18
3.1.2 Modelo de Combinao de Caractersticas......................................................19
3.1.3 Utilizao de Aprendizado de Mquina............................................................20
3.1.4 Mapa de Relacionamentos...............................................................................22
3.1.5 Utilizao de Cadeias Lexicais.........................................................................25
3.1.6 Importncia dos Tpicos ..................................................................................26
3.1.7 TextRank..........................................................................................................27
3.2 Sumarizadores para o Portugus do Brasil .........................................................29
3.2.1 GistSumm.........................................................................................................29
3.2.2 ClassSumm......................................................................................................30
3.2.3 NeuralSumm ....................................................................................................31
3.2.4 SuPor ...............................................................................................................32
3.2.5 SABio ...............................................................................................................34
3.2.6 Sumarizadores Baseados em Medidas de Redes Complexas.........................35

3.3 Trabalhos Recentes ............................................................................................38
3.3.1 Utilizao de Aprendizado de Mquina............................................................38
3.3.1.1 Sistema IIIT ...................................................................................................38
3.3.1.2 Utilizao de Support Vector Machines (SVM)..............................................39
3.3.1.3 Utilizao de Support Vector Machines (SVM) e Treino Dirigido pela ROUGE
..................................................................................................................................39
3.3.1.4 Utilizao de Support Vector Machines (SVM) e Seleo Automtica de
Caractersticas ..........................................................................................................40
3.3.1.5 Utilizao de grandes conjuntos de caractersticas.......................................40
3.3.2 Sumarizao utilizando lgica nebulosa...........................................................41
3.4 Sntese e Comparao das Abordagens para SA...............................................42
CAPTULO 4 - MTODOS BASEADOS EM APRENDIZADO DE MQUINA.........45
4.1 Introduo Minerao de Dados e Classificao...........................................45
4.1.1 Classificao para Sumarizao Automtica ...................................................46
4.1.2 Mtodos Bayesianos ........................................................................................47
4.1.3 C4.5..................................................................................................................48
4.1.4 Support Vector Machines .................................................................................50
4.1.5 Regresso Logstica.........................................................................................50
4.1.6 Redes Neurais Artificiais ..................................................................................51
4.2 Seleo Automtica de Caractersticas...............................................................53
4.2.1 Mtodos Wrapper para Seleo Automtica de Caractersticas em SA...........54
4.2.2 Mtodos Filter - Medidas Baseadas na Teoria da Informao .........................55
4.2.2.1 Mtodos Filter - Information Gain..................................................................60
4.2.2.2 Mtodos Filter - Correlation Feature Selection (CFS)....................................61
4.2.3 Mtodos Filter - Medidas Estatsticas...............................................................64
4.2.4 Mtodos Filter - Anlise dos Componentes Principais .....................................65
4.3 Sistemas Nebulosos............................................................................................66
4.4 Sntese e Comparao das Abordagens Envolvendo Aprendizado de Mquina 69
CAPTULO 5 - DESENVOLVIMENTO DOS MODELOS DE SA BASEADOS EM
GRAFOS, ESTATSTICAS TEXTUAIS E APRENDIZADO DE MQUINA..............72
5.1 Desenvolvimento do SuPor-2..............................................................................73
5.1.1 Proposta 1 Aperfeioamento das Caractersticas..........................................74
5.1.2 Proposta 2 Seleo Automtica de Caractersticas.......................................78

5.1.3 Proposta 3 Utilizao do WEKA na Arquitetura do SuPor-2..........................79
5.1.4 Determinao da melhor configurao para o SuPor-2....................................82
5.2 Desenvolvimento de Modelos Baseados no TextRank .......................................84
5.2.1 Modelo TextRank+Stem+StopwordsRem.........................................................85
5.2.2 Modelo TextRank+Thesaurus...........................................................................85
5.3 Desenvolvimento de Modelos Baseados em Caractersticas de Redes
Complexas e do SuPor-2 Combinadas .....................................................................86
5.3.1 Caractersticas Exploradas e Anlise de Relevncia .......................................87
5.3.2 Os Modelos que Combinam Caractersticas do SuPor-2 e RC........................89
5.3.3 Arquitetura dos Modelos e Utilizao do WEKA...............................................90
5.4 Desenvolvimento de Modelos com Base em Ranking Nebuloso ........................92
5.4.1 Adaptaes no Conjunto de Caractersticas ....................................................93
5.4.2 Base de Conhecimento Nebulosa....................................................................94
5.4.2.1 Modelagem dos Conjuntos Nebulosos..........................................................95
5.4.2.2 Gerao do Conjunto de Regras...................................................................96
5.4.2.3 Codificao do Cromossomo ........................................................................96
5.4.2.4 A Funo de Fitness......................................................................................97
5.4.2.5 Cruzamento e Mutao .................................................................................97
5.4.2.6 Algoritmo Gentico........................................................................................98
5.4.3 Modelo de Classificao Nebuloso...................................................................99
5.4.4 Arquitetura do SuPor-2 Fuzzy ........................................................................100
5.5 Sntese dos Modelos Desenvolvidos.................................................................102
CAPTULO 6 - EXPERIMENTOS DE AVALIAO...............................................105
6.1 Arcabouo Geral dos Experimentos Realizados ...............................................105
6.1.1 Proposta de Experimentos .............................................................................106
6.1.2 Corpora Utilizados..........................................................................................106
6.1.3 Taxa de Compresso .....................................................................................107
6.1.4 Mtricas de Avaliao ....................................................................................107
6.1.5 Avaliao dos Modelos Treinados..................................................................108
6.2 Experimento 1 - Avaliao do SuPor-2..............................................................108
6.3 Experimento 2 - Avaliao dos Modelos Baseados no TextRank .....................109
6.4 Experimento 3 - Avaliao dos Modelos Baseados na Combinao de
Caractersticas do SuPor-2 e Redes Complexas ....................................................111

6.5 Experimento 4 - Avaliao dos Modelos Baseados em Regras Nebulosas ......114
6.6 Experimento 5 - Avaliao Global de Todos os Modelos ..................................115
CAPTULO 7 - CONSIDERAES FINAIS............................................................119
7.1 Principais Concluses .......................................................................................119
7.2 Contribuies ....................................................................................................121
7.3 Limitaes .........................................................................................................125
7.4 Possveis Trabalhos Futuros.............................................................................126
7.4.1 Balanceamento de Classes............................................................................126
7.4.2 Redes Bayesianas..........................................................................................127
7.4.3 Ensembles de Rankings.................................................................................127
7.4.4 Mtodo de Seleo Automtica de Caractersticas........................................127

LISTA DE FIGURAS
Figura 1-1 - Trecho do texto-fonte op94ag14-a.txt .....................................................3
Figura 1-2 - Extrato exemplo do texto-fonte op94ag14-a.txt ......................................3
Figura 1-3 - Abstract manual do texto op94ag14-a.txt ..............................................4
Figura 2-1 Questionrio de avaliao subjetiva proposto nas DUCs e TACs.........14
Figura 3-1 Distribuio de Luhn .............................................................................18
Figura 3-2 Exemplo de Mapa de Relacionamentos (Salton et al.), para uma
estrutura de pargrafos altamente ligada...............................................23
Figura 4-1 Exemplo de rvore de deciso para um modelo de SA com duas
caractersticas ........................................................................................49
Figura 4-2 Representao de uma rede neural para duas caractersticas.............52
Figura 4-3 Funo sigmide...................................................................................52
Figura 4-4 - Grfico da Entropia de dois smbolos ...................................................58
Figura 4-5 Exemplo de espao de busca para o melhor subconjunto de
caractersticas ........................................................................................63
Figura 4-6 Representao grfica do conjunto alto..............................................67
Figura 5-1 Arquivo ARFF de Treino do SuPor-2 ....................................................80
Figura 5-2 Arquitetura do mdulo de treinamento do SuPor-2...............................81
Figura 5-3 Mdulo de Extrao do SuPor-2 ...........................................................82
Figura 5-4 - Comparao da relevncia das caractersticas .....................................87
Figura 5-5 Exemplo de arquivo ARFF de treino considerando caractersticas do
SuPor-2 e de Redes Complexas............................................................91
Figura 5-6 Representao dos conjuntos nebulosos..............................................95
Figura 5-7 Exemplo de Representao de um Cromossomo.................................97
Figura 5-8 Fase de Treino do SuPor-2 Fuzzy ......................................................100
Figura 5-9 Arquivo ARFF de Treino do SuPor-2 Fuzzy........................................101
Figura 5-10 Fase de gerao de extratos do SuPor-2 Fuzzy...............................101
Figura 6-1 Evoluo da etapa de treino do SuPor-2 Fuzzy..................................114

LISTA DE TABELAS
Tabela 3-1 Mtodos e caractersticas associadas no SuPor..................................33
Tabela 3-2 - Opes de processamento e opes de pr-processamento do SuPor33
Tabela 4-1 Conjunto de Treino do Exemplo de Risco de Crdito...........................46
Tabela 4-2 Comparao entre os mtodos de aprendizado de mquina...............71
Tabela 5-1 Modelos desenvolvidos ........................................................................72
Tabela 5-2 Caracterstica de Posio no SuPor-2 .................................................76
Tabela 5-3 Caracterstica associada ao mtodo de Cadeias Lexicais no SuPor-2 77
Tabela 5-4 Caracterstica associada ao Mapa de Relacionamentos no SuPor-2...78
Tabela 5-5 Quadro-resumo de caractersticas exploradas no SuPor-2..................78
Tabela 5-6 Avaliao de diferentes estratgias de aprendizado de mquina para o
SuPor-2 ..................................................................................................83
Tabela 5-7 Caractersticas exploradas nos modelos baseados em caractersticas
de RC e SuPor-2 combinadas................................................................88
Tabela 5-8 Modelos com caractersticas de RC e SuPor-2 combinadas................90
Tabela 5-9 Caractersticas utilizadas no modelo nebuloso ....................................94
Tabela 5-10 Prottipos desenvolvidos e abordagens exploradas ........................103
Tabela 5-11 Prottipos desenvolvidos e modelos de ranking de sentenas ........103
Tabela 5-12 Prottipos desenvolvidos e nmero mximo possvel de
caractersticas ......................................................................................104
Tabela 6-1 Comparao do SuPor-2 com outros sumarizadores.........................109
Tabela 6-2 Resultados da avaliao dos modelos baseados no mtodo TextRank
.............................................................................................................110
Tabela 6-3 Comparao dos modelos com caractersticas do SuPor-2 e Redes
Complexas combinadas .......................................................................112
Tabela 6-4 Anlise de significncia estatstica do Experimento 3 p-valores .....113
Tabela 6-5 Avaliao do SuPor-2 Fuzzy ..............................................................115
Tabela 6-6 Comparativo das caractersticas dos modelos propostos ..................116
Tabela 6-7 Resultados da avaliao conjunta dos modelos de SA sobre o TeMrio-
2006 .....................................................................................................117
Tabela 6-8 P-valores do teste t-student para a medida ROUGE-1 ......................117

Tabela 6-9 P-valores do teste t-student para a medida ROUGE-2 ......................117
Tabela 7-1 Quadro comparativo de sistemas de SA para o Portugus do Brasil .123

LISTA DE SIGLAS
AM - Aprendizado de Mquina
ARFF - Attribute Relation File Format
CFS - Correlation Feature Selection
DUC - Document Understanding Conference
EA - Extrato Automtico
ER - Extrato de Referncia
IG - Information Gain
IT - Importncia dos Tpicos
NILC - Ncleo Interinstitucional de Lingustica Computacional
PLN - Processamento de Linguagem Natural
QA - Question Answering
RC - Redes Complexas
RNA - Redes Neurais Artificiais
ROUGE - Recall-Oriented Understudy for Gisting Evaluation
SA - Sumarizao Automtica
SCU - Summary Content Unit
SOM - Self-Organizing Map
SU - Symetrical Uncertainty
SVM - Support Vector Machines
TAC - Text Analysis Conference
TC - Taxa de Compresso
TF-IDF - Term Frequency Inverse Document Frequency
TF-IPF - Term Frequency Inverse Paragraph Frequency
TF-ISF - Term Frequency Inverse Sentence Frequency
TG - Teoria dos Grafos
WEKA - Waikato Environment for Knownledge Engineering
WWW - World Wide Web

Captulo 1
CAPTULO 1 - INTRODUO
Neste captulo feita uma definio introdutria da rea de Sumarizao Automtica e
so apresentados os problemas abordados, as hipteses consideradas e os objetivos
deste trabalho.

De modo geral, a Sumarizao Automtica (SA) busca produzir uma verso
reduzida de um texto, geralmente pela seleo ou generalizao de seu contedo
informativo mais relevante (Sprck Jones 1999).
A tarefa de SA vem ganhando importncia dentro da rea de Processamento
de Linguagem Natural devido ao gigantesco volume de informao disponibilizado
nos diversos meios de comunicao. Um estudo do final de 2009 da Universidade de
Califrnia (Bohn e Short 2009) apontou que a populao americana gasta em mdia
12h por dia consumindo informaes veiculadas na TV, Internet, rdio, telefone,
jogos ou em meios impressos. Embora o estudo aponte que o consumo de
informao veiculada em meio impresso venha caindo, estando por volta de 5% do
tempo total gasto, o consumo de informaes escritas na Internet o triplo e vem
crescendo. Essa exploso da era da informao tem motivado a busca por
mecanismos em larga escala para sintetizar e facilitar o acesso a essas informaes,
com a preservao do contedo mais relevante e com pouca ou nenhuma
interveno humana.
Conforme prope Sprck Jones (1999), a SA baseada num modelo de
processamento de trs fases: (1) a interpretao do texto-fonte para criar uma
representao conceitual do mesmo; (2) a transformao da representao do texto-
fonte para uma representao conceitual do sumrio; (3) a gerao do texto do
sumrio a partir de sua representao conceitual.
Captulo 1 - Introduo 2
Do processo de sumarizao, pode-se originar um extrato ou um abstract
(Sparck Jones 1997; Mani 2001). Um extrato corresponde ao texto produzido
diretamente pela extrao de segmentos inteiros desse texto, justapostos na mesma
ordem original. Usualmente, a construo dos extratos feita pela justaposio de
sentenas. J um abstract envolve a reescrita do texto e, portanto, consiste de um
novo texto, em geral com vocabulrio e estrutura distintos do texto-fonte. A gerao
de abstracts remete a uma abordagem profunda ou fundamental de SA e ao modo
como a tarefa feita manualmente.
Na gerao de abstracts, como geralmente utilizam-se parfrases,
generalizaes e especializaes, o poder de sntese do sumrio produzido
teoricamente maior. Alm disso, o fato de haver a reescrita em oposio simples
justaposio de segmentos proporciona geralmente uma legibilidade melhor que a
dos extratos.
J na gerao de extratos, os sumrios produzidos podem apresentar
tipicamente problemas de coeso e clareza referencial
1
, que a propriedade de um
texto permitir ao leitor identificar a quem ou que um pronome ou sintagma nominal
est se referindo. Um problema comum de clareza referencial, por exemplo, a
presena de anforas no resolvidas no texto porque seus referentes no so
endofricos, isto , no esto explicitados anteriormente no texto-fonte. Aqui no se
contemplam as referenciaes exofricas, isto , as menes a elementos de uma
realidade exterior, no explicitadas no texto-fonte. Anforas que remetam a esse tipo
de referentes no deveriam representar um problema para a SA, se considerado que
o referente j no est explicitado no prprio texto-fonte.
Como exemplo de anforas problemticas, considere o trecho do texto-fonte
mostrado na Figura 1-1, do corpus TeMrio-2003 (Pardo e Rino 2003). Na Figura 1-2
mostrado um extrato hipottico para esse texto, onde nota-se que a ideia principal
da notcia no transmitida com clareza. A expresso Semelhanas, por si, no
permite identificar que o texto argumenta que os discursos dos candidatos
presidncia citados, FHC e Lula, so muito semelhantes. H ainda a expresso
ambos no extrato sem o referente explcito, prejudicando tambm a interpretao
do texto.

1
Definio apresentada na DUC 2005 (http://duc.nist.gov/duc2005/) em seu questionrio de avaliao
qualitativa. Esse questionrio retomado na Seo 2.4.1.

A leitura atenta das entrevistas de Fernando Henrique
Cardoso (candidato pela coligao do PSDB) e Luiz Incio Lula da
Silva (da aliana liderada pelo PT) Folha revela muito mais
coincidncias do que divergncias. Semelhanas que comeam
nas primeiras medidas que cada um deles anuncia como
prioritrias para o incio de governo.
Ambos mencionam a reforma tributria como ponto de
partida, o que, de resto, segue uma lgica inescapvel: o Estado
brasileiro est em evidente estado falimentar e no h governo que
possa fazer o que quer que seja se, antes, no conseguir
reorganizar racionalmente as suas fontes de recursos.
At a frmula para a implementao dessa reforma
indispensvel, a negociao com a sociedade, semelhante entre
os dois candidatos que lideram todas as pesquisas de inteno de
voto.

Figura 1-1 - Trecho do texto-fonte op94ag14-a.txt

Semelhanas que comeam nas primeiras medidas que
cada um deles anuncia como prioritrias para o incio de governo.
Ambos mencionam a reforma tributria como ponto de partida, o
que, de resto, segue uma lgica inescapvel: o Estado brasileiro
est em evidente estado falimentar e no h governo que possa
fazer o que quer que seja se, antes, no conseguir reorganizar
racionalmente as suas fontes de recursos.
Figura 1-2 - Extrato exemplo do texto-fonte op94ag14-a.txt

J o possvel abstract da Figura 1-3, construdo manualmente a partir de
trechos do abstract manual
2
que acompanha o TeMrio-2003, apresenta uma

2
So os sumrios produzidos por pessoas. Na rea de Sumarizao Automtica, comum chamar tais sumrios
de sumrios manuais, em oposio a sumrios automticos
cobertura muito maior da informao do texto-fonte e sem a introduo de
problemas de legibilidade.

Pelas entrevistas dos dois candidatos presidncia ---
Fernando Henrique Cardoso (PSDB) e Lus Incio Lula da Silva
(PT) conclui-se que h mais convergncias do que divergncias
entre eles. Ambos mencionam a reforma tributria como ponto de
partida para o prprio governo, coerentes, alis, com a condio
bsica para a sobrevivncia do pas. E os dois pretendem faz-la,
negociando com a sociedade.
Figura 1-3 - Abstract manual do texto op94ag14-a.txt

Embora a legibilidade e o poder de sntese da informao dos abstracts sejam
em geral superiores aos extratos, a gerao de abstracts muito mais custosa que a
gerao de extratos e pode demandar recursos lingusticos e computacionais mais
avanados e nem sempre disponveis, tais como analisadores sintticos, discursivos
e semnticos. Em contraste, a gerao de extratos constitui, atualmente, um grande
apelo, do ponto de vista de usabilidade, praticidade e abrangncia: sumarizadores
extrativos podem ser independentes de lngua natural ou domnio e gnero textual.
Alm disso, as tcnicas e mtodos de Inteligncia Artificial, como o Aprendizado de
Mquina (AM), so mais facilmente aplicveis em sumarizadores extrativos. Por
conta disso, a SA extrativa tem sido o foco das pesquisas acadmicas envolvendo
abordagens totalmente automticas (Mani 2001; Sprck Jones 2007).
Um dos sistemas de SA para o portugus do Brasil o SuPor (Mdolo 2003)
e segue tambm a abordagem extrativa. Esse sistema permite que os usurios
livremente escolham caractersticas das sentenas a serem usadas como fatores de
deciso na escolha das sentenas. Atravs de um modelo estatstico, as
caractersticas escolhidas so combinadas e ponderadas, permitindo a pontuao
da cada sentena de acordo com sua relevncia.
O bom desempenho do SuPor frente a outros sumarizadores para o
Portugus, reportado em Rino et al. (2004), serviu de motivao inicial para
continuidade dessa linha de pesquisa extrativa. Assim, objetivou-se neste trabalho a
construo de modelos de sumarizao que superem o desempenho do SuPor e
que tambm tenham uma potencialidade de aplicao mais ampla. Vrios desses
modelos mantm fortes vnculos com as caractersticas principais do SuPor e por
isso mantiveram a denominao SuPor-2 em seus nomes. Eles sero descritos no
Captulo 5.
De modo geral, na construo dos modelos propostos, considerou-se dois
problemas que permeiam o uso de um sistema como o SuPor e a qualquer sistema
extrativo tipicamente:

Problema 1. Quais caractersticas utilizar?
Este problema consiste em como selecionar conjuntos adequados de
caractersticas, usualmente das palavras ou sentenas, para se definir o modelo de
sumarizao. O conjunto de caractersticas pode ser influenciado pelo gnero
lingustico ou domnio. Note-se que, inclusive, que utilizar conjuntos maiores de
caractersticas no levar necessariamente aos melhores resultados. No trabalho de
Kupiec et al. feito num corpus de 188 artigos tcnicos e cientficos, verificou-se que
um subconjunto de caractersticas leva ao melhores resultados. Das 5
caractersticas disponveis no sistema, apenas trs delas (localizao, presena de
palavras indicativas e tamanho) foram utilizadas. Essa mesma variao no
desempenho do sumarizador de acordo com o conjunto de caractersticas tambm
observada no SuPor (Mdolo 2003). No caso do SuPor, existem ao todo 11
caractersticas possveis.
Segundo Mani (2001), o processo de se desenvolver boas caractersticas de
sumarizao uma arte.

Problema 2. Como combinar e ponderar as caractersticas escolhidas?
Uma vez escolhidas as caractersticas, resta ainda a questo de como
combin-las e ponder-las. Da mesma forma que no problema anterior, este
problema geralmente dependente de gnero ou domnio. A questo est em como
determinar os pesos do modelo de salincia. Isto , o modelo que ir atribuir um
peso a cada caracterstica e julgar se o segmento textual relevante ou no. A
complexidade do problema tambm ir crescer conforme o nmero de
caractersticas aumentar. No caso do SuPor, um modelo estatstico Bayesiano
utilizado, mas outros modelos so possveis.

Considerando-se esses dois problemas, partiu-se da premissa de que
possvel combinar e ponderar automaticamente caractersticas de diversas
naturezas para refinar a SA de textos em Portugus do Brasil, conforme j foi
mostrado, por exemplo, por Mdolo (2003) e Kupiec et al. (1995). Buscou-se
verificar, ento, as seguintes hipteses:

Hiptese 1. A combinao de caractersticas de SA diversas pode permitir a
considerao de diferentes fatores ou pontos de vista na anlise da relevncia das
sentenas e, assim, levar a melhores extratos.

Hiptese 2. A pr-seleo automtica de caractersticas pode configurar de
forma adequada o sumarizador para um determinado corpus e levar aos melhores
resultados. Ou seja, a pr-seleo automtica de caractersticas pode ser uma forma
de tratar o Problema 1 explicado acima.

Hiptese 3. A forma de combinao e ponderao das caractersticas tem
influncia significativa na qualidade dos sumrios. Quanto maior a capacidade do
modelo de ponderao em construir bons rankings de sentenas, melhor ser o
desempenho do sumarizador.

Para verificao dessas hipteses, adotou-se a seguinte metodologia:

A definio de modelos matemticos e computacionais para a SA, sua
prototipao, avaliao e comparao com outros modelos;

Explorar em cada modelo de sumarizao definido:
o Conjuntos de caractersticas de naturezas diferentes;
o Abordagens diferentes de ponderao e consequente
combinao das caractersticas.

Na construo dos modelos propostos, trs abordagens principais foram
adotadas: a utilizao de estatsticas textuais, o uso de aprendizado de mquina
(AM) e o emprego de mtodos e medidas relacionados Teoria dos Grafos (TG).

O restante desta dissertao est organizado da seguinte forma: No Captulo
2 so apresentados os principais conceitos e metodologias utilizados na avaliao
de sumrios automticos
3
. Esse captulo referncia tanto para as metodologias de
avaliao utilizadas neste trabalho quanto para as citadas no Captulo 3, onde feita
uma reviso de alguns sistemas de sumarizao j propostos, bem como trabalhos
recentes e correlatos da rea. Ainda no Captulo 3, distinguem-se as trs grandes
abordagens exploradas neste trabalho: estatsticas textuais, grafos e aprendizado de
mquina. O Captulo 4 dedica-se a um aprofundamento na descrio dos principais
mtodos de aprendizado de mquina, discorrendo sobre seu uso para SA. O
Captulo 5 descreve os modelos de SA desenvolvidos neste trabalho. O Captulo 6
focado na descrio e discusso dos experimentos de avaliao conduzidos, tanto
de cada modelo individualmente quanto de sua comparao com sistemas de outros
autores. Por fim, no Captulo 7, apresentam-se as principais concluses,
contribuies e limitaes deste trabalho, assim como possveis desdobramentos e
continuaes.

3
Neste texto, por se considerar a abordagem extrativa, adota-se tambm o termo extrato automtico
Captulo 2
CAPTULO2 - AVALIAO DE SUMRIOS
Neste captulo so apresentados os principais aspectos envolvidos na avaliao de
sistemas de sumarizao. As metodologias de avaliao aqui apresentadas so
utilizadas nos captulos subsequentes.

2.1 Conceitos Iniciais
Segundo Mani (2001) e Sprck Jones (2007), a avaliao uma etapa de
fundamental importncia na Sumarizao Automtica. Uma variedade de bases
de comparao pode ser utilizada para avaliar o desempenho dos
sumarizadores. Os sumrios podem ser julgados em relao ao texto-fonte,
comparados com sumrios de referncia ou gold-standards, comparados com
sumrios produzidos por outros sistemas ou baselines.

Mani (2001) destaca as seguintes dificuldades principais na avaliao:

Pode ser necessrio utilizar trabalho manual para julgar o resultado dos
sumarizadores, encarecendo a avaliao;
A dificuldade do que se pode definir como um bom sumrio manualmente, j
que pode haver discordncia entre os juzes, principalmente em avaliaes
intrnseca, definidas na Seo 2.2. Isso se deve, por exemplo, ao fato de um
texto estar sujeito a diferentes interpretaes com base em pressupostos ou
expectativas que um leitor traz, previamente;
Captulo 2 - Avaliao de Sumrios 9
A avaliao feita para uma taxa de compresso
4
previamente estipulada.
Nem sempre os sumrios de referncia, quando necessrios para
comparao, tm tamanho compatvel ao dos sumrios automticos, o que
pode gerar diferenas significativas de contedo e, assim, a impossibilidade
de se efetuar uma comparao consistente;
Sumrios podem ser avaliados de diversas formas, se considerados os seus
variados propsitos. Por exemplo, um sumrio pode ser muito til como
indicativo do contedo de um texto, mas muito ruim se considerado um
substituto dele.

A seguir, apresentam-se os tipos principais de avaliao que podem ser
feitos.

2.2 Tipos de Avaliao
Assim como distinguido na rea de PLN em geral, a avaliao pode ser
intrnseca ou extrnseca. Na intrnseca, o sumarizador avaliado de acordo com a
qualidade direta dos textos produzidos. Na extrnseca, mensurado o quanto os
sumrios so teis para alguma outra tarefa que os utiliza, como por exemplo QA
(Question Answering) ou Categorizao de Textos. Na primeira tarefa, pode-se
medir o quo bem um sumrio construdo a partir de um conjunto de documentos
responde uma dada pergunta. Na segunda tarefa, por exemplo, pode-se avaliar a
utilidade dos sumrios como substitutos dos textos-fonte na determinao de suas
categorias.
Caso o sistema seja avaliado observando-se apenas suas entradas e suas
sadas, a avaliao dita black-box. A avaliao ser do tipo glass-box quando se
observar tambm o que ocorre nos mdulos e estados internos do sumarizador, e
no apenas em seu funcionamento global.

4
A definio matemtica da taxa de compresso dada na Seo 3.1.2 deste texto.
Neste trabalho, dada nfase nas avaliaes intrnsecas. Nas sees
seguintes, so descritas metodologias objetivas e subjetivas para esse tipo de
avaliao.
2.3 Metodologias Objetivas de Avaliao Intrnseca
As avaliaes objetivas podem ser geralmente feitas por medidas
automticas, comparando-se os sumrios automticos com sumrios manuais,
sendo estes os dados de referncia e, por isso, usualmente denominados gold-
standards. Para isso, calculam-se medidas numricas que reproduzam essa
correspondncia com os dados de referncia. Na rea de Sumarizao Automtica,
foram propostas inmeras medidas, cada uma com sua forma de clculo particular,
para se avaliar sumrios automticos. Aqui destacamos somente as mais
diretamente relacionadas s avaliaes feitas para os modelos de SA propostos
neste trabalho.
2.3.1 Medidas de Preciso, Cobertura e F-Measure
As medidas de Preciso (P), Cobertura (C) e F-Measure (F) foram
inicialmente propostas para avaliar sistemas de Recuperao da Informao (Salton
e Buckley 1988). Nesse caso, elas so utilizadas para avaliar o quo satisfatrias
so as respostas recuperadas por um sistema de recuperao da informao. A
Preciso (P) representa a quantidade de documentos relevantes para o usurio
dentre os documentos recuperados na busca. A Cobertura (C) representa a
quantidade de documentos relevantes recuperados dentre os documentos
relevantes existentes na base de dados. J a F-Measure (F) representa a mdia
harmnica ente P e C. A F-Measure til por combinar numa nica medida tanto a
Preciso quanto a Cobertura.
Devido tradio da rea de Recuperao de Informao, essas medidas
foram adotadas tambm para a avaliao de sumrios automticos (Mani 2001).
Para isso, elas foram adaptadas para, em vez de se considerarem documentos
completos recuperados, considerarem-se apenas sentenas apontadas pelo
sumarizador como relevantes para incluir no sumrio em construo. A utilizao de
unidades sentenciais representa uma correspondncia mais direta com a
identificao de documentos importantes no modelo de Salton e Buckley (1988).
Entretanto, nada impediria que outras unidades intratextuais fossem utilizadas como
unidades elementares, no clculo das medidas P, C e F
Quando feita a comparao do extrato automtico (EA) com um sumrio ou
extrato de referncia (ER), as medidas podem ser assim definidas: P representa o
nmero de sentenas do extrato automticas contidas no de referncia dividido pelo
nmero sentenas do extrato automtico; C representa o nmero de sentenas do
extrato automtico contido no de referncia dividido pelo nmero sentenas do
extrato de referncia; F a mdia harmnica entre P e C.

| |
| |
EA
ER EA
P

=
[1]
| |
| |
ER
ER EA
C

=
[2]
C P
C P
F
+
=
.
2 [3]

2.3.2 Medidas de Informatividade da Ferramenta ROUGE
Nos ltimos anos tm sido muito utilizadas as medidas de avaliao de
presentes no pacote ROUGE
5
(Recall-Oriented Understudy for Gisting Evaluation
para calcular a informatividade dos sumrios automticos. Segundo Lin e Hovy
(2003), as medidas de ROUGE tm alta correlao com as avaliaes humanas.
Desde a DUC 2003
6
(Document Understandy Conference), concurso de SA que
passou a se chamar TAC
7
(Text Analysis Conference), as medidas de ROUGE vem
sendo utilizadas.
H varias formas de se calcular as medidas ROUGE e elas so dependentes
do nmero de n-gramas que considera para verificar a informatividade de extratos ou

5
Disponvel em http://berouge.com/default.aspx (Junho/2010)
6
http://www-nlpir.nist.gov/projects/duc/index.html (Junho/2010)
7
http://www.nist.gov/tac (Junho/2010)
sumrios automticos em relao aos seus correspondentes de referncia. A
premissa das mtricas que a coocorrncia de n-gramas entre o sumrio manual e
o sumrio automtico reflete sua informatividade.
As medidas calculadas pela ROUGE so denotadas genericamente por
ROUGE-N, onde o parmetro N indica o nmero de n-gramas considerado. Assim,
ROUGE-1 indica a utilizao de unigramas, ROUGE-2 indica a utilizao de
bigramas, etc.
importante frisar que embora o clculo da mtrica seja automtico, o uso da
ROUGE necessita de sumrios manuais para comparao, os quais continuam
demandando uma equipe de profissionais especializados para sua elaborao.

2.3.3 Comparaes objetivas entre sistemas de SA
As comparaes objetivas entre sumarizadores tm sido feitas geralmente
atravs de medidas automticas, como as mtricas de Preciso, Cobertura e F-
measure (Seo 2.3.1) e mtricas disponveis na ferramenta ROUGE (Seo 2.3.2).
Em geral, tomam-se como referncia as medidas mdias de cada
sumarizador obtidas para um corpus de avaliao. A questo que surge na
comparao entre as medidas se as mdias so estatisticamente diferentes. Em
outras palavras, se os resultados tm significncia estatstica. De forma geral,
quanto maior o nmero de textos utilizados para o clculo das medidas mdias,
tanto menores sero as diferenas necessrias para que os resultados sejam
significativos.
Considerando essa anlise estatstica, o Apndice C descreve o uso de
possveis mtodos e ferramentas para a anlise de significncia estatstica na
comparao entre pares de sumarizadores. Particularmente, neste trabalho foi
adotado o teste t-Student ou t-teste. Para mais sumarizadores outras abordagens
so apresentadas em Densar (2006).
2.4 Metodologias Subjetivas de Avaliao Intrnseca
De modo geral, as metodologias subjetivas de avaliao buscam julgar os
sumrios de acordo com critrios qualitativos, como legibilidade, qualidade de
contedo ou utilidade. Embora a avaliao de informatividade possa ser feita de
forma automtica, com o uso da ROUGE, por exemplo, a avaliao manual costuma
capturar melhor a sobreposio entre a informao expressa nos sumrios manual e
automtico. Isso se deve ao fato de os sumrios poderem expressar os mesmos
conceitos com o uso de vocabulrio completamente distinto, por meio do emprego
de sinnimos, generalizaes ou especializaes. Como a avaliao automtica
geralmente se apoia na sobreposio de palavras, ela pode ser falha nesse sentido.
A seguir, descrevem-se trs formas de avaliao subjetivas que tm sido
utilizadas nas DUCs e TACs.
2.4.1 Questionrio de Avaliao Qualitativa das DUCs e TACs
Nas DUCs e TACs tem sido utilizado o questionrio mostrado na Figura 2-1
para avaliao manual da qualidade dos extratos. Esse questionrio preenchido
por um nico juiz. Como se pode ver, as notas de cada quesito devem variar no
intervalo de 1 (muito ruim) a 5 (muito bom). As caractersticas a avaliar envolvem
vrios nveis da produo textual: o sinttico (gramaticalidade); o semntico, de
contedo (redundncia) ou clareza referencial; o discursivo, de foco ou coerncia; e
o estrutural, que ir remeter aos nveis anteriores em maior ou menor grau. De um
modo geral, esses parmetros, juntos, servem para julgar a textualidade dos
resultados automticos.
Alm desse questionrio focado na textualidade, uma medida geral de
utilidade do sumrio tem sido proposta nas DUCs e TACs. Ela denominada Overall
Responsiveness e abrange tanto os quesitos de contedo quanto os de textualidade.
Ela tambm pode variar de 1 (muito ruim) a 5 (muito bom).

1. Gramaticalidade
O sumrio no pode apresentar erros com relao ao emprego incorreto de maisculas e minsculas,
formatao interna do sistema ou obviamente sentenas no-gramaticais que tornam o texto de difcil
leitura.

1. Muito ruim
2. Ruim
3. Aceitvel
4. Bom
5. Muito bom

2. Redundncia
No deve existir repetio desnecessria no sumrio. Essa repetio desnecessria pode aparecer
como sentenas inteiras repetidas, fatos repetidos ou a utilizao um sintagma nominal maior (ex. O
presidente) quando um pronome simples seria suficiente (ex. Ele).

1. Muito ruim
2. Ruim
3. Aceitvel
4. Bom
5. Muito bom

3. Clareza Referencial
Deve ser facilmente identificvel a quem ou ao que os pronomes e sintagmas nominais se referem no
texto.
8

1. Muito ruim
2. Ruim
3. Aceitvel
4. Bom
5. Muito bom

4. Foco
O sumrio deve ter foco, contendo apenas sentenas que contenham informao relacionada ao
restante do sumrio.

1. Muito ruim
2. Ruim
3. Aceitvel
4. Bom
5. Muito bom

5. Estrutura e Coerncia
O sumrio deve estar bem-estruturado e bem-organizado. Ele deve ser construdo sentena a
sentena de modo a formar um conjunto coerente de informaes sobre um assunto.

1. Muito ruim
2. Ruim
3. Aceitvel
4. Bom
5. Muito bom
Figura 2-1 Questionrio de avaliao subjetiva proposto nas DUCs e TACs

8
A propriedade de clareza referencial j foi citada no Captulo 1, onde se mencionou que os extratos podem
possuir com frequncia problemas relacionados a essa propriedade, como a presena de anforas endofricas no
resolvidas.
2.4.2 O Mtodo da Cobertura de Unidades Elementares
O mtodo da Cobertura das Unidades Elementares (Tratz e Hovy 2008) foi
utilizado at a DUC 2005 e trata da avaliao de contedo. Basicamente, ele
prope a diviso dos sumrios manual em pequenas unidades elementares de
contedo que iro facilitar o juiz na verificao da cobertura das informaes.
A vantagem da utilizao dessas unidades que permitem considerar
expresses de mltiplas palavras como a mesma entidade. Por exemplo, enquanto
na abordagem de coocorrncia de unigramas da medida ROUGE-1, as palavras que
compem o sintagma Estados Unidos da Amrica podem ser consideradas
isoladamente, na abordagem da Cobertura de Unidades Elementares todas fazem
parte da mesma unidade. Alm disso, por esse mtodo os sintagmas Estados
Unidos da Amrica, Estados Unidos e EUA so considerados unidades
elementares sobrepostas, pois significam o mesmo conceito.

O processo completo de julgamento o seguinte:

O sumrio de referncia dividido em unidades elementares de
contedo, que correspondem grosso modo s unidades elementares
do discurso. O processo de anotao manual
9
;
Um juiz humano analisa o sumrio automtico e encontra todas as
unidades que cobrem pelo menos algumas das informaes das
unidades elementares do sumrio manual;
Para cada unidade elementar de contedo do sumrio manual, o juiz
ento analisa se o sumrio automtico expressou entre 0, 20%, 40%,
60%, 80% ou 100% da informao.

O escore final do sumrio automtico normalizado entre 0 e 1. Ele
representa a cobertura das unidades de contedo do sumrio de referncia.
(e.g.,Tratz e Hovy 2008)

9
Estudos (Tratz e Hovy 2008) tm sido feitos para tentar obter automaticamente as unidades
elementares. Entretanto, a determinao manual tem sido mais frequente.


2.4.3 O Mtodo da Pirmide
O mtodo da Pirmide (Nenkova et al. 2007) busca avaliar o contedo dos
sumrios automticos considerando que sumarizadores humanos podem selecionar
informaes diferentes na composio de sumrios manuais de mesmos textos-
fonte. A metodologia considera a frequncia com que as informaes coocorrem
entre os sumrios manuais. Ou seja, mais indicado quando existem mltiplos
sumrios de referncia.
Assim como no mtodo de Cobertura das Unidades Elementares, no mtodo
da Pirmide anotam-se as chamadas SCUs (Summary Content Units) dos sumrios
de referncia. Essas unidades so fragmentos do texto com algum significado.
A importncia de uma SCU est ligada frequncia com que a informao
expressa nela encontrada no conjunto de sumrios. Quando maior a frequncia,
mais importante considerada a SCU. Um conjunto de SCUs geralmente forma uma
pirmide. Na base, existe um nmero grande de SCUs com peso 1 ou 2, enquanto
no pice um conjunto bem menor e com pesos bem maiores.
De forma semelhante ao mtodo anterior, os sumrios automticos so
confrontados com as SCUs. Toda vez que a informao expressa na SCU for
coberta pelo sumrio, ele recebe o valor n, que o peso da SCU. Caso contrrio,
recebe 0. O escore final do sumrio razo entre a soma dos pesos das SCUs
cobertas e a soma dos pesos de um sumrio timo.
Como citado, o Mtodo da Pirmide tem a robustez de considerar que vrios
sumrios de referncia podem expressar informaes diferentes e com vocabulrio
diferente. Entretanto, a principal dificuldade do mtodo a anotao manual e
subjetiva das SCUs.

A reviso feita neste captulo retomada nos captulos subsequentes: no
Captulo 5, onde feita a avaliao dos modelos propostos neste trabalho em uma
srie de experimentos, e no prximo captulo, onde se reporta o desempenho de
uma srie de sumarizadores j existentes.

Captulo 3
CAPTULO 3 - ABORDAGENS DE SA EXTRATIVA
Neste captulo so apresentados os modelos clssicos de Sumarizao Automtica,
alguns sumarizadores existentes para o portugus do Brasil e trabalhos recentes. Ao
final do captulo, feita um sntese onde se distinguem as trs grandes abordagens
exploradas neste trabalho: estatsticas textuais, grafos e aprendizado de mquina.
3.1 Modelos Clssicos de Sumarizao Automtica Extrativa
Conforme j citado no Captulo 1, a qualidade dos textos produzidos por
modelos extrativos em geral questionvel, sendo difcil controlar ou modelar
processos de deciso que garantam sua textualidade (coeso e coerncia). Muitas
vezes sumarizadores automticos extrativos produzem extratos informativos, mas
com textualidade ruim.
Por conta disso, buscam-se maneiras de se contemplar na SA Extrativa maior
conhecimento lingustico. Como exemplo, pode-se citar desde o pr-processamento
textual, que dependente da lngua (p.ex., stemming ou tagging), at o uso de
tcnicas mais robustas como o encadeamento lexical explorado por Barzilay e
Elhadad (1999), descrito ainda neste captulo. Essas tcnicas visam suprir a
ausncia, na abordagem essencialmente emprica, dos processos de abstrao e de
fuso, sendo o primeiro responsvel por qualquer reformulao de material relevante
do texto-fonte e o segundo, por sua condensao. Esses processos so comumente
associados ao tratamento da coerncia do texto final (Sparck Jones e Galliers 1996)
e so viabilizados quando se processam as decises de reestruturao do sumrio;
neste caso, remetendo modelagem fundamental.
Captulo 3 - Abordagens de SA Extrativa 18
No que segue, apresentam-se alguns dos modelos principais da rea de
Sumarizao Automtica extrativa, que esto bastante relacionados ao presente
trabalho. Sempre que aplicvel, apontam-se as vantagens ou desvantagens dos
modelos apresentados.

3.1.1 Modelo de Frequncia das Palavras
O modelo mais tradicional de SA surgiu no final da dcada de 50,
particularmente com o trabalho de Luhn (1958). Nesse trabalho, Luhn verificou que
a distribuio de palavras relevantes num texto estava associada a uma lei de Zipf
(Zipf 1949; Gelbukh e Sidorov 2001). Atravs da anlise dessa distribuio, Luhn
props um mtodo para julgar a relevncia de uma sentena a partir da anlise das
frequncias das palavras dessa sentena no texto. De modo geral, a hiptese do
modelo de que as sentenas mais importantes so as que possuem as palavras
com maior poder de resoluo. Estas palavras so as que se concentram numa
regio estabelecida por dois cortes na curva de distribuio de frequncias. A Figura
3-1 ilustra a distribuio. A funo E, em forma de sino, representa o poder de
resoluo das palavras.

Figura 3-1 Distribuio de Luhn

Usualmente, o corte superior de frequncias feito removendo-se palavras
conhecidas que apresentam esse comportamento, as chamadas stopwords.

Principais vantagens: construir um extrato a partir de apenas informaes
superficiais do texto; baixo custo computacional.
Principais desvantagens: considerar apenas a frequncia das palavras
como determinante da relevncia das sentenas.

3.1.2 Modelo de Combinao de Caractersticas
A hiptese bsica dos processos extrativos de que possvel se gerar um
resumo a partir de um ranking de sentenas. Ou seja, uma vez avaliadas as
sentenas, selecionam-se de forma ordenada para compor o extrato as sentenas
com os maiores ndices. A seleo feita at que se atinja o tamanho desejado do
texto, determinado por sua taxa de compresso (TC), definida a seguir:

toOriginal TamanhoTex
rato TamanhoExt
TC =
[4]

Essa frmula para a TC indica o percentual do tamanho dos sumrios
automticos produzidos em relao texto-fonte, ao contrrio de indicar o quanto o
texto-fonte deve ser comprimido (que seria o conceito usual associado a esse
termo). Segue, portanto, a definio de Mani (2001) e o tamanho dos textos
usualmente medido pelo nmero de palavras.
Partindo dessa hiptese, Edmundson (1969) props o arcabouo geral que
vem sendo seguido at os dias atuais. Para Edmundson, a salincia ou relevncia
de uma sentena pode ser associada a caractersticas superficiais dessa sentena,
como sua localizao no texto, tamanho e a presena de certas palavras indicativas,
que podem tanto indicar tanto sua importncia como sua dispensabilidade. De forma
geral, o modelo pondera e combina as caractersticas consideradas relevantes no
processo de julgamento para se determinar um nmero indicativo de sua salincia.
Em sua forma mais simples, o modelo linear e apresentado na frmula seguinte:

em que:
s a sentena;
C
i
(s) o valor de uma caracterstica i para a sentena;
w
i
o peso atribudo caracterstica.

) ( ... ) ( ) (
1 1
s C w s C w s Salincia
n n
+ + = [5]
A grande questo na utilizao do modelo de Edmundson como deve ser
feita a atribuio dos pesos s caractersticas para combin-las, justamente o
Problema 2 apresentado na introduo deste trabalho. Esses pesos podero variar,
por exemplo, conforme o gnero lingustico considerado. Em textos jornalsticos, por
exemplo, usual que as informaes principais concentrem-se no incio do texto
(Mani 2001). Por conta disso, a caracterstica de localizao possivelmente ter um
peso maior.
No trabalho de Edmundson, os pesos foram ajustados empiricamente com
base na comparao com extratos gerados manualmente, para um corpus de textos
cientficos. Todo o trabalho deveria ser refeito caso um novo gnero ou corpus muito
diferente fosse utilizado.

Principais vantagens: possibilita a combinao de mltiplas caractersticas
para sumarizao.
Principais desvantagens: a determinao da funo de combinao das
caractersticas e dos pesos atribudos a elas manual.

3.1.3 Utilizao de Aprendizado de Mquina
Em 1995, com a abordagem pioneira de Kupiec et al. (1995), foi introduzido o
uso de aprendizado de mquina supervisionado
10
para a tarefa de SA, com um
classificador Bayesiano (e.g., Mitchel 1997) e caractersticas (features) binrias
(True indicando a presena e False a ausncia) que refletem propriedades
superficiais do texto. Essa abordagem se mostrou promissora, por produzir extratos
mais informativos que as antigas abordagens no-supervisionadas. Alm disso, a
utilizao de corpora de treino surgiu como mecanismo para combinao das
caractersticas, que um dos maiores desafios no arcabouo de Edmundson.
O classificador proposto o Nave-Bayes para determinar, para cada
sentena de um texto-fonte, a probabilidade de ela estar includa em seu sumrio.
Espera-se que quanto maior o valor dessa probabilidade, maior a relevncia da
sentena para a composio do extrato.

10
O Aprendizado de Mquina Supervisionado aquele que utiliza em sua fase de treino pares problema/soluo
usualmente feito por humanos. O Captulo 4 apresenta uma descrio mais detalhada da utilizao de
Aprendizado de Mquina para SA.
So cinco as caractersticas utilizadas pelo classificador: presena de
palavras relevantes, presena de nomes prprios, presena de termos indicativos,
tamanho da sentena e posio da sentena. Como as caractersticas so binrias,
seu cmputo feito estabelecendo-se um valor de corte. Por exemplo, se o nmero
de palavras relevantes na sentena for maior que 5, ento a caracterstica assume
True como valor; caso contrrio, False.
Para o clculo da relevncia de uma sentena, a frmula usada, apresentada
a seguir, derivada do teorema de Bayes e indica a probabilidade de a sentena s
ser includa no extrato, dado um conjunto de valores booleanos para as k
caractersticas da sentena.

O termo C
j
representa o valor da caracterstica j. ) | ( E s C P
j
a
probabilidade do valor C
j
ocorrer nas sentenas pertencentes aos extratos do corpus
de treinamento para a caracterstica j. ) ( E s P a probabilidade a priori de s estar
includa no extrato. Essa probabilidade dependente da taxa de compresso (TC),
dada pela frmula [4].
Ou seja, ) ( E s P constante para cada texto a ser sumarizado. Finalmente,
) (
j
C P a probabilidade do valor Cj ocorrer em todo o corpus de treinamento para a
caracterstica j.
Para cada novo texto a ser sumarizado, calculam-se os valores das
caractersticas e obtm-se uma tupla
k
C C C ,..., ,
2 1
para cada sentena. Feito isso,
aplica-se o classificador Nave-Bayes para cada tupla e ordenam-se as
probabilidades em ordem decrescente. As sentenas que comporo o extrato so,
ento, selecionadas de acordo com as maiores probabilidades. Seu nmero ser
proporcional taxa de compresso desejada.
Desde a introduo da abordagem de Kupiec et al., vrios outros
classificadores e combinao de atributos tem sido empregados, sempre buscando
refinar o modelo de seleo.
No Apndice A apresentado um exemplo completo de utilizao do modelo.
=
=

=
k
j
j
k
j
j
k
C P
E s P E s C P
O O O E s P
1
1
2 1
) (
) ( ) | (
) ,..., , | ) ((
[6]

Principais vantagens: possibilita a combinao de mltiplas caractersticas
para sumarizao e o ajuste da funo de combinao com base num processo
treinado usando aprendizado de mquina.
Principais desvantagens: no resolve a questo de quais caractersticas
devem ser consideradas no modelo; limitaes dos modelos de aprendizado de
mquina ou hipteses violadas nesses modelos, como a assuno de
independncia das probabilidades condicionais no modelo Nave-Bayes (Mitchel
1997), podem introduzir distores nos resultados obtidos.

3.1.4 Mapa de Relacionamentos
A proposta de Salton et al. (1997) construir uma representao da coeso
no texto por meio de um grafo que contm as ligaes entre os pargrafos. Palavras
iguais em pargrafos diferentes so consideradas uma ligao entre eles.
Pargrafos conectados a vrios outros so considerados salientes no texto, pois
devem conter tpicos discutidos em vrios outros pargrafos. A Figura 3-2 ilustra o
chamado Mapa de Relacionamentos construdo pelo mtodo de Salton et al.
De forma geral, a construo do grafo que contm a ligao dos pargrafos
do texto o principal passo desse mtodo. Os pargrafos do texto que comporo um
extrato so selecionados percorrendo-se esse grafo por trs modos distintos. A
unidade mnima extrada o pargrafo, porque seus autores consideram que o uso
dessa unidade, em vez de segmentos de granularidade menor, faz com que
problemas de legibilidade e coerncia sejam amenizados.


Figura 3-2 Exemplo de Mapa de Relacionamentos (Salton et al.), para uma estrutura
de pargrafos altamente ligada

Os passos para gerao de extratos pelo mtodo so:

1) Pr-processamento do texto-fonte:
a. Remoo das stopwords;
b. Stemming ou gerao de quadrigramas
11
.

2) Construo do mapa de relacionamentos:
a. Clculo dos vetores TF-IPF
12
(Term frequency Inverse paragraph
frequency) para cada pargrafo do texto;

11
So sequncias sobrepostas de quatro letras de cada palavra. Para a palavra estufa, por exemplo, seriam: _est /
estu / stuf / tufa / ufa_ /
12
Trata-se de uma adaptao medida TF-IDF, substituindo a noo de documento pela noo de pargrafo.
b. Clculo da similaridade entre os pargrafos. Essa similaridade
determinada pela aplicao de uma medida semelhante dos co-
senos aos vetores TF-IPF.
c. Construo do mapa de relacionamentos, considerando as ligaes
entre pargrafos que tenham similaridade acima de um valor mnimo.

3) Seleo dos pargrafos: o extrato obtido percorrendo-se o grafo atravs de
trs caminhos:

Caminho 1 (denso): so selecionados os pargrafos que contm o maior
nmero de ligaes at que a taxa de compresso seja atingida.
Caminho 2 (profundo): primeiro selecionado o pargrafo com o maior
nmero de ligaes (mais denso). A partir do pargrafo mais denso,
selecionado aquele que tem o maior nmero de ligaes com ele. A partir
desse segundo pargrafo, selecionado o terceiro que tem mais ligaes
com este ltimo, e assim sucessivamente, at atingir a taxa de
compresso escolhida.
Caminho 3 (segmentado): este caminho procura selecionar diferentes
pargrafos de cada tpico do texto-fonte. Os tpicos so produzidos
atravs de uma simplificao do mapa, proposta pelos autores do mtodo.
Usando essa diviso em tpicos, selecionado pelo menos um pargrafo
de cada tpico, sendo que outros pargrafos podem ser selecionados dos
tpicos com maior nmero de pargrafos, at se obter a taxa de
compresso desejada.

Como se v, esses caminhos so baseados em trs hipteses distintas, para
a construo dos extratos. No caminho denso, supe-se que a seleo dos
pargrafos mais densos leve a uma boa cobertura dos conceitos principais do texto.
No entanto, considerar simplesmente os pargrafos mais densos no garante
coerncia. J o caminho profundo privilegia a coerncia, mas no cobre todos os
conceitos principais, ou seja, perde em informatividade. O caminho segmentado
justamente tenta balancear informatividade e coerncia, utilizando a diviso do texto
em tpicos.
Principais vantagens: busca contemplar num modelo extrativo informaes
relacionadas estrutura coesiva do texto, por meio da similaridade lexical.
Principais desvantagens: a similaridade lexical por si s pode no ser
suficiente para construir um modelo da estrutura coesiva no texto; existem 3
caminhos para seleo dos pargrafos finais e no h uma regra geral de como
utiliz-los conjuntamente; a unidade mnima de extrao o pargrafo.
3.1.5 Utilizao de Cadeias Lexicais
Cadeias lexicais so sequncias de palavras semanticamente relacionadas
entre si por sinonmia/antonmia, hiperonmia/hiponmia ou holonmia/metonmia.
Elas so importantes na medida em que esto relacionadas estrutura coesiva do
texto.
A ideia do mtodo proposto por Barzilay e Elhadad (1999) a de que as
cadeias fortes num texto representam conceitos importantes do texto, da a utilidade
para a sumarizao automtica. Sentenas mais relacionadas a essas cadeias
devem, portanto, ser consideradas na gerao do extrato.
O nmero de relaes em uma cadeia lexical, e seus respectivos pesos, so
utilizados para que a melhor cadeia seja selecionada para cada segmento. Esses
segmentos so delimitados pelo algoritmo TextTiling, o qual segmenta um texto em
grupos coerentes de sentenas (Hearst 1993). As cadeias dos diferentes segmentos
so unidas quando possuem um termo em comum (de mesmo sentido), o que d
origem a uma rede de relaes semnticas entre os termos do texto-fonte.
Para selecionar as sentenas para compor o extrato, os autores propuseram
trs heursticas (H1, H2 e H3):

H1: seleo de toda sentena s do texto-fonte baseada em cada
membro m da toda cadeia lexical forte do texto. No caso, s a
sentena que contm a primeira ocorrncia do membro m;
H2: a seleo feita de maneira similar heurstica anterior, com a
diferena que so considera somente os membros julgados como
representativos da cadeia lexical. Um membro considerado
representativo se sua frequncia na cadeia for maior que a mdia da
frequncia de todos os membros;
H3: novamente, a heurstica similar anterior, com a diferena de
que considera a estrutura de tpicos do texto, selecionando as cadeias
representativas de cada tpico do texto.

Barzilay e Elhadad avaliaram seu mtodo em um experimento utilizando
sumrios construdos manualmente, e obtiveram melhores resultados de Preciso e
Cobertura do que a ferramenta AutoResumo do Microsoft Word.

Principais vantagens: busca contemplar num modelo extrativo informaes
relacionadas estrutura coesiva do texto; utilizao de relaes semnticas.
Principais desvantagens: dificuldade de implementao do modelo para
todas as lnguas devido a necessidade de uma ontologia do tipo WordNet (Miller,
Beckwith et al. 1990) para determinao das relaes semnticas; existem 3
heursticas para seleo das sentenas finais e no h uma regra geral de como
utiliz-las conjuntamente.
3.1.6 Importncia dos Tpicos
O mtodo proposto por Larocca Neto et al. (2000) objetiva a identificao dos
tpicos principais do texto e a considerao da importncia do tpico na seleo das
sentenas. Para isso, o texto dividido em tpicos que so avaliados segundo suas
importncias. A relevncia de uma sentena para a composio do extrato ser,
ento, proporcional importncia do tpico em que ela figura e tambm proporcional
sua similaridade com relao a esse mesmo tpico.

Os passos bsicos descritos pelo mtodo so:

2) Pr-processamento do texto-fonte:
a. Remoo das stopwords;
b. Stemming ou gerao de quadrigramas.
3) Diviso do texto em tpicos: uma verso modificada do algoritmo
TextTiling, proposta pelos autores do mtodo, aplicada ao texto para sua
diviso em tpicos (tiles).
4) Clculo da fora dos tpicos: a fora do tpico definida como a soma da
mdia dos vetores TF-ISF
13
(Term frequency Inverse sentence
frequency) de suas sentenas. Os valores obtidos para todos os tpicos
so, ento, normalizados no intervalo [0,1].
5) Clculo do nmero de sentenas de cada tpico: calculado, com base na
importncia dos tpicos, um nmero proporcional de sentenas a extrair
de cada tpico.
6) Seleo das sentenas: para cada tpico, selecionam-se as sentenas
que tm maior similaridade com o centride do tpico. O centride do
tpico o vetor resultante da mdia dos vetores TF-ISF das sentenas
desse tpico. Para o cmputo da similaridade da sentena com o
centride usada a clssica medida de similaridade dos co-senos (Salton
e Buckley 1988).

Principais vantagens: considera a estrutura de tpicos do texto, podendo ser
til na construo de extratos que abordagem no somente o tpico principal do
texto.
Principais desvantagens: depende de uma boa diviso do texto em tpicos.
3.1.7 TextRank
O TextRank (Mihalcea 2005) baseado no mesmo algoritmo usado pelo
Google para julgar a relevncia das pginas da WWW, o PageRank (Brin e Page
1998). Este considera que a importncia de uma pgina proporcional ao nmero
de recomendaes que existem na WWW para ela, as quais so, basicamente, os
links que apontam para a pgina. O PageRank constri um grafo em que os vrtices
so as pginas e as arestas so suas recomendaes. capaz de percorrer o grafo
para definir a importncia das pginas, que so consideradas em seu processo de
busca de informaes.
Seguindo a mesma ideia, o TextRank constri um grafo similar, em que os
vrtices so sentenas e as arestas so denotadas pelo grau de similaridade entre
pares de sentenas. Em vez dos links entre pginas, as recomendaes entre

13
Trata-se de uma adaptao da clssica medida TF-IDF (Term frequency Inverse document frequency), de
Salton & Buckley (1988), usada no campo da recuperao da informao. A adaptao consiste em substituir a
noo de documento pela noo de sentena.
sentenas so medidas por seu grau de similaridade, calculado de acordo com a
seguinte equao:

|) log(| |) log(|
| } | { |
) , (
j i
j k i k k
j i
S S
S w S w w
S S Sim
+

=
[7]

em que:
S
i
e S
j
so sentenas
w
k
um termo comum entre as sentenas.

Uma vez construdo o grafo, a importncia da sentena calculada por meio
do algoritmo de passeio aleatrio (random walk) mostrado na Equao 8.

TR(V
i
) sinaliza a importncia da sentena representada pelo vrtice V
i
, Sim(S
i
,
S
j
) a similaridade lexical entre as sentenas Si e Sj, d um parmetro de
calibrao no intervalo [0;1], e N o nmero de sentenas do texto. O parmetro d
representa no modelo a probabilidade de migrao de um vrtice a outro. Ele a
componente responsvel pelo passeio aleatrio. A implementao de Mihalcea
(2005) utiliza o valor 0,85.

=
|
|
|
|
\
|
+ =
1
0
1
0
) , (
) , (
) ( ) 1 ( ) (
N
j
N
k
k j
j i
j i
S S Sim
S S Sim
V TR d d V TR

[8]

Como a medida recursiva, os valores iniciais so definidos aleatoriamente
no intervalo (0;1). Depois de sucessivas iteraes, os valores tendem a convergir.
Calculadas as importncias das sentenas, elas so ordenadas em ordem
decrescente e selecionadas at que seja atingida a taxa de compresso.
Mihalcea (2005) tambm props algumas variaes no mtodo original, a
saber:
a) A utilizao de grafos dirigidos, conforme a ordem em que as sentenas
aparecem no texto. Nesse caso, o percurso pode ser feito de duas formas:
backward (considerando as sentenas predecessoras) ou forward (considerando as
sucessoras)
b) A utilizao do mtodo HITS (Kleinberg 1999), que trabalha de forma
semelhante ao PageRank. Porm, em vez de agregar em uma nica medida os links
predecessores e sucessores, produz duas medidas independentes chamadas
respectivamente de authority e hubs.

Principais vantagens: modelo fundamentado pela Teoria dos Grafos; fcil
implementao e independente de lngua; considera no cmputo da importncia de
uma sentena tambm a importncia das sentenas que a recomendam.
Principais desvantagens: no h garantias formais de convergncia para
textos; no considera nenhum tipo de pr-processamento lingustico, nem mesmo
stemming ou remoo de stopwords na proposta original dos autores.
3.2 Sumarizadores para o Portugus do Brasil
Apresentam-se nesta seo alguns dos sumarizadores extrativos principais
para o Portugus do Brasil.
3.2.1 GistSumm
O GistSumm (Pardo et al. 2003) um sumarizador que busca identificar a
ideia central (gist) do texto-fonte utilizando tcnicas estatsticas. Ele utiliza o mtodo
das palavras-chave ou da mtrica TF-ISF, a critrio do usurio, para escolher a
sentena mais bem pontuada que ser, ento, tomada como a gist sentence
14
. A
partir da incluso dessa sentena no extrato, outras sentenas so escolhidas
conforme suas pontuaes, com a restrio de que possuam ao menos uma palavra
em comum com a gist sentence.
Essa proposta foi avaliada com relao escolha da gist sentence e
produo de extratos. No primeiro caso, foi utilizado um corpus de dez textos
cientficos em lngua portuguesa, para o qual a identificao da gist sentence

14
A expresso gist sentence refere-se sentena que mais representa a ideia central do texto-fonte.
baseada em palavras-chave apresentou desempenho superior baseada na mtrica
TF-ISF. Na segunda avaliao, 20 textos jornalsticos em ingls foram selecionados
e, novamente, a utilizao das palavras-chave teve melhor desempenho quando
comparada utilizao da medida TF-ISF.
Melhorias recentes no sistema (Balage et al. 2006) visaram diminuir a
restrio da premissa de que texto possui apenas uma nica gist sentence. Para
isso, esses autores propuseram a delimitao da estrutura textual do texto,
identificando suas sees. Por exemplo, um texto cientfico pode possuir as sees
Introduo, Metodologia, Desenvolvimento e Concluses. Uma vez
identificadas as sees, procede-se a sumarizao como se cada seo fosse um
texto individual. Pela avaliao dos autores, essas melhorias so promissoras.

Principais vantagens: simples do ponto de vista computacional; tende a
favorecer a coerncia ao determinar a gist sentence e escolher as sentenas
relacionadas a ela.
Principais desvantagens: parte da hiptese de que o texto possui uma nica
sentena que contm a ideia principal, na proposta original; a verso modificada
ainda no capaz de lidar com textos que possuem vrios tpicos, mas que no
apresentam uma diviso clara em sees
15
.

3.2.2 ClassSumm
O ClassSumm (Larocca Neto et al. 2002) baseado na proposta de Kupiec et
al. (1995). A grande diferena que os autores utilizam 12 caractersticas
superficiais em vez de apenas 5. Alm disso, exploraram a utilizao do classificador
baseado em rvore de deciso, o C4.5 (Quinlan 1993).
Nos experimentos reportados o algoritmo Nave-Bayes foi superior ao
algoritmo C4.5. Alm disso, o desempenho do modelo foi superior ao mtodo
considerado baseline, o qual seleciona as primeiras sentenas do documento a ser
sumarizado.

15
Isso poderia ser viabilizado com a utilizao de um algoritmo detector de tpicos, como o TextTiling, j
utilizado no mtodo proposto por Larocca et al. (2000).
Principais vantagens: explora um nmero maior de caractersticas que o
modelo de Kupiec et al. (1995).
Principais desvantagens: as mesmas do modelo de Kupiec et al. (1995).

3.2.3 NeuralSumm
O NeuralSumm (Pardo 2003) utiliza uma rede neural do tipo SOM (Self-
Organizing Map), proposta por Kohonen (1990), para classificar as sentenas do
texto a ser sumarizado, com base em um conjunto de caractersticas pr-
selecionado.
Essa rede neural organiza as informaes aprendidas na fase de treino em
grupos de similaridade, e as sentenas do texto-fonte so classificadas de acordo
com esses grupos da rede. Uma sentena pode receber uma das seguintes
classificaes no NeuralSumm: Essencial, Complementar ou Suprflua. A prioridade
na seleo das sentenas primeiro selecionar as essenciais, em seguida as
complementares e em ltimo caso as suprfluas.
Os autores utilizaram um conjunto de 8 caractersticas, entre elas a posio
da sentena, a presena de palavras-chave e a presena de palavras indicativas
(tais como avaliao, objetivo e soluo). A rede foi treinada com um corpus de
dez textos cientficos em Portugus do Brasil, anotado por juzes de acordo com as
trs classificaes possveis para cada sentena. Em sua avaliao, baseada em
comparaes com o corpus anotado manualmente, o NeuralSumm apresentou
desempenho superior aos algoritmos Naive-Bayes e C4.5, tambm treinados com o
mesmo corpus.
Outra avaliao foi realizada, comparando-se os extratos gerados
automaticamente com extratos de referncia. Nesse caso, as medidas de Preciso e
de Cobertura do NeuralSumm mostraram-se relativamente prximas dos resultados
obtidos em outros trabalhos.

Principais vantagens: utilizao de um modelo conexionista que teve
menores taxas de erro que os algoritmos Nave-Bayes e C4.5.
Principais desvantagens: diferente da abordagem de Kupiec et al. (1995), o
modelo exige a anotao manual de cada sentena nas 3 categorias estabelecidas
para treino. No modelo de Kupiec et al., isso no necessrio.

3.2.4 SuPor
O SuPor
16
(Mdolo 2003) foi apresentado inicialmente no Captulo 1 devido a
esse sistema ter servido de motivao inicial para este trabalho. Como j citado, na
comparao com outros seis sumarizadores extrativos para o portugus (Rino et al.
2004) foi considerado o melhor, atingindo a F-Measure de 42,8%..
As abordagens utilizadas pelo SuPor envolvem a utilizao de aprendizado de
mquina com o uso de um classificador Nave-Bayes seguindo o modelo de Kupiec
et al. (1995). Por se tratar de um ambiente de SA, o SuPor permite ao usurio a
escolha das caractersticas sero utilizadas para a SA dos textos
Essas caractersticas empregadas so definidas com base em diversos
mtodos clssicos de SA e outros fatores relevantes, descritos na Seo 3.1. Os
mtodos utilizados so o mtodo de Cadeias Lexicais (Barzilay e Elhadad 1999), o
cmputo da frequncia das palavras (Luhn 1958) e a localizao das sentenas
(Edmundson 1969). Outras caractersticas consideradas incluem o comprimento das
sentenas, a ocorrncia de substantivos prprios (Kupiec et al., 1995), a
representao da coeso do texto por meio de um Mapa de Relacionamentos entre
pargrafos (Salton, Singhal et al. 1997) e a identificao de sentenas indicativas
dos tpicos principais do texto (Larocca Neto, Santos et al. 2000). As caractersticas
usadas pelo SuPor, assim como no modelo proposto por Kupiec et al. (1995), so
todas binrias. Ou seja, se um mtodo recomenda uma sentena para compor o
extrato, o valor da caracterstica associada ao mtodo ser True; caso contrrio,
False. A Tabela 3-1 resume os mtodos utilizados e as caractersticas associadas
no SuPor.
Alm das prprias caractersticas, o usurio pode escolher tambm algumas
opes de pr-processamento relacionadas aos mtodos utilizados. A Tabela 3-2
mostra todos os mtodos de processamento mais as opes de pr-processamento
que cada mtodo admite, definindo as caractersticas utilizadas. O processamento

16
O nome SuPor vem de SUmarizao para o PORtugus
das caractersticas tamanho da sentena, posio e nomes prprios no possui
opes de pr-processamento, pois, devido natural simplicidade, no requer
tratamento lingustico mais sofisticado do texto.
Tabela 3-1 Mtodos e caractersticas associadas no SuPor
Mtodo Condio para a Caracterstica assumir True
Frequncia das Palavras
Escore (soma das frequncias de cada palavra) deve ser
maior que a mdia
Tamanho da sentena
Nmero de palavras da sentena deve ser maior que
cinco
Posio
Sentena deve figurar nos pargrafos iniciais e finais do
texto, ou ser uma sentena inicial ou final de qualquer
pargrafo
Nomes prprios
Escore (soma das frequncias de cada nome) deve ser
maior que o mnimo
Cadeias lexicais
A sentena deve ser recomendada por pelo menos uma
das heursticas do mtodo
Importncia dos tpicos
A sentena deve ser saliente no tpico em que se
encontra
Mapa de relacionamentos
A sentena deve ser recomendada por pelo menos um
dos trs percursos no mapa

Tabela 3-2 - Opes de processamento e opes de pr-processamento do SuPor
Mtodo
Opes de Pr-
processamento
Influncia
Tamanho da
sentena
- -
Posio - -
Quadrigramas
Realiza o cmputo das medidas de
frequncia baseando-se nos
quadrigramas de uma palavra Frequncia das
Palavras
Radicais (Stemming)
frequncia baseando-se nos radicais
das palavras
17

Nomes Prprios - -
TextTiling
Utiliza os tiles fornecidos pelo
algoritmo como tpicos do texto Cadeias lexicais
Pargrafos Utiliza os pargrafos como tpicos
Quadrigramas
frequncia baseando-se nos
quadrigramas de uma palavra
Importncia dos
Tpicos
Radicais (Stemming)
frequncia baseando-se nos radicais
das palavras
Quadrigramas
frequncia e similaridade entre
sentenas baseando-se nos
quadrigramas de uma palavra Mapa de
Relacionamentos
Radicais (Stemming)
frequncia e similaridade entre
sentenas baseando-se nos
quadrigramas de uma palavra

17
Obtidos atravs de um stemmer.
Na implementao do autor do sistema, se uma opo de pr-processamento
escolhida, ela ser utilizada por todos os mtodos e caractersticas selecionados
que dependam tambm dessa opo. Por exemplo, escolhido o pr-processamento
por quadrigramas, os mtodos Mapa dos Relacionamentos, Importncia dos Tpicos
e Palavras mais frequentes iro utilizar, obrigatoriamente, esse pr-processamento
se forem tambm selecionados pelo usurio. Dessa forma, o nmero total de
possveis configuraes para a SA no SuPor de 348, ou seja, o ambiente permite,
via customizao realizada pelo usurio, gerar 348 sumarizadores automticos
distintos.
Como citado anteriormente, vrios foram os sumarizadores desenvolvidos
neste trabalho a partir SuPor original. O primeiro deles foi chamado de SuPor-2 e
descrito na Seo 5.1.

Principais vantagens: combinao de diferentes abordagens para SA,
incluindo a utilizao de estatsticas textuais, grafos e aprendizado de Mquina.
Principais desvantagens: a escolha das caractersticas e opes de pr-
processamento complicada e exige um usurio especialista de domnio. De forma
geral, essa questo bastante relacionada ao Problema 1 enunciado na introduo
do presente trabalho.

3.2.5 SABio
O SABio (Orr et al. 2006) utiliza uma abordagem conexionista para a SA de
textos por meio de um algoritmo para treino da rede neural inspirado biologicamente,
chamado GeneRec. Assim como faz o conhecido algoritmo BackPropagation
(Haykin 1999), o GeneRec determina os pesos mais adequados para a rede numa
etapa de treino.
O sistema tambm similar ao NeuralSumm com relao s caractersticas
empregadas. Sete das oito caractersticas do NeuralSumm so empregadas. Uma
diferena que o SABio considera seis nveis de importncia para uma sentena,
em vez de apenas trs como o NeuralSumm: Nenhuma, Pequena, Pequena-Mdia,
Mdia, Mdia-Grande, Grande.
No treino do sistema realizado pelos autores, foram utilizados dois teros do
corpus TeMrio-2003 (Pardo e Rino 2003). A determinao das sadas atribudas a
cada sentena, isto , do nvel de importncia dentro das seis opes disponvel foi
feita de modo emprico. Como relatam os autores, a atribuio foi feita comparando-
se a sentena com o extrato ideal por meio de mtodo similar ao utilizado pelo
sistema GistSumm.
Para avaliao do sistema, os autores replicaram o experimento de Rino et al.
(2004), que aponta o SuPor como o mais bem classificado dentre outros sete
sistemas. Nessa avaliao, o SaBio ficou logo abaixo do ClassSumm, segundo mais
bem classificado.

Principais vantagens: a utilizao de uma abordagem inspirada
biologicamente pode em teoria realizar a tarefa de modo a como ela feita
manualmente.
Principais desvantagens: a determinao das sadas associadas a cada
sentena foi feita utilizando-se um mtodo que pode introduzir rudos no resultado
final.

3.2.6 Sumarizadores Baseados em Medidas de Redes Complexas
Sistemas complexos modelados como grafos so conhecidos como Redes
Complexas (RC) e tem influenciado vrias reas atualmente, conforme apontam
Albert e Barabsi (2002 ). Textos podem ser representados por meio de grafos de
diversas maneiras, tal como fazem os j citados mtodos TextRank e Mapa dos
Relacionamentos.
Antiqueira (2007) props 26 medidas numricas baseadas em redes
complexas para a SA extrativa. Cada medida foi usada individualmente gerando 26
modelos diferentes de SA. O texto representado exatamente como no mtodo
TextRank. Os grupos de medidas utilizadas so descritos brevemente a seguir:

Degree (Costa, Rodrigues et al. 2006). Calcula o nmero de arestas
associadas a um n. A medida visa sinalizar o quo conectado um n em
relao a seus vizinhos. Quanto maior o grau de conexo do n que
representa a sentena, mais importante ela para a SA.
Clustering Coefficient (Watts e Strogatz 1998). Quantifica o quo prximo
um n e seus vizinhos esto de se tornarem um clique, um tipo de
agrupamento da Teoria dos Grafos em que cada n est conectado aos
demais.
Minimal Paths (Costa, Rodrigues et al. 2006). Para cada n, todos os
caminhos mnimos so calculados para os demais. A mdia da distncia
desses caminhos para cada outro n ento calculada. Essa mdia sinaliza
diretamente a relevncia da sentena para a SA. Isso se relaciona ao fato de
que as sentenas mais prximas s demais podem conter a ideia principal do
texto.
Locality Index (Costa, Kaiser et al. 2006). Tambm considera o agrupamento
de ns, mas leva em conta tambm as conexes fora do agrupamento.
Matching Index (Costa, Rodrigues et al. 2006). Ao medir a fora da conexo
entre dois ns, a medida visa selecionar sentenas que cobrem diferentes
grupos de informao ou tpicos do texto.
Dilation (Costa e da Rocha 2006). Expressa a importncia dos ns utilizando
relaes hierrquicas dentro do grafo. Anis de ns so traados ao redor do
n focalizado: anis de ordem 1 capturam os ns ligados por at uma aresta;
anis de ordem 2, capturam os que esto ligados por at duas arestas, etc.
Os anis visam capturar a conectividade entre ns na vizinhana que esto
mais longe do n focalizado. O grau hierrquico do nvel h definido ento
como o nmero de ns entre esse nvel e o nvel do prximo anel. Atribu-se
maior poder de sumarizao s sentenas que possuem maior grau
hierrquico.
Hubs (Antiqueira et al. 2009). Tambm considera a operao de dilation, mas
d preferncia aos ns com maior nmero de conexes no grafo, os
chamados hubs.
K-cores (Batagelj e Zaversnik 1999). Um k-core um subgrafo cujos ns
possuem o grau mnimo de k. Para a SA, o subgrafo mais relevante o que
possui o maior k.
W-cuts (Antiqueira et al. 2009). Objetiva encontrar grupos coesos de
sentenas considerando a interconexo de ns com alto valor para a medida
degree.
Communities (Clauset et al. 2004). Uma comunidade um grupo de ns que
so muito conectados entre si. Ns em diferentes comunidades no so
significantemente conectados. Assim, as comunidades sinalizam a densidade
de conexes no grafo. No caso da SA, elas podem indicar a estrutura de
tpicos do texto. Dentro da mesma comunidade, sentenas com maior degree
possuem preferncia.

De acordo com as definies acima, algumas dessas medidas relacionam-se
a alguns mtodos j citados. Por exemplo, ao considerar a medida degree e minimal
paths existe uma relao com o Caminho 1 (denso) do mtodo Mapa de
Relacionamentos. A medida locality index ao Caminho 2 (profundo). As medidas
matching ndex e dilation parecem relacionarem-se ao Caminho 3 (segmentado),
enquanto hubs parece relacionar-se tanto ao Caminho 2 quanto ao 3. Entretanto,
estudos adicionais so necessrios para confirmar essas proposies.
Uma correspondncia mais clara vista nos trs ltimos grupos de medidas:
K-cores no necessariamente obtm coeso na medida em que se relaciona a
caminhos densos. W-cuts busca contornar o problema de forma semelhante ao
Caminho 2 (profundo) do Mapa de Relacionamentos. Communities abrange
diferentes tpicos do texto, relacionando-se ao Caminho 3 (segmentado) do Mapa
de Relacionamentos e ao Mtodo de Importncia dos Tpicos.
Em um trabalho mais recente, Antiqueira et al. (2009) propuseram a
combinao dessas medidas por meio de uma estratgia de votao, em que cada
medida contribui para a gerao do ranking das sentenas. Essa verso do
sumarizador foi chamada de CN-Voting. Pelos resultados reportados pelos autores,
apresentou desempenho inferior ao SuPor-2 proposto neste trabalho
18
e um
pouco acima do SuPor original. Entretanto, os autores no reportam significncia
estatstica nas diferenas.

18
Ver Seo 5.1.
Principais vantagens: a utilizao de diversas medidas do grafo pode ser til
para capturar diferentes caractersticas das sentenas ou mesmo capturar aspectos
ligados ao nvel do discurso.
Principais desvantagens: no trabalho de Antiqueira (2007) no proposta
uma metodologia para a combinao dessas caractersticas e, assim, a definio de
um nico modelo de SA; a estratgia de combinao apresentada no CN-Voting
(Antiqueira et al. 2007) pode ser muito simplista ao deixar de ponderar a relevncia
das caractersticas ou medidas.
3.3 Trabalhos Recentes
Apresentam-se a seguir alguns trabalhos recentes na rea e que se
relacionam ao nosso.

3.3.1 Utilizao de Aprendizado de Mquina
3.3.1.1 Sistema IIIT
Pingali et al. (2007) atingiram a melhor medida pelo mtodo da Pirmide
19
na
DUC de 2007, com seu sistema IIIT. Eles focaram na chamada tarefa Update
Summarization, que consiste em construir um sumrio sob a assuno de que o
leitor j leu um conjunto de textos sobre o tpico.
Os autores propuseram um medida que leva em conta dois fatores: a
importncia individual da sentena e sua relao com o tpico. Para o fator de
importncia individual, foi utilizado um modelo Nave-Bayes com o propsito de
relacionar os conjuntos de palavras do texto candidato com as palavras dos textos j
lidos.

Principais vantagens: a associao da relevncia por meio de uma
componente individual, no relacionada ao tpico, e a outra componente vinculada

19
O mtodo da Pirmide foi descrito na Seo 2.4.3.
ao tpico; embora no detalhado pelos autores, realizado um procedimento para
diminuir a redundncia no texto final produzido.
Principais desvantagens: abordagem mais adequada para o tipo de tarefa
especfico da DUC.

3.3.1.2 Utilizao de Support Vector Machines (SVM)
Li et al. (2007) propuseram um sistema que utiliza o mtodo de aprendizado
de mquina conhecido como SVM - Support Vector Machines (Vapnik 1998) para a
tarefa Update Summarization. Ao todo, seis caractersticas foram utilizadas,
incluindo uma caracterstica baseada na similaridade medida pela WordNet entre a
sentena e o tpico. O sistema foi o quinto mais bem colocado e foi avaliado pelas
mtricas ROUGE-2 e ROUGE-SU4 (Lin e Hovy 2003).

Principais vantagens: SVMs so considerados como um dos mtodos
estado-da-arte da rea de Aprendizado de Mquina (Vapnik 1995; Witten e Frank
2005).
Principais desvantagens: os autores relatam que poderia ter sido utilizado
um processo melhor de gerao dos dados de treino e que tambm caractersticas
mais elaboradas deveriam ser utilizadas.

3.3.1.3 Utilizao de Support Vector Machines (SVM) e Treino Dirigido pela
ROUGE
Galanis e Malakasiotis (2008) propuseram um sumarizador baseado no
modelo de regresso por Support Vector Machines, de forma semelhante ao
trabalho de Li et al. (2007). A tarefa foi a mesma, Update Summarization, na TAC de
2008. A diferena principal que utilizaram um processo diferente de gerao dos
dados de treino, utilizando como varivel de sada a mdia entre as medidas
ROUGE-2 e ROUGE-SU4. Ou seja, o modelo proposto busca determinar sentenas
que tem uma boa mdia entre essas medidas.
Pela avaliao realizada, o sistema foi o quinto colocado quando julgado
pelas medidas ROUGE-2 e ROUGE-SU4, atingindo os ndices de 0,113 e 0,165
respectivamente. Esses ndices ficam acima do sumarizador de Li et al.

Principais vantagens: mesmas do modelo de Li et al. (2007) e a utilizao
de mtricas especficas da rea no processo de treino.
Principais desvantagens: os autores relatam que no atingiram bom
desempenho em avaliaes humanas por no empregaram nenhum mecanismo de
reescrita e tratamento de redundncia.

3.3.1.4 Utilizao de Support Vector Machines (SVM) e Seleo Automtica de
Caractersticas
Schilder et al. (2008) utilizaram 8 caractersticas e tambm o mtodo de
regresso baseado em Support Vector Machines, de forma semelhante a Li et al.
(2007). Porm, utilizaram um procedimento de seleo automtica de
caractersticas, que leva em conta as correlaes entre cada caracterstica e a sada
desejada Efron et al. (2004). Porm, esse mtodo de seleo no leva em conta a
redundncia entre as caractersticas.
O sistema foi o quarto colocado na avaliao pelo Mtodo da Pirmide, em
relao a outros 35 sistemas.

Principais vantagens: mesmas do modelo de Li et al. (2007) e a utilizao
de seleo automtica de caractersticas.
Principais desvantagens: o mtodo de seleo de caractersticas poderia
levar em conta a redundncia entre elas.

3.3.1.5 Utilizao de grandes conjuntos de caractersticas
Wong et al. (2008) propuseram um sumarizador que utiliza 15 caractersticas
numa abordagem envolvendo aprendizado de mquina.
20
Eles argumentam que
considerar a importncia das sentenas por apenas um ponto de vista, ou

20
Pelo nosso conhecimento trata-se do trabalho que havia utilizado o maior nmero de caractersticas at o
momento.
caracterstica, no efetivo. Assim, sugerem a utilizao de muitas caractersticas
combinadas por meio de aprendizado de mquina. De forma semelhante ao sistema
SuPor (Mdolo 2003), eles utilizaram caractersticas superficiais e mtodos
completos mapeados como caractersticas. Por exemplo, o mtodo TextRank
(Mihalcea 2005) foi utilizado como caracterstica.
Os autores utilizaram para comparao os algoritmos SVM e Nave-Bayes.
Tambm utilizaram um processo conhecido como Co-training que busca suprir a
falta de dados rotulados (exemplos manuais) combinando dados rotulados e no
rotulados para treinar os dois classificados simultaneamente.
Atravs das mtricas ROUGE-1, ROUGE-2 e ROUGE-L os autores
compararam suas abordagens entre si (SVM isolado, Nave-Bayes isolado e co-
training) com corpora das DUCs de 2001 e 2007. Eles verificaram que o mtodo de
co-training traz resultados em geral melhores quando h poucos dados rotulados
disponveis.

Principais vantagens: utilizao de um grande conjunto de caractersticas;
utilizao de mtodo para contornar o problema da utilizao de corpus de treino
pouco expressivo.
Principais desvantagens: devido utilizao de muitas caractersticas, o
sistema proposto provavelmente bastante sensvel a quais conjuntos de
caractersticas so utilizadas, assim como o sistema SuPor.

3.3.2 Sumarizao utilizando lgica nebulosa
Kiani-B e Akbarzadeh-T (2006) propuseram um sumarizador que utiliza uma
abordagem hbrida gentico-nebulosa para determinar as sentenas mais relevantes
para incluso no texto. Atravs de um processo de treino no-supervisionado o
algoritmo proposto maximiza uma srie de funes de fitness, entre elas a presena
de palavras no extrato que tambm esto no ttulo do texto original.
So utilizadas seis caractersticas como variveis nebulosas, a saber:

Nmero de palavras da sentena que esto no ttulo;
Se a sentena a primeira a figurar no pargrafo;
Se a sentena a ltima a figurar no pargrafo;
O nmero de palavras da sentena (tamanho);
O nmero de radicais da sentena, obtidos removendo-se stopwords e
realizando-se o processo de stemming;
O nmero de palavras importantes tais como most, very, etc.

Para avaliao dos resultados, os autores utilizaram um corpus de textos
jornalsticos de tpicos variados e de tamanho no especificado. As medidas
focadas foram Preciso, Cobertura e F-Measure entre as sentenas extradas e as
que constavam no extrato manual. Os autores relatam desempenho superior ao
sumarizador comercial Copernic e ferramenta AutoResumo do Microsoft Word. Em
F-Measure, o sistema obteve 0,752 contra 0,62 e 0,26 do sumarizador Copernic e da
ferramenta AutoResumo, respectivamente.

Principais vantagens: a utilizao de lgica nebulosa pode ser interessante
tarefa de SA j que diferenciar uma sentena boa de uma ruim pode ser
considerado um pouco nebuloso at mesmo na tarefa manual.
Principais desvantagens: avaliao no focou em medidas mais atuais para
sumarizao automtica; caractersticas utilizadas so apenas superficiais.
3.4 Sntese e Comparao das Abordagens para SA
Trs grandes abordagens podem ser identificadas como principais na
construo dos sistemas de SA descritos nas sees anteriores:

I. O Uso de Estatsticas Textuais
Compreendem medidas extradas diretamente a partir da estrutura superficial
do texto, como a distribuio das frequncias de palavras (vide o Modelo de Luhn,
Seo 3.1.1), posio e tamanho das sentenas (Seo 3.1.2). A grande vantagem
da utilizao dessas medidas est justamente no fcil cmputo e tambm no fato de
demandarem pouco ou nenhum processamento lingustico. Geralmente, demandam
apenas pr-processamentos simples como a remoo de stopwords e a
uniformizao dos termos usando stemming ou quadrigramas. Em geral, as
estatsticas textuais so independentes de lngua.
Por outro lado, podem ser dependentes de gnero. Por exemplo, a
caracterstica de posio da sentena pode ser mais importante num gnero
jornalstico que num gnero cientfico. Outro ponto negativo que os modelos
baseados somente nesses tipos de medidas desconsideram importantes relaes
lingusticas entre os termos e sentenas, como relaes coesivas e de coerncia.

II. O Uso de Medidas de Grafos
A representao em grafo de informaes textuais permite recuperar mais
claramente as relaes entre elas, particularmente as relaes que podem indicar
segmentos mais relevantes para a SA. Diferente das medidas estatsticas simples, a
representao em grafo permite mais facilmente a recuperao dos elos coesivos e
de coerncia no texto. Entretanto, as prprias medidas extradas do grafo podem
favorecer certas caractersticas em detrimento de outras. Por exemplo, na Seo
3.1.4 foi descrito o mtodo de Mapa Relacionamentos, que uma abordagem
baseada em grafos. Por esse mtodo, o caminho denso pode levar a gerao de
sumrios informativos, mas com pouca coerncia. O caminho profundo favorece a
coerncia em detrimento da abrangncia. J o caminho segmentado, busca tanto a
abrangncia de informaes quanto a coerncia. As mesmas questes surgem com
a utilizao de medidas de redes complexas (Seo 3.2.6).

III. O Uso de Aprendizado de Mquina
A utilizao de aprendizado de mquina recorrente em vrios modelos
apresentados (e.g., Kupiec et al., 1995; Mdolo, 2003; Kiani-B e Akbarzadeh-T,
2006; Wong et al., 2008). Ela pode ser til na combinao e ponderao de
caractersticas para SA. O trabalho que necessrio nessa abordagem
geralmente o treino dos modelos. O fato de alguns mtodos de aprendizado de
mquina possurem premissas fortes e no atendidas e o fato de muitas vezes os
modelos de aprendizado serem prejudicados por caractersticas irrelevantes ou
redundantes de SA so problemas que devem ser considerados na utilizao dessa
abordagem.
O Captulo 4 deste trabalho apresenta uma descrio mais elaborada dos
modelos de aprendizado de mquina mais atuais e a questes que envolvem seu
uso para SA. O detalhamento nesse captulo deve-se a diversidade dos mtodos
explorados neste trabalho.

Como exposto, cada uma das abordagens tem aspectos positivos e negativos
com relao a sua utilizao. Neste trabalho, buscou-se combin-las para
construo dos modelos de SA que sero descritos no Captulo 5.
Captulo 4
CAPTULO4 - MTODOS BASEADOS EM
APRENDIZADO DE MQUINA
Este captulo apresenta os fundamentos tericos e uma descrio dos principais
mtodos de aprendizado de mquina explorados neste trabalho.
4.1 Introduo Minerao de Dados e Classificao
A Minerao de Dados se concentra essencialmente na busca de padres. A
Classificao uma das tarefas mais comuns na Minerao de Dados. Seu objetivo
determinar o valor de uma varivel categrica (discreta, portanto) para um
exemplar de um conjunto de dados. Essa varivel discreta que se deseja determinar
chamada de classe ou ainda rtulo. O nmero de categorias da varivel
arbitrrio. Por exemplo, uma classe Risco, que indica o risco de concesso de
emprstimo a uma pessoa, poderia assumir uma das seguintes categorias: baixo,
mdio ou alto.
De modo geral, os algoritmos para classificao trabalham da seguinte forma:
feita a anlise de um subconjunto de dados j rotulado (chamado nesse caso de
conjunto de treino) presente na base de dados e se deseja determinar a classe para
registros no-rotulados (sem a informao de qual classe pertence). Os registros so
compostos de vrios campos (chamados de caractersticas) que devem ser os
mesmos para os registros j rotulados e para os que ainda no possuem rtulos.
Como exemplo, suponha um sistema inteligente que busca determinar uma
categoria para o risco dos tomadores de emprstimos de uma empresa financeira.
Essa empresa j contm em sua base de dados um grande conjunto de registros de
Captulo 4 - Mtodos Baseados em Aprendizado de Mquina 46
clientes e a informao sobre a categoria de risco em que eles se enquadram. Um
exemplo desse conjunto de registros mostrado na Tabela 4-1. Considere que a
empresa obteve esse conjunto a partir de dados histricos de seus clientes (atributos
Idade, Rendimento Anual, Sexo e Ocupao) e determinou a classe Risco a partir
de estudos realizados com base em anlises de seus movimentos financeiros por
vrios anos (em geral, a anlise realizada pelos analistas de risco). Suponha,
ainda, que o problema da empresa seja classificar o risco de um novo cliente. A
tarefa, nesse caso, justamente de classificao.

Tabela 4-1 Conjunto de Treino do Exemplo de Risco de Crdito
Idade
Rendimento
Anual
Sexo Ocupao Risco
21 50.000 F Engenheiro Mdio
45 20.000 M Desempregado Alto
60 8.000 M Aposentado Baixo
35 49.000 F Engenheiro Baixo

Para resolver o problema, o primeiro passo configurar um classificador de
interesse, o qual resulta do treino para obteno de um modelo. O algoritmo
aplicado ir modelar as relaes entre as caractersticas de cada cliente e sua
classe. Feito isso, ser possvel classificar o risco do novo cliente. Nesse caso, a
entrada para o classificador constituda das caractersticas do novo cliente (Idade,
Rendimento Anual, Sexo e Ocupao) e a resposta obtida ser uma categoria de
risco: baixa, mdia ou alta, no caso.
A tarefa classificao pode ser usada para gerar modelos de classificao de
sentenas, visando escolha de unidades textuais para compor os extratos de
interesse em nosso trabalho, tema da prxima seo.

4.1.1 Classificao para Sumarizao Automtica
Conforme apresentado na Seo 3.1.3, a tarefa de julgar se uma sentena
importante ou no pode ser tratada por meio de mtodos de classificao. Essa
abordagem, como j citado anteriormente, foi inicialmente proposta por Kupiec et al.
(1995).
Remetendo ao Problema 2, sobre Como combinar e ponderar as
caractersticas escolhidas? (veja introduo deste trabalho), busca-se, a partir da
anlise das caractersticas de uma sentena, determinar se ela relevante ou no
para a formao do extrato.
Formalmente, seja
n
C C X = ,...,
1
um espao vetorial sobre o conjunto de
caractersticas
n
C C ,...,
1
. Um classificador um mapeamento U X s :
, onde U
um conjunto de rtulos ou classes de sada.
Frequentemente, para SA modela-se o problema como uma tarefa de
classificao binria, indicando se a sentena deve estar presente (True) ou no
(False) no extrato. H, portanto, duas classes que uma sentena pode assumir:
U = {True, False}
Entretanto, diferentemente da maioria dos problemas tradicionais abordados
pela Classificao, de interesse na SA determinar um escore que indique o quo
relevante a sentena . Em outras palavras, a classe de interesse sempre a True
e um ranking das sentenas com base na a essa classe desejado. Formalmente, o
classificador deve fornecer o mapeamento X r :
, atribuindo um escore de
relevncia ) (
x r para cada sentena representada pelo conjunto de caractersticas

X, definido acima.
A maioria dos mtodos de classificao permite a extrao de um escore que
indique a aderncia a uma classe particular. Os mtodos apresentados a seguir so
os mtodos que seguem esse modelo, de interesse para este trabalho.
4.1.2 Mtodos Bayesianos
O classificador Nave-Bayes foi o primeiro a ser utilizado para a SA, conforme
a Seo 3.1.3. Para determinao da relevncia de uma sentena, utilizada a
probabilidade dessa sentena pertencer a classe True, ou seja, a probabilidade de
ela pertencer ao extrato. O classificador denominado ingnuo (nave) por assumir
que as caractersticas so condicionalmente independentes. Isto , assume que a
informao de uma caracterstica no informativa sobre nenhuma outra.
Uma variao do mtodo o Flexible-Bayes (John e Langley 1995) que
mais adequado para tratar caractersticas numricas, embora ainda se baseie na
assuno de independncia condicional das caractersticas. Segundo os autores, os
resultados obtidos com Flexible-Bayes so no mnimo melhores do que aqueles
obtidos a partir de uma simples distribuio gaussiana, distribuio tradicionalmente
utilizada junto com o Nave-Bayes como funo de distribuio de probabilidades
para caractersticas numricas.
H estudos (e.g., Zhang e Su 2004) que indicam bom desempenho do
classificador Nave-Bayes para gerao de rankings, caracterstica de interesse para
SA.
Um exemplo completo de aplicao do mtodo Bayesiano apresentado no
Apndice A.

Principais vantagens: a associao da relevncia da sentena a uma
probabilidade algo natural; apesar da simplicidade, os mtodos Bayesianos so
bastante usados e possuem bom desempenho na rea do Processamento de
Lnguas Naturais.
Principais desvantagens: a premissa de independncia condicional das
caractersticas.

4.1.3 C4.5
O C4.5 (Quinlan 1993) um algoritmo bastante popular para a criao de
rvores de deciso. A rvore de deciso chega a sua deciso pela execuo de uma
sequncia de testes. Cada n interno da rvore corresponde a um teste do valor de
uma das caractersticas, e os ramos deste n so identificados com os possveis
valores do teste. Cada n folha da rvore determina a classe se a folha for atingida.
A Figura 4-1 seguinte mostra um exemplo de rvore de deciso para um
modelo de SA com duas caractersticas. A primeira caracterstica considerada a de
posio da sentena no texto, que pode estar situada no incio, no meio ou no fim. A
segunda a de frequncia mdia das palavras da sentena no texto, que foi
distinguida em trs categorias: alta, mdia ou baixa.

Figura 4-1 Exemplo de rvore de deciso para um modelo de SA com duas
caractersticas

Para classificar uma sentena, basta comear pela raiz (no caso do exemplo,
posio da sentena), seguindo cada n de deciso de acordo com a caracterstica
da sentena at que uma folha seja alcanada. Quando uma folha alcanada,
atribuda ao exemplo a classe com maior frequncia nessa folha.
J para construir o ranking de sentenas por relevncia, deve-se calcular a
frequncia relativa da classe True (presente no extrato) dentro das folhas da rvore,
considerando todos os exemplos do conjunto de treino que so classificados pela
respectiva folha. Um problema pode ocorrer se no existir nenhuma sentena da
classe True que for classificada pela folha. Nesse caso, a folha torna-se intil.
Alguns estudos (e.g., Zadrozny e Elkan 2001) apontam tambm que o C4.5 pode
no produzir bons rankings atravs desse procedimento, devido a:

Alto bias: rvores de deciso tendem a deixar as folhas homogneas. Assim,
as frequncias variam geralmente nos extremos 0 ou 1.
Alta varincia: quando o nmero de instncias da base de treino associadas a
uma folha for pequeno, as frequncias observadas no so estatisticamente
significantes.

Para manipulao de caractersticas numricas, o mtodo de Discretizao
Supervisionada (Fayyad e Irani 1993) utilizado. Esse mtodo visa dividir em
intervalos adequados os valores das caractersticas, tornando-os categricos.

Principais vantagens: a representao dos conhecimentos por meio de
rvores intuitiva.
Principais desvantagens: a obteno de um escore para determinar a
relevncia da sentena difcil e pode no ser precisa.

4.1.4 Support Vector Machines
SVM ou Support Vector Machines (Vapnik 1998) determinam uma fronteira de
deciso entre duas classes mapeando os exemplos de treino (sentenas rotuladas)
num espao dimensional maior e determinando o hiperplano timo de separao
nesse espao.
Para o clculo da relevncia de uma sentena, assume-se que ela igual
distncia Euclidiana entre o hiperplano e o vetor de caractersticas da sentena.
Quanto mais prxima estiver a sentena do lado das sentenas da classe True
(presente no extrato), mais relevante ela ser considerada.
Esse tipo de modelo tem sido utilizado em alguns sistemas com bons
resultados nas ltimas DUCs e TACs, conforme exposto na Seo 3.3.1.

Principais vantagens: considerando um mtodo robusto. Implementaes
mais recentes consideram aspectos de no-linearidade.
Principais desvantagens: a obteno de um escore para determinar a
relevncia da sentena pode no ser calibrada em funo de sua forma de clculo.

4.1.5 Regresso Logstica
Trata-se de uma variao da regresso tradicional (Witten e Frank 2005). Ela
usada quando a varivel dependente da regresso binria. No caso, True para
presente no extrato ou False para no presente no extrato). O modelo do
classificador dado na equao seguinte: p a probabilidade da classe True, X
1
, ,
X
n
so os valores das caractersticas consideradas e
0
,
1
,,
n
so os coeficientes de
regresso obtidos por meio de treino. O resultado logartmico ento transformado
numa probabilidade por meio de uma funo logstica. As probabilidades obtidas indicam
a relevncia das sentenas.

n n o
X X
p
p
+ + + =
|
|
\
|
...
1
log
1 1

[9]

Principais vantagens: reportado na literatura que o mtodo gera boas
estimativas de probabilidade, sendo adequado a tarefa de ranking, assim como os
mtodos Bayesianos.
Principais desvantagens: assume relao linear entre caractersticas e a
relevncia da sentena.

4.1.6 Redes Neurais Artificiais
As Redes Neurais Artificiais ou RNA (Haykin 1999) so sistemas
computacionais estruturados para realizar cmputos por meio de ligaes entre suas
unidades elementares de processamentos, chamados de neurnios ou
simplesmente ns. A inspirao original para essa tcnica advm do exame das
estruturas do crebro, em particular do exame de neurnios.
A Figura 4-2 a seguir ilustra uma possvel rede neural de exemplo para SA,
para um modelo de SA com duas caractersticas, como j foi feito no exemplo da
Seo 4.1.3. A rede recebe como entrada o valor de duas caractersticas numricas
da sentena a posio relativa no texto e a frequncia das palavras das sentena
e produz duas sadas binrias. O valor da primeira sada ser 1 se a sentena for
relevante ou ser 0 se for irrelevante. Para a segunda sada, vale o contrrio. Os ns
interdirios da rede so responsveis por realizar processamentos intermedirios a
partir dos valores da camada de entrada e fornecer a entrada para os ns de sada,
que iro combinar todos os valores e produzir a sada.


Figura 4-2 Representao de uma rede neural para duas caractersticas

Nos neurnios da camada de sada, o resultado da combinao dos valores
das camadas intermedirias dado como entrada para uma funo que ir
determinar a sada binria da rede, chamada de funo de ativao. Normalmente,
utilizada uma funo sigmoide, ilustrada na Figura 4-3.

Figura 4-3 Funo sigmide

Em vez de se utilizar apenas dois neurnios de sada, nveis intermedirios de
relevncia das sentenas poderiam ser modelados com a utilizao de mais
neurnios na camada de sada, como o caso dos j citados
21
NeuralSumm (Pardo
2003), que modela trs nveis de relevncia, e do SABIo (Orr et al. 2006), que
modela seis nveis de importncia. Em ambos os casos, a sada da rede discreta e
acaba restringindo os nveis de relevncia que podem ser atribudos s sentenas.
Alm disso, para que a rede possa modelar uma sada mais abrangente que a
binria (relevante ou no), os dados de treino precisam ser ajustados ou
complementados manualmente. Usualmente, os dados de treino que se dispem
possuem uma sada tambm binria, indicando ou no a presena daquela sentena
em um extrato de referncia manual.

Principais vantagens: Pode tratar problemas no-lineares.
Principais desvantagens: Como a sada da rede determinada pelas sadas
dadas pela funo de ativao (usualmente binria), pode ser complicado distinguir
adequadamente a relevncia das sentenas e construir um ranking por relevncia.
4.2 Seleo Automtica de Caractersticas
conhecido na rea de aprendizado de mquina e Minerao de Dados que
os algoritmos de classificao podem ter seu desempenho prejudicado devido
presena de caractersticas irrelevantes (e.g.,Hall 2000; Witten e Frank 2005). O
mesmo observado na utilizao de algoritmos de aprendizado de mquina para a
SA. No Captulo 1 foi citado, por exemplo, que a utilizao de apenas 3
caractersticas (em vez de 5) trouxe os melhores resultados no trabalho de Kupiec et
al. (1995). De fato, o Problema 1 l apresentado, sobre Quais caractersticas
utilizar?, pode ser abordado de forma automtica por meio de tcnicas de seleo
automtica de caractersticas
22
.
A seleo automtica de caractersticas permite identificar subconjuntos
promissores de caractersticas de modo a evitar que o modelo de aprendizado de

21
Vide Seo 3.2
22
A tarefa tambm conhecida como Seleo de Atributos ou Attribute Selection e Feature Selection em
ingls.
mquina utilize todas as caractersticas disponveis. No caso da Sumarizao
Automtica Extrativa baseada em aprendizado de mquina, busca-se com isso
determinar um subconjunto de caractersticas que maximize a capacidade do
sistema de classificar corretamente os casos. Em outras palavras, de maximizar a
determinao de sentenas relevantes para composio do extrato.
Alm de esse processo poder conduzir a melhores extratos, do ponto de vista
computacional mais eficiente, pois o modelo ser baseado num nmero menor de
caractersticas.
Duas abordagens principais para se tratar o problema de seleo de
caractersticas: Filter e Wrapper. A abordagem Filter opera independente do
algoritmo de classificao considerado e filtra as caractersticas antes do processo
de classificao. Mtodos baseados na abordagem Filter costumam selecionar as
caractersticas com base em medidas estatsticas ou em medidas baseadas na
teoria da informao (Shannon 1948). O resultado dos mtodos pode ser tanto um
ranking das caractersticas por ordem de relevncia ou um subconjunto
recomendado de caractersticas. Existe ainda a tcnica de anlise dos componentes
principais (e.g., Haykin 1999) que tambm se considera que segue a abordagem
Filter, por operar independente do algoritmo de classificao. Essa tcnica busca
reduzir o nmero de caractersticas a um pequeno nmero de combinaes lineares
das caractersticas originais. J a abordagem Wrapper, opera em conjunto com o
algoritmo de classificao, por meio de cross-validation
23
. Ou seja, avalia-se
diretamente o desempenho do classificador para cada subconjunto de
caractersticas considerado.
4.2.1 Mtodos Wrapper para Seleo Automtica de Caractersticas em
SA
A abordagem Wrapper opera da seguinte forma:
a) Selecionam-se potenciais subconjuntos de caractersticas por meio de um
processo de busca heurstica.
b) Para cada subconjunto, deve-se proceder sua avaliao da seguinte
forma:

23
A Seo 6.1.5 apresenta um resumo do funcionamento dessa tcnica e seus objetivos.
i. Construir (treinar) o modelo de aprendizado de mquina com
as caractersticas consideradas;
ii. Avaliar o desempenho do modelo, usualmente por meio de
critrios como taxa de acerto ou F-Measure.

Por conta desse processo, a crtica em geral feita aos mtodos Wrapper
com relao ao seu alto custo computacional. Alm desse custo, existem algumas
complicaes adicionais quando se considera aplicar essa abordagem na
Sumarizao Automtica extrativa baseada em aprendizado de mquina:

a) As avaliaes do modelo no so feitas por medidas de taxas de acerto ou F-
Measure do classificador, mas sim por medidas que indicam, por exemplo, a
informatividade dos extratos produzidos. As implementaes existentes, por
exemplo do WEKA (Witten e Frank 2005), no tm condies de tratar essa
particularidade;
b) Por conta dos subconjuntos de caractersticas serem avaliados com base nos
extratos produzidos, a avaliao desses subconjuntos fica condicionada
taxa de compresso que foi adotada. Caso uma outra taxa fosse considerada,
no necessariamente o conjunto de caractersticas selecionado seria o
mesmo.

Principais vantagens: A seleo das caractersticas enviesada de modo a
produzir os melhores resultados com o classificador escolhido.
Principais desvantagens: Alto custo computacional e uso de medidas no
especficas de SA para avaliao da performance do classificador.
4.2.2 Mtodos Filter - Medidas Baseadas na Teoria da Informao
Na dcada de 1940, Claude Shannon estava interessado em maximizar a
quantidade de informao que poderia ser transmitida por um canal de
comunicao, particularmente um canal imperfeito, com rudos. Isso o levou a definir
matematicamente o conceito de informao e como quantific-la. A soluo
encontrada foi definir informao como uma reduo da incerteza e, dessa forma,
quantificar a informao quantificando a incerteza (Shannon 1948).
Suponha um dispositivo que transmita trs smbolos A, B ou C atravs
de um canal para um receptor. Enquanto o receptor espera pelo smbolo, h a
incerteza sobre o smbolo que ser recebido. Assim que o smbolo enviado chega ao
receptor e reconhecido, a incerteza diminui e recebe-se alguma quantidade de
informao. A questo , ento, como medir a incerteza para se determinar a essa
quantidade de informao recebida. A maneira mais simples seria considerar que se
tem uma incerteza de trs smbolos, para o exemplo.
Suponha, agora, um outro dispositivo que envia simultaneamente ao
dispositivo anterior os smbolos 1 e 2 ao mesmo receptor. As possibilidades na
recepo sero A1, A2, B1, B2, C1 ou C2. Ou seja, uma incerteza de seis
smbolos. Essa no maneira usual de se pensar, quer em relao ao contedo
informativo, quer em relao incerteza, pois esses conceitos so, intuitivamente,
aditivos, no multiplicativos. Usando-se a funo logartmica essa propriedade
aditiva pode ser conseguida. Considere que a incerteza para o primeiro dispositivo
seja log(3) e para o segundo log(2), ento a incerteza para os dois dispositivos ser
igual a log(6) = log(3) + log(2). A base do logaritmo determina a unidade. Se a base
dois for usada, o resultado ser em bits. Assim, no envio de dois smbolos, tem-se
uma incerteza de 1 bit.
A frmula apresentada no pargrafo anterior para incerteza log
2
(N), em que
N o nmero de smbolos. Ou, equivalentemente, -log
2
(P), pois 1/N a
probabilidade P de cada smbolo ser recebido. Ela no serve para casos em que as
probabilidades de cada smbolo so diferentes. Suponha que haja quatro smbolos
possveis, mas dois deles nunca sejam recebidos. A incerteza ser de apenas 1 bit,
no de 2 bit.
Shannon estendeu essas ideias para smbolos com diferentes probabilidades
e definiu a grandeza conhecida como entropia (H), que mede a incerteza de uma
mensagem codificada num alfabeto com distribuio de probabilidades P(X), como
segue:

)) ( ( log ). ( ) (
2 i
i
i
x P x P X H

=
[10]

em que:
x
i
um dos smbolos do alfabeto.

Note que a entropia uma medida positiva, pois o sinal negativo anulado
pelo logaritmo negativo, j que as probabilidades so sempre menores ou igual a 1.
Considere, como exemplo, o lanamento de uma moeda. As faces
observadas correspondem aos smbolos que sero recebidos. Se a probabilidade de
ocorrer cara for a mesma de ocorrer coroa, a entropia ser:

)) ( ( log ). ( )) ( ( log ). ( ) (
2 2
coroa X P coroa X P cara X P cara X P X H = = = = =

( ) ( ) 1 1
2
1
1
2
1
) ( = = X H bit
Suponha agora que a moeda seja viciada e que a probabilidade de ocorrer
cara de 75%. Ento, a entropia ser:

8 , 0
4
1
log
4
1
4
3
log
4
3
) (
2 2
|
\
|
|
\
|
= X H bit

Ou seja, a entropia para o lanamento de uma moeda viciada menor, j que
a incerteza sobre qual face se observar menor. Esse comportamento pode ser
mais bem observado no grfico da Figura 3, que mostra a funo de entropia para o
caso de a varivel X assumir apenas dois valores (smbolos). Observe que quando
um dos smbolos tem probabilidade mxima (100%), a entropia zero, pois no h
incerteza. A entropia atinge seu valor mximo quando a probabilidade dos dois
smbolos a mesma (50%). Ou seja, quanto mais equiprovveis forem os smbolos,
maior ser a entropia, pois maior ser a incerteza. Observe ainda que quando os
smbolos so equiprovveis, a frmula para a entropia se reduz inicialmente
apresentada log(N), sendo N o nmero de smbolos.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Entropia para dois simbolos
Probabilidade de um simbolo
E
n
t
r
o
p
i
a

(
b
i
t
s
)

Figura 4-4 - Grfico da Entropia de dois smbolos

Uma outra viso para a entropia o nmero mdio de bits necessrio para
transmitir uma sequncia de smbolos com distribuio de probabilidades P(X). Uma
mensagem cujos smbolos forem equiprovveis (distribuio uniforme) necessitar
de um nmero maior de bits para represent-la, pois cada smbolo ter o mesmo
nmero de bits. Se a distribuio no for uniforme (entropia menor), os smbolos
mais frequentes (ou provveis) sero representados por um nmero menor de bits e
o nmero mdio de bits para codificar a mensagem diminuir.
Considere, como exemplo, uma mensagem cujos smbolos pertenam ao
alfabeto A, B, C e D. As frequncias relativas de cada smbolo na mensagem so
dadas por 4, 2, 1 e 1, respectivamente. As probabilidades, ento, de cada smbolo
ser enviado so 1/2, 1/4, 1/8 e 1/8, respectivamente. Ignorando o fato de as
frequncias serem conhecidas, a mensagem poderia ser codificada da forma a
seguir, que usa, em mdia, dois bits por smbolo.

A = 00
B = 01
C = 10
D = 11

Essa codificao usa sempre dois bits para cada smbolo. Shannon (1948)
mostrou que sempre existe um cdigo mnimo que pode representar a mensagem
com o nmero mdio de bits por smbolo dado pela entropia. Para o exemplo, o
clculo da entropia, mostrado a seguir, revela que esse cdigo ir utilizar em mdia
1,75 bit por smbolo.
75 . 1
8
1
log
8
1
8
1
log
8
1
4
1
log
4
1
2
1
log
2
1
) (
2 2 2 2
= |
\
|
|
\
|
|
\
|
|
\
|
= X H bit

Uma dessas codificaes a seguinte:

A = 0
B = 10
C = 110
D = 111

Observe que o nmero mdio de bits ( N) para cada smbolo enviado
nessa codificao exatamente 1.75, pois, utilizando a mdia ponderada pela
frequncia dos smbolos, tem-se:

75 . 1
8
3 1 3 1 2 2 1 4
=
+ + +
= N bits/smbolo

Segundo Mani (2001) o nmero mdio necessrio de bits para se transmitir
mensagens em ingls de aproximadamente 2 bits/caractere.

Definida a entropia, Shannon formalizou a taxa de informao (R) com a
seguinte expresso:

depois antes
H H R =
[11]

Como exemplo, considere a seguinte situao (Shannon 1948). Um emissor
pode enviar dois smbolos (0 ou 1) equiprovveis por um canal com rudo. A
probabilidade de se receber o smbolo 1 quando, na verdade, for enviado um 0 de
0.01 e a probabilidade de um 0 ser recebido quando um 1 enviado tambm 0.01.
No envio de um smbolo, a incerteza antes (
antes
H ) 1 (vide Figura 4-4) e a
incerteza depois (
depois
H ) ser:

( ) ( ) 081 . 0 01 . 0 log 01 . 0 99 . 0 log 99 . 0
2 2
= =
depois
H bit

A quantidade real de informao recebida dada, ento, por:

919 . 0 081 . 0 1 = = =
depois antes
H H R bit

Observe que se o canal for perfeito (sem rudos), a entropia depois ser zero,
pois no haver incertezas. A informao, ento, se reduz a
antes
H R = .

4.2.2.1 Mtodos Filter - Information Gain
A relao apresentada por Shannon para quantificar a informao
(
depois antes
H H R = ) pode ser adaptada para quantificar a relevncia dos atributos em
um problema de aprendizado de mquina. Intuitivamente, atributos mais relevantes
sero aqueles mais informativos. A questo descobrir quais os contextos que
devem ser adotados para se calcular as entropias antes e depois. Uma possibilidade
considerar a entropia antes como sendo a da classe (X), e a depois como sendo a
entropia da classe depois que se conhea o valor do atributo (Y) cuja informatividade
se deseja medir. Isso pode ser descrito por:

) | ( ) ( Y X H X H H H R
depois antes
= = [12]

Essa relao indica justamente a reduo na incerteza (ganho de informao)
de X pelo conhecimento de Y. Ou seja, quanta informao que a caracterstica Y traz
para a determinao da classe X. A entropia depois ) | ( Y X H representa esse
conceito de entropia de uma varivel X aps a observao do valor de outra varivel
Y, que Shannon definiu como entropia condicional, apresentada a seguir:

|
\
|
=
j i
j i j i j
y x P y x P y P Y X H )) | ( ( log ) | ( ) ( ) | (
2

[13]

) (
j
y P a probabilidade a priori para todos os valores de Y e ) | (
j i
y x P a
probabilidade de X dados os valores de Y.
Na Teoria da informao e na Estatstica, de modo geral, essa medida
conhecida como informao mtua. Em minerao de dados, o termo empregado
information gain (IG) onde bastante utilizada para se gerar rankings por pesos de
relevncia dos atributos. Quinlan (1993) tambm a utiliza como critrio para escolher
o atributo que deve ser usado para particionar recursivamente os exemplos de uma
rvore de deciso. Atributos com maior IG so escolhidos.
No Apndice B apresentado um exemplo de clculo da medida, no contexto
de Sumarizao Automtica extrativa baseada em aprendizado de mquina.

Principais vantagens: Medida bastante usada e popular no campo da
Estatstica.
Principais desvantagens: Por se tratar de um mtodo filter, o resultado um
ranking de caractersticas em vez do conjunto recomendado. Isso implica em se
estabelecer um nmero de corte de caractersticas.

4.2.2.2 Mtodos Filter - Correlation Feature Selection (CFS)
Como Hall (2000) aponta, a medida IG (information gain) tende a favorecer os
atributos com maior nmero de valores. Ou seja, os IGs desses atributos tendem a
ser mais altos, mesmo que eles no sejam to informativos. Alm disso, para se
comparar de maneira adequada valores IG de dois ou mais atributos, a medida
deveria ser normalizada no intervalo [0,1]. Para contornar esse desequilbrio da IG,
Hall sugere a medida Symetrical Uncertainty (SU), definida por:

) ( ) (
) | ( ) (
2
) ( ) (
) , (
2 ) , (
Y H X H
Y X H X H
Y H X H
Y X IG
Y X SU
+
=
+
=
[14]

Essa medida, como as outras j apresentadas, pode ser usada para avaliar a
relevncia de uma dada caracterstica. Entretanto, a simples escolha das
caractersticas mais relevantes no garante que se consiga o melhor conjunto de
caractersticas, ou mesmo um que se aproxime do melhor. Primeiramente porque
no se sabe quantas caractersticas devem ser escolhidas e tambm por no se
considerar o grau de redundncia entre as caractersticas, problema que pode ter
bastante influncia sobre o desempenho dos algoritmos de aprendizado de mquina
(Witten e Frank 2005).
Hall (2000) prope uma heurstica para se escolher um subconjunto de
caractersticas com base na medida SU. A premissa de que um bom subconjunto
de caractersticas tem caractersticas altamente correlacionadas com a classe, mas
pouco correlacionadas entre si. Ou seja, sua heurstica busca conjuntos relevantes
com baixo grau de redundncia entre suas caractersticas. A frmula a seguir
formaliza a heurstica, em que A
i
e A
j
so caractersticas e C a classe:

=
i j
j i
j
j
S
A A SU
C A SU
Mrito
) (
) , (
,
[15]

Teoricamente, o melhor conjunto seria obtido calculando-se a medida para
todos os possveis conjuntos, o que invivel, pois o nmero exponencial em
relao ao nmero de caractersticas (2
n
). Como exemplo, a Figura 4-5 ilustra o
espao de busca para de determinao do melhor subconjunto de caractersticas
para um sumarizador que utiliza como caractersticas: tamanho das sentenas,
frequncia das palavras, posio da sentena e a presena de nomes prprios. Por
dessa complexidade, Hall (2000) sugere a utilizao de uma heurstica de busca
para localizar o subconjunto, como o mtodo best-first.
O algoritmo comea a procura a partir de um subconjunto vazio de
caractersticas e gera os possveis conjuntos com apenas uma caracterstica. O
subconjunto de maior mrito ento expandido da mesma maneira. Se o resultado
piorou, o algoritmo volta ao estado anterior. O critrio de parada a ocorrncia
consecutiva de cinco expanses sem melhoras.

Figura 4-5 Exemplo de espao de busca para o melhor subconjunto de
caractersticas

Principais vantagens: O resultado produzido pelo mtodo o conjunto
recomendado de caractersticas. O mtodo foca tanto em redundncia quanto
relevncia das caractersticas.
Principais desvantagens: Custo computacional maior, embora vivel se
utilizadas heursticas de busca.

4.2.3 Mtodos Filter - Medidas Estatsticas
Como Biesiada et al. (2005) apontam, medidas estatsticas de dependncia
entre variveis aleatrias podem ser uma alternativa s medidas baseadas na Teoria
da Informao, para a seleo de caractersticas. Uma dessas medidas a
estatstica do qui-quadrado (
2
), bastante eficiente para se avaliar a associao
existente entre variveis (ou valores) discretas. Seu princpio comparar as
diferenas entre as frequncias observadas e esperadas. Para a seleo de
caractersticas, calcula-se a medida
2
para a caracterstica que se deseja avaliar
com respeito classe do problema, conforme a seguinte frmula:

( )

= =
|
|
\
|

=
m
i
k
j ij
ij ij
E
E A
1 1
2
2
[16]

em que:

m nmero de valores que a caracterstica pode assumir;

k nmero de valores que a classe pode assumir;

A
ij
a frequncia observada. No caso, o nmero de instncias da
caracterstica que assumem o i-simo valor possvel para esse atributo e com o
j-simo valor possvel para a classe;

E
ij
a frequncia esperada, definida por
N
C R
E
j i
ij
= ;

R
i
nmero de instncias que possuem o i-simo valor possvel para a
caracterstica.

C
j
nmero de instncias com o j-simo valor possvel para a classe;

N o nmero total de instncias (tuplas).

Quanto maior o valor da medida, maior ser a dependncia entre a
caracterstica e a classe.
No Apndice B apresentado um exemplo de clculo da medida, no contexto
de Sumarizao Automtica Extrativa baseada em aprendizado de mquina.

Principais vantagens: Medida bastante usada e popular no campo da
Estatstica.
Principais desvantagens: Por se tratar de um mtodo filter, o resultado um
ranking e caractersticas em vez do conjunto recomendado. Isso implica em se
estabelecer um nmero de corte de caractersticas.

4.2.4 Mtodos Filter - Anlise dos Componentes Principais
A anlise dos Componentes Principais (e.g., Haykin 1999; Witten e Frank
2005) um dos mtodos estatsticos mais usados na anlise de dados
multivariados. O objetivo principal da anlise de componentes principais a
obteno de um pequeno nmero de combinaes lineares de um conjunto de
variveis, chamados de componentes principais, que retenham o mximo possvel
da informao contida nas variveis originais. Frequentemente, um pequeno nmero
de componentes pode ser usado no lugar das variveis originais, nas anlises de
regresses, anlises de agrupamentos etc.
Mais formalmente, dado um conjunto D com n instncias e p atributos ou
caractersticas (x
1
, x
2
,..., x
p
), uma transformao linear para um novo conjunto de
atributos z
1
, z
2
,..., z
p
pode ser calculada como:

A determinao dos componentes envolve o clculo dos autovalores da
matriz de covarincias dos dados. Para isso, assume-se que todas as caractersticas
so numricas ou tenham sido transformadas de forma adequada em nmeros.
Os componentes so extrados na ordem do mais explicativo para o menos
explicativo. Teoricamente o nmero de componentes sempre igual ao nmero de
z
1
= a
11
x
1
+ a
21
x
2
+ ... + a
p1
x
p
z
2
= a
12
x
1
+ a
22
x
2
+ ... + a
p2
x
p
...
z
p
= a
1p
x
1
+ a
2p
x
2
+ ... + a
pp
x
p
variveis. Entretanto, alguns poucos componentes so responsveis por grande
parte da explicao total.
Diferente dos demais mtodos das sees anteriores, que apenas avaliam
caractersticas, a anlise dos componentes principais gera novas caractersticas
mais informativas e que so combinaes das variveis originais.

Principais vantagens: tcnica bastante usada e popular no campo da
Estatstica; os componentes principais correspondem a caractersticas no
correlacionadas e, portanto, no redundantes.
Principais desvantagens: a utilizao de novas caractersticas que so
combinaes das caractersticas originais pode levar a perda do aspecto intuitivo e
do significado lingustico presente nelas; a combinao linear pode no fazer sentido
para caractersticas que sejam discretas; a complexidade do mtodo cbica com
relao ao nmero de caractersticas, podendo levar a um alto custo computacional
para modelos de sumarizao com grandes nmeros de caractersticas.
4.3 Sistemas Nebulosos
A lgica nebulosa, ou lgica fuzzy (e.g., Klir e Yuan 1995), uma extenso da
lgica booleana que admite valores lgicos intermedirios entre o falso e o
verdadeiro. Tradicionalmente, uma proposio lgica tem dois extremos: ou
completamente verdadeiro ou completamente falso. Entretanto, na lgica
nebulosa, uma proposio varia em grau de verdade de 0 a 1, o que leva a ser
parcialmente verdadeira e parcialmente falsa.
A lgica nebulosa baseada na teoria dos conjuntos nebulosos que por sua
vez estende a teoria dos conjuntos tradicionais
24
utilizando o conceito de grau de
verdade. De forma geral, um conjunto definido por uma funo chamada de funo
caracterstica (x), que declara quais elementos de x so membros do conjunto e
quais no so. Enquanto a funo caracterstica dos conjuntos tradicionais
discreta (0 ou 1), a funo caracterstica dos conjuntos nebulosos pode assumir

24
Nos trabalhos sobre lgica nebulosa, os conjuntos tradicionais so referidos usualmente pelo termo crisp do
ingls.
qualquer valor real entre 0 e 1, indicando o grau de pertinncia desse elemento ao
conjunto. Por exemplo, um homem de 1,80 m e um homem de 1,75 m podem ambos
pertencerem ao conjunto alto, embora o homem de 1,80 metro tenha um grau de
pertinncia maior a este conjunto. Um possvel funo caracterstica para esse
conjunto alto poderia ser:

<
>
=
75 , 1 6 , 1 ,
15 , 0
6 , 1
6 , 1 , 0
75 , 1 , 1
) (
x
x
x
x
x
A

E uma representao grfica dada na figura seguinte:

1,60 1,80 altura (m)
1

Figura 4-6 Representao grfica do conjunto alto

Os artifcios da teoria dos conjuntos nebulosos permitem que estados
indeterminados possam ser modelados. Desse modo, possvel avaliar conceitos
no-quantificveis precisamente, como por exemplo a veracidade de um argumento:
corretssimo, correto, incoerente, falso, totalmente errneo, etc. Cada um desses
conceitos poderia ser modelado por meio de um conjunto nebuloso.
Sistemas de inferncia nebulosos tm sido aplicados em sistemas de
controle, sistemas especialistas e sistemas de viso computacional. Esses sistemas
utilizam um processo de inferncia nebuloso, que o processo de se mapear uma
dada entrada numa sada com base na teoria de conjuntos nebulosos. Esse
mapeamento prov uma base a partir do qual decises podem ser tomadas ou
padres discernidos.
A maioria dos sistemas de inferncia nebulosos baseada em regras. A
inferncia nebulosa baseada em regras interpreta as variveis de entrada e, com
base em algum conjunto de regras, designa valores para a sada. O processo de
inferncia nebuloso envolve, ento, funes matemticas que definem o grau de
pertinncia de um elemento a um conjunto nebuloso, operadores nebulosos (E
corresponde ao operador de mnimo e OU corresponde ao operador de mximo) e
regras SE-ENTO, em que a parte SE da regra chamada de premissa e a parte
ENTO chamada de consequente. Na inferncia nebulosa, as premissas podem
ser ativadas com um certo grau de verdade. Consequentemente, as sadas ou
implicaes possuem um grau de verdade associado.
Um tipo particular de sistema de inferncia nebuloso o classificador
nebuloso. Um classificador nebuloso possui quatro componentes: um processador
de entrada (ou fuzzificador), um conjunto de regras lingusticas, um mtodo de
inferncia nebuloso e um processador de sada (ou defuzzificador), gerando um
nmero real como sada.
As regras de classificao nebulosas so definidas da seguinte forma:

SE C Condio ENTO classe

em que:
C o vetor de caractersticas dos exemplos (ou sentenas) C
jk
{C
1k
,..., C
nk
},
Condio o conjunto de funes de pertinncia A
ij
{A
i1
,..., A
in
}
Classe u
i
{u
1
,..., u
M
}, com i = 1,...M o nmero de classes,
j = 1,... ,n o nmero de caractersticas
k = 1,...,N as os exemplos a classificar.

A grande questo quanto ao uso dos sistemas de inferncia nebulosos a
construo da base de regras e a modelagem dos conjuntos nebulosos envolvidos.
A primeira forma a construo manual, com o auxlio de um especialista de
domnio. Mais recentemente, abordagens de construo automtica tm sido
desenvolvidas, com o uso de algoritmos genticos (Eberhart e Shi 2007). Seguindo
essa linha Kiani-B e Akbarzadeh-T (2006) utilizaram, de forma pioneira pelo nosso
conhecimento, um sistema nebuloso para modelar o processo de escolha de
sentenas, conforme descrito na Seo 3.3.2.

Principais vantagens: A deciso de se uma sentena relevante ou no
pode ser considerada um processo nebuloso: uma sentena pode ser relevante em
determinadas condies e com um certo grau de verdade. Este comportamento tem
sido tratado usualmente por meio da teoria de probabilidade (por exemplo, com o
classificador Nave-Bayes). Entretanto, a utilizao de sistemas de inferncia
nebulosos pode ser uma alternativa vivel.
Principais desvantagens: A grande dificuldade est na construo dos
conjuntos de regras nebulosos e na modelagem das funes caractersticas dos
conjuntos nebulosos. Isto , a modelagem das funes de pertinncia dos elementos
aos conjuntos.
4.4 Sntese e Comparao das Abordagens Envolvendo
Aprendizado de Mquina
Os diversos mtodos da rea de aprendizado de mquina apresentados
neste captulo podem ser aplicados na rea de Sumarizao Automtica com o
objetivo de tratar os dois problemas fundamentais desta pesquisa, j apresentados
no Captulo 1:


Nos primeiros trabalhos de SA, esses problemas eram tratados de forma
manual, com modelos construdos e calibrados por engenheiros de conhecimento e
especialistas de domnio. Como j sugerido anteriormente, a grande vantagem dos
mtodos baseados em aprendizado de mquina justamente o fato de serem
automticos e permitirem a construo de modelos mais escalveis e mais
facilmente adaptveis a outros domnios ou gneros lingusticos. Embora um
trabalho envolvendo engenheiros de conhecimento e especialistas de domnio possa
produzir resultados melhores, geralmente todo o trabalho deve ser refeito para
aplicao em um novo domnio no geral. Com os mtodos automticos, geralmente
basta-se execut-los novamente e retreinar o sistema.
Por outro lado, mtodos automticos so baseados em modelos matemticos
que geralmente desconsideram a semntica dos dados. Como eles apenas buscam
otimizar as taxas de acerto para um conjunto de dados, no se observa
necessariamente razes lingusticas para seus parmetros e para os pesos que
atribuem s caractersticas, por exemplo. Alm disso, podem muitas vezes produzir
modelos de inferncia ou deciso pouco intuitivos para os humanos.
Outro problema da utilizao dos mtodos baseados em aprendizado de
mquina que geralmente necessrio definir premissas sobre a natureza e
distribuio dos dados para que se possa utiliz-los. Muitas vezes no h como se
garantir que os dados provenientes de textos livres tenham alguma propriedade ou
distribuio particular. Na maioria das vezes, as premissas so simplesmente
relaxadas.
Alm disso, os prprios mtodos geram modelos que no so perfeitos.
Nesse sentido, os mtodos de seleo automtica de caractersticas podem ser
encarados como complementares aos classificadores e mtodos de inferncia, pois
visam pr-processar e tratar os dados de forma a gerar um melhor desempenho do
modelo como um todo.
Considerando os mtodos apresentados nesta seo, a Tabela 4-2 sintetiza
as utilidades de cada um, suas principais vantagens e desvantagens.
No prximo captulo, parte-se para a descrio dos modelos de SA propostos
neste trabalho, que alm da utilizao do aprendizado de mquina, fizeram uso de
estatsticas textuais e medidas de grafos.

Tabela 4-2 Comparao entre os mtodos de aprendizado de mquina
Problema Mtodo Vantagens Desvantagens
Wrapper
As caractersticas
determinadas so as que
produziro os melhores
resultados com o
classificador escolhido.
Custo computacional e uso
de medidas no
especficas no caso de SA
Anlise dos
Componentes
Principais
Bastante utilizada na
Estatstica em problemas
com muitas variveis.
Possibilidade de introduo
de novas variveis, sem
necessariamente
significado lingustico; alto
custo computacional.
Information Gain Medida popular
Necessrio fixar nmero
caractersticas
Qui-quadrado Medida popular
Necessrio fixar nmero
caractersticas
1
CFS
Gera um conjunto
recomendado de
caractersticas relevantes e
pouco redundantes
Custo computacional
maior, embora vivel se
utilizadas heursticas de
busca.
Nave-Bayes
Bom desempenho geral nas
tarefas de PLN. Modelagem
por meio de probabilidades.
Premissa independncia
caractersticas
C4.5 Representao por rvores
Gerao dos rankings
difcil e pode no ser
precisa.
SVM
Mtodo robusto e que pode
tratar no-linearidades
Rankings podem no ser
calibrados
Regresso Logstica
Adequado a tarefa de
ranking
Assume relao linear
entre caractersticas e a
relevncia da sentena
2
Redes Neurais
Pode tratar problemas no-
lineares
Pode ser complicado
configurar o modelo para
gerao de rankings de
sentenas

Captulo 5
CAPTULO 5 - DESENVOLVIMENTO DOS
MODELOS DE SA BASEADOS EM
GRAFOS, ESTATSTICAS TEXTUAIS E
APRENDIZADO DE MQUINA
Nesta seo apresentam-se os modelos de Sumarizao Automtica que foram
desenvolvidos com base nas trs metodologias exploradas neste trabalho, empregando-
as de forma individual ou em conjunto.

Os modelos de SA desenvolvidos neste trabalho foram construdos a partir da
combinao ou da utilizao individual das trs grandes abordagens exploradas
neste trabalho: estatsticas textuais, grafos e aprendizado de mquina. Ao todo,
foram 29 modelos de SA propostos, sintetizados na Tabela 5-1:

Tabela 5-1 Modelos desenvolvidos
Modelos Seo do texto
1. SuPor-2
Seo 5.1
2. TextRank+StemmingStopRem Seo 5.2
3. TextRank+Thesaurus Seo 5.3
4-27. Modelos baseados em redes complexas e
caractersticas do SuPor-2 combinadas
Seo 5.4
28. SuPor-2 modificado
(mesmas caractersticas do SuPor-2 fuzzy)
29. SuPor-2 Fuzzy
Seo 5.4

Captulo 5 - Desenvolvimento dos
Modelos de SA Baseados em Grafos, Estatsticas Textuais e Aprendizado de Mquina 73
Na Seo 5.1 descreve-se o primeiro sistema desenvolvido, o SuPor-2,
construdo a partir do SuPor, j foi citado na introduo deste trabalho.
Na Seo 5.2, descrevem-se os dois modelos construdos com base na
abordagem de Grafos, seguindo o algoritmo TextRank, j apresentado na Seo
3.1.7.
Na Seo 5.3 so descritos os modelos de SA baseados na combinao por
meio do Aprendizado de Mquina de caractersticas diversas para SA, incluindo
estatsticas textuais e mtricas de grafos.
Na Seo 5.4, descrito um modelo de SA que buscou verificar os potenciais
benefcios da utilizao de aprendizado de mquina baseada da Teoria de
Conjuntos Nebulosos.
Ao final do captulo, feita uma sntese dos modelos construdos,
identificando-se suas caractersticas principais e as abordagens exploradas em cada
um.
5.1 Desenvolvimento do SuPor-2
Como citado no Captulo 1 e na Seo 3.2.4, o SuPor serviu de motivao
inicial para utilizao das abordagens focadas neste trabalho devido a seu bom
desempenho quando comparado a outros seis sumarizadores para o Portugus do
Brasil (Rino et al. 2004). Assim, descreve-se nesta seo sua primeira evoluo, o
SuPor-2 (Leite e Rino 2006). Neste sumarizador, buscou-se eliminar a necessidade
de um especialista humano que o SuPor impe para determinar as caractersticas
mais adequadas Para isso, foram desenvolvidas as seguintes propostas:
Proposta 1 - Aperfeioamento nas caractersticas utilizadas pelo esquema de
aprendizado de mquina (Seo 5.1.1);
Proposta 2 - Pr-seleo das caractersticas mais promissoras (Seo 5.1.2);
Proposta 3 - Foi proposta tambm uma mudana na arquitetura do sistema
(Seo 5.1.3), com a substituio do prprio mdulo de aprendizado pelo WEKA
(Witten e Frank 2005), um ambiente para minerao de dados. A utilizao do
WEKA no modelo do SuPor-2 justificada devido facilidade oferecida para aplicar
e avaliar diferentes estratgias de aprendizado. Essa avaliao inicial permitiu
determinar a melhor configurao do sistema no experimento descrito na Seo
5.1.4.

5.1.1 Proposta 1 Aperfeioamento das Caractersticas
A primeira modificao feita no SuPor para combinar e ponderar melhor as
caractersticas foi alterar sua representao binria. Por esse modelo de
caracterstica, a nica informao resultante do mtodo ou medida uma indicao
ou no para aquela sentena compor o sumrio. Ou seja, a representao binria
no informa o grau em que a indicao feita. O uso de caractersticas mais
significativas, que incorporem mais informao para o modelo de aprendizado de
mquina, sugere a possibilidade de se tomar decises de extrao mais
expressivas.
A abordagem que se utilizou para se especificar caractersticas mais
significativas que as do SuPor considerou, basicamente:

1) A utilizao dos dados numricos que os mtodos de sumarizao usam para
julgar a relevncia das sentenas, quando possvel (casos a-d listados a
seguir);
2) A utilizao de informaes que refletem a forma como cada sentena foi
selecionada, no caso de mtodos que no utilizam nmeros para julgar a
relevncia das sentenas (casos e-g listados a seguir).

No que segue, so especificadas, para cada mtodo, as mudanas realizadas
nas caractersticas:

a) Alterao na Caracterstica associada ao Mtodo de Frequncia das
Palavras
O mtodo de Frequncia das Palavras utiliza um dado numrico para julgar a
relevncia das sentenas o somatrio das frequncias de suas palavras em todo
o texto. No SuPor original, a sada binria da caracterstica associada era obtida
verificando se o somatrio das frequncias das palavras da sentena ultrapassa
(valor True) ou no (valor False) um determinado valor de corte. J no SuPor-2, a
caracterstica (C) foi definida pelo prprio somatrio das frequncias das palavras da
sentena.
Para evitar treinamento tendencioso, optou-se por relativizar o valor dessa
caracterstica em relao ao texto-fonte, normalizando-se seu valor no intervalo [0,1].
A normalizao consistiu, simplesmente, em dividir-se o valor da caracterstica de
cada sentena pelo maior valor obtido em todo o texto, tanto na fase de treinamento
quanto na de extrao, conforme frmula a seguir:

) (
) (
) (
C Mx
i C
i izada ticaNormal Caracters =
[17]

em que i o nmero da sentena do texto processado.

b) Alterao no Uso da Caracterstica de Tamanho da Sentena
Similarmente ao que foi feito para o mtodo de frequncia das palavras, o
valor dessa caracterstica foi definido como o nmero de palavras da sentena. Foi
adotado, tambm, o mesmo procedimento de normalizao da Equao [17].

c) Alterao no Uso da Caracterstica de Nomes Prprios
Novamente, a mudana feita foi similar quela feita para o mtodo de
frequncia das palavras. Considerou-se a soma das frequncias dos nomes
prprios da sentena em todo o texto como o valor da caracterstica. Da mesma
forma, adotou-se o mesmo procedimento de normalizao, conforme Equao [17].

d) Alterao no Uso do Mtodo de Importncia dos Tpicos
Pelo mtodo de Importncia dos Tpicos, a relevncia de uma sentena est
associada a dois valores numricos no intervalo [0,1]:

A importncia do tpico (T) relacionado sentena (S): Sim (T, S)
A similaridade da sentena (S) com o centride do tpico (C):
Sim (C, S)

Quanto maiores forem a importncia do tpico relacionado sentena e sua
similaridade com o centride do tpico, maior ser a relevncia dessa sentena para
a composio do extrato.
) , ( ) , (
) , ( ) , (
2
S C Sim S T Sim
S C Sim S T Sim
C
IT
+
=
[18]

Para preservar a noo de que as duas medidas so importantes, definiu-se o
valor da caracterstica de Importncia dos Tpicos C
IT
como a mdia harmnica
entre elas, conforme Equao [18]. Note que no necessrio normalizar o
resultado, pois as duas medidas j esto no intervalo [0,1].

e) Alterao no Uso da Caracterstica de Posio
A caracterstica de Posio, que no utiliza dados numricos, permaneceu
categrica. No entanto, para torn-la mais informativa, detalhou-se tambm, para
cada categoria, a posio da sentena em seu pargrafo e a posio deste no
prprio texto. Essa mudana sintetizada na tabela a seguir:

Tabela 5-2 Caracterstica de Posio no SuPor-2
Rtulo Posio do pargrafo
Posio da sentena no
pargrafo
II Incio do texto Incio do pargrafo
IM Incio do texto Meio do pargrafo
IF Incio do texto Final do pargrafo
MI Meio do texto Incio do pargrafo
MM Meio do texto Meio do pargrafo
MF Meio do texto Final do pargrafo
FI Final do texto Incio do pargrafo
FM Final do texto Meio do pargrafo
FF Final do texto Final do pargrafo

Para a especificao dessa caracterstica, cada sentena rotulada de
acordo com um dos cdigos da primeira coluna da tabela anterior, conforme a
posio de seu pargrafo e sua posio no prprio pargrafo. De maneira
semelhante verso original do SuPor, so considerados pargrafos iniciais
somente aqueles que figuram entre os 10% do incio do texto; so considerados
finais somente os que esto nos 5% pargrafos do fim do texto.


f) Alterao no Uso do Mtodo de Cadeias Lexicais
Como o mtodo no faz uso de dados numricos para julgar a relevncia das
sentenas, considerou-se:

se alguma heurstica do mtodo recomendou a sentena;
quais heursticas recomendaram a sentena.

Assim, a caracterstica pode assumir oito rtulos distintos, conforme mostra a
tabela a seguir.

Tabela 5-3 Caracterstica associada ao mtodo de Cadeias Lexicais no SuPor-2
Rtulo Significado
False nenhuma heurstica recomendou a sentena
H1 apenas a heurstica 1 (primeira ocorrncia) recomendou a sentena
H2 apenas a heurstica 2 (membro representativo) recomendou a sentena
H3 apenas a heurstica 3 (concentrao no tpico) recomendou a sentena
H1+H2 as heursticas 1 e 2 recomendaram a sentena
H1+H2+H3 as heursticas 1, 2 e 3 recomendaram a sentena

g) Alterao no Uso do Mtodo de Mapa de Relacionamentos
De modo similar ao mtodo das cadeias lexicais, esse mtodo tambm no
utiliza dados numricos para julgar a relevncia das sentenas, j que elas so
selecionadas por trs heursticas que determinam o modo de percurso no mapa de
relacionamentos entre os pargrafos. Assim, tambm foi considerado um conjunto
de rtulos lingusticos para determinar o valor da caracterstica para cada sentena,
conforme a Tabela 5-4.

Tabela 5-4 Caracterstica associada ao Mapa de Relacionamentos no SuPor-2
Rtulo Significado
False nenhum caminho selecionou a sentena
C1 apenas o caminho 1 (profundo) selecionou a sentena
C2 apenas o caminho 2 (segmentado) selecionou a sentena
C3 apenas o caminho 3 (denso) selecionou a sentena
C1+C2 os caminhos 1 e 2 selecionaram a sentena
C1+C2+C3 os caminhos 1, 2 e 3 selecionaram a sentena

Considerando-se as alteraes descritas nos tpico anteriores, a tabela
seguinte resume as caractersticas utilizadas no SuPor-2. Essa tabela apresenta os
mesmos mtodos do SuPor original (Tabela 3-1). A diferena bsica existente a
utilizao no SuPor-2 de caractersticas com domnio mais abrangente. No SuPor-2
as caractersticas podem assumir valores numricos e multinomiais, em vez de
apenas valores binrios.
Tabela 5-5 Quadro-resumo de caractersticas exploradas no SuPor-2
Caracterstica Nome Domnio
C1
C2
Cadeias Lexicais
{False, H1, H2, H3, H1H2, H1H3, H2H3,
H1H2H3}.
C3 Tamanho da Sentena [0, 1]
C4 Nomes Prprios [0,1]
C5 Posio da Sentena {II,IM,IF,MI,MM,MF,FI,FM,FF}
C6
C7
Frequncia das
Palavras
[0, 1]
C8
C9
Mapa de
Relacionamento
{False,C1,C2,C3, C1C2, C1C3, C2C3,
C1C2C3}.
C10
C11
Importncia dos
Tpicos
[0, 1]

A justificativa para adotar o mesmo nmero de caractersticas do SuPor
original (11) consoante com a Hiptese 1 deste trabalho, no sentido que a
utilizao de caractersticas diversas benfica para a SA. Entretanto, no SuPor
original a representao binria das caractersticas pode prejudicar esse beneficio e
por isso as caractersticas foram alteradas conforme foi descrito.
5.1.2 Proposta 2 Seleo Automtica de Caractersticas
Seguindo a Hiptese 2 deste trabalho, que sugere a pr-seleo de
caractersticas, incorporou-se tambm no SuPor esse processo. justamente essa
modificao que foi feita para evitar a necessidade de um especialista humano
selecionar as caractersticas mais adequadas manualmente.
A partir da anlise feita sobre as abordagens de seleo automtica de
caractersticas (Seo 4.2), optou-se pelo uso no SuPor-2 do mtodo CFS (Hall
2000). O motivo principal foi o fato de o mtodo indicar um subconjunto de
caractersticas em vez de gerar um ranking. No segundo caso, seria necessrio
estabelecer um nmero de corte no nmero de caractersticas. Ou seja, caso fosse
utilizada uma abordagem como o clculo da medida Information Gain, haveria ainda
a necessidade de um especialista definir qual seria o nmero adequado de corte
para um determinado corpus. Alm disso, o autor relata boa performance do mtodo
CFS quando utilizado com os principais classificadores.
.
5.1.3 Proposta 3 Utilizao do WEKA na Arquitetura do SuPor-2
No SuPor-2, todo o modelo de aprendizado de mquina foi acoplado ao
WEKA. Assim, o mtodo de classificao no SuPor-2 configurvel para qualquer
classificador disponvel no WEKA. O padro do sistema o mtodo Flexible-Bayes
descrito na Seo 4.1.2. A utilizao desse classificador em vez do Nave-Bayes
tradicional devido presena de caractersticas numricas.
O modelo de caractersticas modificado, definido nas sees anteriores, foi
representado no WEKA por arquivos do tipo ARFF
25
(Witten e Frank 2005). No
WEKA, arquivos ARFF podem ser usados tanto na fase de treino quanto na de
classificao (extrao). Um arquivo ARFF de treino contm todas as sentenas do
corpus de treino representadas na forma de tuplas. Cada tupla contm os valores
para as 11 caractersticas definidas no modelo do SuPor-2 mais um valor booleano,
a classe no contexto de Aprendizado de Mquina, que indica se aquela sentena
pertence ao extrato ideal de seu texto. No caso de arquivos ARFF de classificao, a
diferena que os valores para a classe esto ausentes, justamente porque se
deseja determinar quais sentenas iro compor o extrato, e as tuplas se referem
apenas um texto.
A Figura 5-1 mostra um exemplo de arquivo ARFF de treino, com somente
algumas tuplas (as caractersticas consideradas so indicadas pelo rtulo @attribute

25
Attribute Relation File Format.
e as tuplas, delimitadas pelo rtulo @data). O ltimo atributo definido justamente a
classe, que foi chamada de PresencaSumario. Note que h 11 caractersticas, e no
7, que nmero de mtodos de SA utilizados pelo SuPor. Como j citado
anteriormente, isso ocorre porque alguns mtodos contribuem com 2 caractersticas,
diferenciadas pela forma como o pr-processamento feito (indicado aps o
caractere _). Observe ainda que os valores das tuplas (indicados pela sequncia
de valores @data) seguem a ordem em que os atributos (caractersticas) so
definidos.

@relation ObtencaoSumario

@attribute CadeiasLexicais_Paragrafos { FALSE, H1, H2, H3, H1+H2, H1+H3,H2+H3, H1+H2+H3 }
@attribute CadeiasLexicais_TextTiling { FALSE, H1, H2, H3, H1+H2, H1+H3,H2+H3, H1+H2+H3 }

@attribute TamanhoSentencas real

@attribute NomesProprios real

@attribute PosicaoParagrafos {II, IM, IF, MI, MM, MF, FI, FM, FF }

@attribute FrequenciaPalavras_Radicais real
@attribute FrequenciaPalavras_Quadrigramas real

@attribute MapaRelacionamentos_Radicais { FALSE, C1, C2, C3, C1+C2, C1+C3,C2+C3, C1+C2+C3 }
@attribute MapaRelacionamentos_Quadrigramas { FALSE, C1, C2, C3, C1+C2, C1+C3,C2+C3, C1+C2+C3
}

@attribute ImportanciaTopicos_Radicais real
@attribute ImportanciaTopicos_Quadrigramas real

@attributePresencaSumario {TRUE,FALSE}

@data

FALSE,H1+H2+H3,0.6327,1,II,0.6275,0.352,C1+C2+C3,FALSE,0.788,0.6186,0.6331,TRUE
H1+H2,FALSE,0.9388,1,IF,0.6667,0.748,C1+C2+C3,FALSE,0.9068,0.8955,0.7348,TRUE
FALSE,H1+H2+H3,0.6939,0,MI,0.3529,0.644,FALSE,FALSE,0.9088,0.8175,0.3203,TRUE
FALSE,FALSE,0.5102,1,MF,0.2157,0.124,FALSE,FALSE,0.7242,0.6814,0.4452,TRUE
FALSE,FALSE,1,0,MI,0.6471,1,FALSE,FALSE,1,1,0.745,FALSE
FALSE,FALSE,0.4286,1,MF,0.0784,0.364,FALSE,FALSE,0.6156,0.5413,0.4993,FALSE
H3,FALSE,0.0204,0,MI,0,0.112,FALSE,FALSE,0.1056,0.1059,0.0755,TRUE
FALSE,FALSE,0.3878,0,MF,0.2745,0.412,FALSE,FALSE,0.5644,0.5686,0.332,TRUE
FALSE,FALSE,0.5102,0,MI,0.6863,0.652,FALSE,C1,0.6036,0.6015,0.586,FALSE
FALSE,FALSE,0.5306,1,MM,0.3922,0.364,FALSE,C1,0.5653,0.5866,0.6054,FALSE
FALSE,FALSE,0.2041,0,MF,0.1176,0.084,FALSE,C1,0.4119,0.4294,0.2539,FALSE
Figura 5-1 Arquivo ARFF de Treino do SuPor-2

Com relao arquitetura resultante, o SuPor-2 possui dois mdulos, assim
como o SuPor original: de treinamento e extrao.
No mdulo de treinamento do SuPor-2, as mudanas feitas consistiram,
basicamente, na gerao de arquivos ARFF de treinamento, como ilustrado na
Figura 5-2. A sada desse mdulo um arquivo com os parmetros do classificador.
Se for usado o Flexible-Bayes (padro do sistema), por exemplo, esse arquivo
contm as probabilidades usadas pelo classificador na etapa de extrao.
No mdulo de extrao (Figura 5-3), as entradas so o texto-fonte e a taxa de
compresso desejada pelo usurio. A sada o extrato gerado.

Figura 5-2 Arquitetura do mdulo de treinamento do SuPor-2


Figura 5-3 Mdulo de Extrao do SuPor-2

A prxima seo descreve a maneira como se configurou empiricamente o
modelo de aprendizado de mquina no SuPor-2. O acoplamento ao WEKA facilitou
essa configurao, permitindo a avaliao de diferentes estratgias.
5.1.4 Determinao da melhor configurao para o SuPor-2
Atravs dos modelos disponveis no WEKA, determinou-se a melhor
configurao do SuPor-2 com relao ao seu modelo de aprendizado de mquina,
isto , seu modelo de classificao (Leite e Rino 2006). Foram selecionados para o
experimento os dois modelos Bayesianos (Nave-Bayes tradicional e Flexible-Bayes)
e tambm o classificador C4.5, bastante tradicional na rea de Aprendizado de
Mquina e cuja utilizao foi sugerida em Mdolo (2003). Ambos os classificadores
so descritos na Seo 4.1. Cabe lembrar que o modelo original do SuPor o
Nave-Bayes tradicional. Alem disso, avaliou-se o uso da seleo automtica de
caractersticas por meio do mtodo CFS (Seo 4.2.2.2).
O experimento foi feito de forma automtica, gerando-se extratos com taxa de
compresso de 30% para o corpus TeMrio-2003 (Pardo e Rino 2003). Esse
tamanho de extrato compatvel com os extratos ideais que acompanham o
TeMrio-2003.
Para evitar a necessidade de corpora separados para treino e teste das
estratgias, foi utilizada a tcnica 10-fold cross-validation Por esta tcnica, o
conjunto de dados separado em 10 subconjuntos disjuntos e em cada uma de 10
fases h um conjunto de dados de treino obtido concatenando 9 dos subconjuntos e
um conjunto de dados de validao que usa o restante do subconjunto; o processo
repetido 10 vezes, permutando de forma circular os subconjuntos.
As medidas escolhidas para avaliao dos modelos foram as medidas de
Preciso, Cobertura e F-Measure, descritas na Seo 2.3.1. Essas medidas foram
escolhidas devido ao fcil cmputo, permitindo a avaliao de diferentes estratgias
no WEKA. As estratgias e os resultados de cada uma so mostrados na Tabela
5-6. A configurao determinada como a melhor para o SuPor-2 foi destacada nesta
tabela.

Tabela 5-6 Avaliao de diferentes estratgias de aprendizado de mquina para o
SuPor-2
Classificador Emprego do CFS Cobertura (%) Preciso (%) F-measure (%)
No 43.9 47.4 45.6
Flexible-Bayes
Sim 42.8 46.6 44.6
No 42.2 45.8 43.8 Nave-Bayes
tradicional Sim 42.0 45.9 43.9
No 37.7 40.6 39.1
C4.5
Sim 40.2 43.8 41.9

Assim como na verso original do SuPor, o classificador Bayesiano obteve
melhor desempenho. Particularmente, a variao Flexible-Bayes teve melhor
desempenho, provavelmente devido ao fato de tratar melhor caractersticas
numricas, que esto presentes no SuPor-2 (vide Seo 5.1).
Com relao ao desempenho bem inferior do C4.5, provavelmente devido
ao fato do modelo no ser muitas vezes um bom gerador de rankings (vide Seo
4.1.3).
Considerando o emprego do mtodo CFS, os resultados so melhores
quando todas as caractersticas so usadas nos modelos Bayesianos. Isto , com o
mtodo desligado. Quando utilizado em conjunto com o C4.5, h uma discreta
melhora. Tais resultados sugerem que dado o fato de as caractersticas do SuPor-2
terem sua representao e poder de expresso melhorados em relao ao SuPor
original (Seo 5.1.1), um conjunto mais estvel de caractersticas pode ter sido
obtido. Em outras palavras, o SuPor-2 pode ser menos dependente da escolha de
caractersticas que o SuPor original.

5.2 Desenvolvimento de Modelos Baseados no TextRank
Considerando a abordagem baseada na Teoria dos Grafos, que este trabalho
prope explorar, um dos mtodos recentes para SA baseado nessa teoria o
TextRank, j descrito na Seo 3.1.7. Seu principal ponto-forte a portabilidade
para diferentes lnguas e domnios, inclusive j tendo sido aplicado ao Portugus
pela autora do mtodo (Mihalcea 2005).
Foram dois interesses principais que motivaram a utilizao do modelo do
TextRank neste trabalho:
a) Trata-se de um mtodo de ponta da Teoria dos Grafos e que no
baseado em aprendizado de mquina. Assim, existe uma nica caracterstica sendo
associada relevncia de uma sentena, em contraste com o j apresentado SuPor-
2, onde existem vrias. A investigao desse modelo poderia permitir a refutao da
Hiptese 1 deste trabalho, de que a combinao de caractersticas benfica para a
SA.
b) Apesar de alguns dos resultados obtidos com o mtodo terem sido
considerados bons pelos autores, o TextRank apresenta como desvantagem o fato
de no considerar nenhum tipo de pr-processamento ou processamento lingustico.
Neste trabalho, vislumbrou-se sua melhoria com a produo de duas variaes do
mtodo com a incorporao de conhecimento lingustico. O foco das duas variaes,
descritas a seguir, foi modificar a maneira como o mtodo realiza o cmputo da
similaridade entre as sentenas. O processo geral de percurso no grafo no foi
alterado, adotando-se o modelo original de grafos no-dirigidos.

5.2.1 Modelo TextRank+Stem+StopwordsRem
Ao se aplicar a Equao [7], apresentada na Seo 3.1.7, para clculo de
similaridades, somente casamentos exatos entre os termos so considerados. Uma
vez que no Portugus existem muitas variaes morfolgicas e terminaes
flexionais para a maioria das palavras, casamentos semanticamente vlidos podem
ser ignorados.
Para se contornar o problema, foi utilizada neste modelo um stemmer para o
Portugus do Brasil (Junior, Imamura et al. 2001), baseado no algoritmo de Porter
(Porter 1980).
Foram tambm removidas stopwords do Portugus.
5.2.2 Modelo TextRank+Thesaurus
A segunda variao proposta do TextRank envolve o uso de um thesaurus
para o Portugus do Brasil (Dias-da-Silva, Moraes et al. 2000). A hiptese aqui que
a similaridade semntica das palavras envolvidas tambm importante para
melhorar a informatividade dos extratos produzidos pelo mtodo,
Embora a simples utilizao do thesaurus no envolva profundas mudanas
no mtodo, existem algumas questes de projeto a serem consideradas:
a) Devem ser considerados apenas sinnimos ou antnimos
tambm em adio a repetio lexical?
b) Como tratar a polissemia das palavras e desambiguar os
sentidos?
c) Uma vez determinadas as relaes semnticas, como elas
devem ser ponderadas? Simplesmente consider-las como de
igual importncia pode no necessariamente levar aos melhores
resultados.

Considerando a questo (a), as relaes de sinonmia, antonmia e repetio
lexical foram todas levadas em conta, como sugerido por alguns autores (e.g.,
Barzilay e Elhadad 1999). Quanto a (b), decidiu-se no tratar o problema devido a
falta de um processo efetivo de desambiguao para o Portugus do Brasil. J
quanto a (c), foram adotados os mesmos pesos propostos por Barzilay e Elhadad
(1999) no mtodo de Cadeias Lexicais. Para repetio e sinonmia, assume-se o
peso 10. Para relaes de antonmia, utiliza-se o peso 7.
5.3 Desenvolvimento de Modelos Baseados em Caractersticas de
Redes Complexas e do SuPor-2 Combinadas
Seguindo-se a abordagem baseada em Grafos, outro trabalho que se
considerou interessante para a SA foi o de Antiqueira et al. (2007), pois prope um
conjunto grande de medidas para SA baseadas na teoria de Redes Complexas,
apresentadas na Seo 3.2.6. As Redes Complexas vem sendo cada vez mais
estudadas devido popularizao das redes sociais na WWW.
A grande desvantagem dos modelos propostos por Antiqueira et al. (2007)
como j citado na Seo 3.2.6, que as medidas utilizadas so sempre exploradas
isoladamente e no de forma combinada. J na estratgia de votao chamada de
CN-Voting (Antiqueira et al. 2007), a forma de combinao empregada no leva em
conta as diferenas de relevncias das caractersticas. Ou seja, no feita a
ponderao das caractersticas para sua combinao.
De forma a explorar de forma conjunta as medidas de redes complexas,
buscou-se combinar de forma automtica essas medidas por meio do aprendizado
de mquina, utilizando-as como caractersticas para a SA. Diferente dos modelos
baseados no TextRank (Seo 5.2), buscou-se aqui confirmar a Hiptese 1, de que
a combinao de caractersticas benfica, em vez de refut-la.
Seguiu-se a linha de trabalhos recentes como o de Wong et al. (2008),
descrito na Seo 3.3.1.5, que argumentam que a utilizao de conjuntos de
caractersticas diversos interessante para a SA. Alm das prprias caractersticas
de redes complexas, explorou-se a unio desse conjunto com caractersticas
clssicas de SA e j exploradas no SuPor-2.
5.3.1 Caractersticas Exploradas e Anlise de Relevncia
O conjunto total de caractersticas exploradas mostrado na Tabela 5-7. A
primeira coluna indica o sistema ou abordagem terica que originou a caracterstica:
SuPor-2 ou Redes Complexas (RC). Na terceira coluna, indica-se entre parnteses a
eventual variao na caracterstica. No caso das caractersticas do SuPor-2, essas
variaes so detalhadas na Tabela 3-2. No caso das caractersticas de redes, elas
so descritas em Antiqueira (2007).
Dado o nmero total de caractersticas exploradas (37), realizou-se uma
avaliao estatstica preliminar de quais caractersticas so mais promissoras. Essa
avaliao buscou verificar se era possvel verificar algum padro na relevncia das
caractersticas e, assim, determinar manualmente, os subconjuntos mais adequados
a explorar. A anlise utilizou as medidas de avaliao individual descritas na Seo
4.2.2. Os resultados so mostrados no grfico da Figura 5-4.

0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37
Caracterstica
M
e
d
i
d
a

N
o
r
m
a
l
z
a
d
a
Information Gain
Qui-quadrado
Gain-Ratio
Mdia

Figura 5-4 - Comparao da relevncia das caractersticas


Tabela 5-7 Caractersticas exploradas nos modelos baseados em caractersticas de
RC e SuPor-2 combinadas
Fonte da Caracterstica Nmero Nome da Caracterstica
SuPor-2 1 Cadeias Lexicais (Diviso em dos tpicos pelos pargrafos)
SuPor-2 2 Cadeias Lexicais (Diviso em tpicos usando TextTiling)
SuPor-2 3 Tamanho da sentena
SuPor-2 4 Nomes prprios
SuPor-2 5 Posio
SuPor-2 6
Frequncia das Palavras (pr-processamento usando
stemming)
SuPor-2 7
Frequncia das Palavras (pr-processamento usando
quadrigramas)
SuPor-2 8
Mapa de Relacionamentos (pr-processamento usando
stemming)
SuPor-2 9
Mapa de Relacionamento (pr-processamento usando
quadrigramas)
SuPor-2 10
Importncia dos Tpicos (pr-processamento usando
stemming)
SuPor-2 11
Importncia dos Tpicos (pr-processamento usando
quadrigramas)
RC 12 Degree
RC 13 Degree (variao com ponderao)
RC 14 Clustering Coefficient
RC 15 Clustering Coefficient (variao com ponderao)
RC 16 Minimal Paths
RC
17 Minimal Paths (variao pesos complementares)
RC 18 Minimal Paths (variao pesos inversos)
RC 19 Locality Index
RC 20 Locality Index (modificada)
RC 21 Matching Index
RC 22 Dilation (nvel 2)
RC 23 Dilation (nvel 2, acumulativa)
RC 24 Dilation (nvel 3)
RC 25 Dilation (nvel 3, acumulativa)
RC 26 Dilation (nvel 2, ponderada)
RC 27 Dilation (nvel 2, ponderada, acumulativa)
RC 28 Dilation (nvel 3, ponderada)
RC 29 Dilation (nvel 3, ponderada, acumulativa)
RC 30 Hubs (ordenado pelo grau)
RC 31 Hubs (ordenado pela localidade)
RC 32 Hubs (ordenado pela localidade e com corte de grau)
RC 33 K-Cores (ordernado pela localidade)
RC 34 K-Cores (ordernado pelo grau)
RC 35 W-Cuts (ordernado pela localidade)
RC 36 W-Cuts (ordenado pelo grau)
RC 37 Communities

Como pode ser observado, em alguns casos h muita divergncia entre os
valores apontados pelas medidas na Figura 5-4. No se pode dizer a princpio que
as caractersticas de redes complexas so melhores que as do SuPor-2 e vice-
versa.
Considerando a mdia, a melhor caracterstica foi a 7 (Frequncia das
Palavras, com pr-processamento por quadrigramas). As duas piores foram as
caractersticas 23 e 27 (Dilation). O resultado dessa avaliao em forma tabular
fornecido no Apndice D.
A partir desse estudo, optou-se por aplicar o mesmo processo de seleo
automtica de caractersticas j empregado no SuPor-2 (Seo 5.1), o CFS. A
utilizao do CFS consoante com a Hiptese 2 deste trabalho, de que a pr-
seleo automtica de caractersticas pode ser benfica para a SA.
5.3.2 Os Modelos que Combinam Caractersticas do SuPor-2 e RC
Combinando-se os conjuntos de caractersticas (SuPor-2 ou RC), quatro
diferentes classificadores e o uso ou no do mtodo CFS, foram desenvolvidos os
modelos listados na Tabela 5-8. O smbolo de unio indica que o modelo utiliza as
37 caractersticas da Tabela 5-7, sendo 11 do SuPor-2 e 26 de RCs.
A escolha dos classificadores considerados levou em conta a anlise feita na
Seo 4.1. A utilizao de vrios classificadores pretendeu aprofundar e investigar
melhor a Hiptese 3 proposta neste trabalho, relacionada a forma de combinao e
ponderao das caractersticas.


Tabela 5-8 Modelos com caractersticas de RC e SuPor-2 combinadas
Origem do
Conjunto de
Caractersticas
Classificador Uso do CFS
RC Flexible-Bayes No
RC Flexible-Bayes Sim
RC C4.5 No
RC C4.5 Sim
RC Regresso Logstica No
RC Regresso Logstica Sim
RC SVM No
RC SVM Sim
SuPor-2
26
Flexible-Bayes No
SuPor-2 Flexible-Bayes Sim
SuPor-2 C4.5 No
SuPor-2 C4.5 Sim
SuPor-2 Regresso Logstica No
SuPor-2 Regresso Logstica Sim
SuPor-2 SVM No
SuPor-2 SVM Sim
SuPor-2
RC Flexible-Bayes No
SuPor-2
RC Flexible-Bayes Sim
SuPor-2
RC C4.5 No
SuPor-2
RC C4.5 Sim
SuPor-2
RC Regresso Logstica No
SuPor-2
RC Regresso Logstica Sim

SuPor-2
RC SVM No
SuPor-2
RC SVM Sim

Na prxima seo, mostra-se a arquitetura geral desses modelos, que
tambm utilizaram o WEKA para o aprendizado de mquina.
5.3.3 Arquitetura dos Modelos e Utilizao do WEKA
A implementao dos modelos seguiu a mesma arquitetura utilizada no
SuPor-2, com a utilizao dos classificadores e do algoritmo CFS disponveis no
WEKA. No houve reimplementao das medidas propostas por Antiqueira (2007).
Todo o cmputo das caractersticas foi realizado pelos sistemas de Antiqueira
(2007).
A Figura 5-5 seguinte ilustra o arquivo ARFF de treino usado, considerando o
conjunto total de caractersticas SuPor-2
RC.

26
O modelo dessa linha equivale a melhor configurao do SuPor-2 obtida na Seo 5.1.4.

@RELATION ObtencaoSumario
@attribute CadeiasLexicais_Paragrafos { FALSE, H1, H2, H3, H1+H2, H1+H3,H2+H3, H1+H2+H3 }
@attribute CadeiasLexicais_TextTiling { FALSE, H1, H2, H3, H1+H2, H1+H3,H2+H3, H1+H2+H3 }
@attribute PosicaoParagrafos {II, IM, IF, MI, MM, MF, FI, FM, FF }
@attribute MapaRelacionamentos_Radicais { FALSE, C1, C2, C3, C1+C2, C1+C3,C2+C3, C1+C2+C3 }
@attribute MapaRelacionamentos_Quadrigramas
{ FALSE, C1, C2, C3, C1+C2, C1+C3,C2+C3, C1+C2+C3 }
@attribute ImportanciaTopicos_Radicais real
@attribute ImportanciaTopicos_Quadrigramas real
@ATTRIBUTE k-CORE-DEG NUMERIC
@ATTRIBUTE k-CORE-SEQ NUMERIC
@ATTRIBUTE CLUST-COEFF NUMERIC
@ATTRIBUTE COMMUNITIES NUMERIC
@ATTRIBUTE DILATIONS-DEG NUMERIC
@ATTRIBUTE DILATIONS-MOD NUMERIC
@ATTRIBUTE DILATIONS-SEQ NUMERIC
@ATTRIBUTE HUBS-E NUMERIC
@ATTRIBUTE HUBS-HRQ-E-2-CUMUL NUMERIC
@ATTRIBUTE HUBS-HRQ-E-2-NOCUMUL NUMERIC
@ATTRIBUTE HUBS-HRQ-E-3-CUMUL NUMERIC
@ATTRIBUTE HUBS-HRQ-E-3-NOCUMUL NUMERIC
@ATTRIBUTE HUBS-HRQ-W-2-CUMUL NUMERIC
@ATTRIBUTE HUBS-HRQ-W-2-NOCUMUL NUMERIC
@ATTRIBUTE HUBS-HRQ-W-3-CUMUL NUMERIC
@ATTRIBUTE HUBS-HRQ-W-3-NOCUMUL NUMERIC
@ATTRIBUTE HUBS-W NUMERIC
@ATTRIBUTE LOCALITY-INDEX-MOD NUMERIC
@ATTRIBUTE LOCALITY-INDEX NUMERIC
@ATTRIBUTE MATCHING-INDEX NUMERIC
@ATTRIBUTE PRUNING-DEG NUMERIC
@ATTRIBUTE PRUNING-SEQ NUMERIC
@ATTRIBUTE SP-1 NUMERIC
@ATTRIBUTE SP-compl NUMERIC
@ATTRIBUTE SP-inv NUMERIC
@ATTRIBUTE W-CLUST-COEFF NUMERIC
@ATTRIBUTE PresencaSumario {True,False}

@DATA
H1+H2+H3, H1+H2, 0.5088, 0.5714, II, 0.3725, 0.797, C1+C2+C3, C1+C2+C3, 0.7683, 0.7615,
0.1111111, 0.0370370, 0.5514706, 0.2962963, 0.1111111, 0.0740741, 0.0740741, 0.9444444,
0.7215190, 0.5882353, 0.7037037, 0, 0.73, 0.5454545, 0.7156863, 0, 0.8620690, 0.3703704,
0.9344692, 0.1481481, 0.1481481, 0.1111111, 0.4861111, 0.4651163, 0.4565538, 0.6125, True
...
Figura 5-5 Exemplo de arquivo ARFF de treino considerando caractersticas do
SuPor-2 e de Redes Complexas
5.4 Desenvolvimento de Modelos com Base em Ranking Nebuloso
Conforme exposto na Seo 4.3, sistemas nebulosos podem ser aplicados
para se modelar o processo de deciso de relevncia das sentenas. Em outras
palavras, podem ser usados para combinar e ponderar caractersticas e, assim,
permitir o aprofundamento da Hiptese 3 deste trabalho seguindo essa abordagem.
Pelo nosso conhecimento, so poucos os trabalhos que exploram para
sumarizao a utilizao da teoria de conjuntos nebulosos. Uma exceo o
sistema de Kiani-B e Akbarzadeh-T (2006), j apresentado na Seo 3.3.2. Para
tornar vivel a inferncia nebulosa, Kiani-B e Akbarzadeh-T construram de forma
automtica a base de regras nebulosas, por meio de algoritmos genticos.
Uma desvantagem apontada do modelo de Kiani-B e Akbarzadeh-T (2006)
que o processo de aprendizado, conduzido por meio de algoritmos genticos, no
utiliza medidas especficas e atuais de SA como funo de fitness, que
responsvel no conceito de algoritmos genticos por indicar o quo boa uma
soluo candidata do problema . Em outras palavras, a funo responsvel por
avaliar a aptido do cromossomo
27
que codifica uma possvel soluo candidata.
O modelo de sumarizao nebuloso desenvolvido neste trabalho tomou como
base o trabalho de Kiani-B e Akbarzadeh-T (2006). Porm, tambm utilizou um
artifcio que vem sendo usado nas ltimas TACs, vide o sistema de Galanis e
Malakasiotis (2008), que dirigir o processo de treino ou refinamento do modelo
pela otimizao de mtricas especficas de SA, como as medidas ROUGE. Em
outras palavras, procura-se ajustar o modelo para que ele produza sumrios bem
avaliados pela mtrica em foco. Nesse caso, parte-se do princpio que se a medida
de avaliao de sumrios for adequada, o sumarizador dever produzir bons textos.
Se a medida de avaliao no for adequada, o sumrio produzido poder estar
enviesado para caractersticas que no necessariamente so esperadas de um bom
sumrio.
A estratgia de desenvolvimento do modelo foi partir do trabalho j
desenvolvido no SuPor-2, buscando-se alterar seu mdulo de classificao por um
classificador baseado em regras nebulosas, mas se mantendo, quando possvel,

27
No contexto do Aprendizado Evolutivo, um cromossomo a representao em cdigo de um indivduo, que
uma possvel soluo para o problema.
suas principais caractersticas como sumarizador. O modelo de SA desenvolvido
atravs desse sistema nebuloso foi chamado de SuPor-2 Fuzzy. A seguir, descrevem-se
as principais adaptaes necessrias no SuPor-2, as principais decises de projeto
e suas motivaes.

5.4.1 Adaptaes no Conjunto de Caractersticas
Grande parte dos mtodos de classificao nebulosos trabalham usualmente
com dados numricos, no multinomiais. Isso porque atributos multinomiais so em
essncia discretos, em contraste com os nmeros, que permitem a representao de
incertezas (e.g., Klir e Yuan 1995).
Neste trabalho, optou-se, ento, por seguir essa tendncia, manipulando-se
somente caractersticas numricas. Como o conjunto original de caractersticas do
SuPor-2 contm atributos discretos, foram realizadas as seguintes adaptaes nas
caractersticas abaixo:

a) Posio da Sentena. A representao categrica da posio de uma
sentena dentro do pargrafo e do pargrafo dentro do texto foi substituda por duas
caractersticas numricas. A primeira indica a posio relativa da sentena dentro do
pargrafo. A segunda, a posio relativa do pargrafo considerando o texto todo.

b) Cadeias Lexicais. Foram desconsideradas as duas caractersticas que
sinalizam a presena de cadeias lexicais devido a natureza do mtodo indicar
apenas qual heurstica seleciona a sentena, um dado essencialmente discreto, sem
fornecer uma informao que possa ser modelada de forma natural por meio de um
conjunto nebuloso.

c) Importncia dos Tpicos. Em vez de se considerar, como na verso
original, uma caracterstica que indica a mdia harmnica entre a importncia do
tpico em que a sentena ocorre e a similaridade da sentena para o centride do
tpico, dividiu-se essa informao em duas caractersticas novas: a primeira que
indica a importncia do tpico e a segunda a similaridade da sentena em relao
ao tpico em que ela figura.

d) Mapa dos Relacionamentos. Como as informaes produzidas pelas
caractersticas correspondentes a esse mtodo so essencialmente categricas
(caminhos), substituram-se essas caractersticas por uma nova, baseada num
mtodo que tambm utiliza a representao de um texto por grafos, mas que produz
um valor numrico como sada. O mtodo escolhido foi o TextRank, descrito na
Seo 3.1.7 e j explorado nos modelos da Seo 5.2. A implementao escolhida
utilizou stemming e remoo de stopwords, sendo equivalente ao modelo
TextRank+Stem+StopwordsRem.
A tabela a seguir resume as mudanas efetuadas nas caractersticas do
SuPor-2. Observe-se que foi mantido o mesmo nmero de 11 caractersticas,
considerando-se as variaes de pr-processamento indicadas entre parnteses.
Tabela 5-9 Caractersticas utilizadas no modelo nebuloso
Caracterstica Descrio Domnio
C1 Tamanho da Sentena [0, 1]
C2 Nomes Prprios [0, 1]
C3 Posio Relativa da Sentena no Pargrafo [0, 1]
C4 Posio Relativa do Pargrafo no Texto [0, 1]
C5 TextRank [0, 1]
C6 Frequncia das Palavras (Stemming) [0, 1]
C7 Frequncia das Palavras (Quadrigramas) [0, 1]
C8
Similaridade da Sentena com Centride do
Tpico (Stemming)
[0, 1]
C9
Similaridade da Sentena com Centride do
Tpico (Quadrigramas)
[0, 1]
C10 Importncia do Tpico (Stemming) [0, 1]
C11 Importncia do Tpico (Quadrigramas) [0, 1]

5.4.2 Base de Conhecimento Nebulosa
Como j citado na Seo 4.3, o projeto de um sistema nebuloso passa
geralmente pela construo de uma base de conhecimento nebulosa, que consiste
de dois componentes:
a) Os conjuntos nebulosos que devem ser modelos para se representar as
variveis (em nosso caso, caractersticas) relevantes;
b) O conjunto de regras nebulosas que ir guiar o processo de inferncia
nebuloso.
5.4.2.1 Modelagem dos Conjuntos Nebulosos
Optou-se pela definio manual dos conjuntos nebulosos seguindo uma
abordagem tradicional de representao por tringulos (Eberhart e Shi 2007). Trs
tringulos uniformes representam 3 conjuntos nebulosos possveis (Baixo, Mdio ou
Alto) para cada caracterstica.

Figura 5-6 Representao dos conjuntos nebulosos

As equaes seguintes mostram as funes de pertinncia para cada
conjunto:

>

=
5 . 0 , 0
5 . 0 ,
5 . 0
1
) (
x
x
x
x Baixo

5 . 0
| 5 . 0 |
1 ) (

=
x
x Mdio
<
=
5 . 0 , 0
5 . 0 ,
5 . 0
5 . 0
x
x
x
Alto

5.4.2.2 Gerao do Conjunto de Regras
Uma abordagem comum no projeto de sistema nebulosos baseados em
regras combinar o conhecimento humano com uma abordagem de tentativa-e-erro.
Isto pode ser bastante complicado, especialmente quando o nmero de variveis for
grande e o problema complexo. Outra abordagem por meio da utilizao de
algoritmos genticos, como adotado por Kiani-B e Akbarzadeh-T (2006). Essa ltima
abordagem vem se tornando mais popular devido aos bons resultados
proporcionados e por no demandar o trabalho manual de definio das regras
(Eberhart e Shi 2007).
Neste trabalho, optou-se por seguir uma abordagem totalmente automtica na
gerao de regras. Foi utilizado, para isso, um algoritmo gentico seguindo a
chamada abordagem de Pittsburgh (Eberhart e Shi 2007), que representa uma base
de regras completa num cromossomo. Isto , cada cromossomo representa uma
base de regras completa. A contrapartida da abordagem de Pittsburgh a de
Michigan, que representa por meio de cada cromossomo uma nica regra. Ela foi
deixada de lado neste trabalho por se entender que tem pior desempenho
computacional quando utilizada com funes de fitness complexas, como as
mtricas de SA.
O tamanho da populao foi definido em 200 cromossomos. A populao
inicial foi gerada a partir da combinao de 2000 regras aleatrias e 2000 regras
geradas pelo mtodo de (Wang e Mendel 1992).

5.4.2.3 Codificao do Cromossomo
Pela abordagem de Pittsburgh, cada cromossomo representa um conjunto de
regras completo. Por deciso de projeto, cada cromossomo possui 100 regras.
Portanto, o tamanho do vetor cromossmico tem 1200 posies. Esse nmero
obtido multiplicando-se o nmero regras codificadas, que 100, por 12 (11 posies
para o antecedente e 1 para a classe).
A representao dos conjuntos foi feita a partir de nmeros inteiros, da
seguinte forma:

Para o antecedente:
o 0 indica que a caracterstica no aparece no antecedente (dont-
care);
o 1 a 3 representam os conjuntos Baixo, Mdio e Alto,
respectivamente.
Para a classe (consequente):
o 0 indica a classe False (PresencaSumario = False)
o 1 indica a classe True (PresencaSumario = True)

A figura a seguir ilustra o um segmento parcial de cromossomo que codifica a
regra: Se C1 Alto e C2 Mdio e C3 Baixo ento a classe True.

3 2 1 0 0 0 0 0 0 0 0 1 ...
Figura 5-7 Exemplo de Representao de um Cromossomo

5.4.2.4 A Funo de Fitness
Foi adotada a medida ROUGE-2 como funo de fitness. A escolha da
ROUGE deve-se ao fato de a ferramenta ser bastante usada em trabalhos
acadmicos e competies de SA. Alm disso, seus autores relatam boa correlao
com as avaliaes humanas, conforme j citado na Seo 2.3.2.
Para se avaliar um cromossomo, isto , um conjunto de regras nebulosas, as
regras codificadas so utilizadas em conjunto com o classificador nebuloso descrito
na Seo 5.4.3. Aps a gerao dos extratos, a o valor de aptido (fitness) da base
de regras a medida ROUGE-2 dos extratos produzidos por essa base.
5.4.2.5 Cruzamento e Mutao
Ao longo do processo evolucionrio do algoritmo gentico, operadores de
cruzamento e mutao so utilizados com a finalidade de se derivar novos
indivduos. A taxa de cruzamento foi definida em 90% e a de mutao em 1%. Os
operadores so descritos a seguir:


a) Cruzamento. Utilizou-se o cruzamento simples (e.g.,Herrera, Lozano et al.
1993) em que o ponto de cruzamento foi escolhido aleatoriamente entre as
codificaes de cada regra.

b) Mutao. Utilizou-se uma mutao no-uniforme (e.g.,Herrera, Lozano et
al. 1993) com no mximo 10% das posies do cromossomo sendo alteradas. Isto ,
determina-se aleatoriamente o nmero mximo de alteraes que o cromossomo ir
sofrer, de 0 at 120 (10% de 1200). Cada posio selecionada, ento, para mutao
atualizada conforme as seguintes equaes:

) ) ( , 0 ( '
k k k k
c c LS c c + = se um nmero aleatrio uniforme for 0

) , 0 ( '
k k k
c c c + = se um nmero aleatrio uniforme for 1

em que:
k
c o valor atual do gene k;
'
k
c o novo valor para o gene k;
) (
k
c LS 3 se c
k
for um gene que codifica uma caracterstica. Se codificar
uma classe 1;
) , ( b a um nmero aleatrio uniforme a e b.

5.4.2.6 Algoritmo Gentico
O trecho de pseudocdigo seguinte mostra o fluxo geral do processo de
gerao da base de regras ao longo do processo evolucionrio. P(t) indica a
populao corrente na gerao t.


Incio
t=0;
Iniciar P (t) a partir do Mtodo de Wang-Mendel e de regras
Aleatrias;
Avaliar P(t);
Enquanto (t < MAXIMO_ITERACOES) Faa
Incio
t=t+1;
Seleo por roleta de P(t) a partir P(t-1);
Aplicar Cruzamento em P(t);
Aplicar Mutao em P(t);
Avaliar P(t) sumarizando-se os textos do corpus de treinamento,
para cada base de regras, e avaliando na ferramenta ROUGE;
Fim
Fim

5.4.3 Modelo de Classificao Nebuloso
O modelo de classificao de sentenas nebuloso utilizado em conjunto
com as regras obtidas atravs do algoritmo gentico para se gerar o ranking de
sentenas por relevncia. O modelo proposto para determinar a importncia (I) de
uma sentena s e baseado na seguinte equao:

=
False R i
i
True R i
i
i i
s R s R s I
| |
) , ( ) , ( ) (
[19]

A frmula considera a contribuio de cada regra (R) no clculo. Regras que
indicam que a sentena s no deve figurar no extrato (R
i
False) tem vis negativo.
A funo indica a fora de ativao de regras dadas as caractersticas da
sentena s. Em outra palavras, mede o grau de compatibilidade entre o antecedente
da regra e o vetor de caractersticas de s. Isto feito calculando a funo t-norma
mnimo entre o conjunto calculado a partir do grau de pertinncia de cada
caracterstica da sentena com o antecedente da regra (Klir e Yuan 1995).
Como exemplo, considerando-se os conjuntos nebulosos adotados, mostra-se
o clculo de para uma sentena, dados:
a) Regra nebulosa
Se C1 Mdio e C2 Mdio e C3 Mdio e C4 Mdio e F5 Alto e F6 Mdio e
F7 Mdio e F8 Mdio s F9 Mdio e F10 Alto e F11 Alto ento a classe
True.
(b) vetor de caractersticas de s
[C1=0.5, C2=0.5, C3=0.5, C4=0.5, C5=0.6, C6=0.5, C7=0.5,
C8=0.5, C9=0.5, C10=1, C11=1]
Atravs das funes de pertinncia triangulares, calcula-se o grau de
pertinncia aos conjuntos:
Mdio(0.5) = 1.0, Alto(0.6) = 0.2 e Alto (1.0) = 1.0

A t-norma mnimo sinaliza o grau de ativao da regra pela sentena s,
indicando sua importncia.
= min (1, 1, 1, 1, 0.2, 1, 1, 1, 1, 1, 1) = 0.2

5.4.4 Arquitetura do SuPor-2 Fuzzy
Assim como o SuPor-2, o SuPor-2 Fuzzy tem uma fase inicial de treino que
tem o propsito construir uma base de conhecimento nebulosa a partir de um corpus
de treino. A figura seguinte ilustra essa fase, desde a gerao da base de dados at
a gerao da base de regras final.

Figura 5-8 Fase de Treino do SuPor-2 Fuzzy

Para armazenagem da base de dados, isto , o conjunto de textos
processados com suas caractersticas, adotou-se o mesmo formato ARFF do WEKA,
adotado tambm no SuPor-2. Como exemplo, a figura a seguir representa um ARFF
de treino real do SuPor-2 Fuzzy:

@relation ObtencaoSumario
@attribute PosicaoParagrafo real
@attribute PosicaoSentenca real
@attribute TextRank real
@attribute ImportanciaTopico_Radicais real
@attribute SimilaridadeCentroide_Radicais real
@attribute ImportanciaTopico_Quadrigramas real
@attribute SimilaridadeCentroide_Quadrigramas real
@attribute PresencaSumario
@data
0 , 0 , 0.3171 , 0 , 0.6134 , 0.4091 , 0.5541 , 1 , 0.414 , 1 , 0.4815 , FALSE
0 , 0.0294 , 0.2439 , 0 , 0.4805 , 0.4091 , 0.4069 , 1 , 0.3821 , 1 , 0.4941 , FALSE
0 , 0.0588 , 0.3902 , 0 , 0.8496 , 0.8409 , 0.7965 , 1 , 0.4569 , 1 , 0.6148 , TRUE
0.0769 , 0.0882 , 0.561 , 0 , 0.4935 , 0.5682 , 0.6364 , 1 , 0.6261 , 1 , 0.8595 , FALSE
0.0769 , 0.1176 , 0.5854 , 0 , 0.4727 , 0.2727 , 0.2208 , 1 , 0.6222 , 1 , 0.6961 , TRUE
0.1538 , 0.1471 , 0.3659 , 0 , 0.8631 , 0.9318 , 0.8788 , 1 , 0.5231 , 1 , 0.5816 , FALSE
0.1538 , 0.1765 , 0.2683 , 0 , 0.4318 , 0.4545 , 0.0606 , 1 , 0.423 , 1 , 0.5145 , FALSE
Figura 5-9 Arquivo ARFF de Treino do SuPor-2 Fuzzy

J na fase de gerao de extratos, conforme figura seguinte, o fluxo
basicamente o mesmo do SuPor-2, distinguindo-se o modo como as sentenas so
classificadas e as caractersticas utilizadas.

Figura 5-10 Fase de gerao de extratos do SuPor-2 Fuzzy
5.5 Sntese dos Modelos Desenvolvidos
Neste captulo foram descritos os modelos e prottipos de SA desenvolvidos
com base nas trs grandes abordagens exploradas:

I. Estatsticas textuais;
II. Mtodos baseados em grafos;
III. Mtodos baseados em aprendizado de mquina.

Cada prottipo desenvolvido buscou combinar abordagens e caractersticas
distintas de modo a tratar os dois problemas principais focados neste trabalho,
apresentados no Captulo 1:


As duas primeiras abordagens de uso de Estatsticas Textuais (I) e de uso
de Grafos (II) concentram-se no Problema 1. Atravs delas, derivam-se medidas,
chamadas aqui de caractersticas, com o objetivo de considerar diversos fatores na
escolha das sentenas, como por exemplo a posio das sentenas e a presena de
elos coesivos indicados por medidas de grafos.
J a abordagem de uso de Aprendizado de Mquina (III) foca no Problema
2. Assim, utilizada para ponderar e combinar caractersticas, construindo o modelo
de deciso responsvel por julgar a relevncia das sentenas.
A Tabela 5-10 mostra os prottipos desenvolvidos, as abordagens exploradas
em cada um deles (I, II ou III) e a seo deste texto onde o modelo descrito. O
prottipo 28 foi construdo apenas como baseline para as avaliaes que sero
descritas no Captulo 6. Esse prottipo utiliza as mesmas caractersticas do SuPor-2
Fuzzy e com o mesmo classificador do SuPor-2 original.


Tabela 5-10 Prottipos desenvolvidos e abordagens exploradas
Prottipo
Abordagens
Exploradas
Seo
1. SuPor-2 I, II, III 5.2
2. TextRank+StemmingStopRem
3. TextRank+Thesaurus
II 5.3
4-27. Prottipos baseados em redes
complexas e caractersticas do
SuPor-2 combinadas
I, II, III 5.4
28. SuPor-2 modificado (mesmas
caract. Do SuPor-2 fuzzy)
29. SuPor-2 Fuzzy
I, II, III 5.5

A Tabela 5-11 classifica os 29 prottipos quanto ao tipo de modelo de ranking
de sentenas (1 coluna) e a utilizao ou no de pr-seleo de caractersticas (2
coluna). O tipo de ranking um dos fatores chave que o Problema 2 apresenta.
Nesse trabalho, a explorao de vrios modelos de ranking foi feita de modo a
permitir a investigao da Hiptese 3, de que a forma de combinao e ponderao
de caractersticas tem influncia significativa na qualidade dos sumrios. J a
variao da pr-seleo de caractersticas, teve o objetivo de investigar a Hiptese 2
deste trabalho.

Tabela 5-11 Prottipos desenvolvidos e modelos de ranking de sentenas
Prottipo Modelos de Ranking
Pr-seleo de
caractersticas
1. SuPor-2
Bayes e variaes C4.5
tambm possveis
Sim, mtodo CFS
2. TextRank+StemmingStopRem
3. TextRank+Thesaurus
- -
4-27. Prottipos baseados em
redes complexas e caractersticas
do SuPor-2 combinadas
Flexible-Bayes
C4.5
Regresso
SVM
Sim, mtodo CFS
caract. Do SuPor-2 fuzzy)
29. SuPor-2 Fuzzy
Classificao Nebulosa No

A Tabela 5-12 relaciona os prottipos e o nmero mximo de caractersticas
que cada um pode empregar. O nmero indicado de caractersticas mximo, pois o
modelo pode empregar um mtodo de pr-seleo de caractersticas, conforme
apontado na Tabela 5-11. A utilizao de conjuntos de caractersticas com tamanho
e origem bem diferentes teve o objetivo de investigar a Hiptese 1 deste trabalho,
que prope que a utilizao de conjuntos de caractersticas diversas pode permitir a
sentenas e, assim, levar a melhores extratos. Nos casos extremos, foram
explorados modelos de SA com uma nica caracterstica at modelos de SA com 37
caractersticas.

Tabela 5-12 Prottipos desenvolvidos e nmero mximo possvel de caractersticas
Prottipo
Nmero mximo de
caractersticas
1. SuPor-2
11
2. TextRank+StemmingStopRem 1
3. TextRank+Thesaurus 1
4-27. Prottipos baseados em
redes complexas e caractersticas
do SuPor-2 combinadas
37 (26 + 11)
caract. do SuPor-2 fuzzy)
29. SuPor-2 Fuzzy
11

O prximo captulo apresenta as propostas de avaliao dos 29
prottipos e sua correspondente anlise.
Captulo 6
CAPTULO6 - EXPERIMENTOS DE AVALIAO
Nesta seo descrevem-se e discutem-se os experimentos de avaliao automtica dos
modelos desenvolvidos.
6.1 Arcabouo Geral dos Experimentos Realizados
Neste trabalho foram feitas avaliaes buscando-se comparar entre si os
diversos modelos propostos e tambm com outros sumarizadores existentes. Devido
ao nmero de modelos considerados, o foco das comparaes foi objetivo e no
subjetivo.
Para isso, foram conduzidas avaliaes intrnsecas automticas. Nessas
avaliaes, os extratos produzidos pelos modelos foram comparados com sumrios
de referncia manuais (gold-standards). Segundo Sprck-Jones (2007) esse tipo de
avaliao interessante, pois considera de forma implcita o propsito dos sumrios.
Se os sumrios manuais forem construdos visando propsitos particulares, a
comparao com os sumrios automticos tender a levar em conta a adequao a
esses propsitos. Alm disso, Sprck-Jones (2007) tambm apontam que esse tipo
de avaliao tem sido a mais utilizada e mais operacionalmente vivel nos ltimos
anos.
Sempre que possvel, a configurao dos experimentos foi ajustada de modo
a permitir a comparao com resultados publicados por outros autores. Por isso,
existe variao de configurao dos experimentos conforme o subconjunto de
modelos avaliados. A Seo 6.1.1 descreve a diviso que foi seguida nos
experimentos.
Captulo 6 - Experimentos de Avaliao 106
6.1.1 Proposta de Experimentos
Os experimentos foram conduzidos em 5 fases, de forma a avaliar
primeiramente subconjuntos de modelos para posteriormente realizar uma avaliao
final com os modelos mais promissores. A diviso como segue:

Experimento 1 (Seo 6.2): trata da avaliao do SuPor-2, descrito na Seo
5.1, e em sua comparao com outros sistemas, incluindo o prprio SuPor original.
Nesta fase, verificou-se a efetividade das modificaes introduzidas no SuPor-2 em
relao ao SuPor original. Alm disso, os resultados obtidos tambm originaram
evidncias para verificao da Hiptese 3 deste trabalho, que prope que a forma de
combinao e ponderao das caractersticas tem influncia significativa na
qualidade dos sumrios.
Experimento 2 (Seo 6.3): trata da avaliao dos modelos construdos com
base no mtodo TextRank (Seo 5.2). Os resultados produzidos nesta fase
tambm serviram como evidncia para verificao da Hiptese 1 proposta neste
trabalho, de que a combinao de caractersticas distintas benfica para a SA;
Experimento 3 (Seo 6.4): trata da avaliao dos modelos que combinam
caractersticas de redes complexas com caractersticas do SuPor-2, descritos na
Seo 5.3. Os resultados desta fase serviram como base tambm para a verificao
das trs hipteses propostas neste trabalho;
Experimento 4 (Seo 6.5): trata da avaliao do modelo de SA baseado em
ranking nebuloso de sentenas, descrito na Seo 5.4. Os resultados obtidos nesta
etapa serviram como evidncia na verificao da Hiptese 3 deste trabalho;
Experimento 5 (Seo 6.6): esta ltima etapa objetivou determinar o melhor
modelo de SA, a partir do conjunto dos modelos mais promissores indicados nos
experimentos anteriores.

6.1.2 Corpora Utilizados
Os corpora utilizados para avaliao dos modelos desenvolvidos foram todos
de textos jornalsticos em Portugus do Brasil e incluem tanto os textos originais
quanto os sumrios de referncia construdos manualmente. So eles:
a) TeMrio-2003 (Pardo e Rino 2003). Compreende um conjunto de 100
textos jornalsticos extrados da Folha de So Paulo e do Jornal do Brasil. Um
sumrio manual construdo por especialista humano acompanha cada texto-fonte,
com tamanho entre 25% e 30%, em relao ao tamanho do texto original.
b) Summ-it (Collovini et al. 2007). Compreende um conjunto de 50 textos de
divulgao cientfica. Cada texto tambm acompanhado de seu respectivo sumrio
de referncia construdo manualmente.
c) TeMrio-2006 (Maziero et al. 2007). Construdo nos mesmos moldes do
TeMrio original, , na verdade, um complemento daquele, porm agora com 151
textos extrados do jornal on-line Folha de So Paulo, de diversos cadernos.
6.1.3 Taxa de Compresso
A definio de taxa de compresso utilizada nos experimentos foi
apresentada na Seo 3.1.2. As taxas foram determinadas para serem compatveis
com o tamanho dos sumrios de referncia utilizados ou compatveis com as
utilizadas em experimentos conduzidos por outros autores, permitindo a comparao
de resultados.
H duas formas de se calcular a taxa de compresso: baseando-se no
nmero de sentenas ou no nmero de palavras. Neste trabalho, foram utilizadas as
duas formas. O critrio adotado foi indicado em cada etapa de avaliao descrita
neste captulo. O critrio preferencial utilizado foi o de clculo com base no nmero
de palavras. O clculo com base no nmero de sentenas foi utilizado apenas para
permitir a comparao com resultados publicados por outros autores.
6.1.4 Mtricas de Avaliao
Foram utilizadas tanto as mtricas automticas de Preciso, Cobertura e F-
measure quanto as mtricas calculadas pela ferramenta ROUGE (vide Seo 2.3),
com 95% de confiana. Ambos os tipos de mtrica focam na avaliao da
informatividade dos extratos produzidos em comparao com os sumrios manuais.
A preferncia neste trabalho foi a utilizao da ROUGE devido ao fato de ela ser a
mais utilizada em avaliaes automticas (Sprck Jones 2007), alm de ter sido
reportado pelos autores da ferramenta que suas medidas apresentam boa
correlao com as avaliaes humanas, conforme j citado anteriormente.
6.1.5 Avaliao dos Modelos Treinados
No caso dos modelos que exigem treinamento, a avaliao foi feita
geralmente utilizando a tcnica de N-fold cross-validation, j utilizada na Seo
5.1.4. A utilizao dessa tcnica permite intercambiar dados de treino e teste,
evitando a necessidade de corpora de treino e testes separados.
O funcionamento como segue: o conjunto de dados separado em N
subconjuntos disjuntos e em cada uma de N fases h um conjunto de dados de
treino obtido concatenando N 1 dos subconjuntos e um conjunto de dados de
validao que usa o restante do subconjunto; o processo repetido N vezes,
permutando de forma circular os subconjuntos. O N adotado foi indicado em cada
avaliao conduzida.
6.2 Experimento 1 - Avaliao do SuPor-2
A avaliao do SuPor-2 buscou compar-lo com o desempenho de outros
sete sumarizadores para o Portugus do Brasil, inclusive o prprio SuPor original, j
avaliados numa avaliao conjunta conduzida por 2 grupos de pesquisadores (Rino
et al. 2004). O experimento reproduzido aqui tambm descrito em Leite e Rino
(2006).
O corpus adotado foi o mesmo utilizado no experimento replicado, o TeMrio-
2003. A taxa de compresso utilizada foi a mesma, definida em 30% do nmero de
sentenas.
A configurao utilizada do SuPor-2 foi a determinada como a mais
promissora na Seo 5.1.4. J a configurao do SuPor utilizada foi determinada
manualmente como a melhor dentre as 348 possveis.
A Tabela 6-1 apresenta os resultados. Os sistemas From-top e Random Order
so baselines da avaliao. O primeiro seleciona as primeiras sentenas do texto e o
segundo seleciona sentenas aleatrias. Os demais so descritos na Seo 3.2.
Cabe ressaltar que os resultados para os sistemas de outros autores no
foram recalculados. Alm disso, como se pretendeu, aqui, reproduzir integralmente o
experimento realizado em 2004, no houve testes estatsticos de significncia
porque esses resultados no estavam disponveis para os demais sistemas.

Tabela 6-1 Comparao do SuPor-2 com outros sumarizadores
Sistema
Preciso
(%)
Cobertura
(%)
F-measure
(%)
SuPor-2 47.4 43.9 45.6
SuPor 44.9 40.8 42.8
ClassSumm 45.6 39.7 42.4
From-top 42.9 32.6 37.0
TF-ISF-Summ 39.6 34.3 36.8
GistSumm 49.9 25.6 33.8
NeuralSumm 36.0 29.5 32.4
Random order 34.0 28.5 31.0

Os resultados obtidos para a F-measure mostram um desempenho superior
de aproximadamente 3 pontos percentuais do SuPor-2 em relao ao SuPor.
Analisando-se as variaes presentes na tabela entre os demais sistemas,
considera-se esse avano expressivo. Os resultados sugerem ainda que considerar
caractersticas no-binrias, como faz o SuPor-2, pode ser benfico para a SA.
interessante notar tambm que os trs sistemas mais bem classificados
utilizam mtodos Bayesianos, o que parece confirmar seu bom desempenho para a
tarefa de ranking, conforme j sugerido na Seo 4.1.2. Justamente esse ponto
ajuda a corroborar a Hiptese 3 deste trabalho, de que a forma de combinao e
ponderao das caractersticas tem influncia para a SA.
6.3 Experimento 2 - Avaliao dos Modelos Baseados no TextRank
A avaliao dos modelos baseados no TextRank foi feita de modo a permitir a
comparao com os resultados publicados por Mihalcea (2005), adotando-se
metodologia similar anterior, isto , de reproduo fiel dos dados de teste, taxa de
compresso e medidas de avaliao. Assim, adotou-se o corpus TeMrio 2003, a
taxas de compresso de 25% 30% em nmero de palavras e a mtrica ROUGE-1.
O experimento reproduzido nesta etapa tambm descrito em Leite et al. (2007). Os
resultados para as verses de Mihalcea (2005) no foram recalculados.
Os resultados so mostrados na Tabela 6-2. As linhas sombreadas
representam os sistemas desenvolvidos neste trabalho. Foi includo na comparao
o SuPor-2. Para seu treino, utilizou-se a tcnica 10-fold cross-validation, j que se
dispunha de apenas um corpus. As variaes do TextRank propostas por Mihalcea
(2005) tambm esto na tabela: uso das medidas HITS e uso de grafos dirigidos
com modo de percurso backward ou forward. O sistema Baseline um sumarizador
construdo por Mihalcea (2005) para fins de comparao, que seleciona as
sentenas na ordem em que aparecem. Testes estatsticos de significncia no
foram feitos nessa etapa devido indisponibilidade de resultados por texto dos
demais sistemas.
Tabela 6-2 Resultados da avaliao dos modelos baseados no mtodo TextRank
Sistema ROUGE-1
SuPor-2 0.5839
TextRank+Thesaurus 0.5603
TextRank+Stem+StopwordsRem 0.5426
TextRank (PageRank -backward) 0.5121
TextRank (HIT hub - forward) 0.5002
TextRank (HITS authority -backward) 0.5002
Baseline 0.4963
TextRank (PageRank -undirected) 0.4939
TextRank (HITS authority -forward) 0.4834
TextRank (HIT hub - backward) 0.4834
TextRank (HITS authority - undirected) 0.4814
TextRank (HIT hub - undirected) 0.4814
TextRank (PageRank - forward) 0.4574

Como pode ser observado, as duas variaes propostas obtiveram resultados
superiores s verses sem nenhum pr-processamento lingustico, representando
um aumento de quase 6% na verso TextRank+Stem+StopwordsRem e
aproximadamente 9% com o TextRank+Thesaurus.
Tais resultados sugerem que a utilizao de mtodos baseados em grafos
sem nenhum tipo de pr-processamento lingustico, mesmo que simples, pode no
produzir extratos informativos o suficiente. O fato de o Baseline superar a maioria
das verses do TextRank corrobora essa hiptese.
Quanto ao SuPor-2, ele superou todos os demais sistemas, possivelmente
por incorporar vrias caractersticas numa abordagem de Aprendizado de Mquina.
Esse desempenho superior corrobora a Hiptese 1, de que a combinao de
caractersticas diversas, como o SuPor-2 emprega, benfica para a SA.
Entretanto, h de se considerar o contraste na comparao, j que o SuPor-2
supervisionado e apresenta um custo computacional maior que os modelos
baseados no mtodo TextRank. interessante notar que o sistema
TextRank+Thesaurus est relativamente perto do SuPor-2, considerando que o
esforo de construo do TextRank+Thesaurus consistiu em apenas incorporar pr-
processamentos simples no TextRank original.
6.4 Experimento 3 - Avaliao dos Modelos Baseados na
Combinao de Caractersticas do SuPor-2 e Redes Complexas
Os 24 modelos com caractersticas da rea de Redes Complexas (RC) e do
SuPor-2 combinadas (Tabela 5-8) foram comparados entre si nesta etapa. O
experimento desta etapa tambm foi reportado e discutido em Leite e Rino (2008).
As caractersticas de redes complexas foram calculadas para o corpus
TeMrio-2003 por Lucas Antiqueira (2007). Como esses dados foram previamente
processados e os sistemas de redes no se encontram disponveis, adotou-se, para
a avaliao combinada, o mesmo corpus, tomando-se o cuidado de evitar o
problema de seu tamanho pequeno com a tcnica de validao cruzada (10-fold
cross-validation). A mtrica adotada foi tambm a mesma proposta por Antiqueira
ROUGE-1 permitindo assim a comparao de resultados sem que se
reprocessassem as medidas de redes complexas.
A Tabela 6-3 mostra os resultados obtidos, indicando qual o classificador
utilizado em cada modelo, assim como o uso (ou ausncia de uso) da pr-seleo
de caractersticas por meio do CFS. Em cada modelo, indicado tambm o conjunto
base de caractersticas utilizado: caractersticas de redes complexas (RC) apenas,
caractersticas do SuPor-2 apenas ou a unio de ambos os conjuntos de
caractersticas (SuPor-2
RC). O melhor modelo aqui obtido foi chamado de

SuPor-2 LogReg.
Como mostrado, os classificadores Regresso Logstica e Flexible-Bayes
apresentaram desempenho superior maioria dos modelos que utilizam SVM ou
C4.5. Novamente, isso corrobora a ideia de que classificadores probabilsticos so
mais adequados tarefa de ranking (vide sees 0 e 4.1.5) e tambm a Hiptese 3
deste trabalho, que defende que o modelo de combinao e ponderao de
caractersticas tem influncia importante para a SA.
Com relao ao uso do CFS, relacionado Hiptese 2 de que a pr-seleo
automtica de caractersticas til, fica claro que seu benefcio varia de acordo com
o conjunto de caractersticas. Por exemplo, quando a unio dos conjuntos de
caractersticas foi utilizada, o uso do CFS melhorou os resultados, exceto para o
modelo M21 que obteve o mesmo resultado. Considerando o conjunto de
caractersticas RC, todos os modelos obtiveram resultados iguais ou piores
utilizando o CFS. Esses resultados sugerem que, quando considerados conjuntos
individuais de caractersticas (SuPor-2 ou RC), o uso do CFS no traz ganhos.
Entretanto, quando conjuntos maiores so explorados, o uso do CFS pode ser
benfico.
Tabela 6-3 Comparao dos modelos com caractersticas do SuPor-2 e Redes
Complexas combinadas
Modelo
Conjunto de
Caracterstica
Classificador Uso do CFS ROUGE-1
M16 SuPor-2 Regresso Logstica No 0.5316
M17 SuPor-2 Regresso Logstica Sim 0.5288
M13 SuPor-2 Flexible-Bayes Sim 0.5284
M21 SuPor-2
RC Flexible-Bayes Sim 0.5278

M25 SuPor-2
RC Regresso Logstica Sim 0.5270

M23 SuPor-2
RC C4.5 Sim 0.5253

M20 SuPor-2
RC Flexible-Bayes No 0.5249
M15 SuPor-2 C4.5 Sim 0.5238
M4 RC Flexible-Bayes No 0.5237
M5 RC Flexible-Bayes Sim 0.5236
M8 RC Regresso Logstica No 0.5230
M24 SuPor-2
RC Regresso Logstica No 0.5228

M12 SuPor-2 Flexible-Bayes No 0.5227
M14 SuPor-2 C4.5 No 0.5212
M9 RC Regresso Logstica Sim 0.5188
M22 SuPor-2
RC C4.5 No 0.5184
M6 RC C4.5 No 0.5167
M18 SuPor-2 SVM No 0.5158
M19 SuPor-2 SVM Sim 0.5158
M26 SuPor-2
RC SVM No 0.5158
M27 SuPor-2
RC SVM Sim 0.5158

M7 RC C4.5 Sim 0.5157
M10 RC SVM No 0.5032
M11 RC SVM Sim 0.5032

Cabe-se ressaltar que a utilizao e a combinao de caractersticas de RC
por meio do aprendizado de mquina representa um avano sobre a utilizao de
medidas individuais, propostas por Antiqueira (2007). A melhor medida individual
proposta por esse autor C13 da Tabela 5-7 obteve o ndice ROUGE-1 de
0.5020 (Antiqueira 2007), enquanto a combinao de medidas de redes complexas
por meio do aprendizado de mquina obteve o ndice 0.5237. Essa mais uma
evidncia a favor da Hiptese 1 deste trabalho, de que a combinao de
caractersticas deve ser explorada para a SA.
A Tabela 6-4 mostra a anlise de significncia estatstica dos resultados
obtidos pelo teste t-student com nvel de significncia de 5%. Os pares significativos
encontram-se hachurados (p-valores menores ou iguais a 0,05).
De forma geral, no se garante significncia para as diferenas encontradas
nos sistemas mais bem classificados. S h significncia quando so consideradas
as diferenas entre os sistemas do topo da Tabela 6-3 e os situados mais abaixo. A
utilizao de um corpus maior e a disponibilidade de mais sumrios de referncia
poderiam ser teis na verificao da significncia estatstica desses resultados.

Tabela 6-4 Anlise de significncia estatstica do Experimento 3 p-valores
Mod. M4 M5 M6 M7 M8 M9 M10 M11 M12 M13 M14 M15 M16 M17 M18 M19 M20 M21 M22 M23 M24 M25 M26 M27
M4 - 0,98 0,16 0,10 0,87 0,21 0,00 0,00 0,81 0,28 0,62 0,99 0,08 0,26 0,25 0,25 0,74 0,25 0,36 0,77 0,83 0,39 0,25 0,25
M5 0,98 - 0,15 0,11 0,85 0,17 0,00 0,00 0,82 0,33 0,63 1,00 0,11 0,32 0,26 0,26 0,76 0,29 0,37 0,80 0,83 0,44 0,26 0,26
M6 0,16 0,15 - 0,78 0,19 0,69 0,04 0,04 0,30 0,02 0,42 0,20 0,01 0,03 0,88 0,88 0,12 0,03 0,83 0,11 0,27 0,05 0,88 0,88
M7 0,10 0,11 0,78 - 0,15 0,54 0,04 0,04 0,15 0,01 0,33 0,15 0,00 0,01 0,99 0,99 0,07 0,01 0,68 0,07 0,15 0,02 0,99 0,99
M8 0,87 0,85 0,19 0,15 - 0,24 0,00 0,00 0,94 0,24 0,69 0,89 0,08 0,26 0,29 0,29 0,66 0,24 0,40 0,68 0,95 0,37 0,29 0,29
M9 0,21 0,17 0,69 0,54 0,24 - 0,03 0,03 0,43 0,04 0,70 0,40 0,01 0,05 0,66 0,66 0,08 0,01 0,90 0,25 0,41 0,06 0,66 0,66
M10 0,00 0,00 0,04 0,04 0,00 0,03 - - 0,01 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,03 0,00 0,00 0,00 0,00 0,00
M11 0,00 0,00 0,04 0,04 0,00 0,03 - - 0,01 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,03 0,00 0,00 0,00 0,00 0,00
M12 0,81 0,82 0,30 0,15 0,94 0,43 0,01 0,01 - 0,09 0,76 0,82 0,03 0,09 0,26 0,26 0,60 0,17 0,40 0,62 0,97 0,25 0,26 0,26
M13 0,28 0,33 0,02 0,01 0,24 0,04 0,00 0,00 0,09 - 0,09 0,32 0,38 0,90 0,04 0,04 0,36 0,87 0,07 0,49 0,22 0,70 0,04 0,04
M14 0,62 0,63 0,42 0,33 0,69 0,70 0,00 0,00 0,76 0,09 - 0,45 0,02 0,10 0,36 0,36 0,50 0,18 0,62 0,27 0,75 0,17 0,36 0,36
M15 0,99 1,00 0,20 0,15 0,89 0,40 0,00 0,00 0,82 0,32 0,45 - 0,07 0,28 0,15 0,15 0,85 0,43 0,33 0,66 0,84 0,45 0,15 0,15
M16 0,08 0,11 0,01 0,00 0,08 0,01 0,00 0,00 0,03 0,38 0,02 0,07 - 0,39 0,01 0,01 0,12 0,35 0,01 0,11 0,01 0,18 0,01 0,01
M17 0,26 0,32 0,03 0,01 0,26 0,05 0,00 0,00 0,09 0,90 0,10 0,28 0,39 - 0,03 0,03 0,36 0,80 0,06 0,38 0,12 0,59 0,03 0,03
M18 0,25 0,26 0,88 0,99 0,29 0,66 0,00 0,00 0,26 0,04 0,36 0,15 0,01 0,03 - - 0,19 0,07 0,71 0,11 0,25 0,07 - -
M19 0,25 0,26 0,88 0,99 0,29 0,66 0,00 0,00 0,26 0,04 0,36 0,15 0,01 0,03 - - 0,19 0,07 0,71 0,11 0,25 0,07 - -
M20 0,74 0,76 0,12 0,07 0,66 0,08 0,00 0,00 0,60 0,36 0,50 0,85 0,12 0,36 0,19 0,19 - 0,27 0,27 0,94 0,63 0,54 0,19 0,19
M21 0,25 0,29 0,03 0,01 0,24 0,01 0,00 0,00 0,17 0,87 0,18 0,43 0,35 0,80 0,07 0,07 0,27 - 0,11 0,59 0,22 0,84 0,07 0,07
M22 0,36 0,37 0,83 0,68 0,40 0,90 0,03 0,03 0,40 0,07 0,62 0,33 0,01 0,06 0,71 0,71 0,27 0,11 - 0,22 0,39 0,11 0,71 0,71
M23 0,77 0,80 0,11 0,07 0,68 0,25 0,00 0,00 0,62 0,49 0,27 0,66 0,11 0,38 0,11 0,11 0,94 0,59 0,22 - 0,60 0,63 0,11 0,11
M24 0,83 0,83 0,27 0,15 0,95 0,41 0,00 0,00 0,97 0,22 0,75 0,84 0,01 0,12 0,25 0,25 0,63 0,22 0,39 0,60 - 0,21 0,25 0,25
M25 0,39 0,44 0,05 0,02 0,37 0,06 0,00 0,00 0,25 0,70 0,17 0,45 0,18 0,59 0,07 0,07 0,54 0,84 0,11 0,63 0,21 - 0,07 0,07
M26 0,25 0,26 0,88 0,99 0,29 0,66 0,00 0,00 0,26 0,04 0,36 0,15 0,01 0,03 - - 0,19 0,07 0,71 0,11 0,25 0,07 - -
M27 0,25 0,26 0,88 0,99 0,29 0,66 0,00 0,00 0,26 0,04 0,36 0,15 0,01 0,03 - - 0,19 0,07 0,71 0,11 0,25 0,07 - -
6.5 Experimento 4 - Avaliao dos Modelos Baseados em Regras
Nebulosas
O objetivo principal desta etapa foi verificar se o desempenho de um modelo
de ranking nebuloso de sentenas poderia ser superior ao modelo Bayesiano do
SuPor-2. Essa etapa de avaliao tambm foi descrita em Leite e Rino (2009).
Como o conjunto de caractersticas do SuPor-2 Fuzzy diferente do SuPor-2,
a simples comparao no seria justa e no permitiria comparar apenas os modelos
de ranking. Por conta disso, conforme citado na Seo 5.5, foi construdo o SuPor-2
Modificado, adotando o mesmo modelo de ranking do SuPor-2, porm com as
caractersticas do SuPor-2 Fuzzy.
Dada a complexidade da fase de treino do SuPor-2 Fuzzy, que envolve
algoritmos genticos, decidiu-se no utilizar o processo de cross-validation e utilizar
dois corpora: o TeMrio-2003 para treino e o Summ-it para avaliao.
O processo de evoluo do algoritmo gentico levou 168h at convergncia
da funo de fitness da melhor base de regras. A Figura 6-1 mostra o grfico da
evoluo.

Figura 6-1 Evoluo da etapa de treino do SuPor-2 Fuzzy

A taxa de compresso foi definida em 30% no nmero de palavras. Foram
utilizadas na avaliao tanto a mtrica ROUGE-1 quanto a ROUGE-2, as mais
comuns nas ltimas DUCs/TACs.

Tabela 6-5 Avaliao do SuPor-2 Fuzzy
Modelo Sistema ROUGE-1 ROUGE-2
M28 SuPor-2 Fuzzy 0.74583 0.73859
M29 SuPor-2 modificado 0.73205 0.72323

Os resultados mostram um desempenho superior do SuPor-2 Fuzzy em
relao ao classificador Bayesiano considerando tanto a medida ROUGE-1 quanto
ROUGE-2. Ressalta-se que o tempo de treino do SuPor-2 Fuzzy muito maior que
os modelos Bayesianos. Entretanto, o processo conduzido uma nica vez.
Cabe lembrar tambm que o SuPor-2 Fuzzy teve seu treino dirigido pela
ROUGE e foi avaliado pela mesma medida. Ou seja, assumindo a premissa de que
a ROUGE seja uma medida que diferencie bem sumrios informativos de no-
informativos, o SuPor-2 Fuzzy foi projetado de modo a produzir sumrios com
ndices altos da medida. Embora a medida de treino e avaliao seja a mesma, em
nenhum momento utilizou-se qualquer dado de teste para treino. Em outras
palavras, no existe vis que torne a comparao injusta.
O teste t-student apresentou p-valores de 0.12014 para a ROUGE-1 e
0.09466 para ROUGE-2. Com 95% de confiana no h diferenas significativas.
Entretanto, considerando que os p-valores so baixos, as diferenas esto bem
perto de serem significativas.
Novamente, o fato de um modelo com ranking nebuloso superar um
Bayesiano corrobora a Hiptese 3, de que o modelo de combinao e ponderao
de caractersticas influencia significativamente o desempenho dos modelos de SA.
6.6 Experimento 5 - Avaliao Global de Todos os Modelos
Os melhores modelos de SA indicados nas etapas anteriores de avaliao
foram selecionados para uma avaliao conjunta utilizando um nico corpus e a
mesma taxa de compresso (a usual de 30% em nmero de palavras). Os modelos
selecionados so apresentados na Tabela 6-6, em que cita-se tambm os recursos
dependentes de lngua utilizados em cada um.

Tabela 6-6 Comparativo das caractersticas dos modelos propostos
Modelo Nome
Nmero de
Caractersticas
Modelo de
Combinao de
Caractersticas
Recursos
Dependentes
de Lngua
Natural
M1 SuPor-2 11 Flexible-Bayes
Stoplist
28

Lxico
Stemmer
Etiquetador
morfossinttico
Thesaurus
M2 TextRank+StemmingStopRem 1 Nenhum
Stoplist
Stemmer
M3 TextRank+Thesaurus 1 Nenhum
Stoplist
Stemmer
Thesaurus
M16 SuPor-2 LogReg 11
Regresso
Logstica
Stoplist
Lxico
Stemmer
Etiquetador
morfossinttico
Thesaurus
M29 SuPor-2 Fuzzy 11
Classificador
Nebuloso
Stoplist
Stemmer

Nesta avaliao global, o corpus utilizado foi o TeMrio-2006 (151 textos),
que no havia sido utilizado anteriormente e possui o maior nmero de textos, porm
de mesmo gnero dos anteriores, o que torna o treinamento ou classificao das
diversas verses consistente com os dados de teste. Neste caso, particularmente,
usou-se para treino dos sistemas o corpus TeMrio-2003 inteiro (100 textos). O
motivo da escolha de um corpus separado para treino em vez da utilizao do
processo de cross-validation foi evitar o treino mais custoso do SuPor-2 Fuzzy,
demandando mais tempo usando cross-validation. Cabe lembrar que no h
sobreposio de textos entre o TeMrio-2003 e o TeMrio-2006.
Os extratos gerados tiveram a informatividade medida pela ROUGE, atravs
de suas medidas ROUGE-1 e ROUGE-2. As tabelas seguintes mostram os
resultados obtidos e anlise de significncia das diferenas para cada par de

28
Trata-se de uma lista de stopwords, palavras muito comuns e consideradas irrelevantes.
modelos pelo teste t-student. O Apndice E mostra o resultado da avaliao para
cada texto do corpus, dados que foram usados no teste t-student.

Tabela 6-7 Resultados da avaliao conjunta dos modelos de SA sobre o TeMrio-
2006
Modelo Sistema ROUGE-1 ROUGE-2
M1 SuPor-2 0,65398 0,31670
M16 SuPor-2 LogReg 0,64069 0,14888
M29 SuPor-2 Fuzzy 0,62460 0,13151
M3 TextRank+Thesaurus 0.60056 0.25449
M2 TextRank+StemmingStopRem 0.57856 0,25183

Tabela 6-8 P-valores do teste t-student para a medida ROUGE-1
p-valores
M1 M2 M3 M16 M29
M1 0.00% 0.00% 0.00% 0.00%
M2
0.00% 0.02% 0.00% 0.00%
M3
0.00% 0.02% 0.00% 0.00%
M16 0.00% 0.00% 0.00% 0.00%
M29
0.00% 0.00% 0.00% 0.00%

Tabela 6-9 P-valores do teste t-student para a medida ROUGE-2
p-valores
M1 M2 M3 M16 M29
M1 0.00% 0.00% 74.47% 0.00%
M2
0.00% 63.82% 0.00% 0.00%
M3
0.00% 63.82% 0.00% 0.00%
M16 74.47% 0.00% 0.00% 0.00%
M29
0.00% 0.00% 0.00% 0.00%

Como pode ser observado, o SuPor-2 apresentou diferenas significantes
para os demais quando avaliado pela medida ROUGE-1. Quando a ROUGE-2
utilizada, o teste t-student no indica significncia apenas na comparao com a
verso SuPor-2 LogReg, que utiliza Regresso Logstica em vez do Flexible-Bayes.
Houve, portanto, uma inverso na posio desses modelos em relao avaliao
conduzida na Seo 6.4, onde a Regresso Logstica havia superado todos os
demais classificadores. Entretanto, naquela avaliao o corpus de teste era menor
(TeMrio-2003), as diferenas obtidas entre os sistemas menores e nenhuma
significncia estatstica foi verificada.
Com relao aos demais modelos, o ranking obtido confirma os resultados
anteriores. No caso do SuPor-2 Fuzzy, seu desempenho superior em relao aos
modelos baseados no TextRank muito provavelmente explicado pelo fato desse
sistema ser supervisionado e por fazer uso de combinao de caractersticas. Com
relao a seu desempenho inferior ao SuPor-2 e ao SuPor-2 LogReg, a diferena
est no fato de o conjunto de caractersticas empregadas no modelo nebuloso ser
uma simplificao do modelo original do SuPor-2, conforme exposto na Seo 5.4.1.
Captulo 7
CAPTULO7 - CONSIDERAES FINAIS
Nesta seo apresentam-se as concluses principais deste trabalho, suas contribuies
principais limitaes e possveis desdobramentos.
7.1 Principais Concluses
Esta dissertao apresentou modelos de SA baseados em aprendizado de
mquina, na Teoria dos Grafos e em diversas estatsticas textuais para o Portugus
do Brasil. Esses modelos buscaram combinar e selecionar caractersticas diversas
de SA, de forma a explorar diferentes aspectos do texto e, assim, levar gerao de
sumrios mais informativos e teis.
Retomando-se as hipteses formuladas no captulo inicial desta dissertao:

Hiptese 1. A combinao de caractersticas de SA diversas pode permitir a
sentenas e, assim, levar a melhores extratos.

Hiptese 2. A pr-seleo automtica de caractersticas pode configurar de
forma adequada o sumarizador para um determinado corpus e levar aos melhores
resultados. Ou seja, a pr-seleo automtica de caractersticas pode ser uma forma
de tratar o Problema 1 (quais caractersticas utilizar para a SA?) apresentado no
Capitulo 1.

Captulo 7 - Consideraes Finais 120
Hiptese 3. A forma de combinao e ponderao das caractersticas tem
influncia significativa na qualidade dos sumrios. Quando maior a capacidade do
modelo de ponderao em construir bons rankings de sentenas, melhor ser o
desempenho do sumarizador.

Conclui-se com relao a Hiptese 1 que no necessariamente quanto maior
o nmero de caractersticas empregadas, melhor o desempenho do sumarizador.
Isso foi verificado, por exemplo, quando se combinaram as caractersticas do SuPor-
2 com as de redes complexas (Seo 5.3): o resultado obtido foi pior do que o obtido
com a utilizao simplesmente do conjunto de caractersticas do SuPor-2.
Entretanto, a combinao de caractersticas diferentes pode sim gerar bons
modelos de SA. Por exemplo, ao se considerar a combinao das caractersticas de
redes complexas. No trabalho de Antiqueira (2007), cada medida proposta originava
uma mquina distinta de SA. Com o modelo de combinao explorado na Seo 5.3,
o desempenho foi superado. Outra evidncia foi o desempenho superior de todos os
modelos com caractersticas combinadas em relao aos modelos de uma nica
caracterstica baseada no mtodo TextRank, conforme mostrado na Seo 6.6. Ou
seja, deve existir um balano ideal no nmero de caractersticas do sumarizador.
Com relao a Hiptese 2, a utilizao de mtodos de seleo automtica de
caractersticas, como o mtodo CFS, factvel para a SA baseada em aprendizado
de mquina, assim como para vrios problemas em Minerao de Dados.
Entretanto, considerando o CFS, sua utilizao parece compensar apenas para
conjuntos maiores de caractersticas. Os resultados obtidos no permitem sugerir
nenhum nmero crtico de caractersticas, conforme Seo 6.4.
Sobre a Hiptese 3, verificou-se sua validade. Assim, a escolha do modelo de
ranking, isto , do algoritmo de aprendizado de mquina, tem influncia considervel
nos modelos de SA supervisionados. Como as evidncias tericas e referncias
acadmicas sobre esse ponto sugerem, classificadores probabilsticos ou que de
certam forma modelam a incerteza ou impreciso tem desempenho melhor para SA
em relao aos demais. Neste trabalho, isso foi verificado pelos resultados obtidos
com os modelos de ranking Bayesiano, por regresso logstica ou nebuloso.

Partindo dos resultados obtidos atravs dos experimentos realizados,
considera-se tambm relevante as formulaes adicionais sugeridas a seguir:
a) A utilizao de caractersticas numricas e multinomiais, em oposio a
caractersticas simplesmente binrias, tem em geral influncia positiva na SA
baseada em aprendizado de mquina. Este ponto sugerido pelo fato do SuPor-2
ter desempenho relativamente superior ao SuPor, mantido o mesmo classificador,
conforme resultados da Seo 6.2.
b) A utilizao de mtodos e caractersticas baseadas em grafos
interessante devido ao fato desses mtodos serem de fcil cmputo e mesmo sendo
independentes de lngua, em geral, poderem explorar diferentes aspectos coesivos
do texto. Entretanto, os resultados tendem a melhorar significantemente se for
incorporado algum pr-processamento lingustico, como foi evidenciado pela
construo dos modelos baseados no TextRank.
c) De forma geral, das trs abordagens exploradas neste trabalho (estatsticas
textuais, grafos e aprendizado de mquina) no possvel dizer qual mais
promissora ou til, at porque os propsitos dessas abordagens so distintos e
defende-se aqui sua combinao. As estatsticas textuais e as medidas de grafos
podem ambas fornecer caractersticas teis para SA. No estudo descrito na Seo
5.3.1, de avaliao de relevncia das caractersticas, a melhor delas foi a Frequncia
de Palavras, estatstica textual explorada desde 1958 para SA por Luhn. Entretanto,
o escore foi seguido de perto por uma medida de redes complexas, baseada em
grafos. O melhor modelo de caractersticas foi justamente o do SuPor-2 que combina
tanto medidas estatsticas quanto mtodos baseados em grafos. Com relao ao
aprendizado de mquina, seu propsito claro de construir um modelo de ranking
de sentenas sem demandar o ajuste manual do modelo por um especialista,
gargalo do modelo de Edmundson (1969).
7.2 Contribuies
A primeira contribuio apontada a de que alguns modelos de SA propostos
neste trabalho superaram outros sumarizadores para o Portugus do Brasil,
conforme apontando em (1) e (2) a seguir:
1) Considerando-se o SuPor-2, todos os experimentos conduzidos neste
trabalho (ver Captulo 6) indicaram-no como o que produz extratos mais
informativos, incluindo a prpria replicao do experimento de Rino et al. (2004) que
o comparou a outros oito sistemas. Alm disso, o SuPor-2 tambm superou a
utilizao individual e combinada de medidas de redes complexas, como foi
mostrado na Seo 6.4 e tambm apontado por Antiqueira et al. (2009). Entretanto,
como reportado aqui e em Antiqueira et al., os testes no indicaram significncia
estatstica. A conduo de uma avaliao em um corpus maior poderia ser til nessa
comprovao.
Apresenta-se na Tabela 7-1 um quadro listando os sistemas com os quais o
SuPor-2 foi comparado. A tabela mostra os mtodos de combinao e ponderao
explorados em cada um, o nmero e tipo de caractersticas empregadas, uma
indicao estimada do custo computacional e os recursos dependentes de lngua
utilizados.
Sugere-se que o motivo principal do SuPor-2 superar os demais pode ser
explicado pelo fato de combinar caractersticas diversas de SA por meio de um
modelo de aprendizado de mquina Bayesiano, que se evidenciou mais promissor
para o ranking de sentenas. Embora tanto o SuPor original quanto o ClassSumm
tambm sigam uma estratgia semelhante, as diferenas principais so:

a) O SuPor utiliza a representao binria das caractersticas, empobrecendo
o poder de deciso do modelo de aprendizado;

b) O ClassSumm no emprega caractersticas mais elaboradas como o
SuPor-2 e o SuPor, que mapeiam mtodos completos de SA como o de Cadeias
Lexicais e Mapa de Relacionamentos em caractersticas. Alm disso, o ClassSumm
adota um processo de discretizao de caractersticas antes da utilizao do
classificador Nave-Bayes. No SuPor-2, essa discretizao no necessria pois o
classificador trata caractersticas numricas diretamente.

Tabela 7-1 Quadro comparativo de sistemas de SA para o Portugus do Brasil
Sistema
Modelo de
Combinao
de
Caractersticas
Exigncia
de Treino
Nmero de
Caractersticas
Tipo das
Caractersticas
Custo
29

Computacional
Recursos
Dependentes
de Lngua
Natural
SuPor-2 Flexible-Bayes Sim 11
Numricas e
Multinominais
Mdio
Stoplist
Lxico
Stemmer
Etiquetador
morfossinttico
Thesaurus
CN-Voting
(Antiqueira et
al. 2009)
Votao No 14 Numricas Mdio
Stoplist
Stemmer
SuPor
(Mdolo
2003)
Nave-Bayes Sim 11 Binrias Mdio
Stoplist
Lxico
Stemmer
Etiquetador
morfossinttico
Thesaurus
ClassSumm
(Larocca Neto
et al. 2002)
Nave-Bayes Sim 13
Numricas e
Multinominais
Mdio
Stoplist
Stemmer
Etiquetador
morfossinttico
Lista de
palavras
indicativas
SABio
(Orr et al.
2006)
Rede Neural
Multicamada
Sim 7 Multinominais Alto
Stoplist
Stemmer
Lista de
palavras
indicativas
TF-ISF-
Summ
(Larocca Neto
et al. 2000)
No h No 1 Numrica Baixo
Stoplist
Stemmer
GistSumm
(Pardo et al.
2003)
No h No 1 Numrica Baixo
Stoplist
Lxico
NeuralSumm
(Pardo 2003)
Rede Neural
SOM
Sim 8 Multinominais Alto
Stoplist
Stemmer
Lista de
palavras
indicativas

Cabe apontar que todos os sistemas comparados apresentam certo grau de
dependncia de lngua natural. Os dependem menos so os que demandam apenas
recursos como stoplist e stemmer ou Lxico, como o GistSumm e o TF-ISF. J o
SuPor, SuPor-2 e ClassSumm dependem de mais recursos, como por exemplo um
etiquetador morfossinttico. Entretanto, a dependncia encontra-se apenas nos
recursos, amplamente disponveis para o Ingls e cada vez mais sendo
disponibilizados para outras lnguas.

2) Uma outra contribuio com relao evoluo de ndices foi a construo
dos modelos baseados no TextRank, descritos na Seo 5.2. Atravs da

29
Custo estimado por ns com base nos mtodos empregados em cada sumarizador
incorporao de recursos lingusticos relativamente simples, as verses originais
propostas por Mihalcea (2005) foram superadas, conforme se mostrou na Seo 6.3.
Alm disso, Antiqueira et al. (2009) tambm reportam que essas duas verses
superaram o melhor modelo de redes complexas numa avaliao conduzida sobre o
corpus TeMrio-2003 e com a ROUGE-1 como mtrica em foco. Entretanto, no
foram conduzidos testes de significncia estatstica.

Agrupam-se ainda contribuies adicionais deste trabalho de mestrado em
trs categorias: implementaes, contribuies tericas e publicaes acadmicas.

a) Implementaes
Desenvolvimento do SuPor-2 a partir de uma reengenharia sobre o SuPor
original e acoplamento ferramenta WEKA, em linguagem Object Pascal
(Delphi). Esse sumarizador foi implementado como um software
independente, podendo ser disponibilizado para utilizao;
Desenvolvimento de modelos aperfeioados do TextRank, em linguagem
Object Pascal (Delphi). Ambos os modelos foram desenvolvidos como
softwares independentes e podem ser disponibilizados para utilizao;
Desenvolvimento de modelos de caractersticas combinadas do SuPor-2 e
da rea de Redes Complexas, em linguagem Perl. Em funo da
dependncia do clculo das medidas de redes complexas, no disponveis
livremente, a distribuio e utilizao desses sumarizadores restrita;
Desenvolvimento do SuPor-2 Fuzzy em linguagem Java e Object Pascal
(Delphi). O software independente e pode ser disponibilizado para
utilizao.

b) Contribuies Tericas
A proposio do modelo de mapeamento dos mtodos e medidas
originalmente utilizadas no SuPor em caractersticas numricas e
multinomiais que vieram a ser utilizadas no SuPor-2 e mais posteriormente
no SuPor-2 Fuzzy de forma adaptada;
A explorao e proposio para SA de mtodos de seleo automtica de
caractersticas;
A explorao e construo de modelos de SA utilizando grandes nmeros
de caractersticas. Pelo nosso conhecimento, no h trabalho que tenha
explorado alm de 37 caractersticas;
A proposio de um modelo de ranking nebuloso de sentenas.

c) Publicaes acadmicas
Desenvolvimento do SuPor-2 (Leite e Rino 2006);
Desenvolvimento dos modelos baseados no TextRank (Leite et al. 2007);
Explorao combinada de caractersticas do SuPor-2 e da rea Redes
Complexas (Leite e Rino 2008);
Desenvolvimento do SuPor-2 Fuzzy (Leite e Rino 2009).
7.3 Limitaes
a) Como j citado, as avaliaes conduzidas foram objetivas e automticas,
no focando na qualidade e textualidade dos extratos produzidos. No foi feita,
portanto, nenhuma avaliao manual dos extratos produzidos. H tambm algumas
crticas em trabalhos mais recentes sobre a efetividade de medidas automticas,
particularmente a ROUGE que foi empregada (e.g., Liu e Liu 2008);
b) No foram conduzidas avaliaes extrnsecas dos modelos de SA aqui
propostos, por exemplo, verificando-se a potencialidade de aplicao em tarefas
correlatas como a categorizao de textos e QA;
c) Em vrios casos, no se obteve significncia estatstica nas diferenas
entre os resultados de alguns modelos. Somente se essa significncia fosse
verificada, poderia-se afirmar mais formalmente a superioridade de um modelo em
relao a outro. Nesse sentido, conforme j citado, a utilizao de um corpus maior e
a disponibilidade de mais sumrios de referncia poderiam ser teis na verificao
da significncia estatstica dos resultados.
d) Embora do ponto de vista terico os modelos computacionais aqui
propostos sejam independentes de lngua, algumas caractersticas de SA
demandam para seu clculo recursos dependentes de lngua. A adaptao para
outras lnguas, como o ingls, exigiria a substituio de recursos como lxico,
stoplist, stemmer, thesaurus e etiquetador morfossinttico no caso do SuPor-2 por
exemplo. A Tabela 6-6 resume os recursos necessrios para os modelos propostos
neste trabalho.
e) A implementao do mtodo de Cadeias Lexicais no SuPor-2 limitada,
assim como no SuPor, devido a ausncia para o Portugus do Brasil de uma
WordNet completa. Em seu lugar, utilizado um thesaurus (Dias-da-Silva et al.
2000) que no contempla todas as relaes semnticas de uma WordNet e pode
limitar a identificao de cadeias lexicais fortes.
f) Embora possam ser adaptados para tal, os modelos de SA aqui propostos
realizam a sumarizao monodocumento apenas.
g) Todas as caractersticas e modelos explorados para SA s foram avaliados
para SA de textos jornalsticos.

7.4 Possveis Trabalhos Futuros
Sugerem-se aqui alguns estudos e extenses que podem ser feitas em busca
do refinamento dos modelos de SA. Alm disso, as prprias limitaes nas
avaliaes conduzidas podem ser objeto de trabalho futuro.
7.4.1 Balanceamento de Classes
Na gerao do treinamento segundo a abordagem de Kupiec et al. (1995), o
sistema obtm a classe a partir da comparao com o extrato de referncia. Se os
extratos de referncia tm, em mdia, 30% do tamanho dos textos-fonte, espera-se
que, em mdia, 30% das tuplas (sentenas rotuladas) tenham a classe True. Ou
seja, h um desbalanceamento, em que a classe dominante a False (as sentenas
no pertencem ao extrato). Muitos classificadores tm seu desempenho prejudicado
em funo desse desbalanceamento (Liu 2004)
Larocca Neto et al. (2000) tambm identificaram o problema, com o
classificador C4.5, e comprovaram que os resultados so bastante prejudicados
quando no h nenhum mecanismo para balancear o treinamento. Sugerem, para
isso, a abordagem mais comum na literatura que eliminar parte das tuplas da
classe dominante ou replicar aleatoriamente tuplas da classe de menor ocorrncia.
No caso dos modelos de SA baseados em AM e propostos aqui, as tcnicas
de tratamento de classes desbalanceadas poderiam ser investigadas tambm.
7.4.2 Redes Bayesianas
Neste trabalho, sugeriu-se que os classificadores mais adequados para SA
baseada em AM devem ser os que so capazes de gerar bons rankings. Nesse
quesito, os classificadores probabilsticos parecem ter vantagem.
Uma possibilidade de trabalho futuro explorar Redes Bayesianas (e.g.,
Cooper e Herskovits 1992) que, embora ainda sigam a mesma ideia do aprendizado
Bayesiano, envolvem tcnicas mais sofisticadas para superar algumas
desvantagens do Nave-Bayes, como a da independncia condicional que impe a
necessidade de todas as caractersticas serem estatisticamente independentes.
7.4.3 Ensembles de Rankings
A questo principal na SA baseada em AM como gerar adequadamente o
ranking de sentenas. Prati (2006) discute modelos de gerao de ensembles de
rankings. Ou seja, agregar a contribuio de vrios classificadores num modelo de
votao para produzir um nico ranking, que pode ser til na seleo das sentenas
mais relevantes.
7.4.4 Mtodo de Seleo Automtica de Caractersticas
Pelo nosso conhecimento, o CFS tem sido o mtodo filter de seleo de
subconjuntos de caractersticas mais utilizado recentemente. Dada a influncia que o
processo de seleo de caractersticas pode representar para a SA e o fato de a
Hiptese 2 proposta neste trabalho no ter sido verificada em vrios modelos, outros
mtodos de seleo de caractersticas poderiam ser avaliados. Como exemplo,
Prassad et al. (2004) prope o mtodo FSS_ICA com resultados prximos e em
alguns casos superiores ao CFS. Alm disso, segundo os autores, o FSS_ICA busca
selecionar caractersticas estatisticamente independentes entre si, o que gera um
desempenho melhor quando usado com o classificador Nave-Bayes, dada a
premissa de independncia desse classificador. Outro mtodo mais recente o
INTERACT
30
(Zhao e Liu 2007) que tambm apresentou na avaliao dos autores
desempenho ligeiramente superior ao CFS.

30
Implementao disponvel em http://www.public.asu.edu/~huanliu/INTERACT/INTERACTsoftware.html
(Setembro/2010)
REFERNCIAS BIBLIOGRFICAS
ALBERT, R., BARABSI, A.L. 2002 Statistical mechanics of complex networks. Rev.
Mod. Phys. 74, 4797.
ANTIQUEIRA, L. 2007. Desenvolvimento de tcnicas baseadas em redes complexas
para sumarizao extrativa de textos. Dissertao de Mestrado. ICMC USP, So
Carlos.
ANTIQUEIRA, L., OLIVEIRA JR., O.N., DA F. COSTA, L., NUNES, M.G.V. 2009. A
Complex Network Approach to Text Summarization. Information Sciences 179, 584-
599.
BALAGE FILHO, P.P., PARDO, T.A.S., NUNES, M.G.V. 2006. Estrutura Textual e
Multiplicidade de Tpicos na Sumarizao Automtica: o Caso do Sistema
GistSumm. . In Srie de Relatrios Tcnicos do Instituto de Cincias Matemticas e
de Computao Universidade de So Paulo, So Carlos, 18.
BARZILAY, R., ELHADAD, M. 1999. Using Lexical Chains for Text Summarization. In
Advances in Automatic Text Summarization, I. MANI, M.T. MAYBURY Eds. MIT
Press, Cambridge, 111-121.
BATAGELJ, V., ZAVERSNIK, M. 1999. Partitioning approach to visualization of large
networks. Proc. of the Graph Drawing: 7th International Symposium (GD99), LNCS
1731, 90-98.
BIESIADA, J., DUCH, W., KACHEL, A., MACZKA, K., PALUCHA, S. 2005. Feature
ranking methods based on information entropy. In Proceedings of the International
Conference on Research in Electrotechnology and Applied Informatics, Katowice,
Poland 2005.
BOHN, R.E., SHORT, J.E. 2009. How Much Information? 2009 Report on American
Consumers University of California, San Diego, 36.
Referncias Bibliogrficas 130
BRIN, S., PAGE, L. 1998. The anatomy of a large-scale hypertextual Web search
engine. In Computer Networks and ISDN Systems, 7.
CLAUSET, A., NEWMAN, M.E.J., MOORE, C. 2004. Finding community structure in
very large networks. Phys. Rev. E 70, 66-111.
COOPER, G., HERSKOVITS, E. 1992. A Bayesian Method for the Induction of
Probabilistic Networks from Data. Machine Learning 9, 309-347.
COSTA, L.F., DA ROCHA, L.E.C. 2006. A generalized approach to complex
networks. Eur. Phys. J. B 50, 237-242, cond-mat/0408076.
COSTA, L.F., KAISER, M., HILGETAG, C. 2006. Beyond the average: detecting
global singular nodes from local features in complex networks. Physics 0607272
COSTA, L.F., RODRIGUES, F.A., TRAVIESO, G., VILLAS BOAS, P.R. 2006.
Characterization of complex networks: A survey of measurements. In cond-
mat/0505185.
DEMSAR, J. 2006. Statistical Comparisons of Classifiers over Multiple Data Sets. J.
Mach. Learn. Res. 7, 1-30.
DIAS-DA-SILVA, B.C., MORAES, H.R.D., OLIVEIRA, M.F.D., HASEGAWA, R.,
AMORIM, D., PASSCHOALINO, C., NASCIMENTO, A.C. 2000. Construo de um
thesaurus eletrnico para o portugus do Brasil. In Proceedings of the V Encontro
para o processamento computacional da lngua portuguesa escrita e falada
(PROPOR 2000), Atibaia-SP2000, M.D.G.V. NUNES Ed., 1-10.
EBERHART, R., SHI, Y. 2007. Computation Intelligence: Concepts to
Implementations. Morgan Kaufman, New York.
EDMUNDSON, H.P. 1969. New methods in automatic extracting. Journal for
Computing Machinery 16, 264-285.
EFRON, B., HASTIE, T., JOHNSTONE, I.M., TIBSHIRANI., R. 2004. Least angle
regression. Annals of Statistics 32, 407-499.
FAYYAD, U., IRANI, K. 1993. Multi-interval discretization of continuous-valued
attributes for classification learning. In Proceedings of the IJCAI931993.
GALANIS, D., MALAKASIOTIS, P. 2008. AUEB at TAC 2008. In Proceedings of the
TAC - Text Analysis Conference, Maryland, USA2008.
GELBUKH, A., SIDOROV, G. 2001. 'Zipf and Heaps Laws' - Coefficients Depend on
Language. In Proceedings of the CICLing-2001 - Conference on Intelligent Text
Processing and Computational Linguistics, Mexico City2001 Springer-Verlag, 332
335.
HALL, A.M. 2000. Correlation-based Feature Selection for Discrete and Numeric
Class Machine Learning. In Proc. of 17th International Conference on Machine
Learning, P. LANGLEY Ed. Morgan Kaufmann, San Francisco, CA, 359-366.
HAYKIN, S. 1999. Neural Networks: A Comprohensive Foundation. Prentice-Hall.
HEARST, M.A. 1993. TextTiling: A Quantitative Approach to Discourse
Segmentation. Technical Report 93 University of California, Berkeley, 24p.
HERRERA, F., LOZANO, M., VERDEGAY, J.L. 1993. Genetic Algorithm Applications
to Fuzzy Logic Based Systems. In Proceedings of the 9th Polish-Italian and 5th
Polish-Finnish Symposium on Systems Analysis and Decision Support in Economics
and Technology, Warsaw1993, 125-134.
JOHN, G., LANGLEY, P. 1995. Estimating continuous distributions in Bayesian
classifiers. In Proc. of the 11th Conference on Uncertainty in Artificial Intelligence, P.
BESNARD, S. HANKS Eds., Quebec, Canada, 338-345.
JUNIOR, J.C., IMAMURA, C.Y.M., REZENDE., S.O. 2001. Avaliao de um
Algoritmo de Stemming para a Lngua Portuguesa. In Proceedings of the Proc. of the
2nd Congress of Logic Applied to Technology (LABTEC2001), So Paulo2001
Faculdade SENAC de Cincias Exatas e Tecnologia, 267-274.
KIANI-B, A., AKBARZADEH-T, M.R. 2006. Automatic Text Summarization Using:
Hybrid Fuzzy GA-GP. In Proceedings of the IEEE Congress on Evolutionary
Computation, Vancouver, Canada2006, G.G. YEN Ed. IEEE Press, 5465-5471.
KLEINBERG, J.M. 1999. Authoritative sources in hyperlinked environment. Journal of
the ACM 46, 604-632.
KLIR, G.J., YUAN, B. 1995. Fuzzy Sets and Fuzzy Logic Theory and Applications.
Pretince Hall, New Jersey.
KOHONEN, T. 1990. The self-organizing map. IEEE 78, 14.
KUPIEC, J., PETERSEN, J., CHEN, F. 1995. A trainable document summarizer. In
Proc. of the 18th ACM-SIGIR Conference on Research & Development in Information
Retrieval, E.A. FOX, P. INGWERSEN, R. FIDEL Eds. ACM, Seatlle, WA, USA, 68-
73.
LAROCCA NETO, J., FREITAS, A.A., KAESTNER, C.A.A. 2002. Automatic text
summarization using a machine learning approach. Proc. of 16th Brazilian
Symposium on Artificial Intelligence (SBIA02), Lecture Notes in Artificial Intelligence
2057, 205-215.
LAROCCA NETO, J., SANTOS, A.D., KAESTNER, C.A.A., FREITAS, A.A. 2000.
Document clustering and text summarization. In Proc. of the 4th Int. Conf. Practical
Applications of Knowledge Discovery and Data Mining, Manchester, UK, 4155.
LAROCCA NETO, J., SANTOS, A.D., KAESTNER, C.A.A., FREITAS, A.A. 2000.
Generating Text Summaries through the Relative Importance of Topics. In Lecture
Notes in Artificial Intelligence 1952 (Proc. of the 15th Brazilian Symposium on
Artificial Intelligence - SBIA'2000), M.C. MONARD, J.S. SICHMAN Eds. Springer-
Verlag, 300-309.
LEITE, D.S., RINO, L.H.M. 2006. Selecting a Feature Set to Summarize Texts in
Brazilian Portuguese. In Proceedings of the Advances in Artificial Intelligence.
Lecture Notes in Computer Science 4140 (Proc. of the International Joint Conference
IBERAMIA/SBIA'2006), Ribeiro Preto, SP, Brazil, October 23-27 2006, J.S.
SICHMAN, H. COELHO Eds. Springer, Berlin/Heidelberg, Germany 462-471.
LEITE, D.S., RINO, L.H.M. 2008. Combining Multiple Features for Automatic Text
Summarization through Machine Learning. In Proceedings of the Lecture Notes in
Artificial Intelligence 5190 (Proc. of the International Conference on Computational
Processing of Portuguese Language, PROPOR2008), Aveiro, Portugal, 8-10 Sept
2008, A. TEIXEIRA, V.L.S.D. LIMA, L.D. OLIVEIRA, P. QUARESMA Eds. Springer.
LEITE, D.S., RINO, L.H.M. 2009. A Genetic Fuzzy Automatic Text Summarizer. In:
VII Encontro Nacional de Inteligncia Artificial. In Proceedings of the VII Encontro
Nacional de Inteligncia Artificial - XXIX Congresso da Sociedade Brasileira de
Computao (CSBC 2009), Bento Gonalves, RS2009, A. VILLAVICENCIO Ed.
LEITE, D.S., RINO, L.H.M., PARDO, T.A.S., NUNES, M.G.V. 2007. Extractive
Automatic Summarization: Does more linguistic knowledge make a difference? In
Proceedings of the Workshop on TextGraphs-2: Graph-Based Algorithms for Natural
Language Processing (NAACL2007), Rochester, NY, USA, 26 April 2007, C.
BIEMANN, I. MATVEEVA, R. MIHALCEA, D. RADEV Eds. Association of
Computational Linguistics, 17-24.
LI, S., OUYANG, Y., WANG, W., SUN, B. 2007. Multi-Document Summarization
Using Support Vector Regression. In Proceedings of the Document Understanding
Conference, Rochester, NY, USA2007.
LIN, C., HOVY, E.H. 2003. Automatic Evaluation of Summaries Using N-gram Co-
occurrence Statistics. In Proc. of the Language Technology Conference (HLT-NAACL
2003), Edmonton, Canada.
LIU, A. 2004. The Effect of Oversampling and Undersampling on Classifying
Imbalanced Text Datasets University of Texas.
LIU, F., LIU, Y. 2008. Correlation between ROUGE and Human Evaluation of
Extractive Meeting Summaries. In Proceedings of the ACL-08:, Columbus, Ohio,
USA2008 Association for Computational Linguistics, 201-204.
LUHN, H. 1958. The automatic creation of literature abstracts. IBM Journal of
Research and Development 2, 159-165.
MANI, I. 2001. Automatic Summarization. John Benjamins Publishing Company,
Amsterdam.
MIHALCEA, R. 2005. Language Independent Extractive Summarization. In Proc. of
the 43th Annual Meeting of the Association for Computational Linguistics (ACL2005),
Ann Arbor, MI.
MILLER, G.A., BECKWITH, R., FELLBAUM, C., GROSS, D., MILLER, K. 1990.
Introduction to WordNet: An On-line Lexical Database. International Journal of
Lexicography 3, 235-244.
MITCHEL, T.M. 1997. Machine Learning. McGraw Hill.
MDOLO, M. 2003. SuPor: an Environment for Exploration of Extractive Methods for
Automatic Text Summarization for Portuguese (in Portuguese). MSc. Dissertation.
Departamento de Computao UFSCar, So Carlos, SP, Brasil.
NENKOVA, A., PASSONNEAU, R., MCKEOWN, K. 2007. The Pyramid Method:
Incorporating human content selection variation in summarization evaluation. ACM
Transactions on Speech and Language Processing (TSLP) 4.
NETO, J.L., ALEXANDRE, N., SANTOS, D., KAESTNER, C.A.A., FREITAS, A.A.,
NIEVOLA, J.C. 2000. A Trainable Algorithm for Summarizing News Stories. In
Proceedings of the 4 th European Conference on Principles and Practice of
Knowledge Discovery in Databases, Lyon, France2000.
ORR, T., ROSA, J.L., ANDRADE NETTO, M.L. 2006. SABio: An Automatic
Portuguese Text Summarizer Through Artificial Neural Networks in a More
Biologically Plausible Model. In Proceedings of the PROPOR, Itatiaia - RJ2006, R.V.
(EDS.) Ed. Springer-Verlag, 11-20.
PARDO, T.A.S., RINO, L.H.M. 2003. TeMrio: Um Corpus para Sumarizao
Automtica de Textos, So Carlos, 12p.
PARDO, T.A.S., RINO, L.H.M., NUNES, M.G.V. 2003. GistSumm: A Summarization
Tool Based on a New Extractive Method. In Proceedings of the Lecture Notes in
Artificial Intelligence 2721 (6th Workshop on Computational Processing of the
Portuguese Language - Written and Spoken - VI PROPOR2003), Universidade do
Algarve-FCHS, Faro, Portugal, 26-27 Junho 2003, N.J. MAMEDE, J. BAPTISTA, I.
TRANCOSO, M.G.V. NUNES Eds. Springer-Verlag Heidelberg, Germany, 210-218.
PARDO, T.A.S., RINO, L.H.M., NUNES, M.G.V 2003. NeuralSumm: Uma
Abordagem Conexionista para a Sumarizao Automtica de Textos. In Proceedings
of the Anais do IV Encontro Nacional de Inteligncia Artificial (ENIA2003), XXII
Congresso Nacional da Sociedade Brasileira de Computao, Campinas SP,
Agosto 2003.
PINGALI, P., R.K., VARMA, V. 2007. IIIT Hyderabad at DUC 2007. In Proceedings of
the Document Understanding Conference, Rochester, NY, USA2007.
PORTER, M.F. 1980. An Algorithm for Suffix Stripping. In Program, 130-137.
PRASAD, M., SOWMYA, A., KOCH, I. 2004. Efficient feature selection based on
independent component analysis. In Proceedings of the Intelligent Sensors, Sensor
Networks and Information Processing Conference2004.
PRATI, R.C. 2006. Novas abordagens em aprendizado de mquina para a gerao
de regras, classes desbalanceadas e ordenao de casos. In ICMC USP, So
Carlos.
QUINLAN, J.R. 1993. C4.5 Programs for machine learning. Morgan-Kaufman, San
Mateo.
RINO, L.H.M., PARDO, T.A.S, SILLA JR., C.N., KAESTNER, C.A.A., POMBO, M
2004. A Comparison of Automatic Summarization Systems for Brazilian Portuguese
Texts. In Proceedings of the Advances in Artificial Intelligence. Lecture Notes in
Computer Science, 3171 (XVII Brazilian Symposium on Artificial Intelligence -
SBIA'04), So Lus, Maranho, Brazil, September 29 - October 1 2004, S.L. A.L.C.
BAZZAN Ed. Springer-Verlag, Germany., 235-244.
SALTON, G., BUCKLEY, C. 1988. Term-Weighting Approaches in Automatic Text
Retrieval. Information Processing & Management 24, 513-523.
SALTON, G., SINGHAL, A., MITRA, M., BUCKLEY, C. 1997. Automatic Text
Structuring and Summarization. Information Processing & Management 33, 193-207.
SCHILDER, F., KONDADADI, R., LEIDNER, J.L., CONRAD, J.G. 2008. Thomson
Reuters at TAC 2008: Aggressive Filtering with FastSum for Update and Opinion
Summarization. In Proceedings of the TAC - Text Analysis Conference, Maryland,
USA2008.
SHANNON, C.E. 1948. A Mathematical Theory of Communication Bell System Tech.
J., 379423.
SPARCK JONES, K. 1997. Summarising: Where are we now? Where should we go?
In Proc. of the Intelligent Scalable Text Summarization Workshop, ACL/EACL97
Joint Conference, Madrid, Spain.
SPRCK JONES, K. 1999. Automatic summarizing: Factors and directions. In
Advances in Automatic Text Summarization, I.M. MANI, M. T Ed. MIT Press, 1-12.
SPRCK JONES, K. 2007. Sprck Jones, K. Information Processing and
Management 43, 1449-1481.
SPARCK JONES, K., GALLIERS, J.R. 1996. Evaluating Natural Language
Processing Systems. Lecture Notes in Artificial Intelligence 1083.
TRATZ, S., HOVY, E.H. 2008. Summarization Evaluation Using Transformed Basic
Elements. In Proceedings of Text Analytics Conference (TAC-08) NIST,
Gaithersburg, MD.
VAPNIK, V. 1995. The Nature of Statistical Learning Theory. Springer-Verlag.
VAPNIK, V.N. 1998. Statistical learning theory. John Wiley and Sons, New York.
WANG, L., MENDEL, J. 1992. Generating fuzzy rules by learning from examples.
IEEE Trans. on SMC 22, 414-427.
WATTS, D.J., STROGATZ, S.H. 1998. Collective dynamics of small-world networks.
Nature 393, 440442.
WITTEN, I.H., FRANK, E. 2005. Data Mining: Practical machine learning tools and
techniques. Morgan Kaufmann, San Francisco.
WONG, K.-F., WU, M., LI, W. 2008. Extractive Summarization Using Supervised and
Semi-Supervised Learning. In Proceedings of the 22nd International Conference on
Computational Linguistics (Coling 2008), Manchester, UK2008 Coling 2008
Organizing Committee, 985-992.
ZADROZNY, B., ELKAN, C. 2001. Obtaining calibrated probability estimates from
decision trees and naive Bayesian classifiers. In Proceedings of the Eighteenth
International Conference on Machine Learning 2001 Morgan Kaufmann, 609-616.
ZHANG, H., SU, J. 2004. Naive Bayesian Classifiers for Ranking. . In Proceedings of
the 15th European Conference on Machine Learning (ECML04), Pisa, Italy 2004
Springer-Verlag, 501-512.
ZHAO, Z., LIU, H. 2007. Searching for Interacting Features. In Proceedings of the
International Joint Conference on Artificial Intelligence (IJCAI)2007.
ZIPF, G.K. 1949. Human Behaviour and the Principle of Least-Effort. Addison-
Wesley.

Albert, R. e A. L . Bar absi (2002 ). "St atistical mech anics of co mplex netw orks. " Re v. Mod. Phy s. 74 : 4797 .
Antiqueir a, L. (2 007 ).Des env olvime ntod e t cnicas base adas em re des c ompl exas par a su mariz ao extr ativa de t extos. ICMC. So Ca rlos, USP. Disser ta o de Mes tr ad o.

Antiqueir a, L., O. N . Olivei ra Jr., et al. (200 9). "A Co mplex Netwo rkApp roach to Te xtSumma rizatio n." I nfo rmation Sci ences 179 (5): 58 4-5 99.
Balage Filho, P. P., T. A. S. Par do, et al . (2 006 ).Estr utur aT extu al e Multiplicid ade de T picosn a Sumariz ao Au tomtica: o Caso d o Sist ema GistSu mm. . Sri e de Relat rios T cnicos do I nsti tut o d e Cinci as Mate mticas e d e Co mput a o. SoC arlos , Unive rsidade de So Paulo :18 .
Barzilay, R. e M. Elhad ad (1999). Using Lexical Chains for Te xt Summa rizat io n. Advances i n Auto matic Tex t Summariz at io n. I. Mani e M. T. May bu ry. Ca mbri dge, MI TPre ss: 111- 121 .
Batagelj, V. e M. Z avers nik ( 199 9). "Partiti onin g ap pro acht o visu al izatio n ofl arg e network s." Pr oc. of the Gr aph Drawin g:7 th I nternatio nal Symposium( GD99 ), LNCS 1731 : 90-98 .
Biesiada, J .,W. Du ch, e t al. (20 05) . F eatu re ranki ng methods b ased on i nforma tion entr opy. Inte rna tional Conf ere nce onRes ear chin Elec t ro tech nol og y an d Applie d Inf or matics. Katowice , Poland.
Bohn, R. E. e J. E. S hort (2 009). How Muc h Inf ormatio n? 2009 R epo rt o n Ame rica n Cons umers. Sa n Dieg o, University ofCalif ornia: 36.
Bri n, S. e L.Pag e ( 1998 ). The ana tomy of a lar ge-s cale hype rtext ual We b search engi ne. C omp ute r Netw orks and ISDN Systems.30 : 7.
Clauset, A. ,M. E. J. New man ,et al. ( 200 4). "Fi nding commu nity structu re in very lar ge n etwo rks." Phys. Re v. E 70 : 66 -111.
Coope r, G. eE. He rskovit s (1 992 ). "A Bayesia n Metho d for th e In ductio n of Prob abili stic Ne tworks fro mDa ta. " Ma chine Le arni ng 9: 30 9-3 47.
Costa, L. F .e L . E. C. da Roc ha (20 06). "A g eneralize d appro ach to co mplex netw orks. " Eur . Phys. J . B50: 23 7-2 42, c ond -ma t/04080 76.
Costa, L. F .,M. Kaiser , et al. (200 6). "Beyo nd t heav era ge: dete cting glob al sing ular nod es f roml ocal f eatu res i nco mplex netw orks. " Physics 060 7272
Costa, L. F .,F . A. Rodrigu es, et al. (20 06) Cha racte rizati on of complex netwo rks: A survey of meas ure me nts. c ond -ma t/05 051 85 Vo lume, DOI:

Demsa r, J. (20 06). "Sta tistical Co mp ariso ns of Classifie rsov er Mul tiple Data Sets. " J. Mach. Le arn. Res. 7: 1 -30.
Dias-da -Silva, B. C. , H. R. d. Mora es, et al. (20 00) . Cons tru o d eu mth esau rus eletrnico para o po rtug us doBra sil. VEncon tro pa ra o pr ocessa men to c omp utacional d a lngua por tug uesa escrit a e falad a (PROPOR 200 0). M. d. G. V. Nune s. Atibai a-SP:1 -10 .
Eberha rt, R. e Y. Shi (20 07) . Co mput ati on Intelligenc e: Concepts toI mple me ntatio ns. New York, Mo rgan Kauf man .
Edmun dson, H. P. ( 196 9). "New met hods i n au tomatic extrac ting. "Jo urn al for Co mputi ng Machin ery 16( 2): 264 -28 5.
Efron, B., T.H astie, et al . (2 004 ). "Lea st a ngle reg ressio n." A nnals of Statistics 32 (2 ): 4 07- 499.
Fayya d, U. eK. Ir ani (199 3). Multi -inte rval discretizatio n ofc ontin uou s-val ued attri but es for classific ation l ear ning. IJCAI93.
Galanis, D . eP. Malakasiotis (20 08) . AUEB at TAC 200 8. TAC - Text An alysis Co nference . Maryla nd, USA.

Gelbuk h, A.e G. Sidorov (20 01). ' Zipf and Hea psLaw s' -Co efficients De pen d on Langua ge. CICLing -20 01 - Con fer ence on I ntelligent TextP roces sing and Comp utational Linguistics. Mexico Cit y, Spri nger-Ve rlag. 200 4: 332 33 5.
Hall, A. M. (20 00) . Cor rela tion-bas ed Feat ure Selectio n for Discr ete and N ume ric Class Mac hi ne Lea rnin g. Pr oc. of 17t h I nt ern ational Co nfer ence on Mac hine Lea rning, San Francisco , CA, Morgan Ka ufmann.
Haykin, S. (199 9). Neu ral Networks: A Compro hensiv e F oun datio n, Pr entice-Hall.
Hearst, M. A. (19 93 ).T extTili ng: A Q uanti tative Appr oach to Disc ours e Seg ment atio n. T echnical Rep ort 93. B erkel ey, Uni v ersity ofCalif ornia: 24p.
Herre ra, F., M. Loza no, et al. (19 93) . Genetic Algorith mApplic ations to Fuzzy Lo gic Based Syste ms. 9th Polish -Italia n a nd 5t h Pol ish -Fin nish Sy mposi um on Syste ms An alysis an d Decisi on Suppor t in Eco nomic s an d T echn ology . Wars aw: 125 -13 4.

John, G. e P. Lan gley (19 95). Estimati ng c ontin uous distributio ns inBay esian classifi e rs. Pr oc. o f the 11t h Co nfer ence onU nce rtai nty in Arti fici al Int elligen ce,Q ueb ec,Ca nad a.
Junior , J. C., C. Y. M.Imamu ra, et al . (2001 ). Avalia o de u mAlgoritmo de Stemming par a a Ln gua Po rtu guesa. Pro c. of the 2nd Cong ress of L ogi c Ap pliedt o T ech nology (LABTEC2001 ). So Paulo , Faculda deSENACde Cincia s Exatas e Tecnologia . II : 26 7-2 74.

Kiani-B, A. e M. R. Akbarz ade h- T (2 006). Aut omatic T ext Su mma rizati on Usin g: Hyb rid Fuzzy GA-GP. I EEE Congre ss on Evolutionar y Comput ation. G. G . Yen. V ancouver , Can ada, IEEE Press: 546 5-5 471 .
Kleinber g, J. M. ( 199 9). "Aut horit ative sourc es in hype rlinke d en vironme nt." Jou rnal of t he ACM46( 5): 604 -63 2.
Kli r, G. J. e B. Yua n (1995 ). Fuzzy Se tsan d Fuzzy Logic T heo ry a nd Appl ic ation s.New J ersey, Pre ti nce H all.
Kohone n, T.( 199 0). "T he sel f-o rga nizing map ." IEEE 78 (9): 1 4.
Kupiec, J., J. Pet ersen, et al. (19 95). A trai nable doc ume nt su mmarize r. Pr oc. of the 18t h ACM-SIGIR Co nfe rence on Rese arch & Develo pme nt in Info rmation Retri eval, Se atlle, WA, USA, ACM.

Laroc ca Neto, J., A. A. F reita s, et al. ( 200 2). "Aut o matic text summa rizatio nusin g a machi ne learni ng app roac h. " P roc. of16 th Br azilian Symposi umo n Artifici al Int elligenc e (SBIA02 ), Lectu re Notes in Artificial I ntellig ence 20 57: 2 05- 215 .
Laroc ca Neto, J., A. D. San tos, et al. (2000 ). Docume nt cl us teri ng and t ext su mmariza tion. P roc. of th e4t h Int . Con f. Practical Appl ic ations of Kn owled ge Disco very and Data Mini ng, Manc hest er,UK.

Laroc ca Neto, J., A. D. San tos, et al. (2000 ). Gener atin g Text Summa ries t hro ugh theR elative Import ance of Topics . Le ctur e Not es in Ar tificial I ntelli ge nce 195 2 (Pr oc.of the 15t h Brazili a n Symposiu mo nArtificial Intellig ence - SBIA' 200 0), Spring er -Verla g. Lei te, D . S. e L. H. M.Rin o (2 006 ). Selec ting a Featu re Set to Su mmarize Texts in Brazilian Portu gues e. Adv ances in Arti fici al Int elligenc e. Lectu re No tes in Compute rScien ce4 140 (Proc . of theI nte rnational J ointC onfe rence IBERAMIA/SBIA' 200 6). J . S. Sichman e H. Co elho. Ribeir o Pr eto, SP, B razi l, Sp ringer, Be rlin/Hei delberg, Ger man y Ad van ces in Ar t ific ialI nt elli gence, Le ct ur e No tes in C omp uter Sci en ce, 4140 : 4 62- 471.
Lei te, D . S. e L. H. M.Rin o (2 008 ). Co mbini ng Multiple F eatu res f or Au tomatic T ext Su mmarizati on t hrough Machine Learnin g. L ectur e Notes in A rtif icial I ntel lige nce 519 0 (Pr oc. o f the I nt ern ational Conf er ence onC omp utatio nal Processin gof Port ugu ese L ang uag e, PROPOR2 008 ). A. Teixeir a, V. L. S.d. Lima,L. d. Oliveira e P. Quar esma . Aveir o, Por tugal, Sprin ger . 51 90

Lei te, D . S. e L. H. M.Rin o (2 009 ). A Genetic Fuzzy Automatic Text Summariz er. In:VII Encontro N acion al de Inteli gncia Artificial . VII Encontr o Nacio nal d eIn telig ncia Arti ficial - XXIXCo ngr esso da Soci eda deBra sileira de C omputa o (CSBC 2009 ). A. Villavic encio. Bento Gon alves, RS. Lei te, D . S.,L. H. M. Rino, et al . (2 007 ).Extr active Auto matic Su mmarizati on: D oes mor e ling uistic kn owled ge make a differe nce? Works hop on TextGra phs -2: G rap h-Bas ed Al go rith msfo r Nat ural Lan guage Pr ocessin g (NAACL 2007). C. Biema nn, I. Matvee va, R. Mihalcea e D. Ra dev.R och ester , NY, USA, Associati on of Co mputation al Lin guistics: 17 -2 4.

Li,S., Y. Ouyang , et al. ( 200 7). Multi -Docu men t Summarization Using S upport Vec tor R egr ession . Docume nt Underst andi ng Co nferenc e. Roc hest er, NY, USA.
Lin, C. e E. H. Hov y (2003 ). Aut oma tic Evalu ation of Su mma ries Usi ng N- gramCo -occ urr ence Statistics. Proc. of t he L ang uag e T echn ologyC onf erence ( HLT-NAACL20 03) , Edmonto n,Ca nad a.

Liu, A. ( 200 4). Th e Effect of Overs ampli n g a nd Un ders ampling on Classi fying I mb alanc ed Text D atasets, Univ ersity of Texas . Mast er s t hesi s. Liu, F . e Y. Liu ( 200 8). C orr elatio n b etwee n ROUGE and Huma n Evalu ation of Ext ractive Me eting Summari es. ACL- 08:. Colu mbus, Ohio , USA, Associati on f or Co mp utatio nal Li nguis tics: 2 01- 204 .
Luhn, H. ( 195 8). "T hea uto mat ic c rea tion of lite ratu re abstracts. " IBM Jou rnal of Res earc h a ndDev elopmen t 2: 159 -16 5.

Mani, I. ( 2001 ). Aut omatic Summa rization. Amsterd am, Joh n Benjamins Publishin g Compan y. Mihalce a, R. (20 05) . La ngu age Inde penden t Extrac tive Summa rizati on. Pr oc. o f th e 43t h Ann ual Meeting o f the Association f or Comp utational Li ngui s tics (ACL 200 5), An n Arb or, MI.

Mil ler, G. A.,R. Be ckwith, et al . (1 990 )." Intr oduction t o Wo rdNet : An O n-line Lexic al Data bas e." I nte rnati onal J ou rnal of Le xicog rap hy 3( 4): 235 -24 4. Mit chel, T. M. (199 7). Mac hine Lea rnin g, Mc Graw Hill.

Mdol o, M. (2 003 ). SuPo r: a nEnvir onment for Explora tion of Extr active Methods for Auto matic Text Summariz ation for Portu gues e(i n Port ugu ese) .MSc. Dissert ation .Dep art ame nto deCo mp ut a o. So Carl os,SP, Brasi l, UFSCar.
Nenkova , A. , R. Pa sson neau ,et al. ( 2007). "T hePyr amid Me tho d:Inc orp orating human c ontent sel ection vari ati on in su mmarizati on e valuation. " ACM Tr ansac tions onSp eech and La ngua ge Processi ng( TSLP) 4(2 ). Neto, J. L., N. Alexandre , et al . ( 200 0). A Trai nabl e Algorithm for Summarizing News Stories . 4t h Eur ope an Co nfe renc e on Principl es an d Pra ctice of Knowledge Discove ry in Data bases. Lyo n, Fra nce.

Orr, T. , J. L. Rosa , et al. ( 2006). SABio: An A utomatic Portug uese Te xt Summa rizer Th rou ghArti ficial Ne ural Networ ks i n a Mo reBiol ogically Pla usible Mod el. PROPOR. R . V. ( eds.) . It a tiaia - RJ, Sp ringer-Ve rlag. LNAI 3960: 11- 20. Pardo, T. A.S. e L. H. M. Rino (20 03) . TeM rio:U mCo rpus pa ra Su mariz ao Automtica de Text os.S o Carlos: 12p.

Pardo, T. A.S., L. H. M. Ri no, et al. (2003) . GistSu mm: ASummari z ation Tool Base don a NewExt racti v e Method. L ecture No tes i n Artificial I ntellig ence 27 21 ( 6th W orksh op on Co mputatio nal Pr ocessing of the Po rtu guese La ngu age - Written and Spoke n - VI PR OPOR200 3). N . J. Mamede , J. Bap tista, I. T ran coso e M. G. V. N unes . Unive rsida ded o Algarve- FCHS, Far o, Por tug al, Spri nge r-Verl ag Hei delb erg, Ge rma ny: 210 -218. Pardo, T. A.S., Rino, L.H. M., Nu nes, M.G.V (20 03) . Neu ralSu mm:U ma Ab ord age mCo nexio nista par aa Su mariza o Auto mtic ade Tex t os. An aisd o IV Enco ntro Nacio nal de Int eligncia Artifici al (ENIA20 03) , XXII Con gre sso Nacional daSoci edade Br asi leira de Computao. C ampi nas SP.
Pingali, P., R.K., et al. (2 007 ).II IT Hy der aba d at DUC 20 07. Do cument U ndersta nding Conf erence. R oche ster , NY, USA.

Porter , M. F. (19 80) . An Algo ri th mfo r Suffix St rippin g. Pr ogr am. 14: 130 -137. Prasad, M., A. Sowmya, et al.( 200 4). Effici ent feat ure sel ecti on b ased on i nde pen dent compon ent anal ysis. Int elligent Senso rs, Sensor Netwo rks a nd I nfo rmati on Pr ocessin g Co nfer ence .

Prati, R. C. (2 006 ). Nov as ab or dage ns ema pre ndiza do de mqui na p ara a gera o de r egr as, clas sesd esbal ance adas eo rde na o d e cas os. IC MC. So Carlo s, USP. PhD Th esis . Quinlan , J. R. (19 93) .C4. 5 Progra ms for machine lea rnin g. San Mateo, Morga n-Kaufma n.

Rino, L. H. M. , Par do, T.A.S, Silla Jr ., C.N., Kaest ner, C.A.A., Pombo, M( 200 4). A Comp arison of Automatic Su mmarization Syst ems f or B razilian Portu gues e Texts. Advanc esin Ar tificial I ntellige nce. Lect ure Not es in Co mpu ter Scie nce, 317 1 (XVIIB razilianSy mpo sium on Artificial In t ellige nce - SBIA' 04). S. L. A.L.C . Bazza n. So Lus , Mara nh o,Brazil, Sprin ger -Verla g, G ermany. : 235- 244.
Salton, G . eC. B uckley (19 88). " Ter m-Wei ghtin gApp roaches in Auto matic Text Retrieval. " Infor matio nProc essing & Ma nag eme nt2 4(5 ): 513- 523. Salton, G ., A. Sing hal , e t al. (19 97) . "Aut omatic Text Str uctu ring and Summariz ation." I nfor mat i on Pr ocessin g & Mana gement 33( 2): 193 -207.

Schilder, F.,R . Kond ada di, et al. (200 8). Th oms on Re uters at TAC2 008: A ggr essive Filteri ngwit h F astSum for Upd ate and Opinion Summa rizatio n.TAC - Text An alysis Co nference . Maryla nd, USA. Shanno n, C.E. (19 48) . A Ma the matic alTh eo ry of C ommunic ation, Bell Syst e mT ech. J .: 3 79423 .

Sparck J ones, K. (1 997 ). Su mma rising: Whe re are w e now? Whe res houl d we g o? Pr oc. o f the Int elligen t Scalabl e T ext Su mma rizati on Worksh op, ACL/EACL 97 Joi nt Co nfer enc e, Madri d, Spain. Sprck J ones, K. (1 999 ). Aut oma tic su mma rizing: Fa ctor san d dir ectio ns. Adva nces in Auto matic Tex t Summarization . I. M. Mani, M. T, MITP ress: 1- 12.

Sprck J ones, K. (2 007 ). "S prck Jon es, K." Inf ormation Proce ssing and Manag ement 4 3(6 ): 1449 -14 81.
Sparck J ones, K. e J. R. Galliers (199 6). "Evalu ating Natural L ang uag e Processing Syste ms." Lect ure Notes i n Artifici al Int elligence 10 83. Tratz , S. e E. H . Hovy (20 08) .Summa ri zatio n Evalua tion Usi ng Transfo rmed Basic Ele men ts.Pro ceedings of T ext An alyt ics Co nfer enc e ( TAC-08 ), Gaithe rsburg, MD.,N IST.

Vapnik, V. (199 5). The Nat ure of Sta tisti cal L ear ning Th eory , Springe r-Verl ag.
Vapnik, V. N. (19 98 ).Statistic al lea rnin gth eory . New Yo rk, Jo hn Wiley an d Sons.

Wang, L. e J. Me ndel (1 992 ). "Gen erating f uzzy rules by lea rnin g from examples. " IEEE Tr ans. on S MC22: 41 4-4 27. Watts, D. J .e S. H. Stro gatz (19 98). "Coll ective dyna micso f small-worl d networks ."N atur e 393: 4 40 442 .

Wi tten, I. H.e E. Fr ank (20 05). Data Mini ng: Pr actical machine le arni ng t oolsa nd t echni ques .San Fr ancisco , Morga n Kaufma nn.
Wong, K. -F., M. W u, et al. ( 2008). Ext ractiv e Summa rizati o n Using Supe rvised an d Semi -Supervised Learni ng. 22nd Int ern ation alConf ere nce on Comp utational Li nguis tics (Coli ng 2 008). Manc heste r, UK, C oling 200 8 Or ganizi ng Co mmitt ee: 98 5-9 92. Zadrozny , B. e C. Elkan (200 1). Obt aini ng calibr ate d pr oba bility est i mat es from decisio n tr ees and naiveB ayesian classifiers. Eig htee nth Inte rna tional C onf ere nce on Machin e Lear ning, Mo rga n Kauf mann: 609 -616.

Zhan g, H. eJ. Su (2 004 ). Naive Bayesian Classifiers for Rankin g. . 15th Euro pea n Con fer ence on Machine Learning (ECML04 ). Pisa, I taly,Sp ring er-Ve rlag .L ect ur e No tes inC omp uter Scien ce N o 3 201 : 50 1-512.
Zhao , Z . e H. Liu (20 07). Searching for Inte racti ng Feat ures. Int ernatio nal Joi nt Co nfer ence onA rtificial I ntellige nce (IJCAI).

Zipf, G. K. ( 194 9). H uma n Behaviou r and th e Pri nci ple of Le ast-Effort, A ddison -Wesley.

Apndice A
EXEMPLO DE UTILIZAO DO
MODELO DE CLASSIFICAO BAYESIANA
COM CARACTERSTICAS BINRIAS
Como exemplo de aplicao da frmula de Bayes para SA, considere o
pequeno conjunto de treinamento da tabela seguinte. Cada linha dessa tabela
representa uma sentena processada do corpus de treinamento. Considere tambm
uma taxa de compresso de 10% e um conjunto de trs caractersticas em anlise.
Algumas dessas tuplas foram selecionadas de um conjunto real de treinamento
obtido para o corpus TeMrio-2003.

C
1
C
2
C
3
Presena no extrato
False False False False
False True False False
False False True True
True False False True
True True False False
False True False True

Suponha que, aps a aplicao dos trs mtodos ao texto, uma certa
sentena obteve os valores True, False e True para as caractersticas C
1
, C
2
, e C
3
,
respectivamente. O clculo da probabilidade dessa sentena pertencer ao extrato
mostrado a seguir.
Apndices 139

1) Clculo de ) ( E s P

10
1
100
90 100
) ( =
= E s P

2) Clculo de ) | ( E s C P
j

= = ) | (
1
E s True C P 1/3

= = ) | (
2
E s False C P 2/3

= = ) | (
3
E s True C P 1/3

3) Clculo de ) (
j
C P

= = ) (
2
True O P 2/8 = 1/4

= = ) (
3
False O P 3/8

= = ) (
5
True O P 1/8

4) Clculo de ) , , ( | ) ((
3 2 1
True C False C True C E s P = = =

% 21 , 63
810
512
8
1
8
3
4
1
10
1
3
1
3
2
3
1
) , , ( | ) ((
3 2 1
=

|
\
|
|
\
|

= = = = True O False O True O E s P

Assim, a probabilidade dessa sentena pertencer ao extrato de 63,21%.

Apndice B
EXEMPLOS DE CLCULO DAS MEDIDAS
INFORMATION GAIN E QUI-QUADRADO
Como exemplo de uso da medida Information Gain e Qui-quadrado, considere
o seguinte conjunto de treino, considerando-se 11 caractersticas hipotticas:

C
1
C
2
C
3
C
4
C
5
C
6
C
7
C
8
C
9
C
10
C
11
Presena no extrato
False False False True False False False False False False False False
False False True True False False False False False False False False
False False False True True True True False False False False True
False False True True False False True False True False False False
False True False True False True False False True False True True
False True True True False False False False False False False False
False False True False False True False False False False False True
False False True True False False False False False False False False
-2003.
. Note que a caracterstica C
1
parece pouco informativa, pois o seu valor para
todas as tuplas False, e a classe (presena no extrato) ora False, ora True. O
contrrio parece ocorrer com a caracterstica C
6
: em todas as tuplas em que ela
assume o valor True, a classe tambm True. E em todas as tuplas em que ela
assume o valor False, a classe tambm False. Assim, intuitivamente, a
caracterstica C
6
parece ser muito mais relevante que a C
1
. O clculo do IG
mostrado a seguir:

Para C
1

) , (Pr ) (Pr ) , (Pr
1 1
C ato esencaExtr H ato esencaExtr H C ato esencaExtr IG =
Apndices 141

1) Clculo da entropia da classe:
8 / 3 ) (Pr = = true ato esencaExtr P
8 / 5 ) (Pr = = false ato esencaExtr P
95 . 0
8
5
log
8
5
8
3
log
8
3
) (Pr
2 2
= |
\
|
|
\
|
= ato esencaExtr H bit

2) Clculo da entropia condicional
1 ) (
1
= = false C P
0 ) (
1
= = true C P
8
5
) | (Pr
1
= = = false C false ato esencaExtr P
8
3
) | (Pr
1
= = = false C true ato esencaExtr P

0 ) | (Pr
1
= = = true C true ato esencaExtr P

95 . 0
8
5
log
8
5
8
3
log
8
3
1 ) , (Pr
2 2 1
=
|
|
\
|
|
|
\
|
|
\
|
+ |
\
|
= C ato esencaExtr H bit

3) Clculo do ganho de informao

= ) , (Pr
1
C ato esencaExtr IG 0.95 0.95 = 0 bit

Como era esperado, no h ganho de informao em se saber o valor do
atributo C
1
. A incerteza (H) sobre o valor que a classe assume a mesma depois de
se saber o valor desse atributo.

Para C
6

) , (Pr ) (Pr ) , (Pr
6 6
C ato esencaExtr H ato esencaExtr H C ato esencaExtr IG =

0 ) | (Pr
1
= = = true C false ato esencaExtr P
Apndices 142

1) Clculo da entropia da classe:
8 / 3 ) (Pr = = true ato esencaExtr P
8 / 5 ) (Pr = = false ato esencaExtr P
95 . 0
8
5
log
8
5
8
3
log
8
3
) (Pr
2 2
= |
\
|
|
\
|
= ato esencaExtr H bit

2) Clculo da entropia condicional
8
5
) (
6
= = false C P
8
3
) (
6
= = true C P
1 ) | (Pr
6
= = = false C false ato esencaExtr P
0 ) | (Pr
6
= = = false C true ato esencaExtr P
0 ) | (Pr
6
= = = true C false ato esencaExtr P
1 ) | (Pr
6
= = = true C true ato esencaExtr P
( ) ( ) 0 0 0 1
8
3
0 0 1
8
5
) , (Pr
6
= |
\
|
+ + + = C ato esencaExtr H bits

3) Clculo do ganho de informao

= ) , (Pr
1
C ato esencaExtr IG 0.95 0 = 0.95 bits

Neste caso, nota-se que a caracterstica C
6
tem o mximo ganho de
informao possvel e a incerteza drasticamente reduzida quando ela
considerada. Com certeza, essa caracterstica deveria ser selecionada para o
processo de aprendizado de mquina.

A seguir, exemplifica-se o clculo do qui-quadrado. Inicialmente, constri-se a
seguinte tabela, que sintetiza os valores necessrios.

Apndices 143

Caracterstica
C
6

Presena no extrato
(classe)
True False
Total
True 3 0 3
False 0 5 5
Total 3 5 8

Aplica-se, ento, a estatstica:

1) Clculo das frequncias esperadas

8
9
8
3 3
11
=
= E

8
15
8
3 5
21
=
= E

8
15
8
3 5
12
=
= E

8
25
8
5 5
22
=
= E

2) Clculo do
2

( ) ( ) ( ) ( )
8
8
25
8
25
5
8
15
8
15
0
8
15
8
15
0
8
9
8
9
3
2 2 2 2
2
=
=

Apndice C
ANLISE DE SIGNIFICNCIA ESTATSTICA NA
COMPARAO ENTRE SISTEMAS DE
SUMARIZAO AUTOMTICA
Para a comparao e a anlise dos resultados de sistemas de sumarizao
automtica pode ser til a verificao de que as diferenas encontradas nos
resultados so estatisticamente significantes. Em outras palavras, busca-se provar
que as diferenas nos resultados no se devem meramente ao acaso. Em
estatstica, isso equivale a aplicar um teste de hipteses para verificar se as mdias
indicadas pelas amostras (resultados dos sistemas, no caso) so iguais ou no.
O teste para pares de sumarizadores permite analisar a significncia
estatstica no desempenho de dois sumarizadores. Suponha que se tenha utilizado
quatro sumarizadores num dado experimento (S1, S2, S3, S4). Os possveis pares a
serem analisados com o teste estatstico so: S1S2, S1S3, S1S4, S2S3, S2S4 e
S3S4).

Na anlise de um par de sumarizadores, tm-se duas hipteses, ento:

H0: a hiptese nula, ou seja, a que se quer rejeitar: As diferenas entre os
dois sistemas no so significativas.
H1: As diferenas entre os sistemas so significativas.

O mtodo t-student emparelhado (matched-pair t-student test) o mais usado
para teste de significncia estatstica entre pares de modelos, que em nosso caso
Apndices 145
so sumarizadores. O emparelhamento refere-se ao fato de que ambos os
sumarizadores trabalham exatamente com os mesmos dados, ou seja, cada texto
sumarizado por ambos. O teste tambm recomendado, de maneira geral, para a
avaliao de algoritmos de aprendizagem no campo do Aprendizado de Mquina,
conforme aponta Mitchel (1997).
No contexto da avaliao de sumrios (ou extratos) automticos, as
premissas do teste t-student emparelhado so:

i) O teste s pode ser aplicado para uma nica mtrica de avaliao de
sumrios por vez. Por exemplo, se num experimento utilizou-se a medida Recall
ROUGE-1 e ROUGE-2, sero necessrios dois testes. No possvel realizar o
teste para vrias mtricas simultaneamente. Cada teste foca em apenas uma
mtrica de avaliao de sumrios. Vale lembrar que o resultado do teste pode ser
significativo considerando uma mtrica de avaliao de sumrios e no significativo
se considerada uma outra mtrica.

ii) Assume-se uma distribuio normal da populao. Isso equivale ao
seguinte: Seja X a varivel aleatria que representa a medida de avaliao (por
exemplo, ROUGE-1) de todos os sumrios possveis de serem produzidos por um
sistema de sumarizao, ou seja, de toda a populao de sumrios. Ento, X segue
uma distribuio normal. Isso pode ser verificado pelo teste de Shapiro-Wilk que
verifica se os dados seguem uma distribuio normal.
Entretanto, quando o tamanho da amostra for considerado grande (n > 30), o
Teorema Central do Limite garante que as mdias amostrais sero
aproximadamente normalmente distribudas, e tendero a uma distribuio normal
medida que o tamanho de amostra crescer. Ento pode-se ter uma varivel original
com uma distribuio muito diferente da Normal, mas se tomarmos vrias amostras
grandes desta distribuio, e ento fizermos um histograma das mdias amostrais, a
forma se parecer como uma curva Normal. Nessa situao, o t-teste ainda produz
resultados confiveis (Mitchel 1997) e pode-se ignorar o teste de normalidade de
Shapiro-Wilk.
A frmula do teste t-student a seguinte:

Apndices 146
( )
=

=
n
i
i i
B B A A
n n
B A t
1
2
) ( ) (
) 1 (
) (
em que:
n o tamanho da amostra, ou o nmero de pares de sumrios automticos
gerados pelos sistemas A e B;
(n 1) o termo que recebe o nome especial de grau de liberdade do
modelo;
A e B so as mdias das medidas de avaliao dos sumrios para os
sistemas A e B, respectivamente;

i
A e
i
B so as medidas de avaliao do sumrio i, dos sistemas A e B,
respectivamente.

Na aplicao do teste, pode-se proceder de duas formas: ou define-se
previamente um nvel de significncia desejado para a tarefa sob teste (Caso I) ou
busca-se um valor que indica a probabilidade de significncia estatstica, o chamado
p-valor (Caso II).

Caso I. Define-se um nvel de significncia estatstica, calcula-se o valor t
usando a frmula (I) e compara-se com o valor crtico de t apresentado na tabela
seguinte. O uso de uma tabela de valores crticos para t usual em estatstica para
evitar o clculo integral envolvido nas frmulas mais gerais. Assim, determina-se o
valor crtico (clulas destacadas) buscando-se a linha cujo grau de liberdade n 1
e a coluna for o nvel de significncia estabelecido. Geralmente, essas tabelas, que
so trazidas nos livros de Estatstica, no so completas. Por isso, pode ocorrer de
no se encontrar o valor de t crtico mais adequado. Por exemplo, para n = 9 no
temos t crtico tabelado. Nessa situao, pode-se optar por fazer uma interpolao
entre os t crticos apresentados para os graus de liberdade 5 e 10, presentes na
tabela, ou adotar a soluo analtica do problema, explorada no Caso II.
Se o valor de t calculado pela frmula do teste for maior que o valor crtico
encontrado, ento as diferenas so estatisticamente significantes e a hiptese nula
rejeitada. Frequentemente, o valor = 0,05 utilizado para a anlise de
Apndices 147
significncia, mas outros valores menos comuns para podem ser usados, como
mostra a tabela seguinte:

Nvel de Significncia ()
Grau de
liberdade
n-1
0,1 0,05 0,025 0,005
1 3,07768 6,31375 1,27062 6,36567
2 1,88562 2,91999 4,30265 9,92484
3 1,63774 2,35336 3,18245 5,84091
4 1,53321 2,13185 2,77645 4,60409
5 1,47588 2,01505 2,57058 4,03214
10 1,37218 1,81246 2,22814 3,16927
30 1,31042 1,69726 2,04227 2,75000
100 1,29007 1,66023 1,98397 2,62589
1,28156 1,64487 1,95999 2,57588

Caso II. Em vez de se utilizar valores tabelados para verificar se h
significncia estatstica, calcula-se diretamente um nmero que indica a
probabilidade de significncia, o chamado p-valor, pela seguinte frmula em que B
indica a funo Beta do clculo integral. Quanto mais prximo de 0 for o p-valor,
maior a probabilidade de significncia.

dx
n
x
n
n
valor p
n
t
t
2
2
1
1
2
1
,
2
1
1
1

|
|
\
|
+
|
\
|

=

( )dt t t y x B
t
y x

=
0
1 1
) 1 ( ) , (

Apndices 148
A frmula do p-valor incorporada a vrios pacotes estatsticos e, assim,
tambm no Microsoft Excel, sendo de uso bastante frequente para indicar o nvel
para o qual as diferenas entre os sistemas avaliados so significantes.

Exemplo numrico

Dados os resultados de avaliao de dois sistemas extrativos para um corpus
de teste com 3 textos-fonte, mostrados na tabela a seguir, verifica-se se as
diferenas so significativas num nvel de significncia de 0,05 (5%), segundo o
Caso I. Por fins didticos, o tamanho da amostra pequeno (3 extratos) e no segue
uma distribuio normal. Dessa forma, no deveramos confiar num teste t quando
apenas 3 extratos forem produzidos e no seja dada nenhuma evidncia que a
distribuio segue uma distribuio normal.

Recall ROUGE-1
Extrato
Sistema A Sistema B
1 0,59 0,39
2 0,58 0,44
3 0,57 0,45

Para:

n = 3 (nmero de extratos)
n 1 = 2 (graus de liberdade)
A = 0,5800
B= 0,4266

o valor t calculado pela frmula do teste t = 6,3790.

2
2
2
)) 4266 , 0 45 , 0 ( ) 5800 , 0 57 , 0 ((
)) 4266 , 0 44 , 0 ( ) 5800 , 0 58 , 0 ((
)) 4266 , 0 39 , 0 ( ) 5800 , 0 59 , 0 ((
) 1 3 ( 3
) 4266 , 0 5800 , 0 (

+
+

= t

Apndices 149
Buscando o valor crtico na tabela da distribuio t, v-se que ele menor que
o valor encontrado (2,9200 < 6,3790), ento se rejeita a hiptese nula e conclui-se
que as diferenas so estatisticamente significantes.
Pode-se tambm calcular o p-valor (Caso II). Com o auxlio da funo
TESTET do Microsoft Excel, obtemos o p-valor 0,02370.

Apndice D
COMPARAO ENTRE CARACTERSTICAS DO
SUPOR-2 E DE REDES COMPLEXAS POR
MTRICAS DE FEATURE SELECTION
Nome da Caracterstica Fonte Information Gain Qui-quadrado Gain-Ratio Mdia
Cadeias Lexicais (Diviso em dos tpicos
pelos pargrafos)
SuPor-2 0.0207 88.7588 0.0176 0.5658
Cadeias Lexicais (Diviso em tpicos usando
TextTiling)
SuPor-2 0.0142 61.5379 0.0161 0.4320
Tamanho da sentena SuPor-2 0.0312 125.9432 0.0208 0.7757
Nomes prprios SuPor-2 0.0088 36.9571 0.0109 0.2753
Posio SuPor-2 0.0246 104.2210 0.0100 0.5549
Frequncia das Palavras (pr-processamento
usando stemming)
SuPor-2 0.0252 97.8700 0.0178 0.6284
Frequncia das Palavras (pr-processamento
usando quadrigramas)
SuPor-2 0.0335 133.0897 0.0316 0.9258
Mapa de Relacionamentos (pr-
processamento usando stemming)
SuPor-2 0.0072 29.0575 0.0041 0.1712
Mapa de Relacionamento (pr-processamento
SuPor-2 0.0020 8.3579 0.0013 0.0500
Importncia dos Tpicos (pr-processamento
usando stemming)
SuPor-2 0.0138 57.5941 0.0160 0.4191
Importncia dos Tpicos (pr-processamento
SuPor-2 0.0142 59.7611 0.0178 0.4465
Degree RC 0.0237 94.1983 0.0152 0.5793
Degree (variao com ponderao) RC 0.0259 107.2528 0.0185 0.6626
Clustering Coefficient RC 0.0260 103.4627 0.0176 0.6454
Clustering Coefficient (variao com
ponderao)
RC 0.0214 88.2064 0.0143 0.5369
Minimal Paths RC 0.0211 88.8322 0.0255 0.6527
Minimal Paths (variao pesos
complementares)
RC 0.0243 102.8557 0.0189 0.6424
Minimal Paths (variao pesos inversos) RC 0.0215 89.7305 0.0150 0.5485
Locality Index RC 0.0372 151.7118 0.0206 0.8841
Locality Index (modificada) RC 0.0149 56.4646 0.0209 0.4785
Matching Index RC 0.0103 38.6329 0.0172 0.3584
Apndices 151
Dilation (nvel 2) RC 0.0096 35.2634 0.0199 0.3733
Dilation (nvel 2, acumulativa) RC 0 0 0 0
Dilation (nvel 3) RC 0.0156 59.6082 0.0199 0.4808
Dilation (nvel 3, acumulativa) RC 0.0107 40.2246 0.0177 0.3711
Dilation (nvel 2, ponderada) RC 0.0098 36.0488 0.0203 0.3809
Dilation (nvel 2, ponderada, acumulativa) RC 0 0 0 0
Dilation (nvel 3, ponderada) RC 0.0316 127.7179 0.0233 0.8097
Dilation (nvel 3, ponderada, acumulativa) RC 0.0061 26.8536 0.0225 0.3508
Hubs (ordenado pelo grau) RC 0.0243 99.0859 0.0189 0.6352
Hubs (ordenado pela localidade) RC 0.0108 39.8245 0.0207 0.4026
Hubs (ordenado pela localidade e com corte
de grau)
RC 0.0234 96.4134 0.0243 0.6777
K-Cores (ordernado pela localidade) RC 0.0255 102.1496 0.0161 0.6222
K-Cores (ordernado pelo grau) RC 0.0107 39.7669 0.0196 0.3895
W-Cuts (ordernado pela localidade) RC 0.0109 40.4415 0.0202 0.3990
W-Cuts (ordenado pelo grau) RC 0.0109 40.3451 0.0204 0.4017
Communities RC 0.0256 99.4917 0.0196 0.6545

Apndice E
RESULTADOS POR TEXTO DA AVALIAO
CONJUNTA SOBRE O TEMRIO-2006
ROUGE-1
Texto SuPor-2 TextRank+StemmingStopRem TextRank+Thesaurus
SuPor-2
LogReg
SuPor-2
Fuzzy
br94ab03-22.txt 0.6089 0.6114 0.6139 0.5965 0.5668
br94ab07-51.txt 0.6239 0.5373 0.6224 0.6254 0.6224
br94ab14-59.txt 0.5633 0.5241 0.6205 0.5934 0.6115
br94ag11-16.txt 0.5714 0.4914 0.5714 0.5286 0.5743
br94de04-14.txt 0.6472 0.5390 0.5108 0.5887 0.6104
br94de05-25.txt 0.7857 0.6893 0.6143 0.7679 0.6679
br94de18-13.txt 0.6583 0.5877 0.6355 0.6492 0.6014
br94de25-11.txt 0.6124 0.5383 0.5598 0.5742 0.5718
br94fe8-50.txt 0.6871 0.6085 0.6775 0.6161 0.6468
br94jl24-18.txt 0.6756 0.6059 0.6247 0.6971 0.6247
br94ma15-20.txt 0.7039 0.6201 0.5224 0.6927 0.6592
br94ma15-21.txt 0.6586 0.6085 0.5888 0.6525 0.6419
br94ma15-33.txt 0.7339 0.6630 0.7386 0.7575 0.6850
br94ma22-40.txt 0.6259 0.5000 0.5611 0.6130 0.6111
br94mr20-44.txt 0.7554 0.6104 0.6926 0.7056 0.7121
br94mr25-20.txt 0.7514 0.6714 0.6314 0.7429 0.7457
br94no06-12.txt 0.5877 0.5154 0.5351 0.5461 0.5943
br94no13-11.txt 0.5447 0.4638 0.5085 0.5000 0.5638
br94no18-15.txt 0.7969 0.7005 0.7318 0.7917 0.7422
br94no20-13.txt 0.6441 0.6250 0.6123 0.6356 0.5848
br94ou02-14.txt 0.6232 0.5665 0.5739 0.6010 0.6207
br94ou09-16.txt 0.7270 0.6558 0.6558 0.6795 0.6647
br94ou16-16.txt 0.6933 0.6677 0.6230 0.6805 0.6070
br94ou23-12.txt 0.6364 0.5281 0.5087 0.6402 0.5880
br94ou29-07.txt 0.7500 0.6321 0.6972 0.7825 0.6911
br94se11-20.txt 0.6716 0.6029 0.6593 0.6961 0.6373
br94se27-02.txt 0.7732 0.7500 0.7345 0.7655 0.7062
ce94ab10-26.txt 0.7288 0.5490 0.6699 0.6765 0.7124
ce94de09-23.txt 0.7266 0.6836 0.6602 0.7188 0.6504
ce94ju23-04.txt 0.6181 0.5844 0.4873 0.6097 0.6076
ce94mr1-09.txt 0.7784 0.7326 0.7519 0.8006 0.7090
Apndices 153
ce94mr27-29.txt 0.7053 0.6798 0.6641 0.6798 0.6523
ce94ou04-84.txt 0.8126 0.7242 0.6779 0.8000 0.7368
ce94ou07-02.txt 0.7531 0.6855 0.6682 0.7516 0.6604
ce94se05-35.txt 0.7366 0.6687 0.7119 0.7387 0.6399
ce94se13-72.txt 0.7326 0.6457 0.7022 0.7239 0.6544
ce94se21-72.txt 0.6655 0.5773 0.5881 0.6583 0.6745
co94ab03-16.txt 0.6250 0.5799 0.6389 0.6389 0.6424
co94ab24-03.txt 0.5952 0.4360 0.5294 0.5675 0.5363
co94ag07-09.txt 0.6515 0.5492 0.6780 0.6023 0.6023
co94ag21-08.txt 0.6709 0.6262 0.5559 0.6741 0.6486
co94ag28-09.txt 0.5138 0.5092 0.4771 0.5000 0.5459
co94ag28-15.txt 0.7425 0.6301 0.5260 0.7014 0.6192
co94ag28-16.txt 0.6630 0.5452 0.4411 0.6384 0.5945
co94de04-23.txt 0.4960 0.5318 0.5318 0.4960 0.5278
co94de11-15.txt 0.5884 0.5244 0.5274 0.5976 0.6098
co94de16-28.txt 0.6727 0.6007 0.5827 0.6727 0.6835
co94de31-11.txt 0.7023 0.6488 0.4682 0.6756 0.6020
co94ja30-12.txt 0.6111 0.5648 0.6111 0.6019 0.5926
co94jl07-23.txt 0.6777 0.5515 0.5083 0.6445 0.5748
co94jl12-46.txt 0.7518 0.7007 0.6423 0.7299 0.6204
co94jl12-51.txt 0.5221 0.5141 0.5623 0.4659 0.5663
co94jl23-43.txt 0.6496 0.4957 0.6325 0.6239 0.5897
co94jl31-08.txt 0.6879 0.4894 0.6064 0.6028 0.6418
co94ma15-03.txt 0.5672 0.5112 0.6231 0.5448 0.5746
co94ma29-10.txt 0.6245 0.5852 0.6332 0.5546 0.5284
co94mr6-09.txt 0.5561 0.5051 0.5663 0.5816 0.5714
co94no01-08.txt 0.6550 0.5687 0.6200 0.6307 0.6226
co94no13-09.txt 0.7040 0.6570 0.6715 0.6787 0.6137
co94no27-17.txt 0.6587 0.5689 0.5659 0.5988 0.6557
co94ou02-30.txt 0.6375 0.5418 0.6653 0.6932 0.6534
co94ou22-04.txt 0.5261 0.4673 0.5458 0.5294 0.5686
co94se04-10.txt 0.5234 0.4723 0.5830 0.5489 0.5192
di94ab03-03.txt 0.6159 0.5224 0.6260 0.5894 0.6240
di94ab03-14.txt 0.6250 0.5933 0.6083 0.6100 0.6817
di94ag09-08.txt 0.7262 0.6928 0.6478 0.7195 0.7546
di94de04-13.txt 0.6620 0.6600 0.5666 0.6740 0.7097
di94de25-12.txt 0.6667 0.5983 0.6517 0.6560 0.6838
di94fe13-14.txt 0.7841 0.7170 0.6415 0.7757 0.7044
di94fe20-10.txt 0.7526 0.7339 0.6944 0.7817 0.6944
di94fe27-11.txt 0.6954 0.6433 0.6293 0.7114 0.6473
di94ja09-16.txt 0.6988 0.6437 0.5059 0.6772 0.6063
di94ja16-14.txt 0.5717 0.5323 0.5591 0.5932 0.6075
di94ja30-11.txt 0.7234 0.6824 0.6639 0.7172 0.6373
di94jl01-09.txt 0.7480 0.7183 0.7064 0.7401 0.7321
di94jl17-04.txt 0.7347 0.6527 0.6031 0.7481 0.7004
di94jl31-16.txt 0.6989 0.6431 0.6673 0.6673 0.6599
di94ju19-08.txt 0.6653 0.5690 0.6151 0.6548 0.6088
di94ju26-08.txt 0.6765 0.6144 0.6618 0.6569 0.6226
di94ju29-24.txt 0.7086 0.6468 0.6380 0.6623 0.6600
di94ma04-07.txt 0.6448 0.5282 0.6230 0.6485 0.6029
di94ma08-15.txt 0.6917 0.6073 0.6532 0.6477 0.6991
di94ma15-05.txt 0.6049 0.5843 0.6217 0.5861 0.6292
Apndices 154
di94ma15-18.txt 0.7218 0.6579 0.6617 0.7087 0.6974
di94ma22-17.txt 0.6636 0.6238 0.6238 0.6519 0.7009
di94mr13-09.txt 0.6885 0.6211 0.5228 0.6594 0.6357
di94mr20-20.txt 0.6616 0.5755 0.5774 0.6348 0.6042
di94mr27-13.txt 0.7048 0.6667 0.6158 0.7150 0.7328
di94mr6-16.txt 0.6295 0.6205 0.5848 0.6205 0.5960
di94no06-16.txt 0.6836 0.5944 0.6224 0.6906 0.6678
di94ou16-17.txt 0.6887 0.6330 0.6206 0.6825 0.6742
di94se04-17.txt 0.6829 0.7000 0.6244 0.7098 0.6781
di94se19-16.txt 0.6613 0.5737 0.6521 0.6590 0.5807
mu94ab17-18.txt 0.7682 0.7107 0.7452 0.7548 0.7126
mu94ab17-25.txt 0.3715 0.3466 0.3847 0.3627 0.3524
mu94ag21-16.txt 0.7347 0.6118 0.7215 0.7434 0.7851
mu94ag28-27.txt 0.6957 0.6609 0.6667 0.6841 0.6240
mu94de25-07.txt 0.6861 0.5329 0.5912 0.6642 0.6263
mu94fe6-13.txt 0.7150 0.6359 0.6227 0.6903 0.6771
mu94ma08-12.txt 0.7233 0.6588 0.7280 0.7327 0.6887
mu94ma15-18.txt 0.6873 0.6100 0.6512 0.7062 0.7320
mu94ma22-25.txt 0.7136 0.6661 0.6579 0.7054 0.6759
mu94no27-18.txt 0.7115 0.5997 0.6608 0.7185 0.7098
mu94ou23-18.txt 0.7027 0.5081 0.6180 0.6775 0.6559
op94ab03-01.txt 0.5476 0.4966 0.5306 0.5918 0.5646
op94ab07-01.txt 0.7033 0.5714 0.6291 0.6676 0.7088
op94fe27-01.txt 0.5473 0.5444 0.5385 0.4911 0.5237
op94fe6-01.txt 0.5894 0.5810 0.5335 0.5447 0.5447
op94ju01-09.txt 0.6887 0.6459 0.6693 0.6770 0.6265
op94ju01-10.txt 0.6105 0.4947 0.5526 0.5395 0.6026
op94ma28-02.txt 0.6440 0.4799 0.5851 0.6347 0.5480
op94mr27-01.txt 0.5852 0.5341 0.5568 0.5796 0.5568
op94ou30-02.txt 0.5471 0.5181 0.6087 0.5326 0.5833
op94se25-01.txt 0.5866 0.4803 0.5433 0.5394 0.5394
td94ab03-01.txt 0.6120 0.4973 0.5792 0.5847 0.5574
td94ab03-08.txt 0.6220 0.5041 0.5772 0.6179 0.5447
td94ag28-01.txt 0.5756 0.5252 0.5462 0.5840 0.5714
td94fe13-02.txt 0.5845 0.4331 0.4718 0.5528 0.5352
td94fe20-03.txt 0.5947 0.5198 0.6256 0.5551 0.5815
td94fe20-09.txt 0.5856 0.3919 0.5856 0.5946 0.6126
td94fe27-02.txt 0.6426 0.5787 0.5575 0.6468 0.6298
td94fe27-09.txt 0.7108 0.5783 0.6466 0.6988 0.6586
td94fe6-10.txt 0.5800 0.5250 0.6500 0.6450 0.6050
td94ja08-04.txt 0.5938 0.5195 0.5195 0.5508 0.5664
td94ja15-04.txt 0.5714 0.4619 0.5143 0.5476 0.6333
td94ja16-13.txt 0.5980 0.5377 0.5829 0.6181 0.5980
td94ja22-01.txt 0.5909 0.5657 0.4141 0.6061 0.5657
td94ja23-02.txt 0.6474 0.4632 0.5263 0.6211 0.6368
td94ja23-10.txt 0.6742 0.4607 0.6067 0.6854 0.6067
td94ja23-11.txt 0.5707 0.3854 0.5902 0.5268 0.5073
td94ja30-10.txt 0.5388 0.4977 0.6073 0.5753 0.6804
td94ja9-02.txt 0.5800 0.5733 0.6533 0.6133 0.7133
td94jl10-08.txt 0.6158 0.5480 0.6441 0.5424 0.6441
td94jl31-02.txt 0.4878 0.4675 0.3699 0.4675 0.4959
td94jl31-05.txt 0.6636 0.6774 0.5899 0.6544 0.6774
Apndices 155
td94jl31-10.txt 0.7183 0.5305 0.5869 0.6432 0.6197
td94ju12-03.txt 0.7023 0.5302 0.4744 0.6512 0.5721
td94ju12-17.txt 0.6863 0.5245 0.5686 0.7108 0.5441
td94ju26-05.txt 0.6094 0.4740 0.6094 0.5677 0.6354
td94ma01-02.txt 0.6603 0.6346 0.4936 0.6603 0.5256
td94ma08-02.txt 0.6084 0.4940 0.6265 0.6024 0.6325
td94ma08-13.txt 0.4849 0.5152 0.4546 0.5303 0.5455
td94mr13-03.txt 0.5931 0.5844 0.5931 0.6061 0.6061
td94mr13-09.txt 0.7195 0.6787 0.5385 0.6697 0.5294
td94mr13-13.txt 0.7267 0.5988 0.6686 0.7151 0.5698
td94mr27-09.txt 0.5433 0.5192 0.4231 0.4952 0.5673
td94no20-01.txt 0.6205 0.5026 0.5385 0.6205 0.5897
td94ou09-01.txt 0.6429 0.4706 0.6555 0.6387 0.5630
td94ou16-01.txt 0.8232 0.7374 0.7424 0.7626 0.6818
td94se11-03.txt 0.6301 0.5087 0.5491 0.5838 0.6532

ROUGE-2

Texto SuPor-2 TextRank+StemmingStopRem TextRank+Thesaurus SuPor-2 LogReg SuPor-2 Fuzzy
br94ab03-22.txt 0.1588 0.1712 0.1712 0.1489 0.1315
br94ab07-51.txt 0.2212 0.1226 0.2153 0.2018 0.2018
br94ab14-59.txt 0.1420 0.1178 0.1571 0.1631 0.1571
br94ag11-16.txt 0.1777 0.1519 0.1863 0.1891 0.1719
br94de04-14.txt 0.3167 0.2343 0.1323 0.2451 0.2560
br94de05-25.txt 0.3506 0.2522 0.2004 0.3417 0.2165
br94de18-13.txt 0.3082 0.2055 0.2511 0.3128 0.2169
br94de25-11.txt 0.2374 0.2182 0.1727 0.2182 0.2206
br94fe8-50.txt 0.3000 0.2212 0.2962 0.2539 0.2808
br94jl24-18.txt 0.2769 0.2285 0.1989 0.2742 0.1962
br94ma15-20.txt 0.2913 0.2073 0.0896 0.2857 0.2185
br94ma15-21.txt 0.3146 0.2781 0.2188 0.3237 0.2964
br94ma15-33.txt 0.3139 0.2366 0.3297 0.3470 0.2587
br94ma22-40.txt 0.2783 0.2041 0.2115 0.2597 0.2208
br94mr20-44.txt 0.3731 0.2842 0.3384 0.3536 0.3059
br94mr25-20.txt 0.4155 0.3381 0.2751 0.4212 0.4699
br94no06-12.txt 0.2242 0.1736 0.1495 0.1956 0.2132
br94no13-11.txt 0.2154 0.1365 0.2090 0.1898 0.2090
br94no18-15.txt 0.3812 0.2637 0.3029 0.3760 0.3394
br94no20-13.txt 0.2612 0.2739 0.2633 0.2824 0.2123
br94ou02-14.txt 0.2247 0.1901 0.1432 0.2148 0.2346
br94ou09-16.txt 0.2679 0.2113 0.2262 0.2560 0.2143
br94ou16-16.txt 0.3141 0.2628 0.2404 0.3173 0.2468
br94ou23-12.txt 0.2946 0.1919 0.1744 0.3004 0.2597
br94ou29-07.txt 0.3238 0.2464 0.2770 0.3890 0.2953
br94se11-20.txt 0.2752 0.2383 0.2604 0.3022 0.2678
br94se27-02.txt 0.3566 0.3127 0.3075 0.3902 0.2972
ce94ab10-26.txt 0.3607 0.2361 0.2984 0.3410 0.3541
ce94de09-23.txt 0.3190 0.2701 0.2485 0.3092 0.2505
ce94ju23-04.txt 0.2093 0.1713 0.1184 0.2135 0.1713
Apndices 156
ce94mr1-09.txt 0.3550 0.2707 0.3003 0.3698 0.2840
ce94mr27-29.txt 0.3406 0.3228 0.2697 0.3327 0.3051
ce94ou04-84.txt 0.4916 0.3924 0.2911 0.4599 0.3882
ce94ou07-02.txt 0.3118 0.2394 0.2189 0.3370 0.2173
ce94se05-35.txt 0.3443 0.2639 0.2990 0.3505 0.2763
ce94se13-72.txt 0.3922 0.2941 0.3050 0.3900 0.2789
ce94se21-72.txt 0.2703 0.2180 0.2144 0.2721 0.2919
co94ab03-16.txt 0.3415 0.2892 0.3484 0.3868 0.3659
co94ab24-03.txt 0.2917 0.1667 0.2604 0.2778 0.2431
co94ag07-09.txt 0.4297 0.3156 0.3612 0.3840 0.3194
co94ag21-08.txt 0.3910 0.3173 0.2019 0.3782 0.3622
co94ag28-09.txt 0.1336 0.1982 0.1152 0.1336 0.2028
co94ag28-15.txt 0.4121 0.3050 0.1868 0.3736 0.3104
co94ag28-16.txt 0.2747 0.2115 0.1593 0.2637 0.2610
co94de04-23.txt 0.1315 0.1952 0.1952 0.1474 0.1634
co94de11-15.txt 0.2875 0.2355 0.2202 0.3211 0.3119
co94de16-28.txt 0.3610 0.2744 0.2708 0.3466 0.3249
co94de31-11.txt 0.2852 0.2785 0.1544 0.2718 0.2248
co94ja30-12.txt 0.2512 0.2093 0.2419 0.2326 0.2605
co94jl07-23.txt 0.3600 0.2800 0.2167 0.3400 0.2633
co94jl12-46.txt 0.4066 0.3626 0.2857 0.4103 0.3150
co94jl12-51.txt 0.2702 0.2500 0.2782 0.2218 0.2540
co94jl23-43.txt 0.3562 0.2103 0.3262 0.3562 0.2747
co94jl31-08.txt 0.3559 0.1815 0.2669 0.2918 0.3167
co94ma15-03.txt 0.2921 0.2060 0.2247 0.2921 0.2622
co94ma29-10.txt 0.2983 0.2719 0.3070 0.2588 0.1930
co94mr6-09.txt 0.1949 0.1487 0.1744 0.2154 0.2154
co94no01-08.txt 0.3757 0.3405 0.3351 0.3730 0.3730
co94no13-09.txt 0.3986 0.3225 0.3768 0.3913 0.3515
co94no27-17.txt 0.3093 0.2312 0.1982 0.2763 0.3393
co94ou02-30.txt 0.3000 0.2600 0.2880 0.3560 0.3200
co94ou22-04.txt 0.2689 0.2033 0.2066 0.2623 0.2721
co94se04-10.txt 0.2137 0.1838 0.2607 0.2222 0.2051
di94ab03-03.txt 0.2322 0.1976 0.2526 0.2383 0.2464
di94ab03-14.txt 0.2855 0.2421 0.2521 0.3072 0.3623
di94ag09-08.txt 0.4231 0.4331 0.3127 0.4197 0.4615
di94de04-13.txt 0.3068 0.3207 0.2590 0.3406 0.4004
di94de25-12.txt 0.3319 0.2463 0.2827 0.3062 0.3426
di94fe13-14.txt 0.4643 0.3782 0.3088 0.4475 0.3845
di94fe20-10.txt 0.3604 0.3396 0.3063 0.3896 0.3000
di94fe27-11.txt 0.3253 0.2771 0.2430 0.3514 0.2872
di94ja09-16.txt 0.3215 0.2544 0.1302 0.3195 0.2229
di94ja16-14.txt 0.2190 0.2208 0.2065 0.2585 0.2585
di94ja30-11.txt 0.3265 0.2772 0.2854 0.3347 0.2485
di94jl01-09.txt 0.3738 0.3380 0.3320 0.3917 0.3459
di94jl17-04.txt 0.3805 0.3384 0.3098 0.4207 0.3786
di94jl31-16.txt 0.3575 0.3240 0.3073 0.3371 0.3110
di94ju19-08.txt 0.2704 0.2159 0.2600 0.2663 0.2453
di94ju26-08.txt 0.3601 0.2619 0.2995 0.3568 0.3044
di94ju29-24.txt 0.3297 0.2478 0.3186 0.3319 0.2611
di94ma04-07.txt 0.3412 0.2719 0.2993 0.3759 0.3047
di94ma08-15.txt 0.3787 0.3217 0.3162 0.3346 0.3934
Apndices 157
di94ma15-05.txt 0.2739 0.3171 0.2889 0.2683 0.3039
di94ma15-18.txt 0.4313 0.3729 0.3484 0.4011 0.3785
di94ma22-17.txt 0.3208 0.2459 0.2436 0.3162 0.3045
di94mr13-09.txt 0.3084 0.2336 0.2080 0.2865 0.2774
di94mr20-20.txt 0.3755 0.2720 0.2529 0.3506 0.2701
di94mr27-13.txt 0.3852 0.2832 0.2321 0.3571 0.3546
di94mr6-16.txt 0.2774 0.2103 0.2148 0.2796 0.2461
di94no06-16.txt 0.3433 0.2890 0.2592 0.3608 0.3643
di94ou16-17.txt 0.3388 0.2851 0.2727 0.3347 0.3099
di94se04-17.txt 0.2861 0.2983 0.2494 0.3203 0.3447
di94se19-16.txt 0.2356 0.1778 0.2587 0.2748 0.1963
mu94ab17-18.txt 0.4415 0.3589 0.3436 0.4204 0.3647
mu94ab17-25.txt 0.0471 0.0397 0.0485 0.0427 0.0412
mu94ag21-16.txt 0.3604 0.2615 0.3187 0.3868 0.4308
mu94ag28-27.txt 0.3010 0.2893 0.2466 0.2971 0.2602
mu94de25-07.txt 0.3363 0.2047 0.2661 0.3056 0.2822
mu94fe6-13.txt 0.4026 0.3201 0.2327 0.3960 0.3416
mu94ma08-12.txt 0.3228 0.2409 0.2976 0.3291 0.2803
mu94ma15-18.txt 0.3890 0.3012 0.2960 0.4234 0.4148
mu94ma22-25.txt 0.3098 0.2738 0.2246 0.3246 0.2787
mu94no27-18.txt 0.3695 0.2855 0.3047 0.3835 0.3800
mu94ou23-18.txt 0.3520 0.1534 0.2527 0.3069 0.3394
op94ab03-01.txt 0.1741 0.1399 0.1468 0.2218 0.2150
op94ab07-01.txt 0.3692 0.2342 0.2645 0.3333 0.4050
op94fe27-01.txt 0.2433 0.2255 0.2255 0.2463 0.2344
op94fe6-01.txt 0.1765 0.1877 0.1569 0.1625 0.1653
op94ju01-09.txt 0.3398 0.2969 0.3242 0.3164 0.2813
op94ju01-10.txt 0.2005 0.1187 0.1794 0.1478 0.2084
op94ma28-02.txt 0.3416 0.1770 0.3261 0.3509 0.2422
op94mr27-01.txt 0.1771 0.1600 0.1771 0.1657 0.1543
op94ou30-02.txt 0.2109 0.2218 0.2764 0.2327 0.2836
op94se25-01.txt 0.1937 0.1028 0.1383 0.1818 0.1779
td94ab03-01.txt 0.3077 0.1868 0.2582 0.2582 0.2198
td94ab03-08.txt 0.3633 0.2163 0.2980 0.3633 0.2939
td94ag28-01.txt 0.2869 0.2490 0.2785 0.3291 0.2996
td94fe13-02.txt 0.3251 0.2403 0.2156 0.3180 0.3074
td94fe20-03.txt 0.2699 0.1858 0.3053 0.2257 0.2478
td94fe20-09.txt 0.2534 0.1855 0.2670 0.3258 0.3032
td94fe27-02.txt 0.4188 0.3248 0.2992 0.4444 0.3761
td94fe27-09.txt 0.3468 0.2298 0.2782 0.3307 0.3145
td94fe6-10.txt 0.3116 0.3015 0.3618 0.4523 0.3568
td94ja08-04.txt 0.2980 0.2157 0.2235 0.2706 0.2667
td94ja15-04.txt 0.2297 0.1914 0.2010 0.2297 0.3397
td94ja16-13.txt 0.3333 0.2980 0.3030 0.3586 0.2727
td94ja22-01.txt 0.3503 0.3300 0.1574 0.3553 0.3147
td94ja23-02.txt 0.3439 0.2011 0.2064 0.3439 0.3333
td94ja23-10.txt 0.4237 0.2542 0.3842 0.4181 0.3955
td94ja23-11.txt 0.3284 0.1667 0.3235 0.3284 0.2794
td94ja30-10.txt 0.3073 0.2110 0.2982 0.3716 0.4220
td94ja9-02.txt 0.3289 0.3289 0.3222 0.3893 0.4631
td94jl10-08.txt 0.3921 0.3125 0.3580 0.3352 0.3864
td94jl31-02.txt 0.2163 0.2163 0.0980 0.2204 0.2286
Apndices 158
td94jl31-05.txt 0.4074 0.4583 0.3056 0.3982 0.4120
td94jl31-10.txt 0.4198 0.2736 0.2972 0.3915 0.3585
td94ju12-03.txt 0.4252 0.2243 0.2523 0.4019 0.2664
td94ju12-17.txt 0.4335 0.2808 0.3301 0.4384 0.2611
td94ju26-05.txt 0.3194 0.2304 0.3403 0.2932 0.3613
td94ma01-02.txt 0.4258 0.4129 0.1871 0.4258 0.2129
td94ma08-02.txt 0.3212 0.1697 0.2667 0.3212 0.3212
td94ma08-13.txt 0.2081 0.2690 0.1726 0.2538 0.2741
td94mr13-03.txt 0.2696 0.2652 0.2609 0.2739 0.2609
td94mr13-09.txt 0.5227 0.4727 0.3591 0.4909 0.3091
td94mr13-13.txt 0.3801 0.2690 0.3392 0.3801 0.2105
td94mr27-09.txt 0.2464 0.2416 0.1159 0.2174 0.2560
td94no20-01.txt 0.3402 0.2268 0.2526 0.3969 0.3299
td94ou09-01.txt 0.4177 0.2785 0.4177 0.4641 0.3165
td94ou16-01.txt 0.6294 0.5279 0.4822 0.5685 0.4873
td94se11-03.txt 0.3256 0.1802 0.1977 0.2791 0.3081

Dissertacao DanielLeite

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Dissertacao DanielLeite

Caricato da

Copyright:

Formati disponibili

UNIVERSIDADE FEDERAL DE SO CARLOS

CENTRO DE CINCIAS EXATAS E DE TECNOLOGIA

x r para cada sentena representada pelo conjunto de caractersticas

RC Regresso Logstica Sim

RC). O melhor modelo aqui obtido foi chamado de

RC Flexible-Bayes Sim 0.5278

RC Regresso Logstica Sim 0.5270

RC C4.5 Sim 0.5253

RC Regresso Logstica No 0.5228

RC SVM Sim 0.5158

Potrebbero piacerti anche