Sei sulla pagina 1di 30

Uma Anlise Comparativa de Tcnicas de Aprendizagem Supervisionada aplicadas a Minerao de Opinio

Joo Emanoel jeag@cin.ufpe.br Recife-PE 17/03/2012

Agenda
Conceitualizao Minerao de Opinio Objetivos Trabalhos Relacionados Prottipo Implementado Testes e Resultados Consideraes e resultados Esperados Referncias

Conceitualizao
Mudanas na Web Surgimento das Redes Sociais Oportunidades Anlise de Redes Sociais Anlise de Sentimentos A web vista como uma plataforma para servios e explorao de contedo

Fonte: comScore
5

Minerao de opinio
Tornando evidente a necessidade de criar sistemas computacionais capazes de extrair e analisar, de forma inteligente, o conhecimento sobre tais volumes de dados (FREITAS et al., 2008) Problema de categorizao de textos pelo qual deseja-se detectar opinies favorveis e adversas com relao a um tema

Minerao de Opinio
Problemas Relacionados
Anlise de Influncias Inteligncia Competitiva Minerao de Subjetividade

Objetivo
Realizar uma analise comparativa entre diferentes tcnicas de aprendizagem supervisionada para o problema de Anlise de Sentimentos
Objetivos Especficos:
Realizar uma reviso bibliogrfica sobre as tcnicas de aprendizado supervisionado para o problema de Minerao de Opinio Identificar diferentes modelos textuais e tcnicas para seleo de caractersticas, aplicveis a anlise de sentimentos Comparar e analisar o desempenho dos classificadores para cada modelo encontrado, aplicando diferentes mtricas de avaliao
9

Trabalhos Relacionados
(Pang, 2002)
Corpus extrado do IMBd (base de dados de filmes na internet), composto por 2000 avaliaes de filmes (1000 positivas e 1000 negativas) Compara 3 tcnicas de aprendizagem de mquina: Naive Bayes, Mxima Entropia e SVM

10

Trabalhos Relacionados
(Pedro Oguri, 2006)
Mesmo Corpus utilizado por Pang (2002) Comparou o desempenho dos Classificadores Naive Bayes E SVM Testes: Validao cruzada com K-folds

11

Trabalhos Relacionados
(Pedro Oguri, 2006)
Os modelos e classificadores apresentaram desempenhos muitos parecidos Corpus utilizado razoavelmente pequeno e limitado a um domnio e fonte especficos O autor conclui que os experimentos no trazem concluses definitivas quanto aos melhores modelos

12

Prottipo Desenvolvido
Objetivo Geral o Efetuar a minerao de opinies a partir dos tweets coletados no Twitter, utilizando os algoritmos de aprendizagem supervisionada Naive Bayes e KNN ; Entrada o Tweets coletados Sada o Anlise de sentimentos. o Resultados da anlise para os diferentes algoritmos Preciso

13

Base de Dados
Twitter
Rede Social que utiliza o conceito de Microblogging Tweets (140 caracteres) Busca de FeedBack pelas Organizaes API Twitter4j Grande diversidade de Usurio (Empresrios, polticos, Artistas, etc), possibilitando a coleta de diferentes domnios e classes de usurios Objetividade dos Tweets.

14

Prottipo Desenvolvido

15

Descrio dos Experimentos


Corpus utilizado: tweets (em portugus) opiniativos ou neutros (no expressam opinio) sobre diversos produtos, servios e empresas (Bradesco, Santander, DELL, etc)
450 Tweets
150 para cada categoria (Positivo, Negativo e Neutro)

Corpus dividido em duas partes


65% para Treinamento 35% para Testes

API Twitter4j Modelo textual Utilizado: Saco de Palavras(binrio)


16

Descrio dos Experimentos


Variaes de tcnicas de pr-processamento:
(1) apenas Tokenizao; (2) variao (1) + eliminao de stopwords e caracteres especiais; (3) variao (2) + Stemming; (4) variao (3) + utilizao de adjetivos e verbos como atributos relevantes; (5) variao (3) + utilizao de adjetivos, substantivos, verbos e advrbios como atributos relevantes.

17

Descrio dos Experimentos


APIs Utilizadas:
Lucene TreeTagger LingPipe

Avaliao
Preciso

18

Metodologia de Testes
Validao cruzada com K-folds

FONTE: Carrilho Junior (2007)


19

Resultados Obtidos
Desempenho do Classificador Naive Bayes

20

Resultados Obtidos
Desempenho do Classificador KNN com K = 7

21

Resultados Obtidos
Desempenho do Classificador KNN com K = 13

22

Resultados Obtidos
Resultado dos Classificadores Naive Bayes e KNN
Tcnicas de PrNaive Bayes Processamento/Algoritmos (1) Tokenizao (2) (1) + StopWords (3) (2) + Stemming (4) (3) + POS (ADJ, V, NOM e ADV) 52.22% 50.66% 48.88% 48.88% KNN com K = 7 38.44% 39.33% 40.22% 40.60% KNN Com K = 13 38.66% 39.99% 40.66% 36.44%

23

Possveis modelagens textuais a serem adicionadas


Saco de Palavras (Utilizada no Experimento) N-Gramas Part of Speech tagging Filtro de Subjetividade Seleo de Features
Informao Mutua Mdia

24

Possveis Algoritmos adicionados


Baseado em Wu (2008) onde o autor lista os 10 principais algoritmos de Data Mining Alm dos dois j implementados (Naive Bayes e KNN): SVM PageRank Mxima Entropia (ME) AdaBoost

25

Consideraes
Apenas um prottipo inicial Analisar novos modelos de representao textual Incluir tcnicas mais eficientes para a etapa de extrao de atributos relevantes, e medir o impacto dessas tcnicas na preciso dos classificadores; Realizar novos experimentos utilizando outros algoritmos de Aprendizagem Supervisionada Problema de pesquisa relevante Porque realizar Uma Anlise Comparativa de Tcnicas de Aprendizagem Supervisionada aplicadas a Minerao de Opinio?
26

Resultados Esperados
Elencar para as diversas variaes de modelos textuais e tcnicas para seleo de caractersticas, quais Classificadores de aprendizagem supervisionada apresentam melhores resultados para as mtricas de avaliaes definidas

27

Referncias
FREEMAN, 1979] FREEMAN, Linton C.. Centrality in social networks: Conceptual clarification. Social Networks, 1:215-239, 1979. [HANNEMAN; RIDDLE, 2005] HANNEMAN, Robert A.; RIDDLE, Mark. Introduction to social network methods. University of California, Riverside, CA, 2005. [PAGERANK, 2007] Google PageRank: What Do We Know About It?. 2007. Disponvel em: <http://www.smashingmagazine.com/2007/06/05/ google-pagerank-what-do-we-really-know-about-it/>. Acesso em: 21 nov. 2011. [KLEINBERG, 1999] KLEINBERG, Jon M. Authoritative sources in a hyperlinked environment. J. ACM, 46:604-632, September 1999. B. Pang, L. Lee and S. Vaithyanathan, Thumbs up? Sentiment classification using machine learning techniques, In Proc. of the EMNLP, 2002
FREITAS, C. M. D. S.; NEDEL, L. P.; GALANTE, R.; et al. Extrao de Conhecimento e Anlise Visual de Redes Sociais. In: XXVIII CONGRESSO DO SBC, 2008, Blem do Par, PA, Brasil. Anais... 2008. p. 106-120.
28

Referncias
[NIELSEN, 2009] NIELSEN, Global faces and networked places, A Nielsen Report on Social Networkings:New Global Footprint Nielson Online. Maro, 2009. [CARRILHO JUNIOR, 2007] Joo Ribeiro. Desenvolvimento de uma Metodologia para Minerao de Textos. 2007. 96 f. Dissertao (Mestrado) - Pontifcia Universidade Catlica do Rio de Janeiro, Rio de Janeiro, 2007. [LIU, 2010] LIU, Bing. Sentiment Analysis and Subjectivity. In. Handbook of Natural Language Processing. Segunda Edio. 2010. [ABBASI, 2008] ABBASI, Ahmed, et. al. Sentiment Analysis in Multiple Languages: Feature Selection for Opinion Classification in Web Forums. ACM Transactions on Information Systems, Vol. 26, No. 3, Artigo 12. 2008. [oguri, 2006] Aprendizado de Mquina para o Problema de Sentiment Classification. 2006. 54 f. Dissertao (Mestrado) - Pontifcia Universidade Catlica do Rio de Janeiro, Rio de Janeiro, 2006. 29

Uma Anlise Comparativa de Tcnicas de Aprendizagem Supervisionada aplicadas a Minerao de Opinio


Joo Emanoel jeag@cin.ufpe.br Orientadores: Silvio Meira e Vinicius Garcia Recife-PE 17/03/2012

Potrebbero piacerti anche