Sei sulla pagina 1di 6

Universidad Internacional Sek

Maestría en Tecnologías de Información


Año: 2017 Versión: 1.0

Análisis de Sentimientos en Texto en Aulas Virtuales


Pazmiño Cortez Cristian
e-mail: cpazmino.mti@uisek.edu.ec
Vásquez González Lenin
e-mail: lvasquez.mti@uisek.edu.ec

RESUMEN: 1 INTRODUCCIÓN
En este artículo se presenta el análisis de los Recientemente, una cantidad cada vez mayor
diferentes tipos de herramientas (algoritmos y de investigadores se han dedicado a desarrollar
software) para analizar los sentimientos en texto en métodos para reconocer sentimientos favorables y
entornos educativos, más específicamente en aulas desfavorables hacia temas específicos dentro de
virtuales. En primer lugar se detallan antecedentes textos en lenguaje natural. Las áreas de aplicación
históricos con el fin de entender de donde proviene para dicho análisis son numerosas y variadas,
el término “análisis de los sentimientos” y cuáles desde el filtrado de grupos de noticias y el aumento
son los factores que influyeron para que se inicie el informativo de las respuestas de los motores de
estudio en este tema en particular. En segundo búsqueda, hasta el análisis de las tendencias de
lugar se detalla la clasificación y el diseño del opinión pública y los comentarios de los clientes.
sistema y los diferentes tipos de algoritmos que se Para muchas de estas tareas, clasificar el tono de
utilizan. Finalmente se realiza un cuadro la comunicación como generalmente positivo o
comparativo de las herramientas para análisis de negativo es un paso importante. Hay una serie de
los sentimiento en entornos virtuales con el fin aspectos desafiantes de esta tarea. Las opiniones
comprender la utilidad y el alcance de los mismos. en lenguaje natural a menudo se expresan de
maneras sutiles y complejas, presentando desafíos
PALABRAS CLAVE: Análisis de sentimiento, que pueden no ser abordados fácilmente por los
análisis de texto, selección de características, enfoques simples de categorización de texto, tales
CMC, Software para análisis de texto, Opinión de como n-gramas o enfoques de identificación de
los sentimientos. palabras clave. Ir más allá de estos enfoques
puede implicar abordar la tarea en varios niveles.
ABSTRACT. Reconocer el impacto semántico de las palabras o
In this article we present the analysis of the different frases es una tarea desafiante en sí misma, pero
types of tools (algorithms and software) to analyze en muchos casos el sentimiento general de un
feelings in text in educational environments, more texto no es el mismo que el de los fragmentos
specifically in virtual classrooms. In the first place descontextualizados. Las revisiones negativas
historical background is detailed in order to pueden contener muchas frases aparentemente
understand where the term "analysis of feelings" positivas incluso si se mantiene un tono
comes from and what are the factors that influenced fuertemente negativo, y lo contrario también es
the beginning of the study in this particular topic. común. Este artículo presenta un estudio de las
Secondly, the classification and design of the diferentes herramientas para realizar este análisis
system and the different types of algorithms used de texto enfocado al entorno educativo, más
are detailed. Finally, a comparative table is made of específicamente en Aulas Virtuales, se analizará
the tools for analyzing sentiment in virtual los diferentes tipos de algoritmos que usan
environments in order to understand the usefulness herramientas de software, para poner entender,
and scope of them. sintetizar y procesar los sentimientos.

Keywords. Sentiment analysis, text


analysis, feature selection, CMC, Text 2 ANTECEDENTES
analysis software, Sentiment opinion.
Con la aparición del Internet en 1969 los grupos
extremistas empezaron a ver en este medio una
herramienta para promover el odio y la violencia [1].
Internet ofrece un medio de comunicación
omnipresente, rápido, económico y anónimo para
Universidad Internacional Sek
Maestría en Tecnologías de Información
Año: 2017 Versión: 1.0

tales grupos. Zhou et al. en 2000 realizó un análisis 3.1 CLASIFICACIONES DE LOS
a profundidad de los sitios web de grupos SENTIMIENTOS
extremistas de EE. UU. [2] Y encontró evidencia
significativa de contenido relacionado con la
recaudación de fondos, la propaganda y el El análisis del sentimiento se refiere al análisis del
secuestro de personas de manera ilegal. Abbasi y texto basado en la dirección, es decir, el texto que
Chen en 2000 también corroboraron las señales del contiene opiniones y emociones. La clasificación
uso de la Web como medio de propaganda de los del sentimiento tiene varias características
grupos extremistas supremacistas y de Medio importantes, que incluyen varias tareas,
Oriente. [1] Estos hallazgos proporcionaron una características, técnicas y dominios de aplicación.
idea de las tendencias de uso de la web de grupos Según Abbasi et al. podemos clasificar los
extremistas; sin embargo, ha habido poco análisis sentimientos en texto como se muestra en la tabla
de foros web. Burris et al. 2005 reconoció la 1.
necesidad de evaluar el foro y el contenido de la
discusión en la sala de chat. [2] El análisis TABLA 1. Clasificación del Análisis de los
automatizado de foros web puede ser una ardua sentimientos [2].
tarea debido a los grandes volúmenes de
información ruidosa contenida en los archivos CMC
Tareas
(Comunicación Mediada por Computadora). [3] En
consecuencia, estudios previos han incorporaron
métodos manuales o semiautomatizados. El
Categoría Descripción Etiqueta
examen manual de miles de mensajes puede ser
un esfuerzo extremadamente tedioso cuando se Sentimientos positivos / negativos o
aplica a través de miles de publicaciones en foros. textos objetivos / subjetivos
Clases C1
Con el uso creciente de CMC, la necesidad de
técnicas automatizadas de clasificación y análisis Clasificación de documentos o nivel de
de texto ha crecido en los últimos años. Si bien oraciones/frases
Nivel C2
existen numerosas formas de clasificación de texto,
nos centramos en el análisis del sentimiento en Si la fuente u objetivo del sentimiento
aulas virtuales por dos razones. En primer lugar, el Origen/Desti es conocido o extraído
discurso web es rico en contenido relacionado con no C3
las opiniones y las emociones. En segundo lugar, el
análisis de este tipo de texto es muy relevante para
el uso estadístico, ya que el texto direccional juega Características

un papel importante en la influencia de las


percepciones y toma de decisiones de las
personas. Categoría Ejemplos Etiqueta

. Word / POS tag n-grams, patrones de


3 ANÁLISIS DE SENTIMIENTOS EN Sintáctico
frase, puntuación
F1
TEXTO
Etiquetas de polaridad, grupos de
evaluación, orientación semántica
Entre los años de 1992 y 1997 Hearst y Kessler et Semántico F2
al. iniciaron una investigación para clasificar el texto
según el sentimiento o el género identificando la Enlaces web, patrones de envío /
Basado en respuesta y citas de documentos
opinión de oraciones en documentos completos y
enlaces F3
los clasifican como positivos, negativos o neutrales.
[2]. Podemos distinguir dos técnicas principales Medidas léxicas y estructurales de
para el análisis de sentimientos de los textos: estilo
Estilístico F4
técnicas simbólicas y de aprendizaje automático. El
enfoque simbólico usa reglas y léxicos elaborados
Técnicas
manualmente, mientras que el enfoque de
aprendizaje automático utiliza el aprendizaje
supervisado para construir un modelo a partir de la
Categoría Ejemplos Etiqueta
recolección de datos, siendo los modelos
supervisados los más populares. Técnicas como SVM, NAÏVE de Bayes,
Aprendizaje etc.
Automático T1
Universidad Internacional Sek
Maestría en Tecnologías de Información
Año: 2017 Versión: 1.0

Análisis de citas y patrones de envio / señala mediante conectores basados en el


Análisis de respuesta de mensajes discurso.
enlaces T2

Coincidencia de patrón de frase, 4 DISEÑO DEL SISTEMA PARA


Puntuación recuentos de frecuencia, etc.
de similitud T3
ANÁLISIS DE LOS SENTIMIENTOS

Para realizar un diseño adecuado para el análisis


Dominios de sentimientos de texto en los diferentes sistemas
implementados definieron parámetros necesarios
que permiten obtener el resultado requerido.
Categoría Descripción Etiqueta
Entre esta información se encuentran:
Reseñas de productos, películas y - Datos: Es la información necesaria para el
música
Comentarios D1 estudio la misma que está almacenada en
una gran base de datos para su análisis
Discursos respectivo que contiene palabras
Web Foros Web y blogs D2
clasificadas en sus correspondientes
categorías que pueden ser:
Nuevos Artículos de noticias en línea y páginas - Procesos lingüísticos estándar.
Artículos web D3 - Procesos psicológicos.
- Relatividad
3.2 SELECCIÓN DE - Asuntos personales
- Clasificación de opiniones:
CARACTERÍSTICAS PARA LA - Positiva y negativa
CLASIFICACIÓN DEL ANÁLISIS DE - Positiva, neutra y negativa
LOS SENTIMIENTOS - Muy positiva, positiva, neutra,
muy negativa y negativa[4].
En una fase de preprocesamiento, los textos se
segmentan en oraciones. Los errores pueden Una vez definidos los parámetros necesarios para
ocurrir aquí ya que los textos no siempre están el estudio existen cuatro categorías de funciones
formados léxica y sintácticamente. En las que han sido utilizadas para el análisis de
oraciones, reconocemos la entidad de interés. No sentimientos que contienen características:
resolvemos los términos correlativos nominales (es - Sintácticas: Estas contienen patrones de
decir, pronombres y sinónimos), lo que podría frases, que representan la orientación del
mejorar la asignación del sentimiento dentro de una sentimiento positivo o negativo, con el
oración, y nos permitiría encontrar sentimientos análisis del sustantivo más el adjetivo
hacia la entidad a través de diferentes oraciones positivo / negativo de la frase.
que no mencionan explícitamente la entidad. Cada - Semánticas: Incorporan información
oración está representada por un vector de manual, automática o semiautomática. es
características que contiene características binarias decir contextos que rodean la información
(aparición o no de una característica) o - Basadas en enlaces: Utilizan enlaces /
características numéricas que representan la citas para determinar los sentimientos de
frecuencia o el peso de una característica. A los artículos y documentos de la web.
continuación se detallan 3 características. - Estilísticas. Incluyen atributos léxicos y
estructurales de varios estudios previos de
• Unigrams: estas son simplemente las palabras o autoría estilométrica. [2].
tokens que componen el vocabulario de las
oraciones aloja en una base de datos. 4.1 DISEÑO DEL SISTEMA
• Stems: La raíz es la parte base de una palabra, Para el diseño del sistema es necesario llevar a
que se obtiene al eliminar las terminaciones cabo la clasificación de sentimientos de texto, la
morfológicas comunes de una palabra. misma que dispone de dos pasos principales.
- Extraer un conjunto inicial de
• Características del discurso: a menudo las características
oraciones contendrán múltiples sentimientos, de los - Realizar la selección de características.
cuales uno es claramente más importante, que se
En la extracción se deben incorporar características
sintácticas y estilísticas en el conjunto de atributos
Universidad Internacional Sek
Maestría en Tecnologías de Información
Año: 2017 Versión: 1.0

de clasificación de sentimientos, estas funciones a su naturaleza de búsqueda global. Por el


deben ser lo más genéricas y aplicables posibles contrario, la mayoría de los otros métodos de
en los idiomas que se va a realizar el estudio, así minería de datos se basan en el paradigma de
como también determinar el tamaño del conjunto inducción de reglas, donde el algoritmo suele
de características iniciales [2]. realizar un tipo de búsqueda local. La ventaja de
GA se vuelve más obvia cuando el espacio de
La fase de selección de características también es búsqueda de una tarea es grande. [6]
conocida como fase de preprocesamiento, los
textos se tokenizan y segmentan en oraciones, así Algoritmo Naïve Bayes
mismo los errores son más propensos en aparecer
en esta sección ya que los textos no siempre están Este algoritmo usa el teorema de Bayes aparece
formados léxica y sintácticamente. En las oraciones por primera vez a finales de los ochenta con el
se reconoce la entidad de interés, no se resuelve objetivo principal de comparar su capacidad
los términos correlativos nominales como predictiva con la de métodos más sofisticados.[7]
pronombres y sinónimos, que podrían mejorar la
asignación del sentimiento dentro de una oración, y Es uno de los métodos más usados en análisis de
permitirían encontrar sentimientos hacia la entidad sentimientos, debido a su fácil implementación y a
a través de diferentes oraciones que no mencionan los buenos resultados obtenidos en la mayoría de
explícitamente la entidad.[1]. los casos, este método considera el texto como un
conjunto de palabras, donde la frecuencia de cada
Cabe mencionar que las características importantes una de ellas es esencial para clasificarlas, por lo
analizadas son fundamentales en todos los cual es importante tener un conjunto de
estudios de análisis de sentimientos, ya que entrenamiento de gran tamaño ya que de este
definen el enfoque principal, así como la hipótesis conjunto dependerá la precisión de los resultados.
definida para dicho estudio.
Algoritmo de máquinas de Soporte Vectorial
3
5 ALGORITMOS Y SOFTWARES (SVM) .

PARA ANÁLISIS DE LOS Este algoritmo es bastante usado en la clasificación


SENTIMIENTOS EN TEXTO. y detección de sentimientos ya que se basa en
métodos kernel, los cuales toman los datos y los
Previo al desarrollo de cualquier aplicativo como ponen dentro de un espacio de características
herramienta de análisis de sentimientos es apropiado, utilizando algoritmos lineales para
necesario realizar un estudio de los diferentes determinar patrones no lineales.
algoritmos que se necesita implementar para
obtener el resultado más idóneo que permita El método se basa principalmente en vectores
cumplir con la hipótesis planteada. Los resultados donde, usando aprendizaje computacional, logra
obtenidos van a permitir mejorar continuamente los tomar decisiones de límite entre dos categorías
temas tratados en las aulas virtuales. separándolas lo más posible [8]. Cada muestra se
le asigna un peso y un vector asociado que separa
los más posible los casos positivos de los
5.1 ALGORITMOS PARA EL ANÁLISIS negativos, comúnmente los más usados son son
DE SENTIMIENTOS palabras unigramas a las cuales se les asigna un
Algoritmo Genético Ponderado por Entropía peso durante la fase de aprendizaje, aunque
(EWGA).
1 también pueden seleccionarse bi-gramas (dos
palabras juntas), tri-gramas (3 palabras juntas), la
Para una amplia gama de problemas de categoría gramatical de la palabra, etc.
optimización, los algoritmos genéticos han sido la
solución exitosa al ser aplicados en los campos del 5.2 SOFTWARE PARA EL ANÁLISIS DE
diseño, la programación, el enrutamiento y el
2
control. En la extracción de datos, GA se puede
SENTIMIENTOS EN TEXTO
utilizar para optimizar los parámetros para otros
tipos de algoritmos de minería de datos o descubrir Existen varios softwares para el análisis de
el conocimiento por sí mismo. Las reglas que GA sentimientos .entre los cuales se mencionan los
encontró son generalmente más generales debido siguientes:

1
EWGA - Entropy Weighted Genetic Algorithm
2 3
GA - Genetic Algorithm SVM - Support Vector Machines
Universidad Internacional Sek
Maestría en Tecnologías de Información
Año: 2017 Versión: 1.0

BUSCADOR LINGÜÍSTICO Y CONTADOR DE - Locuciones o expresiones: son


4
PALABRAS - LIWC multipalabras que cada día están en
constante actualización, tiene alrededor de
Software que provee una herramienta muy eficaz 17000 registros.
para estudiar componentes emocionales, cognitivos - Reglas de Contexto: es principalmente el
y estructurales contenidos en un texto. Este modificar la carga efectiva de una
software contiene un diccionario en español expresión de acuerdo a estudios previos
compuesto por 7.515 palabras. Cada palabra se realizados.
puede clasificar en una o más de las 72 categorías
incluidas por omisión en LIWC. El proceso de análisis está compuesto de 4 partes:
- Etiquetado morfológico
Adicional las categorías se clasifican en cuatro - Asignación de valencias
dimensiones: - Aplicación de reglas de contexto
- Procesos lingüísticos estándar. - Extracción de datos.
- Procesos psicológicos.
- Relatividad. La forma de calcular dicho valor global es aplicando
- Asuntos personales. una media aritmética ponderada, que se somete a
una modificación posterior basándose en un índice
Define la siguiente clasificación de opiniones: afectivo.[9].
- Positiva y negativa.
- Positiva, neutra y negativa. 6 ANÁLISIS COMPARATIVO.
- Muy positiva, positiva, neutra, muy
negativa y negativa. En la tabla 2 se describe un breve análisis de las
diferentes herramientas para análisis de los
Como herramienta principal para el análisis usa sentimientos en texto.
5
WEKA la misma que está basada en JAVA,, utiliza
el árbol de decisiones J48, la red bayesiana - Naïve Tabla 2. Cuadro Comparativo de las
Bayes, y el algoritmo SMO para clasificadores herramientas para el análisis de sentimientos en
SVM.[4]. texto.
6 HERRAMIENTA NIVEL DE DETECCIÓN CAMPO DE
SOFTWARE SENTITEXT ACCIÓN

Esta herramienta ha sido desarrollada en base a un


ALGORITMO General debido a su Se puede utilizar
conjunto de aplicaciones para el análisis de GENÉTICO naturaleza de búsqueda para optimizar los
sentimientos en texto. es una aplicación cliente - PONDERADO POR global parámetros para
servidor, fue desarrollada en C++, haciendo uso de ENTROPÍA otros tipos de
(EWGA). algoritmos de
la librería de uso morfológico FREELING. la base
minería de datos o
de datos que utiliza es MySQL, entregando al descubrir el
cliente resultados en un ambiente gráfico [9]. conocimiento por sí
mismo

Es un software basado en conocimientos y se basa


ALGORITMO NAÏVE General ya que Clasificación de los
su estructura y funcionamiento en tres bases de
BAYES considera el texto como sentimientos en
datos que son: un conjunto de palabras, texto.
- Palabras: contiene más de 10000 donde la frecuencia de
entradas y a cada una de ellas se les ha cada una de ellas es
esencial para
dado una valencia que puede ser -2, -1, 1, clasificarlas
2 que corresponden a si es muy negativa,
negativa, positiva o muy positiva,
respectivamente, esta librería ha sido ALGORITMO DE Exhaustivo ya que Clasificación y
alimentada en base a las semántica de MÁQUINAS DE toman los datos y los detección de
SOPORTE ponen dentro de un sentimientos
varios textos de lengua general VECTORIAL (SVM). espacio de
características
apropiado, utilizando
4 algoritmos lineales para
LIWC - Linguistic Inquiry and Word Count,
5 determinar patrones no
WEKA - Waikato Environment for Knowledge Analysis / lineales
Entorno para análisis del conocimiento de la Universidad
de Waikato
6
SENTITEXT - Es una herramienta ha sido diseñada por
el grupo de Investigación de la UMA.
Universidad Internacional Sek
Maestría en Tecnologías de Información
Año: 2017 Versión: 1.0

BUSCADOR Exhaustivo estudia Análisis de los 8 REFERENCIAS


LINGÜÍSTICO Y componentes siguientes procesos:
CONTADOR DE emocionales, cognitivos Procesos
PALABRAS - LIWC y estructurales lingüísticos [1] E. Boiy, & Moens y M. F., «A machine learning
contenidos en un texto. estándar. approach to sentiment analysis in multilingual
Procesos Web texts.,» pp. 526-558, 2009.
psicológicos.
[2] A. Abbasi, H. Chen y A. & Salem, «Sentiment
Relatividad.
analysis in multiple languages: Feature selection
Asuntos personales.
for opinion classification in web forums,» p. 12,
2008.
[3] B. Pang y L. Lee, «A Sentimental Education:
SOFTWARE Exhaustivo, analiza las Análisis de todo el Sentiment Analysis Using Subjectivity
SENTITEXT fuentes de conocimiento campo semántico
Summarization Based on Minimum Cuts,» p. 271,
léxico de un texto.
2004.
[4] M. Del Pilar Salas-Zárate, M. Rodríguez-García, &
R. Valencia-García,. Estudio de las categorías
LIWC para el análisis de sentimientos en español.
In TIMM (pp. 33-36). 2014.
[5] L. Lugo, Minería de Datos y Analítica del
7 CONCLUSIONES Aprendizaje para Mejorar el Desempeño
En el contexto actual, Internet se ha convertido en Estudiantil bajo la Modalidad b-learning: el Caso
una fuente masiva y continua de opiniones. Estas Plataforma Virtual de Fruticultura.
opiniones suelen estar contenidas en textos [6] L. Yang, D. Widyantoro, T. Ioerger, & J. Yen, An
entropy-based adaptive genetic algorithm for
escritos en lenguaje natural, ya sea en los reviews
learning classification rules. In Evolutionary
de productos escritos por clientes o por analistas Computation, 2001. Proceedings of the 2001
profesionales, en los foros públicos existentes de Congress on (Vol. 2, pp. 790-796). IEEE. 2001
diversas temáticas, en los blogs, redes sociales y [7] E. Fernández, Análisis de clasificadores
aulas virtuales en entornos educativos.. El acceso y bayesianos. Trabajo Final de Especialidad en
la explotación de estas nuevas fuentes de opinión Ingeniería de Sistemas Expertos. Escuela de
poseen un indudable atractivo para las Postgrado. Instituto Tecnológico de Buenos Aires.
administraciones, las empresas y los clientes. 2004.
[8] I. Eléctrico & L. M. García.. Análisis de
sentimientos y predicción de eventos en twitter.
En los últimos años, diversos investigadores del 2014
campo del Procesamiento del Lenguaje Natural se [9] A. Ortiz, A. Pozo & S. Sánchez.. Sentitext:
han centrado en estudiar el tratamiento sistema de análisis de sentimiento para el
computacional de las opiniones, los sentimientos y español. Procesamiento del Lenguaje Natural, 45,
otros fenómenos subjetivos contenidos en este tipo 297-298. 2010.
de textos. Muchas son las tareas que se han ido [10] J. Castro, Análisis de sentimiento y clasificación
definiendo en estos últimos años: clasificación de de texto mediante Adaboost Concurrente. 2016.
documentos basada en la opinión contenida en los
mismos, detección de la subjetividad las emociones
expresadas en los textos, clasificación de
documentos basada en la perspectiva política del
autor, etc.

Se ha observado que muchos personas han


demostrado que el empleo del análisis de
sentimientos resulta efectivo gracias a la selección
y aplicación adecuada de algoritmos eficientes para
el estudio correspondiente, y con el resultado poder
conducir a una mejora estadísticamente
significativa en la precisión de la clasificación de la
polaridad, teniendo en cuenta que en el futuro
siempre existirán investigaciones para el desarrollo
de nuevas técnicas de selección de parámetros, la
incorporación de otras fuentes de claves
contextuales además de la proximidad de las
oraciones, y la investigación de otros medios para
construir dicha información.

Potrebbero piacerti anche