Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Resumen
Este artculo presenta un anlisis y una comparacin de tres algoritmos diferentes:
mtodo de agrupamiento (K-means), Algoritmo expectacin-maximizacin Kohonen
(EM) y metodologa de clasificacin (LAMDA), usando dos paquetes (WEKA y SALSA)
de clasificacin como ayuda para la prediccin de futuras elecciones en el estado de
Quintana Roo. Al trabajar con datos electorales stos son clasificados de forma
cualitativa y cuantitativa y por tal virtud al final de sta artculo se tendrn los elementos
necesarios para decir que software tiene mejor desempeo para dicho aprendizaje de
clasificacin.
agrupamiento, WEKA,
http://pistaseducativas.itc.mx
~77~
Pistas Educativas, No. 107, Enero-Junio 2014. Mxico, Instituto Tecnolgico de Celaya.
1. Introduccin
La fascinacin por predecir el futuro es uno de los intentos y deseos que el hombre
sigue insistiendo en conseguir. Mucho esfuerzo han puesto las personas y empresas en
conocer el clima y precios de productos en el mercado [8,9,12]. Algunos de estos
trabajos [9] calculan rendimientos logartmicos, mtodos de trazado, promedio de
valores en series de tiempo para generar escenarios probabilsticos.
Muchos trabajos de prediccin con Minera de datos se han hecho como la prediccin y
tratamiento de enfermedades [4], consumo de alcohol en adolescentes [5], etc. Otros
estudios acerca de prediccin de elecciones se han hecho en pases como: Espaa [1],
Holanda [2], Alemania [3,4], Canad [13].
El descubrimiento de conocimiento en bases de datos (KDD) ha hecho que los
procedimientos computacionales en aprendizaje automtico sea cada vez ms
avanzados. La minera de datos tiene como objetivo descubrir patrones y relaciones
para hacer predicciones.
Primeramente la clasificacin de los datos por un proceso de aprendizaje no
supervisado como el clustering, trae consigo el encontrar grupos que sean diferentes
pero los individuos sean iguales entre s [6].
Se elige la utilizacin del software de minera de datos llamado WEKA por ser una
herramienta fcil, ms utilizada y donde distintos trabajos eligieron [13,15] y compararon
[5] los diferentes productos de software de minera de datos.
Tambin se elige un modelo hbrido (ver tabla 1) como tcnicas de clustering por
mejores resultados en algunos trabajos relacionados [10,11].
http://pistaseducativas.itc.mx
~78~
Pistas Educativas, No. 107, Enero-Junio 2014. Mxico, Instituto Tecnolgico de Celaya.
Tipo de modelo
Regresin mltiple
Lineal
Redes neuronales
(Radial Basis Function,
RBF y
Backpropagation)
No Lineal
Mtodos de K-nearest
neighbor
No lneal
Red neuronal
probabilstica (PNN)
No lneal
Algoritmo gentico
No lineal
Redes neuro-difusas
No lineal e Hbrido
No lineal
No lineal
http://pistaseducativas.itc.mx
~79~
Pistas Educativas, No. 107, Enero-Junio 2014. Mxico, Instituto Tecnolgico de Celaya.
3. Aprendizaje automtico
Aprendizaje automtico es la adquisicin de nuevo conocimiento, el desarrollo de un
motor y habilidades cognitivas a travs de instrucciones o prcticas, la organizacin de
nuevo conocimiento, representacin efectiva y descubrimiento de nuevos hechos y
teoras a travs de la observacin y experimentacin.
Los tipos de conocimiento adquirido son parmetros en expresiones algebraicas,
rboles de decisin, gramtica formal, produccin de reglas, lgica formal basada en
expresiones,
grafos
redes,
marcos
esquemas
otras
codificaciones
http://pistaseducativas.itc.mx
~80~
Pistas Educativas, No. 107, Enero-Junio 2014. Mxico, Instituto Tecnolgico de Celaya.
Categora
Mtodo
jerrquico
Agglomerative
algorithms y divisive
algorithms
Mtodo de
particin y de
reubicacin
Clustering
probabilstico, Kmediods y K-means.
Mtodo de
particionado
basado en
densidad
Clustering con
conectividad basado en
densidad y clustering
de funciones de
densidad.
Mtodo
basado en red
http://pistaseducativas.itc.mx
~81~
Pistas Educativas, No. 107, Enero-Junio 2014. Mxico, Instituto Tecnolgico de Celaya.
Mtodo
basado en coocurrencia de
datos
categricos
Otras tcnicas
de clustering
Clustering basado en
restricciones,
particionamiento en
grafos, algoritmos de
agrupamiento con
aprendizaje
supervisado y
algoritmos de
agrupamiento con
aprendizaje automtico
Algoritmos de
clustering
escalables
Algoritmos
para datos
dimensionales
altos
Clustering de
subespacio y tcnicas
de co-clustering
a. K-Means
Es un algoritmo clasificado como mtodo de particionado y de reubicacin. Cada uno
de sus clusters representa la media de sus puntos (centroide). La ventaja de usarlo es
por la rpida vista grfica y estadstica. La funcin objetivo es la suma de los errores
entre el centroide y sus puntos, es decir la varianza total dentro del cluster.
http://pistaseducativas.itc.mx
~82~
Pistas Educativas, No. 107, Enero-Junio 2014. Mxico, Instituto Tecnolgico de Celaya.
http://pistaseducativas.itc.mx
~83~
Pistas Educativas, No. 107, Enero-Junio 2014. Mxico, Instituto Tecnolgico de Celaya.
di xj
MAD
= i 1 i (1 di xj) Frmula MAD. (1)
k
k
i
( ) ( )( ( ))
http://pistaseducativas.itc.mx
~84~
Pistas Educativas, No. 107, Enero-Junio 2014. Mxico, Instituto Tecnolgico de Celaya.
4. Antecedentes
4.1 Referencias
Para analizar la toma de decisin de los ciudadanos, es necesario contar con
instrumentos de medicin respecto a su comportamiento electoral, como son encuestas
y proyecciones. En Mxico respecto a las primeras hay algo escrito, pero sobre las
segundas existe muy poco. La literatura referente a proyecciones electorales es
anmica porque los estudios que deberan nutrirla como los anlisis estadsticos estos
son escasos (22).
La falta de bibliografa especializada se debe a que desde 1993 se difunden, por parte
del Instituto Federal Electoral (IFE), y los rganos electorales estatales, los resultados
globales y con algunos niveles de desagregacin; lo que ha implicado que no existan
series histricas de votacin, ni criterios para construir unidades de comparacin.
Con la prctica de presentar la estadstica bsica desagregada hasta el nivel de seccin
electoral e inclusive por casilla, se han subsanado algunas de las carencias descritas,
sin embargo, todava subsiste la necesidad de analizar e interpretar los datos; fijar
criterios para la construccin y utilizacin de agregados estadsticos; y finalmente,
realizar predicciones tentativas.
La literatura sobre comportamiento electoral individual ha subrayado la existencia de
predisposiciones estables de voto, afirmadas en el largo plazo, sobre la base de las
cuales se concretar la decisin, salvo que acten sobre el individuo circunstancias
particulares de una eleccin: candidatos, temas, etctera, todas fuerzas de corto plazo.
4.2 Metodologa
Es importante estudiar la relacin entre la tendencia histrica de la votacin y los
resultados electorales de un proceso especfico; es trascendente porque nos permite
http://pistaseducativas.itc.mx
~85~
Pistas Educativas, No. 107, Enero-Junio 2014. Mxico, Instituto Tecnolgico de Celaya.
efectuar predicciones, las cuales pueden, en buena medida, sensibilizar a los actores
polticos y a los ciudadanos acerca de los posibles resultados del proceso electoral.
Es pertinente sealar que la investigacin se realiz ordenando los resultados de los
procesos locales de gobernador 1998, 2004 y 2010 del estado de Quintana Roo, para
elaborar series histricas de votacin, las cuales eran necesarias para efectuar las
proyecciones, los resultados electorales no son eventos totalmente fortuitos, desligados
por completo de acontecimientos anteriores, y que mucho de lo que ocurre en los
procesos locales nos permite prever los posibles escenarios del proceso local.
As, para el caso del ejecutivo local se incorporan los datos de los tres ltimos comicios
para gobernador 1998, 2004 y 2010, se analizaron datos de presidentes municipales y
diputados locales los anteriores son cada 3 aos, debido a las dificultades para
normalizar los datos y la falta de los datos mismos, se determin a usar los datos para
la gubernatura.
La evolucin histrica que han tenido los partidos polticos en el Estado de Quintana
Roo muestra claramente como han aparecido diversidad de estos actores polticos,
pero con el paso del tiempo han fenecido. Los partidos polticos que con el paso del
tiempo han subsistido solos o coaligados son el PAN, PRI y el PRD, para el caso de
estudio.
Para obtener los datos ya normalizados, se tuvo que realizar un anlisis histrico de la
evolucin que
conclusin, para el caso del estado de Quintana Roo, en todas las elecciones de
gobernador se encontraban presentes los tres partidos polticos grandes de Mxico o
estaban coaligados.
Primeramente y para no tener sesgo o tendencia, se tom en el orden que aparecen
registrados en el rgano electoral estatal, de tal manera que aparecen la siguiente
manera: PAN, PRI Y PRD o sus respectivas coaliciones. En ese sentido se empezaron
a tomar como datos el ao de la eleccin (1998, 2004 y 2010), siendo los datos que se
http://pistaseducativas.itc.mx
~86~
Pistas Educativas, No. 107, Enero-Junio 2014. Mxico, Instituto Tecnolgico de Celaya.
obtuvieron del rgano Electoral Estatal y tomando en cuenta que la eleccin mayor se
realiza cada 6 aos.
Posteriormente los datos se clasificaron por distrito electoral (1998, 2004 y 2010 para
estos aos han existido 15 distritos), de tal manera que se realiz la divisin por distrito
electoral y para cada distrito electoral se desagrego por casilla (para las casillas existi
la necesidad de normalizar la informacin); para cada casilla electoral se dividi por tipo
de casilla, de tal manera que se lleg el desagregado al dato ms elemental.
Quedando el registro de la siguiente manera (ao de la eleccin, distrito electoral,
casilla, partido 1, partido 2 y partido 3). Quedando 2 tipos de datos cualitativos y los
otros cuantitativos.
5. Experimentos
5.1 Salsa
Al archivo generado de los datos, se le debe agregar el encabezado (a) de acuerdo al
formato que maneja la herramienta para este caso Salsa, posteriormente ya
normalizados dichos datos, se guarda el archivo (b). Se procede a realizar la carga de
los datos por medio del archivo realizado en formato texto (c).
Una vez que se ha procedido a cargar los datos en Salsa, se procede a procesarlos (d).
DIST CAS
PAN PRI
PRD
El formato del encabezado del archivo que servir para procesar los datos en la
herramienta es el que se muestra en la imagen, la herramienta pide que al inicio del
archivo exista & y las dems columnas debern estar separadas por un (Tabulador)
Pistas Educativas Ao XXXIV - ISSN 1405-1249
Certificado de Licitud de Ttulo 6216; Certificado de Licitud de Contenido 4777; Expediente de Reserva 6 98 62
http://pistaseducativas.itc.mx
~87~
Pistas Educativas, No. 107, Enero-Junio 2014. Mxico, Instituto Tecnolgico de Celaya.
DIST CAS
PAN PRI
I
XV
I
XV
I
XV
83
11
206
3
47
73
300B
297B
300B
297B
300B
297B
PRD
149
235
161
35
153
137
45
236
20
127
58
79
Los datos fueron agrupados por aos (1998, 2004 y 2010), el distrito electoral al que
corresponde (I..XV), el nmero y tipo de casilla (Bsica, Contigua, Especial o
eXtraordinaria) y por ltimo la votacin correspondiente al partido.
c. Datos cargados
http://pistaseducativas.itc.mx
~88~
Pistas Educativas, No. 107, Enero-Junio 2014. Mxico, Instituto Tecnolgico de Celaya.
d. datos procesados
e. perfil de la clase.
http://pistaseducativas.itc.mx
~89~
Pistas Educativas, No. 107, Enero-Junio 2014. Mxico, Instituto Tecnolgico de Celaya.
5.2 WEKA
Se realiza un procedimiento similar al que se realiz con Salsa. Como primer paso se
genera un archivo de datos, al archivo generado de los datos, se le debe agregar el
encabezado (a) de acuerdo al formato que maneja la herramienta para ste caso
WEKA, posteriormente ya normalizados dichos datos, se guarda el archivo. Se procede
a realizar la carga de los datos por medio del archivo realizado en formato texto (b).
a. encabezado del archivo
@relation datos
@attribute distrito {I, II, III, IV, V, VI, VII, VIII, IX,
X, XI, XII, XIII, XIV, XV}
@attribute pan numeric
@attribute pri numeric
@attribute prd numeric
Para el caso de WEKA, se le tuvo que quitar el atributo ao, cuando se le dejaba este
atributo generaba un error de datos cualitativos y cuantitativos.
b. datos cargados
Se observa como hace la clasificacin WEKA (en forma de tabla y en forma de barras),
para el caso de la tabla se hace una clasificacin por distrito y el resultado de la
Pistas Educativas Ao XXXIV - ISSN 1405-1249
Certificado de Licitud de Ttulo 6216; Certificado de Licitud de Contenido 4777; Expediente de Reserva 6 98 62
http://pistaseducativas.itc.mx
~90~
Pistas Educativas, No. 107, Enero-Junio 2014. Mxico, Instituto Tecnolgico de Celaya.
agrupacin de los datos para cada distrito. Para las grficas solo muestra su
concentracin y uno tendra que deducir que cada barra es un distrito electoral.
c. datos procesados mediante K-means
http://pistaseducativas.itc.mx
~91~
Pistas Educativas, No. 107, Enero-Junio 2014. Mxico, Instituto Tecnolgico de Celaya.
Conclusiones
En ste artculo se averigu sobre el estado actual de investigacin relacionado con la
prediccin de elecciones usando aprendizaje automtico.
Para trabajo futuro se realizar un anlisis y almacenar una coleccin de opiniones
para comparar con los registros de votos anteriores, Nosotros creemos que se puede
con las herramientas mostradas, predecir con mucha antelacin la tendencia de las
http://pistaseducativas.itc.mx
~92~
Pistas Educativas, No. 107, Enero-Junio 2014. Mxico, Instituto Tecnolgico de Celaya.
Bibliografa
[1] Dellte, L., Osteso, J., M., & Claes, F (2013). Prediccin de tendencia poltica por
Twitter:
elecciones Andaluzas
2012. mbitos.
Revista
Internacional de
Comunicacin, 22(1).
[2] Tumasjan, A., Sprenger, T. O., Sandner, P. G., & Welpe, I. M. (2010). Predicting
Elections with Twitter. What 140 Characters Reveal about Political Sentiment.
ICWSM, 10, 178-185.
[3] Sang, E. T. K., & Bos, J. (2012, April). Predicting the 2011 dutch senate election
results with twitter. In Proceedings of the Workshop on Semantic Analysis in
Social Media, 53-60.
[4] Jungherr, A., Jrgens, P., & Schoen, H. (2012). Why the pirate party won the
german election of 2009 or the trouble with predictions: A response to tumasjan,
a., sprenger, to, sander, pg, & welpe, im predicting elections with twitter: What
140 characters reveal about political sentiment. Social Science Computer
Review, 30(2), 229-234.
[5] Vega, C. A., Rosano, G., Lpez, J. M., Cendejas, J. L., & Ferreira, H. Data Mining
Aplicado a la Prediccin y Tratamiento de Enfermedades.
[6] Garca, E. G., Lpez, R. J., Moreno, J. J. M., Abad, A. S., Blasco, B. C., & Pol, A.
P. (2009). La metodologa del Data Mining. Una aplicacin al consumo de alcohol
en adolescentes. Adicciones, 21(1), 65-80.
[7] Garre, M., Cuadrado, J. J., Sicilia, M. A., Rodrguez, D., & Rejas, R. (2007).
Comparacin de diferentes algoritmos de clustering en la estimacin de coste en
http://pistaseducativas.itc.mx
~93~
Pistas Educativas, No. 107, Enero-Junio 2014. Mxico, Instituto Tecnolgico de Celaya.
http://pistaseducativas.itc.mx
~94~
Pistas Educativas, No. 107, Enero-Junio 2014. Mxico, Instituto Tecnolgico de Celaya.
http://pistaseducativas.itc.mx
~95~