Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Técnicas de Aprendizaje
Automático Aplicadas al
Procesamiento de Información
Demográfica
DOCTORADO EN INFORMÁTICA
Dirigida por:
Dr. José García Rodríguez
Learn from yesterday, live for today, hope for tomorrow.
The important thing is not to stop questioning.
Albert Einstein
Agradecimientos
1. Introducción 1
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. Revisión del Estado del Arte . . . . . . . . . . . . . . . . . 4
1.3.1. Grandes volúmenes de datos . . . . . . . . . . . . . 5
1.3.1.1. Conjunto de datos (datasets) . . . . . . . . 7
1.3.2. Técnicas de Clasificación . . . . . . . . . . . . . . . . 9
1.3.3. Algoritmos de Aprendizaje Automático . . . . . . . 10
1.3.3.1. K-Media (K-Means) . . . . . . . . . . . . . 10
1.3.3.2. K-Medoides . . . . . . . . . . . . . . . . . . 11
1.3.3.3. Máquinas de Soporte Vectorial (SVM) . . . 12
1.3.3.4. k-Vecinos más cercanos (KNN) . . . . . . . 15
1.3.3.5. Esperanza–Maximización(EM) . . . . . . . 16
1.3.3.6. Mapas Auto Organizados (SOM) . . . . . . 18
1.3.3.7. DBSCAN . . . . . . . . . . . . . . . . . . . 19
1.3.3.8. Árboles de Decisión (DT) . . . . . . . . . . 21
1.3.4. Revisión de estrategias híbridas de procesamiento de
datos . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.3.5. Consideraciones en la elección de algoritmos de Apren-
dizaje Automático . . . . . . . . . . . . . . . . . . . 25
1.3.5.1. Tipo de datos a ser procesados . . . . . . . 26
1.3.5.2. Limitaciones y Parámetros de los Algoritmos 26
1.3.6. Consideraciones generales . . . . . . . . . . . . . . . 27
1.4. Definición del Problema . . . . . . . . . . . . . . . . . . . . 28
1.5. Propuesta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.6. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.7. Estructura de la tesis . . . . . . . . . . . . . . . . . . . . . . 30
3. Imputación de datos 55
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.2. Trabajos relacionado . . . . . . . . . . . . . . . . . . . . . . 57
3.3. Selección de variables representativas . . . . . . . . . . . . . 59
3.3.1. Prueba ji-cuadrado (χ2 ) . . . . . . . . . . . . . . . . 60
3.3.2. Análisis de Componentes Principales (PCA) . . . . . 61
3.3.3. Bosques Aleatorios (Random Forest, RF) . . . . . . 61
3.4. Imputación de valores perdidos . . . . . . . . . . . . . . . . 62
3.4.1. Métodos de Eliminación . . . . . . . . . . . . . . . . 63
3.4.2. Métodos de Imputación . . . . . . . . . . . . . . . . 64
3.4.2.1. Métodos estadísticos . . . . . . . . . . . . . 66
3.4.2.2. Métodos basados en algoritmos de inteli-
gencia artificial . . . . . . . . . . . . . . . . 67
3.5. Imputación de datos basada en técnicas de Inteligencia Ar-
tificial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.5.1. Modelo para imputar datos . . . . . . . . . . . . . . 69
3.6. Experimentación . . . . . . . . . . . . . . . . . . . . . . . . 69
3.6.1. Plataforma de Prueba . . . . . . . . . . . . . . . . . 72
3.6.2. Selección de atributos . . . . . . . . . . . . . . . . . 73
3.6.2.1. Random Forest . . . . . . . . . . . . . . . . 73
3.6.3. Imputación con métodos estadísticos . . . . . . . . . 75
3.6.3.1. Imputación dataset completo . . . . . . . . 77
3.6.3.2. Imputación por clusters . . . . . . . . . . . 78
3.6.4. Imputación con métodos de aprendizaje automático 80
3.6.4.1. Imputación dataset completo . . . . . . . . 80
3.6.4.2. Imputación por clusters . . . . . . . . . . 81
3.7. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5. Conclusiones 121
5.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.2. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . 123
5.3. Publicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 124
5.4. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . 126
Anexos 129
Bibliografía 147
1. Algoritmo k-Media . . . . . . . . . . . . . . . . . . . . . . . . 10
2. Algoritmo K-Medoids . . . . . . . . . . . . . . . . . . . . . . 12
3. Algoritmo kNN . . . . . . . . . . . . . . . . . . . . . . . . . 15
4. Algoritmo Esperanza-Maximización . . . . . . . . . . . . . . 17
5. Algoritmo SOM . . . . . . . . . . . . . . . . . . . . . . . . . 18
6. Algoritmo DBSCAN . . . . . . . . . . . . . . . . . . . . . . . 20
7. Algoritmo DT . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Introducción
1.1. Introducción
La información es actualmente uno de los recursos más valiosos dentro
de cualquier campo. La generación de datos y por tanto de información va-
liosa ha crecido de forma exponencial en los últimos años. Este crecimiento
se debe en gran medida a la democratización en el acceso a Internet y la
aparición de redes sociales, estos datos e información son complejos y re-
quieren de grandes recursos tecnológicos para ser analizados con el fin de
extraer información relevante que responda a determinados problemas.
Los datos, la información y el conocimiento forman parte importante
en el desarrollo de las sociedades, a medida que la tecnología avanza, tam-
1.1. Introducción
2
Capítulo 1. Introducción
1.2. Motivación
La principal motivación para la realización de este proyecto aparece
por la inquietud en encontrar nuevas relaciones entre datos provenientes de
censos o encuestas y la manera de analizarlos para ayudar en la resolución
y toma de decisiones relativas a diversos problemas sociales y de salud
pública.
Como parte del programa de DOCTORADO en Informática que he
cursado gracias al convenio que existe entre la Universidad Central del
Ecuador y la Universidad de Alicante, fue posible realizar la investigación
en este tema y producto de la misma se obtiene el siguiente documento.
La Universidad Central del Ecuador, mediante el convenio firmado con
la Universidad de Alicante, apoya el desarrollo de programas de Doctorado
y las investigaciones que se desarrollan en proyectos en las áreas científica y
tecnológica, orientados a crear conocimiento o profundizar el ya existente.
En el Ecuador, dentro de la constitución 1 se establecen una serie de
propuestas, requerimientos y lineas de actuación, para el fortalecimiento de
la investigación en campos que son prioridad para el estado. El Art. 80 ga-
rantiza la investigación científica y tecnológica en Universidades, Escuelas
Politécnicas y centros de investigación científica. A través de los diferentes
objetivos establecidos en el Plan del Buen Vivir (actualmente Toda una
Vida) 2 , se establecen dichos campos de investigación, que permiten encon-
trar financiamiento para realizar diferentes proyectos de investigación que
contribuyan al cumplimiento de cada objetivo o bien aporten información
que permita formular políticas públicas. Dentro de los objetivos se plantea
la financiación de las propuestas de Investigación, Desarrollo e Innovación,
I+D+i, que es el marco en que se desarrolla este proyecto.
Por otro lado, consideremos que en los países se realizan periódica-
mente los censos de población y vivienda, para poder generar políticas en
1
http://pdba.georgetown.edu/Parties/Ecuador/Leyes/constitucion.pdf
2
http://www.planificacion.gob.ec/
3
1.3. Revisión del Estado del Arte
4
Capítulo 1. Introducción
5
1.3. Revisión del Estado del Arte
Las empresas actualmente tienen que lidiar con el problema del pro-
cesamiento de grandes volúmenes de datos, considerando la diversidad y
heterogeneidad de los datos. Se han modificado tanto el almacenamiento
tradicional como la visualización de los resultados, mediante la utilización
del almacenamiento en la nube, mejorando el poder de computación y vi-
sualización con indexación eficiente [117]. Para conseguir este propósito, se
han mejorado los métodos orientándolos a trabajar con un Volumen inmen-
so de datos, combinando diversas fuentes de datos (Variedad), modificando
la forma tradicional de procesar los datos, que permita un procesamiento
eficiente en tiempo real (Velocidad), todo enfocado a obtener información
con Valor yVeracidad.
En la mayoría de los estudios analizados se pudo notar que los re-
sultados obtenidos depende en gran parte de los datos que se utilicen,
dependiendo de sus características se debe escoger las técnicas a utilizar.
Pese a que existen diversas técnicas que permiten optimizar los algoritmos
utilizados, en su mayoría depende más de cómo se han tratado los datos
en la etapa de pre-procesamiento.
Actualmente existen millones de datos disponibles en la nube, estamos
viviendo la era del Big Data, los datos se generan, recopilan y analizan a
velocidades sin precedentes [31]. Las grandes empresas almacenan grandes
volúmenes de datos, que posteriormente son analizados para la toma de
decisiones, más aún si los datos provenientes de diversas fuentes pueden
6
Capítulo 1. Introducción
7
1.3. Revisión del Estado del Arte
Características
Conjunto de datos Velocidad Volumen Variabilidad
Repositorio de base de datos de ML [50] X X
Informática social [82] X X X
Conjunto de datos sintéticos [20] X X
Datos socio-demográficos [75] X X
Datos reales [28] X X X
8
Capítulo 1. Introducción
9
1.3. Revisión del Estado del Arte
Datos: dataset
Resultado: datos clasificados
1 seleccionar k centros aleatorios
2 mientras se pueda reasignar centros hacer
3 asignar datos al ki más cercano; calcular el centroide de los datos
para cada grupo;
4 fin
3
https://www.unioviedo.es/compnum/laboratorios_py/kmeans/kmeans.html
4
https://scikit-learn.org/stable
10
Capítulo 1. Introducción
1.3.3.2. K-Medoides
5
http://bibdigital.epn.edu.ec/bitstream/15000/19398/1/CD-8788.pdf
6
https://stats.stackexchange.com/questions/156210
11
1.3. Revisión del Estado del Arte
Datos: dataset
Resultado: datos clasificados
1 Seleccionar k objetos aleatoriamente
2 Calcular Cij : coste Oi , Kh
3 Se asocia cada Oi al Kh medoide más cercano
4 Se determina coste total (CT): suma de la distancia de los puntos a sus
medoides
5 mientras Coste configuración disminuye hacer
6 Para cada Kh , para cada Oi :
7 Intercambiar Kh y Oi , recalcular costo
8 Si costo aumento, deshacer intercambio
9 fin
12
Capítulo 1. Introducción
Aquí podemos encontrar que los datos suelen ser de dos tipos, se suele
decir linealmente separables y los no linealmente separables [40].
En los datos linealmente separables se utiliza el margen (γ) como el
hiperplano para separar las clases, y lo definimos a partir del supuesto
que para el conjunto de entrenamiento (xi , yi ), i = 1, ..., m, con xi ∈ R e
yi ∈ {−1, 1}, existe un hiperplano que separa los datos, de la forma:
f (x) = x · w + b (1.1)
13
1.3. Revisión del Estado del Arte
1 w w
γ= ( · x+ − · x− ) (1.2)
2 kwk2 kwk2
Para los datos no linealmente separables , que son la mayoría de los ca-
sos en los que trabajamos con datos reales, encontrar un hiperplano óptimo
que separa de forma adecuada los datos no es tarea fácil. En este problema
se introduce un condicionante que permite tener un modelo menos rígi-
do, permitiendo que exista un error aceptable al momento de clasificar los
datos. Este error lo denotamos con ε ≥ 0, siendo ahora el supuesto de la
forma:
yi (w · xi + b) − 1 + εi ≥ 0, ∀i (1.3)
l
1 X
mínw,b kwk2 + C εi (1.4)
2 i=1
Polinomial-homogénea:
K(Xi , Xj ) = (Xi · Xj )n
Perceptron:
K(Xi , Xj ) = ||Xi − Xj ||
14
Capítulo 1. Introducción
Sigmoid:
K(Xi , Xj ) = tanh(Xi · Xj − θ)
8
http://www.sc.ehu.es/ccwbayes/docencia/mmcc/docs/t9knn.pdf
9
https://scikit-learn.org/stable/modules/neighbors.html
15
1.3. Revisión del Estado del Arte
1.3.3.5. Esperanza–Maximización(EM)
C cluster.
10
https://jarroba.com/expectation-maximization-python-scikit-learn-ejemplos/
16
Capítulo 1. Introducción
Datos: dataset
Resultado: datos clasificados
1 Inicializamos parámetros:
2 π = [ k1 , ∀i ∈ [1, k]]; caso contrario π = 0
3 µ = [random(object), ∀i ∈ [1, k]]; caso contrario µ = 0
4 σ = [1, ∀i ∈ [1, k]]; caso contrario σ = 0
5 mientras no converja hacer
6 para i en el rango(dataset) hacer
x−µk 2
e −1
2 ( σk )
7 Ck := argmax πk σk
8 fin
9 para j en el rango(k) hacer
objetosenelcluster
10 πj := T otalobjetos
1
PN
11 µj := N i=1 Xi
q Pn
1
12 σj := n−1 · n=1 (Xi − µj ) 2
13 fin
14 fin
17
1.3. Revisión del Estado del Arte
18
Capítulo 1. Introducción
1.3.3.7. DBSCAN
12
https://ciberconta.unizar.es/leccion/visual/620.HTM
19
1.3. Revisión del Estado del Arte
13
https://scikit-learn.org/stable/modules/clustering.html
20
Capítulo 1. Introducción
8 fin
9 Escoger los K casos Dxk ya clasificados más cercanos a x
10 Asignamos x a la clase más frecuente en Dxk
Algoritmo 7: Algoritmo DT
14
http://www.sc.ehu.es/ccwbayes/docencia/mmcc/docs/t10arboles.pdf
15
https://scikit-learn.org/stable/modules/tree.html
21
1.3. Revisión del Estado del Arte
22
Capítulo 1. Introducción
Por otro lado, algunos investigadores optan también por generar nuevos
algoritmos realizando modificaciones internas al algoritmo o a estrategias
de combinación. En la Tabla 1.3 se presentan algunas técnicas o estrategias
híbridas, que utilizan métodos diferentes a los habituales para el cálculo
de similaridad o similitud entre patrones o combinan diferentes técnicas
de Aprendizaje con algún nivel de modificación para crear métodos de
clasificación más eficientes.
23
1.3. Revisión del Estado del Arte
24
Capítulo 1. Introducción
25
1.3. Revisión del Estado del Arte
26
Capítulo 1. Introducción
que funcionan mejor con datos categóricos y otros con datos cuantitativos,
pero muy pocos manejan datos que poseen las dos características simultá-
neamente.
Debemos evaluar la validez, estabilidad y escalabilidad en los resultados
obtenidos en cada algoritmos.
27
1.4. Definición del Problema
1.5. Propuesta
Una vez concluida la revisión de trabajos relacionados con el procesa-
miento de grandes volúmenes de datos mediante técnicas de aprendizaje
automático, se han podido describir los problemas relacionados con el ta-
maño de los datos, el tipo de datos a ser procesados y los requerimientos
de hardware necesarios. Por ello, se ha podido recalcar la necesidad de
encontrar una alternativa que permita optimizar la precisión, reducir el
coste computacional en el procesamiento de grandes volúmenes de datos
provenientes de censos o encuestas, mediante técnicas de aprendizaje au-
tomático.
En la actualidad, es extremadamente sencillo el acceso a datos aso-
ciados a censos o encuestas de diferentes países, sin embargo estos datos
presentan un gran número de valores atípicos o valores faltantes (valores
perdidos) lo que limita su uso. La extracción de información relevante de
datos provenientes de censos o encuestas, se ha realizado tradicionalmen-
te mediante métodos estadísticos o estocásticos, y se limitan a obtener
28
Capítulo 1. Introducción
1.6. Objetivos
El objetivo principal de esta investigación es proponer una metodología
basada en algoritmos de aprendizaje automático que permita predecir los
valores omitidos dentro de una encuesta o censo, a estos valores se los
denomina valores perdidos (NA).
La metodología propuesta incorpora técnicas de clasificación supervi-
sada y no supervisada para la predicción de los valores faltantes, fuera de
rango o perdidos.
Como objetivos derivados y previos que permitan conseguir el objetivo
principal, se propone una metodología que consta de un paso previo de
preprocesamiento o limpieza de datos, un paso de selección o ranking de
atributos más representativos para clasificar los datos, esto con la finali-
dad de reducir el coste computacional relacionado con el almacenamiento
(memoria) y la necesidad de obtener una alta velocidad de procesamiento.
La validez y eficiencia de la metodología propuesta será verificada me-
diante casos de uso con datos socio–demográficos provenientes del Censo
29
1.7. Estructura de la tesis
30
Capítulo 2
Aprendizaje automático
aplicado a datos censales
2.1. Introducción
32
Capítulo 2. Aprendizaje automático aplicado a datos censales
Donde:
33
2.2. Revisión del Estado del Arte
observacionesClasif icadasCorrectamente
Exactitud = (2.3)
totalObservaciones
P redCii
Sensibilidad = (2.4)
OCi
P redCii
P recisión de la clase = (2.5)
P redCi
34
Capítulo 2. Aprendizaje automático aplicado a datos censales
2
https://www.elsevier.es/es-revista-endocrinologia-nutricion-12-pdf-
S1575092204746148
35
2.2. Revisión del Estado del Arte
Es muy común utilizar sólo una muestra del censo para estudios especí-
ficos. Para generar estas muestras se introducen parámetros como: rango de
edad, género, ubicación geográfica, entre otros. Los parámetros dependerán
exclusivamente del propósito del estudio. Un ejemplo lo encontramos en el
estudio realizado en 2011 por Qu,Hui-Qi at al. [95], en el que se obtiene
una muestra de 1854 adultos (parámetro=edad) seleccionados aleatoria-
mente y a la cual se le aplican técnicas de ML, como SVM y Regresión
Logística Bayesiana para identificar variables correlacionadas con un pará-
metro específico (HOMA-IR) y agrupar mediante K-Mediana quienes son
resistentes a un medicamento (insulina).
En otro estudio, mediante el análisis con herramientas de ML con datos
de censos se puede visualizar el impacto de la alfabetización de hombres y
mujeres del distrito de Latur en Maharashtra, extrayendo como conclusión
el impacto de la alfabetización en la desigualdad de género [55].
Todos estos estudios concluyen de forma clara la importancia de los
datos provenientes de Censos y Encuestas para distintas áreas y sectores.
De aquí partimos para realizar pruebas con técnicas de ML para procesar
este tipo de datos y ver de forma clara los problemas encontrados.
36
Capítulo 2. Aprendizaje automático aplicado a datos censales
i01 Provincia
i02 Cantón
4
https://www.cepal.org/es
5
https://www.cepal.org/es/acerca-de-poblacion-y-desarrollo
6
http://www.ecuadorencifras.gob.ec/base-de-datos-censo-de-poblacion-y-vivienda-
2010/
37
2.3. Procesamiento de datos censales
i03 Parroquia
i04 Zona
i05 Sector
38
Capítulo 2. Aprendizaje automático aplicado a datos censales
Descripción
Total de atributos 101
Total de observaciones 14,483,499
39
2.3. Procesamiento de datos censales
40
Capítulo 2. Aprendizaje automático aplicado a datos censales
41
2.3. Procesamiento de datos censales
42
Capítulo 2. Aprendizaje automático aplicado a datos censales
De las tablas 2.4, 2.6, 2.7 y 2.8, podemos concluir que la exactitud de los
algoritmos depende del tipo de datos a procesar y del número de categorías
43
2.3. Procesamiento de datos censales
Introducción de datos
Pre-procesamiento
de datos
Validación Entrenamiento
Ejecución del
Evaluación
modelo
44
Capítulo 2. Aprendizaje automático aplicado a datos censales
Sabe Leer
No. ejecuciones No. Variables
1 101
2 94
3 23
4 17
5 14
6 7
Sabe Leer
No. Variables Descripción
1 I03C Cantón
2 P01 Sexo
3 P03 Edad
4 P23 Nivel instrucción más alto
5 P24 Grado o curso más alto que ha asistido
6 GRAESC Grados de escolaridad
7 P25 Tiene título
45
2.3. Procesamiento de datos censales
Resultados en porcentaje ( %)
Algoritmo Exactitud Sensibilidad Precisión (clase)
K-NN 99.21 99.40 98.84
DT 99.02 98.51 97.18
Naïve Bayes 99.21 99.70 99.41
Neural Net 98.82 99.70 97.44
SVM-PSO 95.96 93.89 89.38
46
Capítulo 2. Aprendizaje automático aplicado a datos censales
Estado Civil
No. corrida No. Variables
1 124
2 72
3 24
4 20
5 15
6 10
añadir herramientas que permitieron formatear los datos para cumplir con
los requerimientos de los distintos algoritmos.
47
2.3. Procesamiento de datos censales
Algoritmos
Naïve Neural KNN Random
Bayes Net Forest
Tiempo (ms) 31 50008 1156 672
Total Exactitud ( %) 72,28 74 72.33 68,89
315 Clase 1 312 277 271 236
278 Clase 2 266 206 277 278
293 Clase 3 290 228 167 252
316 Clase 4 22 81 128 35
284 Clase 5 113 224 190 204
314 Clase 6 301 277 269 235
48
Capítulo 2. Aprendizaje automático aplicado a datos censales
Al aplicar los algoritmos para clasificar los datos de las muestras plan-
teadas obtuvimos los siguientes resultados:
Por ello nace la idea de crear grupos (clusters) que nos permitan tener
subconjuntos con características y comportamientos similares que benefi-
cien el proceso de clasificación.
49
2.4. Propuesta de metodología basada en aprendizaje automático para procesar
datos Censales
50
Capítulo 2. Aprendizaje automático aplicado a datos censales
51
2.4. Propuesta de metodología basada en aprendizaje automático para procesar
datos Censales
52
Capítulo 2. Aprendizaje automático aplicado a datos censales
53
2.5. Conclusiones
son algunas de las interrogantes que podemos responder con este tipo de
análisis.
En el siguiente capítulo vamos a tratar el problema más común exis-
tente en los datos provenientes de censos y encuestas, los valores perdidos
y datos fuera de rango, mediante la imputación de datos.
2.5. Conclusiones
Los datos provenientes de censos o encuestas tienen características es-
peciales distintas a las de los dataset comúnmente utilizados en las pruebas
de algoritmos o predicción de modelos propuestos, no sólo relacionadas con
el gran volumen de datos que poseen, sino también con el número de cate-
gorías de las variables, altos porcentajes de datos ausentes o fuera de rango
y la dificultad de expresar ciertas categoría en función de otras variables.
Por lo descrito en el párrafo anterior, el uso de las técnicas de apren-
dizaje automático para procesar este tipo de datos va ganando terreno y
es necesario plantear metodologías que permitan mejorar el procesamiento
para este tipo particular de dataset.
En los experimentos realizados se visualiza claramente que introdu-
cir ciertas modificación en la forma de aplicar los algoritmos beneficia de
manera considerable los resultados obtenidos, sobre todo en los casos de
umbrales poco definidos al separar una categoría de otra como en el caso
de la variable estCivil.
54
Capítulo 3
Imputación de datos
3.1. Introducción
56
Capítulo 3. Imputación de datos
que indica la presencia de valores perdidos tipo NMAR. También existe los
casos en que no se contesta una pregunta por afectar intereses personales
lo que nos lleva al tipo MAR. Entonces podemos decir que nuestros datos
tienden a presentar ausencia de datos del tipo NMAR y del tipo MAR.
Una vez identificado el tipo de ausencia de datos, se puede plantear de
qué manera deben ser tratados sin que esto afecte al dataset y de manera
directa a la información que extraemos de ella.
La siguiente etapa en la experimentación consiste en plantearnos un
ejemplo más complejo que permita ver la importancia de la imputación
de datos. En este capítulo vamos a plantear como ejemplo para validar
nuestras propuestas de imputación de datos, el problema de calcular la tasa
de mortalidad infantil según brechas educativas TMI-SBE de acuerdo al
sector de vivienda tomando como información base los datos que presentan
valores perdidos.
En concreto, para estimar la Tasa de Mortalidad Infantil (TMI ) [2], se-
gún William Brass, se requiere procesar las variables del censo que corres-
ponden al “número de hijos nacidos vivos” y a “hijos actualmente vivos”.
A esto añadimos las variables correspondientes a la ubicación geográfica de
los datos, las variables asociadas a niveles de educación y variables relevan-
tes provenientes de un proceso de selección de atributos (feature selection)
asociadas al grupo de variables Persona descrito en la sección 2.2.1.1.
57
3.2. Trabajos relacionado
58
Capítulo 3. Imputación de datos
59
3.3. Selección de variables representativas
N X
n
X (Oij − Eij )2
χ2 = (3.1)
i=1 j=1
Eij
60
Capítulo 3. Imputación de datos
cuando mayor sea el valor del estadístico mayor será la relación existente
entre las dos variables.
0
wj = aj1 v1 + aj2 v2 + ... + ajn vn = aj V (3.2)
0
donde aj es un vector de constantes y j = 1, .., p.
61
3.4. Imputación de valores perdidos
62
Capítulo 3. Imputación de datos
Métodos de Eliminación.
Métodos de Imputación.
63
3.4. Imputación de valores perdidos
La Figura 3.2 muestra una variable con alto número de valores au-
sentes, al aplicar el método pairwise la variable p143p será eliminada.
64
Capítulo 3. Imputación de datos
65
3.4. Imputación de valores perdidos
66
Capítulo 3. Imputación de datos
67
3.5. Imputación de datos basada en técnicas de Inteligencia Artificial
Dataset original
Selección de
atributos relevantes
Determinar variable
a imputar
Eliminar observaciones
con NA (no aplica)
Dataset final
68
Capítulo 3. Imputación de datos
3.6. Experimentación
En esta sección se presentan algunos resultados obtenidos al aplicar
varios algoritmos tradicionales de imputación y la metodología propues-
ta (generación manual de clusters) sobre el dataset correspondiente a la
provincia de Imbabura introducidos en la sección 2.3
De este universo, se ha seleccionado la información que permite calcular
la Mortalidad Infantil definido en [76] por lo que se considera únicamente
información del grupo Personas.
69
3.6. Experimentación
Dataset original
Generar n–clusters
Variable imputada
Sexo: mujer
70
Capítulo 3. Imputación de datos
Descripción
Total de atributos 22
Total de observaciones 60,662
Total valores perdidos (NA) 12,132
71
3.6. Experimentación
72
Capítulo 3. Imputación de datos
73
3.6. Experimentación
74
Capítulo 3. Imputación de datos
Esto muestra que la variable graesc puede ser predecida con una pre-
cisión aceptable utilizando solamente la variables p24 y p23.
75
3.6. Experimentación
Figura 3.7: Random Forest - Error vs. número de árboles (variables representa-
tivas)
Valor mínimo: 1
Valor máximo: 25
Mediana: 11
Moda: 8
Median
Mode
Hot-deck
76
Capítulo 3. Imputación de datos
77
3.6. Experimentación
78
Capítulo 3. Imputación de datos
79
3.6. Experimentación
kNN, k=5
Decision Trees
80
Capítulo 3. Imputación de datos
La Tabla 3.11 muestra la clasificación de los datos por cada uno de los
clusters creados manualmente utilizando el método kNN. La tabla muestra
el número de observaciones utilizadas para el entrenamiento (Training),
el número de observaciones utilizadas para pruebas (Test), el número de
observaciones de prueba clasificadas correctamente (Válidos) y la precisión
(Precisión).
81
3.7. Conclusiones
3.7. Conclusiones
La generación de los grupos se los realiza de forma manual utilizando
como variable que define los grupos, una variable que describe la división
geográfica de cantón, esto permite generar 6 grupos que comparten las
características espaciales.
Como se puede observar de las tablas 3.8 y 3.12, la generación de clus-
ters (grupos) de forma manual mejora ligeramente la clasificación (impu-
tación) de los datos.
Con los resultados encontrados hasta el momento podemos concluir
que el proceso de clasificación de variables depende directamente del ti-
po de datos, del tamaño de la muestra, de los algoritmos utilizados y la
metodología que apliquemos en el procesamiento de datos. Por esto, en el
siguiente capítulo aplicaremos el modelo propuesto (completo) para validar
las mejoras alcanzadas.
82
Capítulo 4
Procesamiento inteligente de
datos socio-demográficos
4.1. Introducción
alta dimensionalidad.
El procesamiento de conjuntos de datos con un alto número de varia-
bles (dimensionalidad), que son en su mayoría de tipo categóricas, conlleva
varios problemas a resolver como: reducción de la dimensionalidad, impu-
tación y limpieza de datos, altos costos computacionales entre otros. Como
parte de la metodología se propone una etapa de pre–procesamiento orien-
tada a solventar estos problemas.
En el proceso de extracción de conocimiento, es muy común tratar con
una etapa de pre-procesamiento de datos y reducción de dimensionalidad.
Parte fundamental de la extracción de información es contar con datos de
alta calidad.
En este capítulo se propone la utilización de los métodos Pairwise y
Listwise como parte del proceso de reducción de dimensionalidad cuando
existe un alto nivel de datos ausentes presente en una o más variables,
en el siguiente paso utilizamos RF para la selección de variables y así
completar la etapa de reducción de dimensionalidad. Como parte del pre–
procesamiento se generan n-clusters mediante el algoritmo SOM.
A continuación se realiza una comparación del rendimiento y precisión
de algoritmos de clasificación con el dataset completo y aplicando los algo-
ritmos a cada cluster. Como caso de estudio analizamos qué características
influyen en el nivel de escolaridad de las mujeres en edad fértil analizada
en la sección 3.6.
84
Capítulo 4. Procesamiento inteligente de datos socio-demográficos
85
4.2. Análisis de datos
4.2.1. Pre-procesamiento
Integración
Limpieza
Reducción
Transformación
Cada una de ellas está orientada a tratar los datos de tal manera que,
al finalizar el proceso, podamos contar con datos confiables, correctos y
concretos que sean de utilidad para el estudio planteado.
A continuación se describe cada una de las fases de la etapa de procesa-
miento a las que fue sometida la información para nuestro caso de estudio.
Los bloques de programa que se ilustran en cada sección se corresponden
con programas escritos en lenguaje R.
86
Capítulo 4. Procesamiento inteligente de datos socio-demográficos
4.2.1.1. Integración
1 dataset<-poblacion[ , variables]
2 dataset<-subset(dataset, p01==2 )
3 dataset<-subset(dataset, p03>=15 )
4 dataset<-subset(dataset, p03<=50 )
4.2.1.2. Limpieza
87
4.2. Análisis de datos
casos cuyos valores no son válidos para cada variable, se los reemplaza con
NA (no aplica).
1 dataset$p08<-recodeValue2Value(dataset$p08,9,NA)
2 dataset$p23<-recodeValue2Value(dataset$p23,99,NA)
3 ...
4.2.1.3. Reducción
88
Capítulo 4. Procesamiento inteligente de datos socio-demográficos
4.2.1.4. Transformación
89
4.3. Random Forest
4.3.1. Ranking
Para la generación de ranking de variables, se ejecuta un modelo de
Random Forest en modo no supervisado. El proceso de entrenamiento se
lleva a cabo con 50 árboles y se parametriza para que se entrene de forma
no supervisada.
1 set.seed(0)
2 ratio<-0.1
3 split = sample.split(dataset$graesc, SplitRatio = ratio)
4 training_set = subset(dataset, split == TRUE)
5 urf<- randomForest(
6 x=training_set,
90
Capítulo 4. Procesamiento inteligente de datos socio-demográficos
7 ntree=50,
8 importance = TRUE
9 )
4.3.2. Clasificación
91
4.3. Random Forest
3 data=training_set,
4 ntree=50,
5 importance = TRUE,
6 proximity = TRUE
7 )
8 print(urf)
92
Capítulo 4. Procesamiento inteligente de datos socio-demográficos
en modo no supervisado.
Todas las variables son de tipo categórico, con lo que el modelo corres-
ponde a un modelo de clasificación.
Del total de observaciones se utiliza el 80 % para entrenamiento y 20 %
para prueba. El número de árboles generados corresponde a 200.
Para la ejecución en modo supervisado se utiliza como variable a pre-
decir la variable graesc.
En la Tabla 4.1 se presenta el ranking de variables indicando la impor-
tancia relativa de cada una.
93
4.3. Random Forest
94
Capítulo 4. Procesamiento inteligente de datos socio-demográficos
95
4.4. Generación de clusters mediante SOM-Cluster Jerárquico
Topología: rectangular
96
Capítulo 4. Procesamiento inteligente de datos socio-demográficos
97
4.4. Generación de clusters mediante SOM-Cluster Jerárquico
98
Capítulo 4. Procesamiento inteligente de datos socio-demográficos
99
4.4. Generación de clusters mediante SOM-Cluster Jerárquico
100
Capítulo 4. Procesamiento inteligente de datos socio-demográficos
101
4.4. Generación de clusters mediante SOM-Cluster Jerárquico
102
Capítulo 4. Procesamiento inteligente de datos socio-demográficos
103
4.5. Generación de clusters mediante Gases Neuronales Crecientes
Tabla 4.4: GNG - Tiempo de ejecución para variaciones del número de nodos
104
Capítulo 4. Procesamiento inteligente de datos socio-demográficos
105
4.5. Generación de clusters mediante Gases Neuronales Crecientes
106
Capítulo 4. Procesamiento inteligente de datos socio-demográficos
107
4.6. Caracterización de los clusters
108
Capítulo 4. Procesamiento inteligente de datos socio-demográficos
Tal como se observa en la Figura 4.19, las cuatro variables más impor-
tantes corresponden a:
109
4.6. Caracterización de los clusters
Figura 4.21: Cuál es el nivel de instrucción más alto al que asiste o asistió
Figura 4.22: Cuál es el grado, curso o año más alto que aprobó
110
Capítulo 4. Procesamiento inteligente de datos socio-demográficos
4.6.5. Discusión
111
4.7. Imputación por cada cluster
112
Capítulo 4. Procesamiento inteligente de datos socio-demográficos
113
4.7. Imputación por cada cluster
114
Capítulo 4. Procesamiento inteligente de datos socio-demográficos
115
4.8. Representación espacial
116
Capítulo 4. Procesamiento inteligente de datos socio-demográficos
117
4.8. Representación espacial
donde,
P1 P2
K(i) = a(i) + b(i) ∗ + c(i) (4.2)
P2 P3
118
Capítulo 4. Procesamiento inteligente de datos socio-demográficos
T otal_hijos_vivos_actualmente(T HV A)
D(i) = 1 − (4.3)
T otal_hijos_nacidos_vivos(T HN V )
T otal_hijos_nacidos_vivos
P (i) = (4.4)
T otal_mujeres_rango_edadi
Rango de edad
Nivel 15-19 20-24 25-29 30-34 35-39 40-44 45-49
Educación
Total 2,355 8,268 10,955 10,835 10,179 89,64 9,106
q(x) 0.0065 0.0163 0.0268 0.0281 0.0350 0.0403 0.0489
Ninguno 17 42 73 109 125 116 197
Primaria 947 3,319 4,603 4,562 4,428 3,947 4,450
Secundaria 1,389 3,459 3,883 3,612 3,252 2,755 2,556
Superior 2 1,408 2,222 2,345 2,148 1,887 1,693
Posgrado 0 40 174 207 226 259 210
119
4.9. Conclusiones
4.9. Conclusiones
Se han comparado métodos auto-organizativos no supervisados como
SOM y GNG para organizar los datos en clusters, encontrando que SOM-
jerárquico obtiene mejores resultados.
La generación de clusters mediante SOM-Cluster Jerárquico beneficia
el proceso de imputación de datos, la precisión de los algoritmos utilizados
aumenta en relación a los clusters generados de forma manual mediante
el cantón de residencia como se puede ver en la Tabla 4.15, en donde
las dos últimas columnas muestran la precisión global en los dos casos
mencionados.
La precisión de los algoritmos de aprendizaje automático y de las téc-
nicas estadísticas mejoran en relación a si se aplican las técnicas al dataset
completo o sobre los clusters generados de forma manual.
Obtener mejores resultados en la imputación genera menor error al
realizar el análisis de la tasa de mortalidad con brechas educativas.
120
Capítulo 5
Conclusiones
5.1. Conclusiones
122
Capítulo 5. Conclusiones
5.2. Contribuciones
Las principales contribuciones realizadas durante el desarrollo del es-
te trabajo están relacionadas con la imputación de datos provenientes de
censos y encuestas:
123
5.3. Publicaciones
5.3. Publicaciones
Como resultado de la investigación realizada, se publicaron los siguien-
tes artículos:
124
Capítulo 5. Conclusiones
125
5.4. Trabajo futuro
126
Capítulo 5. Conclusiones
127
5.4. Trabajo futuro
128
Anexos
Anexo A
4 dataset2<-hotdeck(ds, variable="graescna")
5 ds$hotdeck1<-dataset2$graescna
6 dataset2<-NULL
A.1. Cluster 1
La Figura A.1 presenta la distribución por categoría de la variable
graesc para el primer cluster.
132
Anexo A. Detalle clusters creados manualmente
A.2. Cluster 2
La Figura A.2 presenta la distribución por categoría de la variable
graesc para el segundo cluster.
133
A.3. Cluster 3
A.3. Cluster 3
La Figura A.3 presenta la distribución por categoría de la variable
graesc para el tercer cluster.
134
Anexo A. Detalle clusters creados manualmente
A.4. Cluster 4
La Figura A.4 presenta la distribución por categoría de la variable
graesc para el cuarto cluster.
135
A.5. Cluster 5
A.5. Cluster 5
La Figura A.5 presenta la distribución por categoría de la variable
graesc para el quinto cluster.
136
Anexo A. Detalle clusters creados manualmente
A.6. Cluster 6
La Figura A.6 presenta la distribución por categoría de la variable
graesc para el sexto cluster.
137
A.6. Cluster 6
138
Anexo B
Detalle clusters
SOM-Cluster Jerárquico
B.1. Cluster 1
140
Anexo B. Detalle clusters SOM-Cluster Jerárquico
B.2. Cluster 2
La Figura B.2 presenta la distribución por categoría de la variable
graesc para el segundo cluster.
141
B.3. Cluster 3
B.3. Cluster 3
142
Anexo B. Detalle clusters SOM-Cluster Jerárquico
B.4. Cluster 4
143
B.5. Cluster 5
B.5. Cluster 5
144
Anexo B. Detalle clusters SOM-Cluster Jerárquico
B.6. Cluster 6
145
B.7. Cluster 7
B.7. Cluster 7
La Figura B.7 presenta la distribución por categoría de la variable
graesc para el séptimo cluster.
146
Bibliografía
[3] Al-Jarrah, O. Y., Yoo, P. D., Muhaidat, S., Karagiannidis, G. K., and
Taha, K. (2015). Efficient machine learning for big data: A review. Big
Data Research, 2(3):87–93. 5
[4] Al Malki, A., Rizk, M. M., El-Shorbagy, M. A., Mousa, A. A., Malki,
A. A., Rizk, M. M., and Mousa, A. A. (2016). Hybrid Genetic Algorithm
with K-Means for Clustering Problems. Open Journal of Optimization,
5(02):71. 24
[13] Bobadilla, J., Ortega, F., Hernando, A., and de Rivera, G. G. (2013).
A similarity metric designed to speed up, using hardware, the recommen-
der systems k-nearest neighbors algorithm. Knowledge-Based Systems,
51:27–34. 15
[15] Burrough, P. A., van Gaans, P. F., and MacMillan, R. (2000). High-
resolution landform classification using fuzzy k-means. Fuzzy sets and
systems, 113(1):37–52. 23
[16] Cai, X., Nie, F., and Huang, H. (2013). Multi-view K-means clus-
tering on big data. IJCAI International Joint Conference on Artificial
Intelligence, pages 2598–2604. 24
148
Bibliografía
[18] Campos, B., Cerrate, A., Montjoy, E., Dulanto Gomero, V., Gonzales,
C., Tecse, A., Pariamachi, A., Lansingh, V. C., Dulanto Reinoso, V.,
Minaya Barba, J., et al. (2014). Prevalencia y causas de ceguera en perú:
encuesta nacional. Revista Panamericana de Salud Pública, 36:283–289.
35
[22] Chang, P.-C., Wang, Y.-W., and Liu, C.-H. (2006). Combining som
and ga-cbr for flow time prediction in semiconductor manufacturing fac-
tory. In International Conference on Rough Sets and Current Trends in
Computing, pages 767–775. Springer. 23
[25] Cohen, R., Grubshtein, A. J., Elliot, P. R., and Crowley, A. J. (2018).
Analysis and visualization tool with combined processing of structured
and unstructured service event data. US Patent App. 14/670,810. 7
149
Bibliografía
[29] Das, S. P. and Padhy, S. (2018). A novel hybrid model using teaching–
learning-based optimization and a support vector machine for commo-
dity futures index forecasting. International Journal of Machine Lear-
ning and Cybernetics, 9(1):97–111. 13
[30] Derrac, J., Chiclana, F., García, S., and Herrera, F. (2016). Evolu-
tionary fuzzy k-nearest neighbors algorithm using interval-valued fuzzy
sets. Information Sciences, 329:144–163. 23
[32] Emani, C. K., Cullot, N., and Nicolle, C. (2015). Understandable big
data: a survey. Computer science review, 17:70–81. 6
[33] Fan, W. and Bifet, A. (2013). Mining Big Data : Current Status ,
and Forecast to the Future. ACM SIGKDD Explorations Newsletter,
14(2):1–5. 2, 9
[34] Farhangfar, A., Kurgan, L., and Dy, J. (2008). Impact of imputation
of missing values on classification error for discrete data. Pattern Re-
cognition, 41(12):3692–3705. 56
150
Bibliografía
[35] Feng, X., Wang, Z., Yin, G., and Wang, Y. (2012). PSO-based DBS-
CAN with obstacle constraints. Journal of Theoretical and Applied In-
formation Technology, 46(1):377–383. 23
[37] Fessant, F. and Midenet, S. (2002). Self-organising map for data impu-
tation and correction in surveys. Neural Computing & Applications,
10(4):300–310. 67
[38] Ford, E. S., Giles, W. H., and Dietz, W. H. (2002). Prevalence of the
metabolic syndrome among us adults: findings from the third national
health and nutrition examination survey. Jama, 287(3):356–359. 35
[40] Gala García, Y. (2013). Algoritmos svm para problemas sobre big
data. Master’s thesis. 13
[41] Gandomi, A. and Haider, M. (2015). Beyond the hype: Big data
concepts, methods, and analytics. International Journal of Information
Management, 35(2):137–144. 6
[42] García, S., Ramírez, S., Luengo, J., and Herrera, F.-c. (2016). Big
data: Preprocesamiento y calidad de datos. University of Granada, pages
18–20. 86
[44] Genuer, R., Poggi, J.-M., and Tuleau-Malot, C. (2010). Variable se-
lection using random forests. Pattern Recognition Letters, 31(14):2225–
2236. 61
151
Bibliografía
[49] Hassan, M. A., Khalil, A., Kaseb, S., and Kassem, M. (2017). Potential
of four different machine-learning algorithms in modeling daily global
solar radiation. Renewable energy, 111:52–62. 34
[53] Ho, R. (2012). Big Data Machine Learning: Patterns for Predictive
Analytics. DZone Refcardz, (158). 4
[54] Jadhav, M. (2013). Big Data: The New Challenges in Data Mining.
Int J Innov Res ComputSci & Technol, (2). 4
152
Bibliografía
[55] Jagtap, S. B. et al. (2013). Census data mining and data analysis
using weka. arXiv preprint arXiv:1310.4647. 36
[56] Jain, R. (2012). A hybrid clustering algorithm for data mining. arXiv
preprint arXiv:1205.5353, pages 387–393. 24
[58] Jerez, J. M., Molina, I., García-Laencina, P. J., Alba, E., Ribelles,
N., Martín, M., and Franco, L. (2010). Missing data imputation using
statistical and machine learning methods in a real breast cancer problem.
Artificial intelligence in medicine, 50(2):105–115. 35, 66
[59] Jiang, M., Ding, Y., Goertzel, B., Huang, Z., Zhou, C., and Chao,
F. (2014). Improving machine vision via incorporating expectation-
maximization into Deep Spatio-Temporal learning. Proceedings of the
International Joint Conference on Neural Networks, pages 1804–1811.
16
[60] Jiang, S., Chin, K.-S., Wang, L., Qu, G., and Tsui, K. L. (2017). Modi-
fied genetic algorithm-based feature selection combined with pre-trained
deep neural network for demand forecasting in outpatient department.
Expert Systems with Applications, 82:216–230. 58
[61] Jin, H., Shum, W.-H., Leung, K.-S., and Wong, M.-L. (2004). Ex-
panding self-organizing map for data visualization and cluster analysis.
Information Sciences, 163(1-3):157–173. 23
[63] Jones, K. and Kirby, A. (1980). The use of chi-square maps in the
analysis of census data. Geoforum, 11(4):409–417. 35
153
Bibliografía
[69] Lendasse, A., Ji, Y., Reyhani, N., and Verleysen, M. (2005). Ls-svm
hyperparameter selection with a nonparametric noise estimator. In In-
ternational Conference on Artificial Neural Networks, pages 625–630.
Springer. 23
[70] Li, D., Deogun, J., Spaulding, W., and Shuart, B. (2004). Towards
missing data imputation: a study of fuzzy k-means clustering method.
In International Conference on Rough Sets and Current Trends in Com-
puting, pages 573–579. Springer. 58
[71] Li, J., Cheng, K., Wang, S., Morstatter, F., Trevino, R. P., Tang,
J., and Liu, H. (2018). Feature selection: A data perspective. ACM
Computing Surveys (CSUR), 50(6):94. 59
[73] Liu, X., De Lathauwer, L., Janssens, F., and De Moor, B. (2010).
Hybrid clustering of multiple information sources via HOSVD. Interna-
tional Symposium on Neural Networks, 6064 LNCS(PART 2):337–345.
24
154
Bibliografía
[75] Luo, W., Nguyen, T., Nichols, M., Tran, T., Rana, S., Gupta, S.,
Phung, D., Venkatesh, S., and Allender, S. (2015). Is demography des-
tiny? application of machine learning techniques to accurately predict
population health outcomes from a minimal demographic dataset. PloS
one, 10(5):e0125602. 8
[78] Mei, J.-P. and Chen, L. (2010). Fuzzy clustering with weighted me-
doids for relational data. Pattern Recognition, 43(5):1964–1974. 23
155
Bibliografía
[86] Niknam, T., Fard, E. T., Pourjafarian, N., and Rousta, A. (2011).
An efficient hybrid algorithm based on modified imperialist competitive
algorithm and k-means for data clustering. Engineering Applications of
Artificial Intelligence, 24(2):306–317. 24
[88] Oussous, A., Benjelloun, F.-Z., Lahcen, A. A., and Belfkih, S. (2018).
Big data technologies: A survey. Journal of King Saud University-
Computer and Information Sciences, 30(4):431–448. 5
[91] Park, H.-S. and Jun, C.-H. (2009). A simple and fast algorithm for k-
medoids clustering. Expert Systems with Applications, 36(2):3336–3341.
11
[92] Parsons, L., Haque, E., and Liu, H. (2004). Subspace clustering for
high dimensional data. Acm Sigkdd Explorations Newsletter, 6(1):90–
105. 8
156
Bibliografía
[94] Qi, Z., Tian, Y., and Shi, Y. (2013). Robust twin support vector
machine for pattern classification. Pattern Recognition, 46(1):305–316.
13
[95] Qu, H.-Q., Li, Q., Rentfro, A. R., Fisher-Hoch, S. P., and McCormick,
J. B. (2011). The definition of insulin resistance using homa-ir for ameri-
cans of mexican descent using machine learning. PloS one, 6(6):e21041.
36
[97] Rebentrost, P., Mohseni, M., and Lloyd, S. (2014). Quantum sup-
port vector machine for big data classification. Physical Review Letters,
113(3):1–5. 5
157
Bibliografía
[106] Shim, K. (2013). MapReduce algorithms for big data analysis. Lectu-
re Notes in Computer Science (including subseries Lecture Notes in Arti-
ficial Intelligence and Lecture Notes in Bioinformatics), 7813 LNCS:44–
48. 5
[109] Svetnik, V., Liaw, A., Tong, C., Culberson, J. C., Sheridan, R. P.,
and Feuston, B. P. (2003). Random forest: a classification and regression
tool for compound classification and qsar modeling. Journal of chemical
information and computer sciences, 43(6):1947–1958. 61
158
Bibliografía
[112] Tsai, M.-c., Chen, K.-h., Su, C.-t., and Lin, H.-c. (2012). An Ap-
plication of PSO Algorithm and Decision Tree for Medical Problem.
2nd Internatonal Conference on Intelligent Computational System, pa-
ges 124–126. 23
[113] Tu, C.-J., Chuang, L.-Y., Chang, J.-Y., Yang, C.-H., et al. (2007).
Feature selection using pso-svm. International Journal of Computer
Science. 23
[115] Velázquez Monroy, Ó., Rosas Peralta, M., Lara Esqueda, A., Paste-
lín Hernández, G., Attie, F., and Tapia Conyer, R. (2002). Hipertensión
arterial en méxico: resultados de la encuesta nacional de salud (ensa)
2000. Archivos de cardiología de México, 72(1):71–84. 35
[116] Venkatesh, H., Perur, S. D., and Jalihal, N. (2015). A Study on Use
of Big Data in Cloud Computing Environment. International Journal of
Computer Science and Information Technologies (IJCSIT), 6(3):2076–
2078. 7
[117] Wang, L., Wang, G., and Alexander, C. A. (2015). Big data and vi-
sualization: methods, challenges and technology progress. Digital Tech-
nologies, 1(1):33–38. 6
[119] Wu, X., Zhu, X., Wu, G.-Q., and Ding, W. (2014). Data Mining
with Big Data. Knowledge and Data Engineering, IEEE Transactions
on, 26(1):97–107. 5
[120] Xu, X., Ester, M., Kriegel, H.-p., and Sander, J. (1998). A
Distribution-Based Clustering Algorithm for Mining in Large Spatial
159
Bibliografía
[121] Yang, F., Sun, T., and Zhang, C. (2009). An efficient hybrid da-
ta clustering method based on k-harmonic means and particle swarm
optimization. Expert Systems with Applications, 36(6):9847–9852. 22
[122] Yang, S.-T., Lee, J.-D., Chang, T.-C., Huang, C.-H., Wang, J.-J.,
Hsu, W.-C., Chan, H.-L., Wai, Y.-Y., and Li, K.-Y. (2013). Discrimina-
tion between alzheimer’s disease and mild cognitive impairment using
som and pso-svm. Computational and mathematical methods in medici-
ne, 2013. 23
[123] Yang, Y., Liao, Y., Meng, G., and Lee, J. (2011). A hybrid feature
selection scheme for unsupervised learning and its application in bearing
fault diagnosis. Expert Systems with Applications, 38(9):11311–11320. 24
[125] Yu, D., Liu, G., Guo, M., and Liu, X. (2018a). An improved k-
medoids algorithm based on step increasing and optimizing medoids.
Expert Systems with Applications, 92:464–473. 11
[126] Yu, H., Caldwell, C., Mah, K., and Mozeg, D. (2009). Coregistered
fdg pet/ct-based textural characterization of head and neck cancer for
radiation treatment planning. IEEE transactions on medical imaging,
28(3):374–383. 23
[127] Yu, S.-S., Chu, S.-W., Wang, C.-M., Chan, Y.-K., and Chang, T.-C.
(2018b). Two improved k-means algorithms. Applied Soft Computing,
68:747–755. 10
[128] Zhang, H., Berg, A. C., Maire, M., and Malik, J. (2006). SVM-
KNN: Discriminative nearest neighbor classification for visual category
recognition. Proceedings of the IEEE Computer Society Conference on
Computer Vision and Pattern Recognition, 2:2126–2136. 23
160
Bibliografía
[129] Zhang, X., Wang, W., Norvag, K., and Sebag, M. (2010). K-ap: gene-
rating specified k clusters by efficient affinity propagation. In 2010 IEEE
International Conference on Data Mining, pages 1187–1192. IEEE. 23
161
Bibliografía
162
Lista de Acrónimos
DT Decision Tree
EM Expectation-Maximization
FS Feature Selection
GA Genetic Algorithm
IM Imputación Múltiple
IS Imputación Simple
LD Listwise Deletion
ML Machine Learning
MLP Multi-Layer Perceptron
NA Not Applicable
NN Nearest Neighbors
RF Random Forest
SA Simulated Annealing
TS Tabu Search
164