Tesis Zoila Ruiz

Técnicas de Aprendizaje Automático Aplicadas
al Procesamiento de Información Demográfica
Zoila de Lourdes Ruiz Chávez

Instituto Universitario de Investigación en
Informática
Escuela Politécnica Superior
Técnicas de Aprendizaje
Automático Aplicadas al
Procesamiento de Información
Demográfica
Zoila Ruiz Chávez
Tesis presentada para aspirar al grado de

DOCTOR POR LA UNIVERSIDAD DE
ALICANTE
DOCTORADO EN INFORMÁTICA
Dirigida por:
Dr. José García Rodríguez
Learn from yesterday, live for today, hope for tomorrow.
The important thing is not to stop questioning.
Albert Einstein
Agradecimientos
Agradezco en primer lugar a Dios por todas las bendiciones recibidas

a lo largo de mi vida, a mis padres quienes son mis cimientos y mi guía,
gracias por su inmenso amor y paciencia, a mi esposo por su apoyo incon-
dicional y su inmenso amor, a mis hijos Dylan, Deyanira y Dustin que son
el motor de mi vida y por quienes me supero cada día, a mis hermanos por
su cariño y apoyo. De manera especial agradezco a mi hermana Verónica
quien me ha apoyado incondicionalmente en este proceso.
Un agradecimiento y reconocimiento especial a mi Tutor José García,
quien ha sido una guía durante estos años. Gracias por compartir de for-
ma espontánea todos tus conocimientos y experiencias que facilitaron este
proceso, pero sobre todo gracias por tu amistad.
Hago extensivo un agradecimiento a la Universidad Central del Ecuador
que me ha formado como profesional y a sus autoridades por el apoyo
otorgado para realizar mis estudios de doctorado.
Quito, 6 de mayo de 2019

Zoila Ruiz Chávez
Resumen
En la actualidad, el recurso más valioso en el campo profesional y de

investigación es sin duda la información. La velocidad de generación de da-
tos crece de forma exponencial, por ello debemos utilizar todos los recursos
tecnológicos disponibles para analizar estos datos con la misma velocidad
con la que aparecen. Este es el verdadero reto para quienes de alguna ma-
nera están directamente involucrados con la extracción de conocimiento.
Los grandes volúmenes de datos incluyen de forma implícita proble-
mas asociadas a la dimensionalidad, tipos de datos y ausencia de datos,
en especial los datos provenientes de censos o encuestas. El procesamiento
de datos se realiza mediante dos enfoques: los basados en técnicas esta-
dísticas y los basados en técnicas de aprendizaje automático. El principal
problema en el procesamiento de datos reside en la selección de técnicas
adecuadas para la selección y clasificación de variables. La técnica escogi-
da depende del tipo de información analizada, escoger de forma adecuada
una técnica permite obtener información de mayor calidad, reducir el coste
computacional y mejorar tiempos de proceso.
En este trabajo, se presenta una metodología orientada a procesar datos
provenientes de censos o encuestas. La metodología propuesta se basa en
las características de los grandes volúmenes de datos y la relevancia que
tiene la información que se obtiene de censos o encuestas.
El método propuesto aborda el problema de imputación de datos per-
didos o ausentes que son muy frecuentes en censos o encuestas. Previo al
proceso de imputación, la información necesita ser procesada para extraer
un subconjunto de información completa necesaria para entrenar modelos
de aprendizaje automático con la finalidad de predecir los valores ausentes.
Para conseguir este dataset se utilizaron varias técnicas tradicionales tales
como Pairwise Deletion y Listwise Deletion con la finalidad de eliminar
observaciones que presentan valores perdidos.
Como siguiente paso en la metodología, se plantea la generación de
grupos de información a través de técnicas de aprendizaje automático no
supervisado y a través de redes neuronales artificiales. Estos grupos de
información que comparten características comunes sirven como datos o
fuente de entrada en el proceso de imputación de datos perdidos o ausentes.
Los resultados obtenidos en la fase experimental muestran que la ge-
neración de grupos (de forma manual o automática) permiten mejorar la
clasificación de la variable de prueba, sin embargo también se debe consi-
derar la etapa previa a la generación de grupos.
Finalmente, como caso de estudio para validar la propuesta se plantea
la imputación de datos para calcular la tasa de mortalidad infantil con
brechas educativas para lo cual se seleccionó un dataset de pruebas de una
región geográfica específica.
Abstract
Nowadays, the most valuable resource in the professional and research

field is undoubtedly information. The speed of data generation grows expo-
nentially, so we have to use all available technological resources to analyze
this data with the same speed with which they appear. This is the real cha-
llenge for those who are in some way directly involved with the extraction
of knowledge.
Large volumes of data implicitly include problems associated with di-
mensionality, data types, and lack of data, especially data that came from
censuses or surveys. Data processing is done through two approaches: tho-
se based on statistical techniques and those based on machine learning
techniques. The main problem in data processing lies in the selection of
appropriate techniques for the selection and classification of variables. The
chosen technique depends on the type of information analyzed, choosing an
appropriate technique allows to obtain higher quality information, reduce
the computational cost and improve processing times.
This thesis presents a methodology for processing census or survey
data. The proposed methodology is based on the characteristics of the
large volumes of data and the relevance of the information obtained from
censuses or surveys.
The proposed method addresses the problem of lost or missing data
imputation that are very frequent in censuses or surveys. Prior to the
imputation process, information needs to be processed to extract a subset
of complete information needed to train machine learning models in order
to predict missing values. In order to get the dataset, several traditional
techniques such as Pairwise Deletion and Listwise Deletion were used to
eliminate observations that present missing values.
The next step in the methodology is the generation of information
groups through unsupervised machine learning techniques and through
artificial neural networks. These groups of information that share common
characteristics serve as data or input source in the process of imputation
of lost or absent data.
The results obtained in the experimental phase show that the genera-
tion of groups (manually or automatically) allow to improve the classifi-
cation of the test variable, however, the stage prior to the generation of
groups should also be considered.
Finally, as a case study to validate the proposal, the imputation of data
to calculate the infant mortality rate with educational gaps is proposed, for
which a test dataset from a specific geographic region was selected.
Índice general
Índice de figuras XVII
Índice de tablas XXI
1. Introducción 1
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. Revisión del Estado del Arte . . . . . . . . . . . . . . . . . 4
1.3.1. Grandes volúmenes de datos . . . . . . . . . . . . . 5
1.3.1.1. Conjunto de datos (datasets) . . . . . . . . 7
1.3.2. Técnicas de Clasificación . . . . . . . . . . . . . . . . 9
1.3.3. Algoritmos de Aprendizaje Automático . . . . . . . 10
1.3.3.1. K-Media (K-Means) . . . . . . . . . . . . . 10
1.3.3.2. K-Medoides . . . . . . . . . . . . . . . . . . 11
1.3.3.3. Máquinas de Soporte Vectorial (SVM) . . . 12
1.3.3.4. k-Vecinos más cercanos (KNN) . . . . . . . 15
1.3.3.5. Esperanza–Maximización(EM) . . . . . . . 16
1.3.3.6. Mapas Auto Organizados (SOM) . . . . . . 18
1.3.3.7. DBSCAN . . . . . . . . . . . . . . . . . . . 19
1.3.3.8. Árboles de Decisión (DT) . . . . . . . . . . 21
1.3.4. Revisión de estrategias híbridas de procesamiento de
datos . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.3.5. Consideraciones en la elección de algoritmos de Apren-
dizaje Automático . . . . . . . . . . . . . . . . . . . 25
1.3.5.1. Tipo de datos a ser procesados . . . . . . . 26
1.3.5.2. Limitaciones y Parámetros de los Algoritmos 26
1.3.6. Consideraciones generales . . . . . . . . . . . . . . . 27
1.4. Definición del Problema . . . . . . . . . . . . . . . . . . . . 28
1.5. Propuesta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.6. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.7. Estructura de la tesis . . . . . . . . . . . . . . . . . . . . . . 30
2. Aprendizaje automático aplicado a datos censales 31

2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.1.1. Modelo de clasificación de datos . . . . . . . . . . . 32
2.2. Revisión del Estado del Arte . . . . . . . . . . . . . . . . . 34
2.2.1. Datos de Censos y Encuestas . . . . . . . . . . . . . 36
2.2.1.1. Datos de Censos . . . . . . . . . . . . . . . 37
2.2.1.2. Datos de Encuestas . . . . . . . . . . . . . 38
2.3. Procesamiento de datos censales . . . . . . . . . . . . . . . 38
2.3.1. Variable con dos categorías . . . . . . . . . . . . . . 44
2.3.2. Variable con más de dos categorías . . . . . . . . . . 46
2.4. Propuesta de metodología basada en aprendizaje automáti-
co para procesar datos Censales . . . . . . . . . . . . . . . 49
2.4.1. Selección de variables a utilizar (Feature Selection) . 52
2.4.2. Imputación de datos (Data Imputation) . . . . . . . 53
2.4.3. Extracción de información . . . . . . . . . . . . . . . 53
2.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3. Imputación de datos 55
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.2. Trabajos relacionado . . . . . . . . . . . . . . . . . . . . . . 57
3.3. Selección de variables representativas . . . . . . . . . . . . . 59
3.3.1. Prueba ji-cuadrado (χ2 ) . . . . . . . . . . . . . . . . 60
3.3.2. Análisis de Componentes Principales (PCA) . . . . . 61
3.3.3. Bosques Aleatorios (Random Forest, RF) . . . . . . 61
3.4. Imputación de valores perdidos . . . . . . . . . . . . . . . . 62
3.4.1. Métodos de Eliminación . . . . . . . . . . . . . . . . 63
3.4.2. Métodos de Imputación . . . . . . . . . . . . . . . . 64
3.4.2.1. Métodos estadísticos . . . . . . . . . . . . . 66
3.4.2.2. Métodos basados en algoritmos de inteli-
gencia artificial . . . . . . . . . . . . . . . . 67
3.5. Imputación de datos basada en técnicas de Inteligencia Ar-
tificial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.5.1. Modelo para imputar datos . . . . . . . . . . . . . . 69
3.6. Experimentación . . . . . . . . . . . . . . . . . . . . . . . . 69
3.6.1. Plataforma de Prueba . . . . . . . . . . . . . . . . . 72
3.6.2. Selección de atributos . . . . . . . . . . . . . . . . . 73
3.6.2.1. Random Forest . . . . . . . . . . . . . . . . 73
3.6.3. Imputación con métodos estadísticos . . . . . . . . . 75
3.6.3.1. Imputación dataset completo . . . . . . . . 77
3.6.3.2. Imputación por clusters . . . . . . . . . . . 78
3.6.4. Imputación con métodos de aprendizaje automático 80
3.6.4.1. Imputación dataset completo . . . . . . . . 80
3.6.4.2. Imputación por clusters . . . . . . . . . . 81
3.7. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4. Procesamiento inteligente de datos socio-demográficos 83

4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.2. Análisis de datos . . . . . . . . . . . . . . . . . . . . . . . . 84
4.2.1. Pre-procesamiento . . . . . . . . . . . . . . . . . . . 86
4.2.1.1. Integración . . . . . . . . . . . . . . . . . . 87
4.2.1.2. Limpieza . . . . . . . . . . . . . . . . . . . 87
4.2.1.3. Reducción . . . . . . . . . . . . . . . . . . 88
4.2.1.4. Transformación . . . . . . . . . . . . . . . 89
4.3. Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.3.1. Ranking . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.3.2. Clasificación . . . . . . . . . . . . . . . . . . . . . . 91
4.3.3. Random Forest mediante H2O . . . . . . . . . . . . 92
4.4. Generación de clusters mediante SOM-Cluster Jerárquico . 95
4.4.1. Modelos auto-organizativas (SOM) . . . . . . . . . . 96
4.4.1.1. Proceso de entrenamiento (Training progress) 97
4.4.1.2. Mapa de calor (Heat map) . . . . . . . . . 98
4.4.2. Mapa de distancias . . . . . . . . . . . . . . . . . . . 98
4.4.2.1. SOM Clustering . . . . . . . . . . . . . . . 99
4.4.2.2. Clustering en base al mapeo de datos (co-
debook) . . . . . . . . . . . . . . . . . . . . 101
4.5. Generación de clusters mediante Gases Neuronales Crecientes103
4.5.1. GNG Clustering . . . . . . . . . . . . . . . . . . . . 105
4.5.1.1. Distribución en el cluster . . . . . . . . . . 105
4.5.2. Clustering en base a los nodos . . . . . . . . . . . . 106
4.6. Caracterización de los clusters . . . . . . . . . . . . . . . . . 108
4.6.1. Tiene discapacidad permanente por más de un año . 109
4.6.2. Cuál es el nivel de instrucción más alto al que asiste
o asistió . . . . . . . . . . . . . . . . . . . . . . . . . 109
4.6.3. Cuál es el grado, curso o año más alto que aprobó . 110
4.6.4. Cómo se identifica según su cultura y costumbres . . 111
4.6.5. Discusión . . . . . . . . . . . . . . . . . . . . . . . . 111
4.7. Imputación por cada cluster . . . . . . . . . . . . . . . . . . 112
4.7.1. Técnicas estadísticas . . . . . . . . . . . . . . . . . . 112
4.7.2. Técnicas de aprendizaje automático . . . . . . . . . 114
4.8. Representación espacial . . . . . . . . . . . . . . . . . . . . 116
4.8.1. Cálculo de Mortalidad Infantil . . . . . . . . . . . . 117
4.9. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . 120
5. Conclusiones 121
5.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.2. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . 123
5.3. Publicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 124
5.4. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . 126
Anexos 129
A. Detalle clusters creados manualmente 131

A.1. Cluster 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
A.2. Cluster 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
A.3. Cluster 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
A.4. Cluster 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
A.5. Cluster 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
A.6. Cluster 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
B. Detalle clusters SOM-Cluster Jerárquico 139

B.1. Cluster 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
B.2. Cluster 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
B.3. Cluster 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
B.4. Cluster 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
B.5. Cluster 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
B.6. Cluster 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
B.7. Cluster 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
Bibliografía 147
Lista de Acrónimos 163

Índice de figuras
1.1. Características de Grandes Volúmenes de Datos . . . . . . . 7

1.2. Clasificación de Grandes Volúmenes de Datos . . . . . . . . 8
1.3. Ejemplo K-medias . . . . . . . . . . . . . . . . . . . . . . . 11
1.4. Ejemplo K-Medoids . . . . . . . . . . . . . . . . . . . . . . 12
1.5. SVM, hiperplanos en R2 y en R3 . . . . . . . . . . . . . . . 13
1.6. Ejemplo KNN . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.7. Ejemplo EM . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.8. Ejemplo SOM . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.9. Ejemplo DBSCAN . . . . . . . . . . . . . . . . . . . . . . . 19
1.10. Ejemplo DT . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1. Modelo básico para procesar información . . . . . . . . . . . 44

2.2. Resultado de Naïves Bayes con 10 variables (clasificación) . 48
2.3. Resultado de Naïves Bayes con 19 variables (clasificación) . 49
2.4. Modelo propuesto para procesar información demográfica . 51
3.1. Ejemplo de selección de variables con RF . . . . . . . . . . 62

3.2. Aplicación del método pairwise. . . . . . . . . . . . . . . . . 63
3.3. Aplicación del método listwise. . . . . . . . . . . . . . . . . 64
3.4. Modelo básico para procesar información . . . . . . . . . . . 68
3.5. Modelo básico para procesar información por clusters . . . . 70
3.6. Random Forest - Error vs. número de árboles . . . . . . . . 74
3.7. Random Forest - Error vs. número de árboles (variables re-
presentativas) . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.8. Detalle variable graesc . . . . . . . . . . . . . . . . . . . . . 77
4.1. Procesamiento de datos . . . . . . . . . . . . . . . . . . . . 85
4.2. Muestra del dataset original . . . . . . . . . . . . . . . . . . 90
4.3. Ranking de variables . . . . . . . . . . . . . . . . . . . . . . 91
4.4. Ranking de variables - clasificación . . . . . . . . . . . . . . 92
4.5. Historial de entrenamiento . . . . . . . . . . . . . . . . . . . 95
4.6. SOM - Distribución por celda . . . . . . . . . . . . . . . . . 97
4.7. SOM - Entrenamiento . . . . . . . . . . . . . . . . . . . . . 97
4.8. SOM - Mapa de conteo . . . . . . . . . . . . . . . . . . . . . 98
4.9. SOM - Mapa de distancias . . . . . . . . . . . . . . . . . . . 99
4.10. SOM - Mapa de conteo y distribución por cluster . . . . . . 100
4.11. SOM - Mapa de calor variable URP . . . . . . . . . . . . . 100
4.12. WCSS - Cluster Jerárquico . . . . . . . . . . . . . . . . . . 102
4.13. Cluster Jerárquico - Distribución de los clusters . . . . . . . 102
4.14. Distribución por cada cluster . . . . . . . . . . . . . . . . . 103
4.15. GNG - Grafo de red con 5 y 50 nodos . . . . . . . . . . . . 105
4.16. Clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4.17. GNG - WCSS . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4.18. GNG - Distribución de los clusters . . . . . . . . . . . . . . 107
4.19. Ranking de variables - cluster1 . . . . . . . . . . . . . . . . 108
4.20. Tiene discapacidad permanente por más de un año . . . . . 109
4.21. Cuál es el nivel de instrucción más alto al que asiste o asistió 110
4.22. Cuál es el grado, curso o año más alto que aprobó . . . . . 110
4.23. Cómo se identifica según su cultura y costumbres . . . . . . 111
4.24. Distribución clusters por cantón . . . . . . . . . . . . . . . . 117
4.25. Mapa temático cluster 01 . . . . . . . . . . . . . . . . . . . 118
A.1. Cluster 1 - Detalle variable graesc . . . . . . . . . . . . . . 132

B.1. SOM Cluster 1 - Detalle variable graesc . . . . . . . . . . . 140

Índice de tablas
1.1. Características presentes en los conjuntos de datos . . . . . 8

1.2. Combinación de algoritmos . . . . . . . . . . . . . . . . . . 23
1.3. Técnicas y estrategias híbridas . . . . . . . . . . . . . . . . 24
2.1. Descripción Matriz de Confusión . . . . . . . . . . . . . . . 33

2.2. Descripción Censo Ecuador 2010 . . . . . . . . . . . . . . . 39
2.3. Dataset públicos . . . . . . . . . . . . . . . . . . . . . . . . 40
2.4. Algoritmos de clasificación aplicados a datasets públicos . . 40
2.5. Datasets de censos . . . . . . . . . . . . . . . . . . . . . . . 41
2.6. Algoritmos de clasificación aplicados a datasets provenientes
del censo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.7. Resultados de clasificación para muestras de variable graEsc
recategorizada (a) . . . . . . . . . . . . . . . . . . . . . . . 43
2.8. Resultados de clasificación para muestras de variable graEsc
recategorizada (b) . . . . . . . . . . . . . . . . . . . . . . . 43
2.9. Reducción de dimensionalidad . . . . . . . . . . . . . . . . . 45
2.10. Variables predictoras . . . . . . . . . . . . . . . . . . . . . . 45
2.11. Precisión de los algoritmos . . . . . . . . . . . . . . . . . . . 46
2.12. Reducción de dimensionalidad de Estado Civil . . . . . . . 47
2.13. Variables predictoras de Estado Civil . . . . . . . . . . . . . 47
2.14. Precisión de los algoritmos . . . . . . . . . . . . . . . . . . . 48
2.15. Técnicas utilizadas para imputación de datos . . . . . . . . 53
3.1. Atributos con valores perdidos . . . . . . . . . . . . . . . . 71

3.2. Dataset de pruebas . . . . . . . . . . . . . . . . . . . . . . . 71
3.3. Porcentaje de valores perdidos por atributo . . . . . . . . . 72
3.4. Random Forest - Importancia relativa de variables (a) . . . 75
3.5. Random Forest - Importancia relativa de variables (b) . . . 75
3.6. Métodos estadísticos - Imputación dataset completo . . . . 77
3.7. Clusters generados manualmente . . . . . . . . . . . . . . . 78
3.8. Métodos estadísticos - Imputación por clusters . . . . . . . 79
3.9. Métodos ML - Imputación dataset completo . . . . . . . . . 80
3.10. Clusters generados manualmente . . . . . . . . . . . . . . . 81
3.11. knn–Imputación de cada cluster . . . . . . . . . . . . . . . . 81
3.12. Métodos ML - Imputación por clusters . . . . . . . . . . . . 82
4.1. Random Forest - Importancia relativa de variables (c) . . . 93

4.2. Variables a considerar . . . . . . . . . . . . . . . . . . . . . 94
4.3. SOM - Elementos por cluster . . . . . . . . . . . . . . . . . 96
4.4. GNG - Tiempo de ejecución para variaciones del número de
nodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
4.5. GNG - Tiempo de ejecución para variaciones de max.edge.age104
4.6. Elementos por cluster con GNG . . . . . . . . . . . . . . . 107
4.7. Elementos por cluster (dataset original) . . . . . . . . . . . 108
4.8. Imputación con Mediana . . . . . . . . . . . . . . . . . . . . 112
4.9. Imputación con Moda . . . . . . . . . . . . . . . . . . . . . 113
4.10. Imputación con hot–deck . . . . . . . . . . . . . . . . . . . 113
4.11. Imputación por clusters manual vs clusters SOM-Jerárquico 114
4.12. Imputación con KNN . . . . . . . . . . . . . . . . . . . . . . 114
4.13. Imputación con DT . . . . . . . . . . . . . . . . . . . . . . . 115
4.14. Imputación con Random Forest . . . . . . . . . . . . . . . . 115
4.15. Resumen Imputación dataset completo . . . . . . . . . . . . 116
4.16. División político administrativa por cantones . . . . . . . . 116
4.17. Mortalidad Infantil por rango de edades . . . . . . . . . . . 118
4.18. Datos según rango edad y nivel educación . . . . . . . . . . 119
A.1. Detalle clusters generados manualmente . . . . . . . . . . . 131

A.2. Cluster 1 - Imputación . . . . . . . . . . . . . . . . . . . . . 132
B.1. SOM - Detalle distribución por cluster . . . . . . . . . . . . 139

B.2. SOM Cluster 1 - Imputación . . . . . . . . . . . . . . . . . 140
Índice de algoritmos
1. Algoritmo k-Media . . . . . . . . . . . . . . . . . . . . . . . . 10
2. Algoritmo K-Medoids . . . . . . . . . . . . . . . . . . . . . . 12
3. Algoritmo kNN . . . . . . . . . . . . . . . . . . . . . . . . . 15
4. Algoritmo Esperanza-Maximización . . . . . . . . . . . . . . 17
5. Algoritmo SOM . . . . . . . . . . . . . . . . . . . . . . . . . 18
6. Algoritmo DBSCAN . . . . . . . . . . . . . . . . . . . . . . . 20
7. Algoritmo DT . . . . . . . . . . . . . . . . . . . . . . . . . . 21
8. Algoritmo propuesto para procesar información demográfica 50

Capítulo 1
Introducción
Este capítulo introductorio realiza un recorrido que sumariza el

trabajo doctoral realizado. El capítulo está organizado en las si-
guientes secciones: la sección 1.1 presenta una breve introducción
de la propuesta realizada en este trabajo, la sección 1.2 presenta la
motivación que llevó a la realización de este trabajo, la sección 1.3
revisa el estado del arte en temas relacionados con los objetivos de
este trabajo, la sección 1.4 define el principal problema encontrado
en el procesamiento de grandes volúmenes de datos, la sección 1.5
describe la propuesta para el procesamiento de datos provenientes
de censos o encuestas, la sección 1.6 resume los principales objetivos
de este trabajo y, finalmente, la sección 1.7 describe la estructura
de este documento.
1.1. Introducción
La información es actualmente uno de los recursos más valiosos dentro
de cualquier campo. La generación de datos y por tanto de información va-
liosa ha crecido de forma exponencial en los últimos años. Este crecimiento
se debe en gran medida a la democratización en el acceso a Internet y la
aparición de redes sociales, estos datos e información son complejos y re-
quieren de grandes recursos tecnológicos para ser analizados con el fin de
extraer información relevante que responda a determinados problemas.
Los datos, la información y el conocimiento forman parte importante
en el desarrollo de las sociedades, a medida que la tecnología avanza, tam-
1.1. Introducción
bién lo hace la complejidad de la información a ser analizada, es así que

actualmente los datos han pasado de representarse de una forma simple
como números y cadenas de texto, a formas complejas como por ejemplo:
imágenes, vídeos o en el campo médico cadenas de ADN.
En la actualidad existen estudios en diferentes campos orientados a
extraer información relevante sobre tendencias, desafíos y oportunidades
a partir de los datos, todos estos estudios tienen algo en común, trabajan
con grandes volúmenes de datos o Big Data. El uso de grandes volúmenes
de datos es cada vez más evidente, pero estos conjuntos de datos, en su
mayoría, son complejos y provienen de diversas fuentes siendo estos estruc-
turados o no estructurados, algunos autores mencionan la combinación de
características de estos dos tipos como datos semi-estructurados. Por ello,
es necesario buscar mecanismos que permitan clasificarlos y, de cierta ma-
nera, organizarlos para facilitar a los usuarios la extracción de información
relevante.
Existen diferentes mecanismos para el procesamiento y análisis de da-
tos, entre ellas podemos mencionar las técnicas estadísticas, estocásticas
y las basadas en Aprendizaje Automático o Machine Learning (ML por
sus siglas en inglés). Estas últimas pertenecen a una rama de la Inteli-
gencia Artificial que se basa en técnicas que permiten a las computadoras
aprender y modificar su comportamiento en función de su experiencia o
conocimiento adquirido de manera autónoma [81].
El Aprendizaje Automático agrupa una amplia gama de técnicas enfo-
cadas a resolver diversos problemas, como son: selección de características,
clasificación, agrupación o imputación de datos entre otras.
El principal problema encontrado en los diferentes estudios orientados
al procesamiento de los grandes volúmenes de datos reside en la selección de
técnicas adecuadas para la selección y clasificación de variables. La técnica
escogida depende del tipo de información analizada, esto permite obtener
información de mayor calidad, reducir el coste computacional y mejorar
tiempos de proceso.
Entre los criterios más empleados se encuentran: la dimensionalidad de
los datos, las características relevantes [33] y la veracidad de la informa-
ción obtenida. Con estas consideraciones podemos seleccionar las técnicas
2
Capítulo 1. Introducción
más adecuadas de Aprendizaje Automático que nos permitan optimizar los

resultados obtenidos.
1.2. Motivación
La principal motivación para la realización de este proyecto aparece
por la inquietud en encontrar nuevas relaciones entre datos provenientes de
censos o encuestas y la manera de analizarlos para ayudar en la resolución
y toma de decisiones relativas a diversos problemas sociales y de salud
pública.
Como parte del programa de DOCTORADO en Informática que he
cursado gracias al convenio que existe entre la Universidad Central del
Ecuador y la Universidad de Alicante, fue posible realizar la investigación
en este tema y producto de la misma se obtiene el siguiente documento.
La Universidad Central del Ecuador, mediante el convenio firmado con
la Universidad de Alicante, apoya el desarrollo de programas de Doctorado
y las investigaciones que se desarrollan en proyectos en las áreas científica y
tecnológica, orientados a crear conocimiento o profundizar el ya existente.
En el Ecuador, dentro de la constitución 1 se establecen una serie de
propuestas, requerimientos y lineas de actuación, para el fortalecimiento de
la investigación en campos que son prioridad para el estado. El Art. 80 ga-
rantiza la investigación científica y tecnológica en Universidades, Escuelas
Politécnicas y centros de investigación científica. A través de los diferentes
objetivos establecidos en el Plan del Buen Vivir (actualmente Toda una
Vida) 2 , se establecen dichos campos de investigación, que permiten encon-
trar financiamiento para realizar diferentes proyectos de investigación que
contribuyan al cumplimiento de cada objetivo o bien aporten información
que permita formular políticas públicas. Dentro de los objetivos se plantea
la financiación de las propuestas de Investigación, Desarrollo e Innovación,
I+D+i, que es el marco en que se desarrolla este proyecto.
Por otro lado, consideremos que en los países se realizan periódica-
mente los censos de población y vivienda, para poder generar políticas en
1
http://pdba.georgetown.edu/Parties/Ecuador/Leyes/constitucion.pdf
2
http://www.planificacion.gob.ec/
3
1.3. Revisión del Estado del Arte
base a los indicadores que se obtienen y calcular proyecciones que se van

ajustando en el tiempo gracias a las encuestas que se realizan en períodos
de tiempo más cortos. Estas proyecciones permiten a los Gobiernos locales
y nacionales conocer de forma anticipada las necesidades sociales básicas
relativas a la educación, salud, vivienda, empleo, movilidad y seguridad,
permitiendo así encaminar sus decisiones de asignación de recursos e im-
plementar políticas para mejorar la calidad de vida de toda una sociedad.
En cada país, existen instituciones encargadas de generar informes que
contiene estimaciones, proyecciones e indicadores derivados de fuentes de
información como son, los censos y encuestas que se realizan en períodos
de tiempo establecidos. Se realiza el cálculo de proyecciones de población
bajo el método de componentes principales [12][67] y la mayoría de los
indicadores resultantes se los puede contrastar con información de estadís-
ticas vitales. Siendo los recursos técnicos más empleados, aquellos que se
basan en estimaciones estadísticas.
Actualmente se está apostando por nuevas metodologías para el análisis
de este tipo de datos, de manera que la obtención de patrones que descri-
ban subconjuntos representativos de los datos recopilados se convierte en
el principal objetivo y enfoque de nuestro trabajo. De esta manera, obte-
ner estas agrupaciones relevantes en base a la información proveniente de
censos o encuestas, permite de cierta manera dar un significado al compor-
tamiento de cada grupo obtenido y poder extraer información no trivial y
convertirla en información potencialmente útil para describir algún fenó-
meno.
En los últimos años se ha observado un acelerado crecimiento en el

volumen de información disponible en la red. Así mismo, han aparecido
diversas alternativas para el procesamiento de estos grandes volúmenes de
datos (Big Data) y su almacenamiento [54]. Debido a esto, se han generado
muchos estudios que se orientan al procesamiento de grandes volúmenes
de datos y extracción de información relevante que permita generar cono-
cimiento [53].
4
Las diferentes técnicas de Aprendizaje Automático permiten conseguir

este propósito, por ello, varios estudios se han inclinado por reemplazar
el análisis estadístico por el uso de estas técnicas de ML. Para esto es
necesario conocer las características principales de los datos, como son:
heterogeneidad, autonomía, complejidad y evolución [119].
Presentar alternativas en el procesamiento de grandes volúmenes de
datos, es sin duda alguna el objetivo principal de muchos trabajos o pro-
yectos en la actualidad [97]. La capacidad de procesar información con
ahorro en costos computacionales maximizando la relevancia y fiabilidad
de la información obtenida es un verdadero reto [3]. Por las razones ex-
puestas, las técnicas de Aprendizaje Automático son una buena alternativa
para resolver problemas relacionados con grandes volúmenes de datos.
A continuación revisamos algunos algoritmos, combinación de técnicas
o propuestas de técnicas híbridas empleadas con éxito en el procesamiento
de datos provenientes de diferentes fuentes.
1.3.1. Grandes volúmenes de datos

Grandes volúmenes de datos, o su término en inglés Big Data, hace refe-
rencia a enormes conjuntos de datos que provienen de diversas fuentes, con
diferentes formatos y que poseen características especiales. Su naturaleza
es compleja, esto hace que su procesamiento también lo sea [88].
Big Data, como se lo conoce más comúnmente, está presente en to-
dos las áreas y sectores a nivel mundial, siendo tal su impacto social y
económico que se considera una área de investigación [124]. Sin embargo,
su complejidad supera la capacidad de procesamiento de las herramientas
tradicionales. Debido a esto, se requiere de plataformas de computación
de alto rendimiento que permitan explotar toda su potencialidad [106].
Estos requerimientos se han convertido sin duda en un verdadero desafío.
Muchos estudios se centran en la búsqueda de metodologías que permi-
tan bajar costos computacionales con incremento en la relevancia de la
información extraída.
La necesidad de extraer conocimiento útil ha exigido a los investiga-
dores aplicar diferentes técnicas de Aprendizaje Automático, comparar los
resultados obtenidos y analizarlos de acuerdo a las características propias
5
de los grandes volúmenes de datos (volumen, velocidad, veracidad y varia-

bilidad, conocidas como las 4V’s) [82]. Estas características varían, unos
autores añaden más V’s [41], como Visión, Valor, Verificación, entre otras,
incluso le añaden la Complejidad e Inmutabilidad [32].
Volumen: Se refiere a grandes colecciones de datos de diversas fuentes,

diferentes usos y propósitos.
Velocidad: Se refiere a la velocidad con la que aparecen nuevos datos.
Variedad: Complejidad de múltiples fuentes y formatos de datos.
Veracidad: Analizar los datos y determinar su fiabilidad.
Las empresas actualmente tienen que lidiar con el problema del pro-
cesamiento de grandes volúmenes de datos, considerando la diversidad y
heterogeneidad de los datos. Se han modificado tanto el almacenamiento
tradicional como la visualización de los resultados, mediante la utilización
del almacenamiento en la nube, mejorando el poder de computación y vi-
sualización con indexación eficiente [117]. Para conseguir este propósito, se
han mejorado los métodos orientándolos a trabajar con un Volumen inmen-
so de datos, combinando diversas fuentes de datos (Variedad), modificando
la forma tradicional de procesar los datos, que permita un procesamiento
eficiente en tiempo real (Velocidad), todo enfocado a obtener información
con Valor yVeracidad.
En la mayoría de los estudios analizados se pudo notar que los re-
sultados obtenidos depende en gran parte de los datos que se utilicen,
dependiendo de sus características se debe escoger las técnicas a utilizar.
Pese a que existen diversas técnicas que permiten optimizar los algoritmos
utilizados, en su mayoría depende más de cómo se han tratado los datos
en la etapa de pre-procesamiento.
Actualmente existen millones de datos disponibles en la nube, estamos
viviendo la era del Big Data, los datos se generan, recopilan y analizan a
velocidades sin precedentes [31]. Las grandes empresas almacenan grandes
volúmenes de datos, que posteriormente son analizados para la toma de
decisiones, más aún si los datos provenientes de diversas fuentes pueden
6
Figura 1.1: Características de Grandes Volúmenes de Datos
ser fusionados para potenciar el valor de los resultados obtenidos gracias

a su procesamiento y análisis.
Estos datos se pueden clasificar en datos estructurados y no estructu-
rados. En ambos casos, su complejidad supera la capacidad de procesa-
miento de las herramientas tradicionales. Existen técnicas que permiten
un rápido acceso a datos, sean estructurados, semi–estructurados o no es-
tructurados [14], así como plataformas [25] orientadas a procesar, analizar
y visualizar estos datos.
Datos estructurados: son datos que tienen bien definido su longitud

y formato.
Datos no estructurados: carecen de un formato específico.
1.3.1.1. Conjunto de datos (datasets)
Con el crecimiento del tamaño de los datos, es esencial considerar técni-

cas que permitan encontrar relaciones complejas entre muestras y modelos
considerando siempre la evolución de los datos en el tiempo [116]. De esta
forma, podemos construir sistemas cuyo diseño permita que los datos no
estructurados puedan ser vinculados a través de relaciones. Esto permitirá
obtener patrones válidos mediante los cuales se puedan predecir tendencias
o comprender de mejor manera un fenómeno.
7
Figura 1.2: Clasificación de Grandes Volúmenes de Datos
La Tabla 1.1 propone un clasificación con criterios de velocidad, volu-

men y variabilidad de algunos tipos de conjuntos de datos populares para
validar diferentes métodos que suelen utilizarse en el procesamiento con
grandes volúmenes de datos.
Tabla 1.1: Características presentes en los conjuntos de datos
Características
Conjunto de datos Velocidad Volumen Variabilidad
Repositorio de base de datos de ML [50] X X
Informática social [82] X X X
Conjunto de datos sintéticos [20] X X
Datos socio-demográficos [75] X X
Datos reales [28] X X X
Como vemos en la tabla anterior, existen conjuntos de datos que se

pueden utilizar para la comprobación, validación, comparación y entrena-
miento previo de los algoritmos para procesar los datos. Muchos de estos
algoritmos requieren de entrenamiento para procesar de forma adecuada
los datos. Cada conjunto de datos tiene características [92] que permiten
escoger los que se ajusten mejor a los datos reales.
8
1.3.2. Técnicas de Clasificación
En esta sección introducimos los algoritmos más relevantes para clasifi-

cación y su relación con plataformas para grandes volúmenes de datos. En
primer lugar, se presenta una clasificación de las técnicas de aprendizaje
automático en base al tipo de aprendizaje, para posteriormente describir
algunos algoritmos relevantes de clasificación.
Los algoritmos de clasificación se dividen según el tipo de aprendizaje
en:
Supervisados. La principal tarea es determinar a qué clase pertenece

cada nuevo dato. Esto se consigue en base al entrenamiento al que
se somete al sistema con la ayuda de conjuntos de muestra. Estas
técnicas solo se pueden utilizar si se conoce a priori el número de
clases. Ejemplos de estos algoritmos son los Basados en Vecindad,
Árboles de Decisión (DT) y Máquinas de Soporte Vectorial (SVM).
No supervisados. Se utilizan cuando no se dispone de conjuntos de

entrenamiento. Por lo tanto, utilizan algoritmos de agrupamiento pa-
ra poder construir grupos, de manera que los datos pertenecientes al
grupo tengan un alto nivel de semejanza entre sí, estas semejanzas no
suelen ser perceptibles a simple vista. Entre los algoritmos más utili-
zados podemos encontrar K-Media, SOM, Agrupamiento Secuencial,
ISODATA o Método adaptativo.
El principal problema encontrado en los diferentes estudios orientados

al procesamiento de grandes volúmenes de datos, reside en la selección de
técnicas adecuadas para la selección y clasificación de variables. La técnica
escogida depende del tipo de información analizada, esto permite obtener
información de mayor calidad, reducir el coste computacional y mejorar
tiempos de proceso. Entre los criterios más empleados se encuentran: la
dimensionalidad de los datos, las características relevantes [33] y la ve-
racidad de la información obtenida. Con estas consideraciones podemos
seleccionar las técnicas más adecuadas de Aprendizaje Automático que
nos permitan optimizar los resultados obtenidos.
9
1.3.3. Algoritmos de Aprendizaje Automático
A continuación se presentan algunos de los algoritmos de aprendizaje

automático más relevantes:
1.3.3.1. K-Media (K-Means)
Es un método sencillo y eficiente, necesita un solo parámetro inicial (k)

y sus resultados dependerán de la selección inicial de los centroides de los
clusters [1].
Este algoritmo, propuesto por MacQueen en 1968, se basa en la opti-
mización del error cuadrático total, divide un conjunto de datos dado en
k-grupos fijados a priori, de tal forma que la similitud intra-cluster es alta
en contraposición de la inter-cluster que debe ser baja. Dicha similitud se
basa en la distancia Euclidiana [127].
El algoritmo 1 3 muestra el detalle del método descrito anteriormente.
Datos: dataset
Resultado: datos clasificados
1 seleccionar k centros aleatorios
2 mientras se pueda reasignar centros hacer
3 asignar datos al ki más cercano; calcular el centroide de los datos
para cada grupo;
4 fin
Algoritmo 1: Algoritmo k-Media
La Figura 1.3 4 muestra un ejemplo de agrupación de documentos de

texto utilizando k-means. En esta imagen podemos distinguir claramente
los centroides y cómo se han asignado los puntos a cada grupo.
3
https://www.unioviedo.es/compnum/laboratorios_py/kmeans/kmeans.html
4
https://scikit-learn.org/stable
10
Figura 1.3: Ejemplo K-medias
1.3.3.2. K-Medoides
Se considera una variación de k-means. Su objetivo es determinar el

mejor representante del centro de cada cluster (medoide) [91]. Trabaja con
una métrica arbitraria de distancias entre puntos (observaciones), minimiza
la suma de diferencias entre los puntos etiquetados para estar en un grupo
y el punto designado como el centro.
Es más robusto ante la presencia de ruido que k-means, por la mi-
nimización de suma de disimilaridades en lugar de la suma de distancias
Euclidianas cuadradas [125]. El algoritmo 2 5 muestra el detalle del método
descrito anteriormente.
La Figura 1.4 6 muestra un ejemplo de aplicar el algoritmo K-medoids
y los grupos obtenidos al aplicar este método.
5
http://bibdigital.epn.edu.ec/bitstream/15000/19398/1/CD-8788.pdf
6
https://stats.stackexchange.com/questions/156210
11
Datos: dataset
1 Seleccionar k objetos aleatoriamente
2 Calcular Cij : coste Oi , Kh
3 Se asocia cada Oi al Kh medoide más cercano
4 Se determina coste total (CT): suma de la distancia de los puntos a sus
medoides
5 mientras Coste configuración disminuye hacer
6 Para cada Kh , para cada Oi :
7 Intercambiar Kh y Oi , recalcular costo
8 Si costo aumento, deshacer intercambio
9 fin
Algoritmo 2: Algoritmo K-Medoids
Figura 1.4: Ejemplo K-Medoids
1.3.3.3. Máquinas de Soporte Vectorial (SVM)
Sus siglas provienen del inglés (Support Vector Machine), es un al-

goritmo que dado un conjunto de entrenamiento con etiquetas de clase
12
(mediante entrenamiento), puede construir un modelo que prediga la clase

de una nueva muestra [29].
Es una técnica orientada a resolver problemas de clasificación de gran-
des volúmenes de datos, en la que se construye un hiperplano o conjuntos
de hiperplanos en un espacio bidimencional muy alto, busca el hiperplano
que tenga la máxima distancia (margen) con los puntos que estén más
cerca de él mismo, de tal forma que los puntos etiquetados con una cate-
goría estén a un lado del hiperplano y los de otra categoría al otro lado del
hiperplano [94].
La Figura 1.5 7 muestra cómo es un hiperplano en conjuntos de dimen-
sión 2 y 3.
Figura 1.5: SVM, hiperplanos en R2 y en R3
Aquí podemos encontrar que los datos suelen ser de dos tipos, se suele
decir linealmente separables y los no linealmente separables [40].
En los datos linealmente separables se utiliza el margen (γ) como el
hiperplano para separar las clases, y lo definimos a partir del supuesto
que para el conjunto de entrenamiento (xi , yi ), i = 1, ..., m, con xi ∈ R e
yi ∈ {−1, 1}, existe un hiperplano que separa los datos, de la forma:
f (x) = x · w + b (1.1)
El margen sería entonces, las distancias de los puntos más cercanos al

hiperplano y el principal objetivo a conseguir es maximizar el margen que
7
https://stats.stackexchange.com/questions/378672/image-classification-and-
machine-learning-not-deep-learning-algorithms?rq=1
13
se define de la siguiente manera:
1 w w
γ= ( · x+ − · x− ) (1.2)
2 kwk2 kwk2
Para los datos no linealmente separables , que son la mayoría de los ca-
sos en los que trabajamos con datos reales, encontrar un hiperplano óptimo
que separa de forma adecuada los datos no es tarea fácil. En este problema
se introduce un condicionante que permite tener un modelo menos rígi-
do, permitiendo que exista un error aceptable al momento de clasificar los
datos. Este error lo denotamos con ε ≥ 0, siendo ahora el supuesto de la
forma:
yi (w · xi + b) − 1 + εi ≥ 0, ∀i (1.3)
Y el problema de optimización de la forma:
l
1 X
mínw,b kwk2 + C εi (1.4)
2 i=1
En espacios de datos no linealmente separables , podemos necesitar hi-

perplanos de mayor dimensión que permitan convertir al problema de datos
no separables mediante una proyección a datos linealmente separables. Es-
to es posible utilizando las funciones de kernel, que permiten proyectar la
información a un espacio de características de mayor dimensión, podemos
mencionar algunas funciones de Kernel ampliamente utilizadas :
Polinomial-homogénea:
K(Xi , Xj ) = (Xi · Xj )n
Perceptron:
K(Xi , Xj ) = ||Xi − Xj ||
Función de base radial Gaussiana:

−(X − X )2
i j
K(Xi , Xj ) = exp
2 ∗ sigma2
14
Sigmoid:
K(Xi , Xj ) = tanh(Xi · Xj − θ)
1.3.3.4. k-Vecinos más cercanos (KNN)
El algoritmo KNN por sus siglas en inglés (k-Nearest Neighbour), es

sencillo y local. Se necesita especificar una métrica adecuada para medir
la proximidad. Es sensible al ruido y a la dimensionalidad. Se basa en un
entrenamiento mediante ejemplos cercanos al espacio de los elementos, es
un tipo de algoritmo Lazy Learning [13], donde la función se aproxima
solo localmente y todo el cómputo es diferido a la clasificación, es decir un
nuevo caso se va a clasificar en la clase más frecuente a la que pertenecen
sus vecinos más cercanos.
Datos: dataset test T, dataset D

1 para todo objeto xi ∈ T hacer
2 Calcular di = d(xi , x)
3 fin
4 Ordenar ascendente di (i = 1, ..., N )
5 Escoger los K casos Dxk ya clasificados más cercanos a x
6 Asignamos x a la clase más frecuente en Dxk
Algoritmo 3: Algoritmo kNN
La Figura 1.6 9 muestra un ejemplo de clasificación utilizando KNN.

Esta imagen es el resultado de aplicar el algoritmo con valor del parámetro
K = 7, y utiliza el valor del parámetro weights = unif orm que significa,
que el algoritmo asigna pesos uniformes a cada vecino.
8
http://www.sc.ehu.es/ccwbayes/docencia/mmcc/docs/t9knn.pdf
9
https://scikit-learn.org/stable/modules/neighbors.html
15
Figura 1.6: Ejemplo KNN
1.3.3.5. Esperanza–Maximización(EM)
El algoritmo EM por sus siglas en inglés (Expectation-Maximization) [59],

proporciona una solución iterativa de máxima verosimilitud. Converge a
un máximo local y es sensible a la elección de los valores iniciales.
El algoritmo 4 10 muestra el detalle del método descrito anteriormente,
donde:
π es la probabilidad de pertenecer a un cluster.
C cluster.
X puntos del dataset.
µ media de los puntos del cluster.
σ desviación típica de los puntos del cluster.
10
https://jarroba.com/expectation-maximization-python-scikit-learn-ejemplos/
16
Figura 1.7: Ejemplo EM
Datos: dataset
1 Inicializamos parámetros:
2 π = [ k1 , ∀i ∈ [1, k]]; caso contrario π = 0
3 µ = [random(object), ∀i ∈ [1, k]]; caso contrario µ = 0
4 σ = [1, ∀i ∈ [1, k]]; caso contrario σ = 0
5 mientras no converja hacer
6 para i en el rango(dataset) hacer
x−µk 2
e −1
2 ( σk )
7 Ck := argmax πk σk
8 fin
9 para j en el rango(k) hacer
objetosenelcluster
10 πj := T otalobjetos
1
PN
11 µj := N i=1 Xi
q Pn
1
12 σj := n−1 · n=1 (Xi − µj ) 2
13 fin
14 fin
Algoritmo 4: Algoritmo Esperanza-Maximización
La Figura 1.7 11 muestra un ejemplo de los resultados obtenidos al

11
https://jarroba.com/expectation-maximization-python-scikit-learn-ejemplos/
17
aplicar el algoritmo EM a un archivo de datos tipo texto con 999 puntos,

el algoritmo devuelve 3 grupos como se muestra en la imagen. Con valores
1
iniciales: σ = 1, π = 3 y escogemos 3 puntos al lazar para µ.
1.3.3.6. Mapas Auto Organizados (SOM)
Este algoritmo neuronal, en inglés Self–Organizing Map (SOM) [66],

agrupa datos del conjunto de entrada atendiendo a diferentes criterios a
partir de un proceso de entrenamiento. Se puede observar una descripción
intuitiva de la similitud entre los datos a través de un mapa. Usan una
función de vecindad para preservar las propiedades topológicas del espacio
de entrada, mediante aprendizaje competitivo en el que se define una ve-
cindad espacial para cada unidad de salida, SOM construye modelos de tal
forma que mientras más similares sean las unidades o neuronas, se ubican
más cerca y mientras menos similares sean se ubicarán gradualmente más
lejos en el espacio bi-dimensional.
El algoritmo 5 muestra el detalle del método descrito anteriormente.
Datos: dataset
Resultado: datos agrupados
1 Inicializamos los pesos: wij
2 Introducir: Ek = (e1 , ....., eN ), ei valores continuos.
3 mientras t ≤ 500 hacer
4 para todo objeto ei ∈ Ek hacer
5 para j ∈ [1, M ] hacer
PN
6 Calcular dj = i=1 (ei − wji )
7 fin
8 Encontramos neurona vencedora j∗
9 Actualizamos pesos de zonaj
1
10 Calculamos β(t) = t
(k)
11 Calculamos: wji (t + 1) = wji (t) + β(t)[ei − wj∗i (t)]
12 fin
13 Incrementar t
14 fin
Algoritmo 5: Algoritmo SOM
18
La Figura 1.8 12 muestra un ejemplo de aplicar el algoritmos SOM,

y muestra cómo de un espacio multidimensional de entrada se genera un
espacio de salida de menor dimensión, las conexiones muestran los pesos,
y se conserva la topología, es decir los objetos cercanos en el espacio de
entrada se encontrarán cerca en el espacio de salida.
Figura 1.8: Ejemplo SOM
1.3.3.7. DBSCAN
Este algoritmo determina de manera automática el número ideal de

clusters o agrupaciones en los que se organizan los datos de entrada. Sin
embargo, zonas del espacio de entrada con baja densidad se clasifican como
ruido y son omitidos, por ello no se produce un clustering completo.
Figura 1.9: Ejemplo DBSCAN
12
https://ciberconta.unizar.es/leccion/visual/620.HTM
19
El algoritmo DBSCAN (Density Based Spatial Clustering of Aplica-

tions with Noise) puede identificar clusters en grandes conjuntos de datos
espaciales observando la densidad local de elementos base y utilizando sólo
un parámetro de entrada [10].
La Figura 1.9 13 muestra los grupos formados por el algoritmo DBS-
CAN, cada grupo está representado con un color y los puntos con poco
densidad que son considerados ruidos los representan de color negro. Tam-
bién se puede diferenciar que los puntos centrales son más grandes que
los puntos frontera. El algoritmo 6 muestra el detalle del método descrito
anteriormente.
Datos: dataset D
Resultado: datos agrupados
1 Definimos minPoits, epsilon, C = 0
2 Etiquetamos los puntos como Central, frontera o ruido
3 para cada punto pi ∈ D hacer
4 Etiquetamos a pi como visitado
5 Verificamos sí:
6 pi es punto central: ∃minP oints en un radio ≤ epsilon
7 pi es punto frontera: sí la d(pcentral , pi ) = epsilon
8 pi es punto ruido: d(pcentral , pi ) > epsilon
9 fin
10 para cada punto central pi ∈ D hacer
11 para puntos pj ∈ D hacer
12 Sí di (pj − pi ≤ epsilon) entonces
13 pj pertenece al clusteri
14 Sino
15 C = nextcluster
16 fin
17 fin
Algoritmo 6: Algoritmo DBSCAN
13
https://scikit-learn.org/stable/modules/clustering.html
20
1.3.3.8. Árboles de Decisión (DT)
El algoritmo DT por sus siglas en ingles (Decision Tree), se construye

recursivamente siguiendo una estrategia descendente. Un árbol de decisión
es un clasificador que conduce a la partición recursiva sobre el espacio de
la instancia, está compuesto por nodos internos, bordes y nodos hoja que
son los nodos terminales del árbol que contiene la etiqueta de la clase [27].
Datos: D conjunto de N patrones etiquetados, X1,..N variables

predictoras, C variable de clase
Resultado: Dataset clasificado en el árbol
1 si todos los patrones D pertenecen a la misma clase c entonces
2 nodo hoja etiquetado como c
3 fin
4 en otro caso
5 Seleccionar variable más informativa Xr con valores x1r , ..., xnr
r
6 Particionar D de acorde con los nr valores de Xr en D1 , ..., Dnr

7 Construir nr subárboles T1 , ..., Tnr con los valores x1r , ..., xnr
r
8 fin
9 Escoger los K casos Dxk ya clasificados más cercanos a x
10 Asignamos x a la clase más frecuente en Dxk
Algoritmo 7: Algoritmo DT
La Figura 1.10 15 muestra el árbol de entrenamiento del algoritmo con

el dataset iris. Muestra el nombre de la variable y la clase.
14
http://www.sc.ehu.es/ccwbayes/docencia/mmcc/docs/t10arboles.pdf
15
https://scikit-learn.org/stable/modules/tree.html
21
Figura 1.10: Ejemplo DT
1.3.4. Revisión de estrategias híbridas de procesamiento de

datos
Aunque los algoritmos revisados anteriormente han sido ampliamente

usados, tienen ciertas limitaciones en su aplicación práctica por diferentes
motivos. Es por ello, que plantean variaciones y mejoras sobre estos algo-
ritmos originales para tratar de paliar las mencionadas limitaciones. Estas
variaciones permiten, de cierta manera, eliminar o minimizar las limitacio-
nes presentes en cada uno de ellos. En ocasiones dependen directamente
del conjunto de datos utilizado en la etapa de experimentación o de los pa-
rámetros de inicialización propios de cada algoritmo, entre otros. En otros
casos se opta por la opción de proponer una técnica [121] o estrategia
híbrida para el procesamiento de grandes volúmenes de datos.
22
Tabla 1.2: Combinación de algoritmos
Algoritmos EM Fuzzy PSO1 Bisección GA2 KNN

K-Media [26] [118][17] [15] X X X X X X
K-Medoides [105] [78] [129] X X X X
SVM [128] [69] [113] X X X X X X
KNN [30] [77] [68] X X X X
SOM [61] [22][122] X X X X X
DBSCAN [35] [108] [104] X X X X
DT [112] [126][19] X X X X X
1 Optimización del enjambre de partículas (Particle Swarm Optimization )
2 Algoritmos Genéticos (Genetic Algorithm)
En la Tabla 1.2 se resumen las diferentes combinaciones que se han

encontrado en distintos estudios que proponen la combinación de algorit-
mos, métricas o pre-procesamiento de los datos mediante otro algoritmo.
Esto contribuye en la mejora del procesamiento de la información (minimi-
zando costos computacionales y maximizando la relevancia de información
extraída). Se hace referencia de algunos ejemplos de estas propuestas, co-
mo el algoritmo K-media en Cai X el al. de 2013 que combina K-media
con Fuzzy para clasificación de imágenes de alta resolución o en el estudio
de Cui X. and Potok T. en 2008 que utiliza k-media con PSO para generar
grupos de un conjunto de datos de documentos de texto. Es decir, se ha-
ce referencia a distintas combinaciones presentes en estudios orientados al
procesamiento de información y se lee de la siguiente manera: K-medias ha
sido combinado con EM, K-meadia & EM, con Fuzzy K-media & Fuzzy,
K-media & PSO, entre otras combinaciones encontradas en la bibliografía
revisada.
Por otro lado, algunos investigadores optan también por generar nuevos
algoritmos realizando modificaciones internas al algoritmo o a estrategias
de combinación. En la Tabla 1.3 se presentan algunas técnicas o estrategias
híbridas, que utilizan métodos diferentes a los habituales para el cálculo
de similaridad o similitud entre patrones o combinan diferentes técnicas
de Aprendizaje con algún nivel de modificación para crear métodos de
clasificación más eficientes.
23
Tabla 1.3: Técnicas y estrategias híbridas
Técnicas Técnicas Híbridas Estrategias Híbridas

Bisección Híbrida K-Media [83] X X
HOPACH1 X
DHG2 X X
K-Media y KHM3 X
K-Media - GA [4] X
HcGA4 X X
HFS5 X
MAM - SOM X
K-ICA[86] X
GKA6 X
NKMC7 X
HSRS8 X
HC-HOSVD9 X
1 Particionado ordenado jerárquicamente y colapsado híbrido [114]
2 Gaussiano jerárquico basado en la densidad [28]
3 K-Media armónica [56]
4 Algoritmo Genético celular híbrido [9]
5 Esquema de selección de características híbridas [123]
6 Algoritmo Genético K-Media [98]
7 Naïve multi-visión K-media [16]
8 Búsquedas Híbridas ordenadas secuencialmente [103]
9 Clusterización Híbrida a través de la descomposición de valores singulares
de orden superior [73]
En los trabajos revisados se observaron dos grupos de alternativas para

implementar técnicas o estrategias híbridas. El primer enfoque se basa en
introducir en el propio algoritmo alguna técnica diferente a la utilizada
habitualmente para el cálculo interno de algún parámetro. En el segundo
enfoque, se fortalece determinada limitación de una técnica en la etapa
de pre–procesamiento. Por ejemplo, en el caso de no ser adecuado para
procesar grandes volúmenes de datos, primero se particiona los datos con
24
una técnica apropiada y luego a cada partición resultantes se le aplica la

técnica seleccionada.
Entre los estudios más destacados podemos mencionar el de Mishra
y Raghavan[80], comparación de algoritmos de optimización, Al-Sultan y
Khan [5], sobre los algoritmos K-Media, SA16 , TS17 y GA, Xiaowei y Ester
[120], entre otros.
De dichos trabajos se pueden extraer tres conclusiones principales:
Ningún método supera en un margen significativo en el rendimiento

al resto.
Soluciones encontradas por TS, GA y SA superan a las de K-Media,

pero este es mucho más rápido. GA es el más rápido en encontrar la
mejor solución, mientras SA es el más rápido en converger.
El problema con estos algoritmos es que no funcionan adecuadamente

para grandes volúmenes de datos, sólo K-Media y Mapas de Kohonen
(SOM) han sido aplicados exitosamente para grandes conjuntos de
datos.
1.3.5. Consideraciones en la elección de algoritmos de Apren-

dizaje Automático
En esta sección se analizan los criterios habituales tomados en cuenta
en la selección un algoritmo de Aprendizaje Automático para procesar la
información de manera eficiente. Esto permite maximizar la relevancia de
los datos extraídos.
El establecimiento de mejoras y combinaciones en los métodos de clasi-
ficación permite abrir nuevas líneas de investigación. Considerar métricas
diferentes para establecer similaridad entre grupos o combinar técnicas pa-
ra el ajuste de parámetros, permiten mejorar los resultados obtenidos al
aplicar directamente una técnica. Las consideraciones a precisar antes de
seleccionar una técnica de clasificación concreta son:
Tipo de Datos a ser procesados.

16
Simulated Annealing
17
Tabu search
25
Limitaciones y parámetros propios de cada algoritmo.
1.3.5.1. Tipo de datos a ser procesados
Uno de los problemas que se debe tomar en cuenta al trabajar con

grandes volúmenes de datos es la alta dimensionalidad. Se considera la
reducción de la dimensionalidad de los datos, para lo cual la selección
de características es muy importante y se suelen aplicar algoritmos de
selección y extracción de características.
Otra consideración válida es la estructura y característica de los datos.
Como se mencionó en la sección 1.3.1, depende del tipo de datos, estructu-
rados o no estructurados, de las V’s que posean los datos, si son numéricos
o categóricos. Cada uno de estas características hace que una dataset sea
más o menos complejo y por lo tanto los algoritmos escogidos deben ser
capaces de soportar dicha complejidad.
1.3.5.2. Limitaciones y Parámetros de los Algoritmos
Algunos algoritmos son más adecuados para procesar grandes volú-

menes de datos pero no necesariamente son más rápidos para encontrar la
mejor solución con un coste reducido, sin embargo analizando los diferentes
algoritmos se puede obtener consideraciones importantes y proponer me-
joras que superen las limitaciones propias de cada algoritmo. Por ejemplo,
sustituir la búsqueda secuencial de la unidad ganadora por una búsqueda
más rápida y eficiente (MAM-SOM) [74].
Con este análisis previo se pre–seleccionan técnicas que pueden ser las
más adecuadas para procesar nuestros datos. Sin embargo, dependiendo
de las características de los datos y los objetivos planteados, en la mayoría
de los casos se requiere de combinación de técnicas, pre–procesamiento de
los datos, modificación en los cálculos internos de los algoritmos o plantear
estrategias híbridas para poder conseguir resultados óptimos.
Para verificar su comportamiento, rendimiento y parámetros favorables
para un óptimo desempeño, se requiere evaluar cada algoritmo y comparar
los resultados mediante la experimentación. Lo más aconsejable es utilizar
diferentes tipos de conjuntos de datos, considerando que existen algoritmos
26
que funcionan mejor con datos categóricos y otros con datos cuantitativos,
pero muy pocos manejan datos que poseen las dos características simultá-
neamente.
Debemos evaluar la validez, estabilidad y escalabilidad en los resultados
obtenidos en cada algoritmos.
Validez: determinar la precisión de un algoritmo para agrupar los

datos.
Estabilidad: la variación de los resultados obtenidos en las distintas

ejecuciones de un algoritmo deben ser similares.
Escalabilidad: la capacidad de agrupar grandes volúmenes de datos

de manera eficiente.
1.3.6. Consideraciones generales
En la parte introductoria, una vez analizadas las características de los

datos y de los algoritmos, podemos concluir que todos los algoritmos de
Aprendizaje Automático tienen una serie de ventajas e inconvenientes que
se ven reflejadas en tiempos de ejecución, requerimientos computacionales,
capacidad de convergencia, niveles de complejidad, en su implementación
o en ajuste de parámetros entre otros. Por ello en muchos estudios se ha
optado por realizar combinaciones de algoritmos para solucionar problemas
al procesar grandes volúmenes de datos, dependiendo de sus características
y los objetivos planteados.
Es posible aprovechar las características propias de dos o más técni-
cas, al mismo tiempo, para lograr brindar herramientas versátiles en el
procesamiento de grandes volúmenes de datos.
Pese a la existencia de un gran número de técnicas de Aprendizaje Au-
tomático, en su mayoría presentan diferentes limitaciones. Problemas como
el solapamiento entre grupos, presencia de ruido o estructuras irregulares
que suelen ser tratados mediante técnicas o estrategias híbridas.
Poder reemplazar un cálculo interno por otra técnica de ML permite
superar las limitaciones propias de los algoritmos.
27
1.4. Definición del Problema
En estas propuestas es importante probar la escalabilidad, el coste

computacional y el tiempo de respuesta de las diferentes técnicas.
1.4. Definición del Problema

El principal problema encontrado en el procesamiento de grandes volú-
menes de datos es sin duda el coste computacional inherente a la comple-
jidad en el procesamiento de los datos y en los algoritmos para que sean
capaces de procesar de forma eficaz y óptima datos provenientes, en nues-
tro caso de estudio, de censos o encuestas. Problemas que surgen en cada
etapa necesaria para procesar estos datos y convertirlos en información re-
levante, tales como: la ausencia de algunos de los atributos que conforman
los registros de información, la compleja estructura o la ausencia de esta,
el cálculo de distancias entre elementos que permite encontrar semejanzas
en los datos, o el bajo rendimiento temporal de las técnicas usadas hasta
el momento, entre muchos otros.
1.5. Propuesta
Una vez concluida la revisión de trabajos relacionados con el procesa-
miento de grandes volúmenes de datos mediante técnicas de aprendizaje
automático, se han podido describir los problemas relacionados con el ta-
maño de los datos, el tipo de datos a ser procesados y los requerimientos
de hardware necesarios. Por ello, se ha podido recalcar la necesidad de
encontrar una alternativa que permita optimizar la precisión, reducir el
coste computacional en el procesamiento de grandes volúmenes de datos
provenientes de censos o encuestas, mediante técnicas de aprendizaje au-
tomático.
En la actualidad, es extremadamente sencillo el acceso a datos aso-
ciados a censos o encuestas de diferentes países, sin embargo estos datos
presentan un gran número de valores atípicos o valores faltantes (valores
perdidos) lo que limita su uso. La extracción de información relevante de
datos provenientes de censos o encuestas, se ha realizado tradicionalmen-
te mediante métodos estadísticos o estocásticos, y se limitan a obtener
28
indicadores en base a las fichas técnicas.

Debido a aspectos de confidencialidad, la información proveniente de
los censos o encuestas está disponible para análisis solo en una versión
agregada. El nivel más bajo de detalle en este tipo de información corres-
ponde al nivel de persona (en el caso de información socio–demográfica)
esta es agregada en niveles geográficos dependiendo de la división político–
administrativa del país (por ejemplo, en Ecuador el nivel geográfico corres-
ponde a provincia, cantón, parroquia, zona y sector).
En este trabajo se propone una metodología para la imputación de
información perdida o faltante. Algunos de los trabajos en el área proponen
completar la información con técnicas estadísticas o técnicas de aprendizaje
automático.
La metodología propuesta describe los pasos para, de manera no su-
pervisada, crear clusters (agrupaciones de datos relacionados) como paso
previo a la clasificación, en cada cluster se aplica un modelo de clasificación
para predecir el valor faltante de la variable de prueba (imputación).
1.6. Objetivos
El objetivo principal de esta investigación es proponer una metodología
basada en algoritmos de aprendizaje automático que permita predecir los
valores omitidos dentro de una encuesta o censo, a estos valores se los
denomina valores perdidos (NA).
La metodología propuesta incorpora técnicas de clasificación supervi-
sada y no supervisada para la predicción de los valores faltantes, fuera de
rango o perdidos.
Como objetivos derivados y previos que permitan conseguir el objetivo
principal, se propone una metodología que consta de un paso previo de
preprocesamiento o limpieza de datos, un paso de selección o ranking de
atributos más representativos para clasificar los datos, esto con la finali-
dad de reducir el coste computacional relacionado con el almacenamiento
(memoria) y la necesidad de obtener una alta velocidad de procesamiento.
La validez y eficiencia de la metodología propuesta será verificada me-
diante casos de uso con datos socio–demográficos provenientes del Censo
29
1.7. Estructura de la tesis
de Población y Vivienda de 2010 del Ecuador.
1.7. Estructura de la tesis

La tesis doctoral tiene la siguiente estructura:
En el Capítulo 1 se revisan trabajos y conceptos sobre grandes volú-
menes de datos y algoritmos de aprendizaje automático. Se presenta la
propuesta para el procesamiento de grandes volúmenes de datos.
En el Capítulo 2 se realiza una descripción del proceso realizado en la
etapa selección de variables (reducción de la dimensionalidad), así como
los experimentos realizados para obtener el mejor subconjunto de datos
que represente de manera adecuada los datos que predicen una variable
específica.
En el Capítulo 3 se presentan varios métodos para imputación de da-
tos: métodos estadísticos y de aprendizaje automático. En este capítulo se
describen algunos métodos para selección de variables y se utiliza el mé-
todo Random Forest para generar el dataset de pruebas, adicionalmente
se realiza experimentos de imputación de datos utilizando la generación
manual de clusters.
El Capítulo 4 describe la metodología propuesta para procesamiento
de datos socio-demográficos y presenta los resultados al aplicar el modelo
con clusters generados mediante SOM-jerárquico.
Finalmente, el Capítulo 5 detalla las conclusiones obtenidas del presen-
te trabajo. Además, presenta las contribuciones al tema de estudio y des-
cribe brevemente las publicaciones derivadas de este trabajo. Para concluir
el capítulo, se detallan posibles áreas de continuación de la investigación
derivadas del estudio realizado.
30
Capítulo 2
Aprendizaje automático
aplicado a datos censales
Este capítulo se centra en la revisión de trabajos de investigación

centrados en el procesamientos de datos obtenidos de censos y en-
cuestas y presenta una metodología para aplicar algoritmos de cla-
sificación sobre los datos censales de naturaleza categórica. El ca-
pítulo está organizado en las siguientes secciones: la sección 2.1
presenta una breve introducción al procesamiento de datos cen-
sales utilizando técnicas de aprendizaje automático, la sección 2.2
resume los trabajos realizados en el área, en la sección 2.3 se aplican
varios métodos de imputación y clasificación a datasets conocidos,
en la sección 2.4 se propone una metodología para procesar datos
censales, y, finalmente, la sección 2.5 presenta algunas conclusiones.
2.1. Introducción
El procesamiento y análisis de grandes volúmenes de datos se realiza

básicamente mediante dos tipos de enfoques: los basados en técnicas esta-
dísticas (tradicionales) y técnicas de aprendizaje automático. Para proce-
sar datos obtenidos de censos o encuestas se emplea habitualmente técnicas
estadísticas para obtener los diferentes indicadores a través de las fichas
técnicas [57]. Una alternativa para encontrar relaciones no triviales entre
las variables son las técnicas de aprendizaje automático [89], actualmente
2.1. Introducción
muy utilizadas en las distintas áreas de conocimiento. Con estas técnicas

podemos encontrar modelos para resolver uno de los problemas más comu-
nes en la información obtenida de datos provenientes de censos, encuestas
o fichas médicas, la ausencia de datos o datos fuera de rango.
En este capítulo se utiliza un modelo básico para procesar datos me-
diante técnicas de aprendizaje automático que permite predecir o clasificar
una variable específica y probar si los algoritmos son adecuados para pro-
cesar este tipo de información.
Para conseguir este objetivo, a continuación se define qué es un modelo
de clasificación de datos.
2.1.1. Modelo de clasificación de datos

Un modelo de clasificación es aquel que predice una clase para cada
elemento de una variable, sea del tipo numérico o categórico, de un con-
junto de datos. En el caso de clasificación supervisada, se conoce a priori
la clase real a la que pertenece cada elemento (se tiene un conjunto que
permite entrenar al algoritmo, entrenamiento), es decir asignar una clase
Yi a una observación Xi:
Yi para i ∈ {1, 2, 3, ..., N } (2.1)
donde N es un valor finito que representa los valores de la clase que

puede tomar una variable.
Por otro lado tenemos la clasificación no supervisada la cual no dispone
de un conjunto de entrenamiento, por lo que su tarea principal se basa en
agrupar datos con características semejantes para clasificarlos. Aquí se uti-
lizan criterios para medir la similitud de los datos que permita agruparlos,
como la proximidad, un ejemplo muy conocido es el método del vecino más
cercano, definido de la siguiente manera: dado el conjunto de datos A y
q ∈ A, los elementos cercanos a q pertenecen al siguiente conjunto:
{a ∈ A / ∀b ∈ A, d(q, a) ≤ d(q, b)} (2.2)
Tanto en clasificación supervisada como no supervisada, el entrena-

miento de los algoritmos intenta maximizar el rendimiento del clasificador,
32
Capítulo 2. Aprendizaje automático aplicado a datos censales
modificando los parámetros de entrada o utilizando herramientas de opti-

mización, con el debido cuidado de no restringirlo a un conjunto de datos
dado para que no pierda la capacidad de clasificar datos desconocidos,
degradando la capacidad de generalización propia del algoritmo.
En herramientas como RapidMiner1 se pueden definir de forma fácil
estos parámetros y también añadir herramientas que nos permitan com-
prender e interpretar los resultados obtenidos. Una de estas herramientas
es la que nos permite obtener la matriz de confusión, mediante la cual
podemos evaluar el rendimiento del algoritmo o modelo planteado como
se puede ver en Figura 2.2, de forma complementaria a la exactitud (accu-
racy). La Tabla 2.1 muestra una generalización de la matriz de confusión.
Tabla 2.1: Descripción Matriz de Confusión
OC1 OC2 ... OCN

Pred. C1 C1 C2 ... CN
Pred. C2 C1 C2 ... CN
... ... ... ... ...
Pred. CN C1 C2 ... CN
Donde:
(OCi , i ∈ 1, ...N ): representa las clases de la variable a ser clasificada.
Pred Ci : son las clases que se obtienen de la predicción.
Ci : valores obtenidos por el algoritmo
En la diagonal de la matriz encontramos los valores que fueron correc-

tamente clasificados, en el resto de celdas encontramos los datos que, pese
a pertenecer a una clase OCi , fueron clasificados por el modelo como una
clase OCj distinta. El mejor resultado lo tendremos cuanto más concentra-
das las observaciones se encuentren en la diagonal y menor sea el número
de observaciones ubicadas fuera de esta. En las filas encontramos todos los
datos que el algoritmo predijo como observaciones de la clase Pred Ci y en
la columna, a qué clase pertenece realmente OCi .
1
https://rapidminer.com
33
Así también, tenemos las métricas que están presentes en la matriz

y nos proporcionan información sobre el rendimiento del algoritmo, entre
ellas se encuentran:
Exactitud (Accuracy): esta métrica nos permite ver el porcentaje de

observaciones que han sido clasificadas de forma correcta y determi-
nar qué tan fiable es un algoritmo. De forma general se define por la
siguiente fórmula:
observacionesClasif icadasCorrectamente
Exactitud = (2.3)
totalObservaciones
Sensibilidad: es la capacidad del algoritmo de clasificar correctamente

una clase determinada sobre el total de observaciones de la clase.
P redCii
Sensibilidad = (2.4)
OCi
Precisión de la clase (class precission): es la capacidad del algoritmo

de no etiquetar una observación que no pertenece a esa clase.
P redCii
P recisión de la clase = (2.5)
P redCi
Estos conceptos los utilizaremos para realizar las pruebas al ejecutar

los diferentes algoritmos y medir así la validez del cada uno de ellos.

Esta sección presenta una revisión de las diferentes fuentes de informa-
ción socio–demográficas (censos y encuestas).
En la mayoría de estudios que se enfocan en la utilización de algoritmos
de aprendizaje automático se proponen modelos que son entrenados, opti-
mizados, validados y comparados con otros, como por ejemplo el estudio
realizado por Hassan et al. en 2017 [49] para el modelado de la irradiación
solar.
34
De forma más particular, si consideramos los estudios enfocados a la

utilización de datos provenientes de censos o encuestas, podemos mencio-
nar: el estudio orientado a analizar problemas de salud que busca factores
de riesgo para una determina enfermedad [115] [18], otros que analizan la
cobertura de salud [47] o mortalidad [64], así también encontramos traba-
jos relacionados con temas sociales que permiten identificar cómo se dis-
tribuyen geográficamente poblaciones con ciertos rasgos (etnias, edades,
niveles económicos entre otros) [48], o de forma general para visualizar la
distribución económica en áreas geográficas [7].
Todos estos estudios se basan en información proveniente de censos o
encuestas para poder explicar un problema específico a través de las varia-
bles asociadas al mismo, en su mayoría utilizan técnicas estadísticas como
la prueba χ2 (ji–cuadrado) [63], o parámetros estadísticos como la varianza
y desviación estándar [79], para su análisis y procesamiento. Sin embar-
go, pocos estudios se centran en la utilización de técnicas de aprendizaje
automático para poder descubrir relaciones ocultas entre variables poco
utilizadas en ciertos problemas o indicadores.
Sin embargo, en el área de salud cada vez es más común la utilización
de estas técnicas que permitan describir mejor ciertas patologías o enfer-
medades, como en estudios de cáncer de mama [58], cuyo dataset contiene
datos demográficos y utiliza tanto técnicas estadísticas como de ML para
la imputación de datos ausentes.
El enfoque más habitual en el área de salud es realizar encuestas me-
diante las cuales se pueda definir el porcentaje de la población que padece
o que es susceptible de padecer alguna enfermedad particular y tomar
las medidas necesarias para mitigarla, como ejemplo podemos mencionar
el realizado por Ford [38], que se basa en la Tercera Encuesta Nacional
de Examen de Salud y Nutrición de los Estados Unidos y cuyo objetivo
es determinar la presencia del síndrome metabólico mediante parámetros
(anomalías) presentes en la encuesta, que constan en la definición de Panel
de tratamiento para adultos (Adult Treatment Panel ATP) 2 definiendo
las implicaciones en el sector de la salud.
2
https://www.elsevier.es/es-revista-endocrinologia-nutricion-12-pdf-
S1575092204746148
35
Es muy común utilizar sólo una muestra del censo para estudios especí-
ficos. Para generar estas muestras se introducen parámetros como: rango de
edad, género, ubicación geográfica, entre otros. Los parámetros dependerán
exclusivamente del propósito del estudio. Un ejemplo lo encontramos en el
estudio realizado en 2011 por Qu,Hui-Qi at al. [95], en el que se obtiene
una muestra de 1854 adultos (parámetro=edad) seleccionados aleatoria-
mente y a la cual se le aplican técnicas de ML, como SVM y Regresión
Logística Bayesiana para identificar variables correlacionadas con un pará-
metro específico (HOMA-IR) y agrupar mediante K-Mediana quienes son
resistentes a un medicamento (insulina).
En otro estudio, mediante el análisis con herramientas de ML con datos
de censos se puede visualizar el impacto de la alfabetización de hombres y
mujeres del distrito de Latur en Maharashtra, extrayendo como conclusión
el impacto de la alfabetización en la desigualdad de género [55].
Todos estos estudios concluyen de forma clara la importancia de los
datos provenientes de Censos y Encuestas para distintas áreas y sectores.
De aquí partimos para realizar pruebas con técnicas de ML para procesar
este tipo de datos y ver de forma clara los problemas encontrados.
2.2.1. Datos de Censos y Encuestas
En esta sección se describe las bases de datos con la que se trabajará

en éste y los siguientes capítulos (Información proveniente del Censo de
Población y Vivienda del 2010 de Ecuador).
La información proveniente de censos o encuestas es ampliamente uti-
lizada por los gobiernos para calcular indicadores socio–económicos, de
salud pública o de seguridad y realizar predicciones que permiten generar
políticas públicas orientadas a mejorar la calidad de vida de sus habitantes.
En América Latina y el Caribe existen, en cada país (OLAC, lista
estos centros 3 ), Institutos de Estadística y Censos que se encargan de la
producción oficial de estadística nacional en las que se basan muchas de
las políticas públicas.
La Organización de Naciones Unidas, a través de la Comisión Econó-
3
https://observatoriocensal.org/links/institutos-de-estadistica-y-censos-regionales/
36
mica para América Latina y el Caribe (CEPAL)4 , tiene como misión en

el área de Población y Vivienda fortalecer a los países de la región para
que estos sean capaces de analizar, describir, comprender y atender la di-
námica demográfica en correlación con el desarrollo económico y social, a
través de políticas públicas. Una división de la CEPAL es el Centro La-
tionoamericano y Caribeño de Demografía (CELADE) 5 , que se encarga
de dar asesoramiento técnico, directrices para la elaboración de indicado-
res, brindar información sobre cifras de población, indicadores derivados,
correspondientes a las estimaciones y proyecciones de población tanto na-
cionales como regionales.
2.2.1.1. Datos de Censos
Los censos, de forma particular en América Latina, se realizan cada 10

años y están enfocados a todo la población.
En este estudio se tomó la información correspondiente al censo de
población y vivienda del año 2010 de Ecuador 6 , ésta información posee
atributos de tipo numéricos y categóricos, tiene una alta dimensionalidad
con millones de registros y se encuentra agrupada de la siguiente manera:
Vivienda: Información asociada a la vivienda (37 atributos)
Hogar: Información asociada al hogar (41 atributos)
Persona: Información asociada a personas (101 atributos)
Además de la información anterior encontramos datos concretos re-

lacionados con la división político administrativa del país (información
geográfica DPA).
Los atributos que representan información geográfica corresponden a:
i01 Provincia
i02 Cantón
4
https://www.cepal.org/es
5
https://www.cepal.org/es/acerca-de-poblacion-y-desarrollo
6
http://www.ecuadorencifras.gob.ec/base-de-datos-censo-de-poblacion-y-vivienda-
2010/
37
2.3. Procesamiento de datos censales
i03 Parroquia
i04 Zona
i05 Sector
Cada valor corresponde al código local de la región geográfica, por ejem-

plo i02 (Cantón) corresponde al número de cantón dentro de la provincia,
por lo que pueden existir valores duplicados dentro del dataset pero no
dentro de una misma provincia.
Para conseguir un código único es necesario concatenar los códigos, por
ejemplo, para conseguir un identificador único de parroquia, es necesario
concatenar Provincia + Cantón + Parroquia, esto es
cod_parroquia = i01 + i02 + i03
La división política–administrativa representa una división espacial de

los datos con lo cual se puede centrar el estudio en determinadas zonas del
país. Este mismo criterio debe ser aplicado para obtener códigos únicos
para diferentes niveles geográficos.
2.2.1.2. Datos de Encuestas
Las Naciones Unidas, a través de publicaciones relacionadas con la

metodología de encuestas por muestreo, brinda las directrices necesarias
para diseñar o analizar las encuestas [21]. Las encuestas se realizan en
períodos más cortos de tiempo y sólo toman una muestra de la población,
además están orientadas a tratar un problema más específico del cual se
requiere información o para inferir características de toda la población.
No debemos olvidar que al trabajar con una muestra de la población
los resultados obtenidos son estimaciones con cierto grado de confiabilidad
debido a los errores muestrales.

Las características de los datos provenientes de encuestas y censos son
complejas, encontrando problemas tales como el manejo de datos ausentes
38
o fuera de rango, gran dimensionalidad y volumen de datos.

Esto hace del análisis de datos un trabajo complejo y con un elevado re-
querimiento de recursos software y de infraestructura para poder procesar
los datos y obtener información relevante a partir de estos.
La Tabla 2.2 muestra el detalle del dataset utilizado en el análisis des-
crito anteriormente. El dataset corresponde a los datos de la población del
censo del año 2010.
Tabla 2.2: Descripción Censo Ecuador 2010
Descripción
Total de atributos 101
Total de observaciones 14,483,499
Como paso previo a la utilización de datos provenientes del censo se

realizaron pruebas básicas para clasificar dataset públicos y valorar el ren-
dimiento y capacidades de cada algoritmo. Estos datasets como se men-
cionó en la Tabla 1.1, son tomados del Repositorio de base de datos de
ML.
A continuación se describen los datasets utilizados.
Iris 7 : Es un dataset con características de las tres tipos de Iris,

además es uno de los dataset más utilizados en la literatura analizada,
especialmente en reconocimiento de patrones.
Glass 8 : Es un dataset de tipos de vidrio, los datos provienen del

Servicio de Ciencias Forenses de los Estados Unidos, que identifica 6
diferentes tipos de vidrio definidos por los elementos que lo confor-
man.
Abalone 9 : Este dataset permite predecir la edad de un abalone 10
a partir de variables relacionadas con mediciones físicas como por

7
http://archive.ics.uci.edu/ml/datasets/iris
8
http://archive.ics.uci.edu/ml/datasets/glass+identification
9
http://archive.ics.uci.edu/ml/datasets/abalone
10
Abalone es un gasterópodo marino del género Haliotis, también llamado oreja de
mar
39
ejemplo: el tamaño o el diámetro, la variable a predecir es el número

de anillos que está directamente relacionada con la edad.
Wine 11 : Este dataset permite determinar el origen de los vinos me-

diante las 13 características o componentes descritos como variables.
Yeast 12 : Contiene datos de puntos de localización de proteínas en

bacterias de levadura.
En la Tabla 2.3 se describe las características como dimensión, tamaño

y tipos de datos de los dataset descritos anteriormente.
Tabla 2.3: Dataset públicos
Dataset Tamaño Número Clases Tipo var. pred. Descripción

muestra atributos
Iris 150 5 3 categórica Tipo de plantas
Glass 214 10 7 categórica Tipos de vidrio
Abalone 4177 9 29 categórica Tipo de molusco
Wine 178 14 3 categórica Tipos de vinos
Yeast 1484 9 10 no numérica Ubicación proteínas
En la herramienta RapidMiner se realizaron las pruebas con los valores

por defecto de los parámetros de cada algoritmo, al ser estos dataset relati-
vamente pequeños, con baja dimensionalidad y no contener datos ausentes
o fuera de rango, resulta muy sencillo el procesamiento. Los resultados al
aplicar cuatro algoritmos de clasificación se muestran en la Tabla 2.4.
Tabla 2.4: Algoritmos de clasificación aplicados a datasets públicos
Dataset KNN Random Forest Naïve Bayes Multilayer

Percetron
Iris 93.33 93.33 93.33 95.56
Glass 70.31 81.25 51.16 64.06
Abalone 51.16 54.59 52.35 54.75
Wine 84.91 98.11 96.23 98.11
Yeast 56.40 60 31.76 59.33
11
https://archive.ics.uci.edu/ml/datasets/wine
12
http://archive.ics.uci.edu/ml/datasets/yeast
40
Con los dataset descritos en la Tabla 2.3 se ejecutaron los algoritmos

para probar su eficiencia al clasificar variables de tipo categórico. Poste-
riormente ejecutamos los algoritmos con cuatro muestras pequeñas de los
datos socio-demográficos generadas para predecir dos variables categóri-
cas distintas: Estado Civil (estCivil) y Grados de Escolaridad (gradEsc).
Dos datasets fueron generados para cada variable con distintos números
de atributos y distinto número de categorías.
En el primer caso, la variable estCivil posee seis categorías y se usaron
dos conjuntos con distinta dimensionalidad (resultado de aplicar selección
de variables). En el segundo caso la variable gradEsc posee 25 categorías,
para generar las dos muestras se realizó lo siguiente: en el primer conjunto
se consideró la variable con las categorías originales y en el segundo con-
junto se utilizó una recodificación de la variable, que predice los niveles
de escolaridad en rangos (primaria, secundaria, tercer nivel, etc.) y no el
grado de escolaridad original (1, 2, 3, etc.).
Para las cuatro muestras se aplicaron previamente herramientas de se-
lección de variables. Además estas muestras no contienen valores ausentes o
fuera de rango. La idea de esta prueba fue verificar si la exactitud de los al-
goritmos depende del tamaño de la muestra, de la dimensionalidad o de las
categorías de la variable a predecir. La Tabla 2.5 muestra el detalle de los
datasets y la Tabla 2.6 muestra los resultados obtenidos al ejecutar varios
algoritmos de clasificación, que fueron probados con los dataset públicos
antes descritos. Para estos dataset fue necesario modificar los parámetros
de los algoritmos hasta encontrar los mejores resultados.
Tabla 2.5: Datasets de censos
Dataset Tamaño muestra N. atributos Categorías

DS-estCivil1 6,000 19 6
DS-estCivil2 6,000 8 6
DS-gradEsc1 1,000 13 25
DS-gradEsc2 1,000 13 5
Esto permitió comparar el rendimiento de los algoritmos al ser aplica-

dos a datos públicos y a datos provenientes de censos. En los dos casos
se pudo identificar que los rendimientos más bajos de los algoritmos los
41
Tabla 2.6: Algoritmos de clasificación aplicados a datasets provenientes del censo
Dataset KNN Random Forest Naïve Bayes Multilayer

Percetron
DS-estCivil1 72.33 83.78 72.28 76.61
DS-estCivil2 95.11 94.5 93.83 88.89
DS-gradEsc1 50.81 89.43 83.74 82.93
DS-gradEsc2 72.36 97.15 89.35 93.87
encontramos en variables con un alto número de clases.

Podemos concluir de las tablas 2.4 y 2.6 que es posible mejorar el
rendimiento de los algoritmos si tomamos consideraciones especiales como
por ejemplo: el tamaño de los datos, el número de categorías o clases de
las variables, la dimensionalidad de los datos así como también, modificar
los parámetros propios de los algoritmos.
Luego de estas pruebas básicas escalamos en la dimensión de los datos,
el volumen, y complejidad de las muestras que permitan verificar el ren-
dimiento de los diferentes algoritmos de aprendizaje automático al estar
presentes los problemas habituales al trabajar con datos reales. La muestra
utilizada proviene de los datos correspondientes a la provincia de Imbabura
(variable i01 = 10), la cual tiene una población (según el censo 2010) de
398,244 habitantes.
Se aplicó un modelo simple para realizar las pruebas de los algoritmos
con datos reales (ver Figura 2.1), la plataforma de ML utilizada corres-
ponde a RapidMiner 13 . Los pasos implementados son los siguientes:
Introducción de datos: incluimos los datos de la muestra seleccionada

en el repositorio de la plataforma RapidMiner.
Pre-procesamiento de datos: aplicamos filtros, reducción de dimen-

sionalidad o reemplazamos valores inválidos.
Validación: realizamos el entrenamiento del algoritmo a utilizar y

evaluamos su rendimiento.
13
https://rapidminer.com/
42
Ejecución del modelo: se ejecuta el modelo planteado y obtenemos

los resultados.
Los resultados obtenidos se muestran en la Tabla 2.6. El siguiente paso

consiste en generar muestras aleatorias que contengan valores perdidos o
datos fuera de rango. Se escogió el dataset para predecir la variable gradEsc
aplicando recodificación (explicado anteriormente), se modificó el tamaño
de la muestra generada aleatoriamente. Se probó el rendimiento de los
algoritmos frente al tamaño de la muestra a procesar. Las tablas 2.7 y 2.8
muestran los resultados obtenidos.
Tabla 2.7: Resultados de clasificación para muestras de variable graEsc recate-

gorizada (a)
RandomForest Naïve Bayes SVM (PSO)

Tamaño muestra T (ms) Exact T (ms) Exact T (ms) Exact
3,388 87 98.92 5 99.21 12,352 95.96
6,000 152 94.50 9 93.83 46,427 89.06
13,940 524 97.06 22 94.55 49,831 89.72
36,039 839 95.32 34 93.98 53,128 90.07
45,939 1,634 95.68 36 93.87 57,398 90.48
87,938 2,686 96.37 69 93.95 61,654 91.16
398,244 10,808 95.21 394 93.37 68,345 91.36
Tabla 2.8: Resultados de clasificación para muestras de variable graEsc recate-

gorizada (b)
K-NN DT Neural Net

Tamaño muestra T (ms) Exact T (ms) Exact T (ms) Exact
3,388 113 99.21 15 99.02 5,762 98.82
6,000 410 95.67 36 95.67 12,305 95.67
13,940 3,651 97.14 88 97.14 42,440 97.12
36,039 13,677 96.63 166 96.63 78,682 96.37
45,939 23,706 96.60 201 96.60 99,637 96.76
87,938 89,770 96.42 393 96.42 198,361 96.47
398,244 191,1852 96.29 2,528 96.29 1,010,639 96.35
De las tablas 2.4, 2.6, 2.7 y 2.8, podemos concluir que la exactitud de los
algoritmos depende del tipo de datos a procesar y del número de categorías
43
o clases de la variable a predecir en mayor medida que del tamaño de la

muestra.
De estas pruebas también obtuvimos el modelo básico que se utiliza
para clasificar los datos mediante técnicas de ML, como se muestra en la
Figura 2.1
Introducción de datos
Pre-procesamiento
de datos
Validación Entrenamiento
Ejecución del
Evaluación
modelo
Figura 2.1: Modelo básico para procesar información
2.3.1. Variable con dos categorías

Planteado el modelo a seguir en la Figura 2.1 para la experimenta-
ción y teniendo en cuenta que la exactitud de los algoritmos depende del
número de categorías de la variable a predecir, escogimos la variable Sa-
be Leer (P19) que posee dos categorías (SI, NO) y se procedió a realizar
un proceso para predecir dicha variable. Se trabajó con todos los datos
correspondientes a la provincia de Imbabura, explicados en la sección 2.3
Primero se aplicó regresión lineal para determinar las variables más
representativas en cada caso, mediante eliminación hacia atrás ( P. Value
>0.05), se eliminaron las variables menos significativas dentro del modelo.
El uso de esta técnica permite trabajar con las variables originales, lo
que no sucede cuando se utiliza Análisis de Componentes Principales. La
44
Tabla 2.9 muestra los resultados de la reducción de dimensión.
Tabla 2.9: Reducción de dimensionalidad
Sabe Leer
No. ejecuciones No. Variables
1 101
2 94
3 23
4 17
5 14
6 7
Una vez reducida la dimensionalidad y seleccionadas las variables más

representativas para predecir la variable Sabe Leer (P19), el modelo se
generó en la herramienta RapidMiner y se alojó en el repositorio los datos,
creando un subconjunto con las variables a ser utilizadas (dimensión =7).
La Tabla 2.10 muestra el subconjunto de variables seleccionadas.
Tabla 2.10: Variables predictoras
Sabe Leer
No. Variables Descripción
1 I03C Cantón
2 P01 Sexo
3 P03 Edad
4 P23 Nivel instrucción más alto
5 P24 Grado o curso más alto que ha asistido
6 GRAESC Grados de escolaridad
7 P25 Tiene título
El crear el conjunto de datos en el repositorio minimiza el uso de me-

moria necesario para ejecutar los procesos, por lo tanto, se reducen los
tiempos de proceso. Se usaron un 70 % de los datos para entrenamiento y
el 30 % para predicción.
En algoritmos como DT y SOM los resultados fueron exactamente igua-
les, por ello se consideraron los algoritmos que dieron resultados distintos,
y resumimos valores de: Precisión global, Aciertos positivos y precisión
45
de la clase. La Tabla 2.11 muestra los resultados obtenidos al ejecutar el

modelo en RapidMiner.
Tabla 2.11: Precisión de los algoritmos
Resultados en porcentaje ( %)
Algoritmo Exactitud Sensibilidad Precisión (clase)
K-NN 99.21 99.40 98.84
DT 99.02 98.51 97.18
Naïve Bayes 99.21 99.70 99.41
Neural Net 98.82 99.70 97.44
SVM-PSO 95.96 93.89 89.38
De los algoritmos ejecutados, algunos no pudieron dar soluciones ade-

cuadas o no pudieron clasificar de forma adecuada como el caso de SVM,
pero el algoritmo SVM-PSO por el contrario funcionó correctamente. Tam-
bién, algunos algoritmos presentan resultados exactamente iguales a otros
como el caso de DT y SOM. Los algoritmos considerados fueron K-NN y
Naïve Bayes.
En el ejemplo planteado, la variable categórica tiene dos clases por lo
que la precisión de los algoritmos es bastante alta, esto permitió validar
el modelo con cada uno de los algoritmos. Con estos resultados y una
vez entrenado el modelo, se extendieron las pruebas a una variable más
compleja Estado Civil con 6 categorías.
2.3.2. Variable con más de dos categorías
En este caso empleamos de nuevo los datos correspondientes a la pro-

vincia de Imbabura. Se realizó una reducción de dimensión mediante Regre-
sión Lineal aplicando eliminación hacia atrás, el total de variables iniciales
que predicen a la variable Estado Civil es de 10. La Tabla 2.12 muestra los
resultados obtenidos al aplicar la reducción de dimensión.
Con estas variables se predice el Estado Civil de una persona mediante
los distintos algoritmos que se han entrenado con el ejemplo anterior. Las
posibles variables predictoras se muestran en la Tabla 2.13. El modelo
se ejecutó para esta variable, pero fue necesario modificar parámetros y
46
Tabla 2.12: Reducción de dimensionalidad de Estado Civil
Estado Civil
No. corrida No. Variables
1 124
2 72
3 24
4 20
5 15
6 10
añadir herramientas que permitieron formatear los datos para cumplir con
los requerimientos de los distintos algoritmos.
Tabla 2.13: Variables predictoras de Estado Civil
No. Variables Descripción

1 i05 Sector
2 POO Número de lugar que ocupa en el Hogar
3 P01 Sexo
4 P02 Parentesco o relación con el jefe del hogar
5 P03 Edad
6 P05 Tiene cédula de ciudadanía ecuatoriana
7 Discapacidad Tiene algún tipo de discapacidad
8 P16 Cómo se identifica según su cultura y costumbres
9 P37 Total de hijos vivos actualmente
10 P38 A qué edad tuvo su primer hijo
Al ejecutar los algoritmos con este dataset se presentan algunos in-

convenientes, los resultados obtenidos no fueron satisfactorios, el mejor
resultado obtenía una eficiencia global de solo un 67.43 %.
Se realizaron pruebas con distintos tamaños de muestras y algoritmos,
se modificaron parámetros en cada algoritmo, los mejores resultados se
resumen en la Tabla 2.14:
Como se muestra en Figura 2.2, la predicción en cada categoría de la
variable no es la esperada y están muy por debajo de la media, sólo dos
categorías presentan resultados aceptables. Por ello se retorna al paso de
selección de variables y se modifica el modelo, se aumentan herramientas
47
Figura 2.2: Resultado de Naïves Bayes con 10 variables (clasificación)
Tabla 2.14: Precisión de los algoritmos
Algoritmos
Naïve Neural KNN Random
Bayes Net Forest
Tiempo (ms) 31 50008 1156 672
Total Exactitud ( %) 72,28 74 72.33 68,89
315 Clase 1 312 277 271 236
278 Clase 2 266 206 277 278
293 Clase 3 290 228 167 252
316 Clase 4 22 81 128 35
284 Clase 5 113 224 190 204
314 Clase 6 301 277 269 235
de optimización y se encuentra un nuevo grupo de variables predictoras con

una dimensionalidad igual a 19. Se ejecutan nuevamente los algoritmos de
clasificación y se obtiene una mayor eficiencia global igual al 74 %.
Como podemos ver en la Figura 2.3 (resultados del algoritmo con el
mejor resultado en el proceso de clasificación), la eficiencia global mejoró,
pero más notable es la mejora al clasificar cada clase de la variable, sólo en
dos categorías existe un porcentaje bajo de precisión, esto es en los valores
3 y 4 de la variable (que pertenecen a divorciado y separado respectiva-
mente), en ambos casos el umbral no es tan sencillo de establecer dentro
de las variables socio-demográficas, sin profundizar en el comportamiento
de cada uno de estos dos grupos.
48
Figura 2.3: Resultado de Naïves Bayes con 19 variables (clasificación)
Al aplicar los algoritmos para clasificar los datos de las muestras plan-
teadas obtuvimos los siguientes resultados:
El tiempo de procesamiento depende directamente del tamaño de la

muestra, pero la precisión no varia de forma considerable.
La capacidad de procesamiento de los algoritmos depende directa-

mente de la dimensionalidad y los datos a ser procesados.
La eficiencia de los algoritmos con datos categóricos varía de acuerdo

al número de clases de cada variable.
Por ello nace la idea de crear grupos (clusters) que nos permitan tener
subconjuntos con características y comportamientos similares que benefi-
cien el proceso de clasificación.
2.4. Propuesta de metodología basada en apren-

dizaje automático para procesar datos Cen-
sales
En esta sección se propone la metodología para aplicar algoritmos de
clasificación (aprendizaje automático) sobre información socio-demográfica
con la finalidad de predecir valores ausentes o perdidos en las observaciones.
Una vez que se han probado distintas técnicas de aprendizaje automáti-
co para procesar datos provenientes de censos y clasificar variables de tipo
49
2.4. Propuesta de metodología basada en aprendizaje automático para procesar
datos Censales
categóricas, se plantea un modelo que mejore la precisión en el proceso de

clasificación de este tipo de variables.
La Figura 2.4 muestra el modelo propuesto para procesamiento de datos
provenientes de encuestas o censos, como caso particular se aplica el modelo
a información demográfica.
El algoritmo 8 muestra los pasos descritos en la Figura 2.4.
Datos: data set

Resultado: clasificación
1 si data set contiene valores perdidos o atípicos? entonces
2 Filtrar: pairwise o listwise;
3 fin
4 /* Feature selection */
5 mientras NO es la mejor selección de atributos? hacer
6 Generar sub-datasets;
7 Evaluar algoritmo;
8 fin
9 /* Generar n-clusters */
10 Generar n-clusters;
11 /* Clasificar cada cluster generado */
12 para i ← 1 a n hacer
13 Clasificar cluster i;
14 fin
Algoritmo 8: Algoritmo propuesto para procesar información demográ-

fica
En algunos casos, la unidad básica para estudio corresponde al nivel

más bajo de agregación, en el caso del ejemplo anterior correspondería a
Parroquia. El proceso tradicional para extraer algún tipo de información
a partir de los datos (microdatos) incluye (en la mayoría de los casos) los
siguientes pasos:
1. Revisión básica de las observaciones (estadística descriptiva).
2. Selección de variables a utilizar (feature selection).
3. Imputación de valores perdidos (missing values).
4. Normalización de los datos.
50
Figura 2.4: Modelo propuesto para procesar información demográfica
51
2.4. Propuesta de metodología basada en aprendizaje automático para procesar
datos Censales
5. Extracción de información: aplicación de alguna técnica estadística/a-

prendizaje automático.
6. Interpretación y evaluación de los resultados.
7. En el caso de información espacial: representación de los resultados

sobre un mapa.
Para conseguir el objetivo planteado en este trabajo, la propuesta se

basa en aportar una metodología que mejore el procesamiento en los puntos
2, 3 y 5 descritos anteriormente.
2.4.1. Selección de variables a utilizar (Feature Selection)
En la mayoría de estudios orientados a la utilización de técnicas de

aprendizaje automático se suelen utilizar dataset de pruebas de libre acce-
so para la comunidad científica, estos por lo general contienen datos con
dimensionalidad aceptable y con un tamaño relativamente inferior a los ob-
tenidos por censos o encuestas. Estos dataset son de utilidad para probar
y validar los distintos algoritmos o metodologías propuestas, sin embargo
al ser aplicadas a datos reales, se deben realizar modificaciones sea en los
parámetros o en la forma de aplicar la técnica para que ésta sea capaz de
procesar la información requerida de un problema específico.
Para el caso particular de datos de encuestas y censos que contienen
un alto número de variables (features), es necesario (casi obligatorio) una
selección previa de las variables para disminuir la dimensionalidad de los
datos y así optimizar (en tiempo y recursos) el procesamiento de la infor-
mación. Es innegable la necesidad de seleccionar un subconjunto de datos
con el número mínimo de características que permita definir de manera
correcta el problema planteado, en otras palabras, si hablamos de clasifi-
cación, que la presión sea la más alta posible sin que la distribución del
conjunto de datos sufra alteraciones considerables.
La disminución en el número de atributos puede contribuir a facilitar
el cálculo de algunos indicadores socio–demográficos: Número de viviendas
con habitantes de edad avanzada, Distribución de la población por grupos
52
de edad, Distribución de la población por sexo y sector urbano-rural, entre

otros.
2.4.2. Imputación de datos (Data Imputation)
La parte previa al análisis de cualquier tipo de encuesta/censo es la

“predicción” de la información faltante (missing values). Las técnicas tra-
dicionales utilizadas corresponden a las descritas en la Tabla 2.15.
Esto corresponde a la etapa de pre-procesamiento de la información, se
propone la utilización de técnicas de ML para el proceso de imputación,
tomando en cuenta que la información es categórica.
De las pruebas realizadas las dos mejores técnicas para tratar este punto
corresponden a KNN y Neural Net.
2.4.3. Extracción de información
Aplicación de técnicas de ML, clustering: Una vez imputados los da-

tos, se propone la creación de clusters en base a la información socio-
demográfica (o de otro tipo de encuesta, censo). Hay que notar que la
estructura de los datos es particular ya que en la mayoría de los casos la
información es categórica lo que permitiría optimizar su almacenamiento
y/o procesamiento.
Como ejemplo, las encuestas de Nacimientos contienen 48 variables,
de las cuales 3 son numéricas (acta de inscripción, peso del nacido vivo y
edad de la madre) y las 45 restantes son categóricas.
Poder agrupar datos para visualizar qué características influyen en el
nivel económico de los hogares, y si depende o no de la ubicación geográfica,
Tabla 2.15: Técnicas utilizadas para imputación de datos
Técnicas estadísticas Técnicas de ML

Listwise Deletion (LD) Multi-Layer Perceptron (MLP)
Hot-deck SOM
Mediana KNN
Imputation Multiple (MI)
53
2.5. Conclusiones
son algunas de las interrogantes que podemos responder con este tipo de
análisis.
En el siguiente capítulo vamos a tratar el problema más común exis-
tente en los datos provenientes de censos y encuestas, los valores perdidos
y datos fuera de rango, mediante la imputación de datos.
2.5. Conclusiones
Los datos provenientes de censos o encuestas tienen características es-
peciales distintas a las de los dataset comúnmente utilizados en las pruebas
de algoritmos o predicción de modelos propuestos, no sólo relacionadas con
el gran volumen de datos que poseen, sino también con el número de cate-
gorías de las variables, altos porcentajes de datos ausentes o fuera de rango
y la dificultad de expresar ciertas categoría en función de otras variables.
Por lo descrito en el párrafo anterior, el uso de las técnicas de apren-
dizaje automático para procesar este tipo de datos va ganando terreno y
es necesario plantear metodologías que permitan mejorar el procesamiento
para este tipo particular de dataset.
En los experimentos realizados se visualiza claramente que introdu-
cir ciertas modificación en la forma de aplicar los algoritmos beneficia de
manera considerable los resultados obtenidos, sobre todo en los casos de
umbrales poco definidos al separar una categoría de otra como en el caso
de la variable estCivil.
54
Capítulo 3
Imputación de datos
En este capítulo se presenta un resumen de las principales técni-

cas tradicionales de imputación de datos así como técnicas basadas
en aprendizaje automático. El capítulo está organizado en las si-
guientes secciones: la sección 3.1 presenta una breve introducción
al proceso de imputación de datos, la sección 3.2 resume los tra-
bajos realizados en el área, la sección 3.3 analiza técnicas para la
selección de variables, la sección 3.4 describe algunos métodos para
imputación de datos, la sección 3.5 realiza un análisis del modelo
inicial para imputar datos mediante generación manual de clusters,
la sección 3.6 analiza los métodos utilizados para imputar variables
categóricas y realiza la experimentación con técnicas estadísticas y
de aprendizaje automático y, finalmente, en la sección 3.7 se pre-
sentan algunas conclusiones.
3.1. Introducción
En este capítulo se analiza el primer paso de la propuesta planteada en

la sección 2.4, el tratamiento de los valores perdidos o atípicos. El procesa-
miento de grandes volúmenes de datos provenientes de censos debe incluir
mecanismos para minimizar el problema de imputación de datos que nos
permite disminuir el sesgo producido por una reducción considerable de la
muestra.
Para poder obtener información relevante y evitar sesgos, debemos te-
3.1. Introducción
ner en cuenta algunas características propias de los datos como: el tipo de

variable a utilizar, la fuente de datos, la frecuencia de datos, entre otras.
En nuestro trabajo utilizamos datos censales, por ello debemos considerar
que al utilizar la información censal se trabaja con lo que se denomina
"variable", en muchas ocasiones, dependiendo de la variable, es necesario
tomar en cuenta la ausencia de valores (missing values) lo que indica que
la persona encuestada no responde o que la pregunta relacionada no co-
rresponde al encuestado (por ejemplo, debe corresponder a una mujer, y
no un varón, responder a la cuestión: número de hijos nacidos vivos).
En investigaciones que utilizan datos provenientes de encuestas es muy
común encontrar datos ausentes (missing values) o datos extremos (outliers),
esto representa un problema que puede introducir sesgo en la estimación o
reducir de forma considerable el tamaño de la muestra. De forma general
se consideran tres tipos de datos ausentes [11]:
Ausencia completamente aleatoria (MCAR–Missing Completely At

Random): los datos ausentes no dependen de las variables ni de las
observaciones, en términos estadísticos la probabilidad de tener datos
ausentes es la misma para todos los casos.
Ausencia aleatoria (MAR–Missing At Random): los datos ausentes

dependen de los datos observados para ciertos grupos, en lenguaje
estadístico podemos decir que la probabilidad de que falte un dato
es la misma dentro de un grupo de datos observados.
Ausencia no aleatoria (NMAR–Missing Not At Random): los datos

ausentes dependen de otros datos observados, la probabilidad de au-
sencia de datos varía por razones específicas que deben ser analiza-
das [34].
En nuestro caso particular debemos considerar que muchas de las va-

riables están correlacionadas entre sí, por lo tanto la ausencia de datos es
del tipo no aleatoria, esto implica que si una variable no corresponde al
encuestado, un grupo de variables también dejarán de tener sentido para
esta persona en particular (sino contesta una pregunta, lo más probable
es que las preguntas correlacionadas a ella tampoco tengan respuesta) lo
56
Capítulo 3. Imputación de datos
que indica la presencia de valores perdidos tipo NMAR. También existe los
casos en que no se contesta una pregunta por afectar intereses personales
lo que nos lleva al tipo MAR. Entonces podemos decir que nuestros datos
tienden a presentar ausencia de datos del tipo NMAR y del tipo MAR.
Una vez identificado el tipo de ausencia de datos, se puede plantear de
qué manera deben ser tratados sin que esto afecte al dataset y de manera
directa a la información que extraemos de ella.
La siguiente etapa en la experimentación consiste en plantearnos un
ejemplo más complejo que permita ver la importancia de la imputación
de datos. En este capítulo vamos a plantear como ejemplo para validar
nuestras propuestas de imputación de datos, el problema de calcular la tasa
de mortalidad infantil según brechas educativas TMI-SBE de acuerdo al
sector de vivienda tomando como información base los datos que presentan
valores perdidos.
En concreto, para estimar la Tasa de Mortalidad Infantil (TMI ) [2], se-
gún William Brass, se requiere procesar las variables del censo que corres-
ponden al “número de hijos nacidos vivos” y a “hijos actualmente vivos”.
A esto añadimos las variables correspondientes a la ubicación geográfica de
los datos, las variables asociadas a niveles de educación y variables relevan-
tes provenientes de un proceso de selección de atributos (feature selection)
asociadas al grupo de variables Persona descrito en la sección 2.2.1.1.
3.2. Trabajos relacionado

La ausencia de datos es muy común en el procesamiento de informa-
ción, más aún en el análisis de datos de censos, encuestas, fichas médicas
entre otros. De los trabajos realizados por Rubin [100] [102] [101], se ha-
ce notoria la necesidad de tratar con métodos de imputación de datos en
lugar de eliminar todas las observaciones que contengan datos ausentes.
La disminución considerable de la muestra al usar esta alternativa puede
producir resultados sesgados o de mala calidad, en el trabajo de Cheema-
Jehanzeb [23] se realiza una revisión de algunos métodos utilizados para
imputar datos como alternativa al método listwise deletion [23].
De igual forma podemos encontrar muchos estudios que se centran en
57
3.2. Trabajos relacionado
buscar las mejores alternativas para imputar datos, como reemplazar el

valor ausente por la media o la moda dependiendo del tipo de variable
(numéricos o categóricos). El método Fuzzy K-means Clustering para la
imputación de datos propuesto por Li, Dan and Deougun et al [70], ma-
pas auto-organizativos (SOM) [66] [65] o variaciones de este método son
utilizados para la imputación de valores perdidos.
La importancia de encontrar métodos que permitan una correcta impu-
tación de datos perdidos o fuera de rango permite tener una mejor calidad
en la información utilizada para diversos estudios que intentan predecir fe-
nómenos, problemas de diversas índoles o para investigaciones relacionadas
con la salud donde la precisión en los resultados es crucial.
En el caso de las ciencias de la salud, existen diversos estudios que uti-
lizan herramientas de ML para predecir demanda en sectores hospitalarios
o de recursos necesarios para una atención adecuada de los pacientes que
ingresan por emergencias como en estudio realizado por Jiang et al. [60],
que propone una metodología híbrida robusta y más precisa para predecir
la demanda en el departamento ambulatorio en China.
Por otro lado, también es necesario analizar la selección de variables
normalmente conocido como FS por las siglas del inglés feature selection,
sea éste proceso ejecutado antes o después de la imputación de variables,
dependiendo de la muestra a ser analizada. Generalmente, en un modelo
básico de procesamiento, se realiza antes de la imputación de variables. En
la revisión de trabajos relacionados con la selección de variables se con-
sidera relevante el estudio de Aldehim [6], que hace diferencias entre los
enfoques PART y ALL en términos de similitud, estabilidad y precisión y
que estudia la utilización de parte del conjunto de datos o el total de obser-
vaciones disponible. Los experimentos realizados utilizan dataset sintéticos
y del mundo real. Este estudio se centra en encontrar un subconjunto de ca-
racterísticas, descartando los dos métodos de representación de FS: vector
de clasificación y vector de puntuación de ponderación. Pero para evaluar
la precisión al determinar las características relevantes es necesario aplicar
algoritmos de clasificación y obtener el promedio de la precisión.
En datos con alta dimensionalidad es común utilizar algoritmos de se-
lección de variables, estos forman parte de modelos orientados a extracción
58
de conocimiento. El objetivo principal de utilizar estos algoritmos es ob-

tener modelos más simples gracias a la reducción en la dimensión de los
datos, con mejoras considerables en costos computacionales. Por ello son
muy utilizados en la etapa de pre-procesamiento de datos. El estudio de
Li et al [71] realiza un análisis de diferencias y similitudes entre algoritmos
de selección de características y sus avances utilizando datos convenciona-
les, estructurados, heterogéneos y generados en tiempo real (streaming).
A continuación revisamos algunos métodos utilizados para selección de
variables.
3.3. Selección de variables representativas
El procesamiento de datos provenientes de censos o encuestas, repre-

senta un problema tanto en costos computacionales como en capacidad de
procesamiento de los algoritmos. Pese a que el tamaño de la base de datos
es relativamente grande, el verdadero problema radica en el número de
atributos que contiene y el tipo de datos de cada atributo.
Los algoritmos son capaces de procesar los datos con una dimensionali-
dad adecuada, pero en el caso de alta dimensionalidad y grandes volúmenes
de datos es imprescindible la selección de variables relevantes. Como un
ejemplo de estos tipos de datos tenemos los datos provenientes de censos
que son de gran tamaño y dimensionalidad pero no todos los atributos
tienen importancia dentro del análisis de una variable específica (predecir
una variable) o en el análisis de un indicador.
Por lo mencionado anteriormente la reducción de dimensionalidad es
una tarea importante que permite disminuir uno de los problemas más
comunes encontrados en los estudios revisados, la capacidad de procesa-
miento de los distintos algoritmos de aprendizaje automático al utilizar
atributos que no aportan de forma significativa a la predicción de varia-
bles específicas.
Por otro lado, algunos estudios se plantean si es conveniente trabajar
con todos los datos o con una muestra (enfoque PART o ALL), tomar una
decisión como ésta se debe basar en el tipo de datos utilizados porque se
puede subestimar la muestra o sesgar los resultados. En muchos estudios
59
3.3. Selección de variables representativas
que utilizan datos sintéticos no se presenta este problema debido a que

los datos generados contienen un número preestablecido de atributos con
cierto nivel de ruido.
En datos que siguen algún tipo de distribución, como es el caso de
los datos provenientes de censos o encuestas, es más recomendable una
reducción de dimensionalidad a tratar con una muestra de los datos, por
el sesgo y por la pérdida de información que podría eliminar o minimizar
la tendencia de los datos en relación de una variable o un conjunto de
variables, como por ejemplo descartar la ubicación geográfica afectando de
manera considerable los resultados obtenidos.
A continuación describimos las técnicas estadísticas y de aprendizaje
automático más utilizadas para este proceso.
3.3.1. Prueba ji-cuadrado (χ2 )

Existen distintas alternativas estadísticas para el análisis de datos y
determinar si existe independencia entre variables, como son la prueba χ2 ,
la prueba exacta de fisher, la prueba de McNemar entre otras. Para nuestro
caso haremos una breve revisión de una de las pruebas más utilizadas en
el campo estadístico, la prueba χ2 . Esta prueba permite estimar si dos
variables están o no relacionadas, por lo que se utiliza para determinar
la dependencia y/o independencia entre dos variables categóricas, con un
nivel de confianza fijado inicialmente [36].
En el campo de salud se utiliza esta prueba con un alto nivel de con-
fianza para probar si dos variables están o no relacionadas y poder verificar
los factores estrechamente relacionados con la aparición de alguna patolo-
gía [90].
Su cálculo se realiza mediante la siguiente fórmula:
N X
n
X (Oij − Eij )2
χ2 = (3.1)
i=1 j=1
Eij
donde, Oij representa las frecuencias observadas y Eij las frecuencias

esperadas.
Se puede observar que la prueba χ2 mide la diferencia entre el valor
de las variables si fuesen independientes y el valor observado. Por tanto,
60
cuando mayor sea el valor del estadístico mayor será la relación existente
entre las dos variables.
3.3.2. Análisis de Componentes Principales (PCA)

Es un método estadístico utilizado para la reducción de dimensiona-
lidad de un conjunto de datos, transformando un conjunto reducido de
variables en un nuevo conjunto de variables no correlacionadas a las que se
denominan componentes principales [62]. Mediante su varianza podemos
describir cuanta información incorporada tiene cada componente, a mayor
información mayor será sú varianza.
Estas componentes se expresan mediante una combinación lineal de las
variables originales, por ello, si las variables originales están muy correla-
cionadas entre sí, podemos reducir considerablemente el número variables
a través de PCA, pero si las variables originales no están correlacionadas,
no tendrá sentido aplicar este método, porque el resultado de PCA sería
el conjunto de datos original.
Dado un conjunto de datos con variables (v1 , v2 , v3 , ..., vn ), se genera
un nuevo conjunto de datos (w1 , w2 , w3 , ..., wp ) cuyas variables son combi-
nación lineal del conjunto original, con p < n.
Las variables del conjunto w son de la forma:
0
wj = aj1 v1 + aj2 v2 + ... + ajn vn = aj V (3.2)
0
donde aj es un vector de constantes y j = 1, .., p.
3.3.3. Bosques Aleatorios (Random Forest, RF)

Es un algoritmo de aprendizaje supervisado que combina un gran nú-
mero de árboles de decisión independientes, es ampliamente utilizado en
regresión y clasificación, tanto para variables categóricas como cuantitati-
vas, introducido por Breiman en 2001 [44].
Bosques Aleatorios es un conjunto de árboles de clasificación o regre-
sión no podados que se crean a partir de muestras aleatorias de los datos
de entrenamiento y selección de características en la inducción de árbo-
les [109]. En RF sólo un conjunto de características aleatorio es tomado en
61
3.4. Imputación de valores perdidos
consideración por el algoritmo para dividir un nodo, buscando la mejor ca-

racterística entre este subconjunto aleatorio. Esto permite que los árboles
generados sean más aleatorios para cada característica utilizando umbrales
aleatorios para cada una de ellas [45].
Figura 3.1: Ejemplo de selección de variables con RF
La Figura 3.1 muestra un ejemplo de selección de variables aplicando

RF al conjunto de datos utilizados en este estudio.

En esta sección se describen las técnicas tradicionales de imputación de
datos perdidos así como las técnicas basadas en algoritmos de aprendizaje
automático.
Existen diferentes métodos para el manejo de datos faltantes o ausentes
que se clasifican en dos grandes categorías: los métodos que se basan en
descartar una parte de la muestra y aquellos que se basan en reemplazar
los datos ausentes con valores imputados.
Aquí tratamos los métodos para tratar datos ausentes, eliminando o
reemplazando los valores faltantes con métodos estadísticos o basados en
62
algoritmos de aprendizaje automático. Las técnicas para tratar datos au-

sentes las podemos clasificar en:
Métodos de Eliminación.
Métodos de Imputación.
3.4.1. Métodos de Eliminación
En este caso encontramos dos métodos ampliamente discutidos y utili-

zados: Listwise Deletion y Pairwise Deletion [23].
Pairwise Deletion: Este método hace uso de toda la información

disponible y consiste en utilizar en el análisis de cada variable todos
los datos disponibles, por esto se lo conoce con el nombre de Método
de datos disponibles. Es posible calcular covarianzas entre cada par de
variables utilizando todos los casos disponibles. Si una de las variables
contiene demasiados datos ausentes se elimina la variable.
Para que el subconjuto no se reduzca de manera considerable, utiliza

distintos tamaños de muestras (dependiendo de la variable) e ignora
los valores ausentes, previamente realiza un análisis de variables que
describen esta columna.
Figura 3.2: Aplicación del método pairwise.
63
La Figura 3.2 muestra una variable con alto número de valores au-
sentes, al aplicar el método pairwise la variable p143p será eliminada.
Listwise Deletion: Este método se basa en descartar las filas que

contienen al menos un valor ausente. Este método también es llamado
Método de caso completo, pues sólo considera el subconjunto de datos
completo. Debemos tener en cuenta que si los datos provienen de una
muestra probabilística, esté método no es adecuado.
El mayor inconveniente en este método es sin duda tratar con una

gran cantidad de variables, el subconjunto completo que se obtiene
puede ser insuficiente o puede obtener resultados sesgados [87].
Figura 3.3: Aplicación del método listwise.
La Figura 3.3 muestra las observaciones que serán eliminadas al apli-

car el método listwise (marcadas en rojo).
3.4.2. Métodos de Imputación
En este caso se realiza la imputación de datos, que es un procedimien-

to que utiliza información de la muestra para asignar un valor al dato
ausente. Generalmente la imputación de datos se realiza en la etapa de
64
pre–procesamiento [11]. Existen varias técnicas para la imputación de da-

tos, pero se debe escoger la técnica más adecuada de acuerdo al tipo de
variable.
Los datos erróneos o la ausencia de ellos se reemplaza mediante valores
válidos empleando métodos de imputación, que permite tener un conjun-
to de datos completo y consistente sobre el cuál se puede trabajar. De
acuerdo al tipo de datos ausentes, podemos considerar distintos métodos
que permitan la imputación de datos. Las técnicas empleadas para esta
tarea son diversas y con diferentes niveles de complejidad [52]. Una de
las alternativas más utilizadas para la imputación de valores perdidos es
la imputación múltiple (IM), que consiste en generar m–nuevos datasets
completos a partir de los datos incompletos.
A continuación se describen los tipos de imputación utilizados y cómo
agrupan las diferentes técnicas orientadas a imputar datos ausentes:
Imputación Simple (IS): En este método se ignoran las carac-

terísticas individuales y en el caso de variables numéricas se suele
utilizar la media para reemplazar los datos ausentes, mientras en las
variables categóricas se usa la moda o la mediana [93].
Imputación Multiple (IM): En este caso se asigna a cada da-

to ausente varios valores (m > 1), generando m conjuntos de datos
completos. En cada conjunto el valor del dato imputado suele variar.
Al final se realiza un análisis estadístico ordinario de los m conjuntos
completos y se combinan los resultados usando las reglas de combi-
nación de Little y Rubin [72].
El método propuesto por Bacallao [46] para datos categóricos es una
variante de este método (IM), utiliza árboles de clasificación y el
algoritmo de aumento de datos (Data Augmentation) [99] .
A continuación analizamos algunos criterios requeridos para escoger la

técnica más adecuada de imputación de datos:
Distribución de la variable: el resultado de la imputación debe pro-

ducir una distribución de la variable similar a la real.
65
Correlación entre variables: la imputación debe mantener las relacio-

nes entre variables sin alteraciones.
Consistencia: los valores obtenidos en la imputación deben ser con-

sistentes con las demás variables.
Existen dos grupos de técnicas para la imputación de los datos: méto-

dos estadísticos y basados en técnicas de aprendizaje automático [58]. A
continuación se describe varios métodos que pertenecen a los grupos antes
mencionados.
3.4.2.1. Métodos estadísticos
Entre los métodos estadísticos podemos encontrar:
Imputación con la Media (Mean imputation): Este método consiste

en reemplazar los datos faltantes con la media muestral de los da-
tos válidos de la variable. Es aplicable sólo a datos numéricos, un
problema de este método es que distorsiona la distribución de los
datos.
Imputación con la Mediana (Median imputation): Este método se

orienta a reemplazar los valores ausentes de una determinada variable
con la mediana de la misma. Se utiliza para variables continuas y
categóricas ordinales. Es muy fácil de implementar pero tiende a
cambiar los valores de las estimaciones.
Máxima Probabilidad (Maximum Likelihood): Es un proceso iterativo

que modela los datos ausentes en función de los datos disponibles [84].
Se basa en factorizar la función de verosimilitud de los datos.
Cubierta Caliente (Hot-Deck): Este método consiste en reemplazar el

valor faltante en una variable o atributo con el valor correspondiente
de una unidad de respuesta similar [8]. Es decir, busca en un conjunto
de datos completos qué fila tiene mayor coincidencias en las distintas
variables, a ese individuo se lo conoce como donante (donor), con la
fila del dato ausente receptor (donee), entonces reemplaza el valor
perdido con el valor de la columna correspondiente del donante [84].
66
Imputación Múltiple (Multiple Imputation): Basada en regresión,

consiste en imputar varias veces el valor faltante, por lo que resul-
ta un procedimiento con cierto nivel de complejidad. Cada una de
las imputaciones se basan en parámetros de regresión a partir de los
datos observados [85].
3.4.2.2. Métodos basados en algoritmos de inteligencia artificial
En este grupo de métodos podemos encontrar:
K-media (k-Means): Se seleccionan aleatoriamente k objetos del da-

taset completo como k-centroides, se modifica iterativamente la par-
tición del cluster al que pertenece el objeto [51].
K-moda (k-Modas): Es un algoritmo similar al k-media utilizado pa-

ra variables numéricas, pero reemplazado por la moda de las varia-
bles categóricas en lugar de la media utilizada en variables numéri-
cas [110].
k-Vecinos más cercanos (K-Nearest Neighbors (KNN)): El algoritmo

kNN pertenece a la familia de métodos basado en instancias. Estos
métodos se basan en el principio de que las instancias dentro de un
conjunto de datos generalmente existen en lugares cercanos a otras
observaciones que poseen atributos similares [43].
Árboles de decisión (Decision-tree): Es ampliamente empleado para

variables categóricas. Es un algoritmo recursivo que requiere de va-
riables explicativas para poder discriminar a la población y conseguir
imputar una variable. El algoritmo usa la ganancia de información
para encontrar el mejor atributo para imputar los datos [96].
Mapas Auto Organizados (Self-Organizing Map (SOM)): Es un mo-

delo de red neuronal formado por un conjunto de nodos organizados
en una matriz. SOM utiliza aprendizaje competitivo, el cual define
una vecindad espacial para cada unidad de salida preservando su to-
pología, patrones de entrada cercanos producen unidades de salida
cercanas en el mapa [37].
67
3.5. Imputación de datos basada en técnicas de Inteligencia Artificial
Percepciones Multicapa (Multilayer perceptrons): Es una red neuro-

nal artificial que es utilizada para tratar problemas que no pueden
ser linealmente separables, está formada por múltiples capas [107].
3.5. Imputación de datos basada en técnicas de

Inteligencia Artificial
En esta sección se propone una versión inicial del proceso de imputación
(clasificación) realizando una generación manual de clusters (grupos) uti-
lizando una de las variables que describe la división geográfica del dataset
de pruebas.
La Figura 3.4 describe el proceso seguido para la generación del dataset
utilizado para imputar una variable.
Dataset original
Selección de
atributos relevantes
Determinar variable
a imputar
Eliminar observaciones
con NA (no aplica)
Dataset final
Figura 3.4: Modelo básico para procesar información
68
Los pasos seguidos en el proceso de imputación son:
1. Se parte del dataset original.
2. Se procede a seleccionar los atributos más relevantes.
3. Se determina la variable a imputar.
4. Se elimina las observaciones que presentan valores NA en otras va-

riables que no sean la variable a imputar.
5. Finalmente se obtiene un dataset sin valores NA (No Aplica) en

variables que no sean la variable a imputar.
Luego de obtener el dataset completo, se procede a aplicar los métodos

tradicionales de imputación descritos en la sección 3.4.2 y los resultados
obtenidos se presentan en la sección 3.6.
3.5.1. Modelo para imputar datos

Una vez que tenemos las variables más representativas debemos enfo-
carnos en el proceso de imputación de datos. La Figura 3.5 describe el
proceso seguido para imputar la variable utilizando clusters.
Partiendo del dataset original, se generan n–clusters, y se clasifica
(imputa) cada cluster por separado. Al finalizar este proceso, uniendo to-
dos los clusters generados en la fase inicial, se obtiene el dataset completo
con todos los valores perdidos clasificados (imputados).
3.6. Experimentación
En esta sección se presentan algunos resultados obtenidos al aplicar
varios algoritmos tradicionales de imputación y la metodología propues-
ta (generación manual de clusters) sobre el dataset correspondiente a la
provincia de Imbabura introducidos en la sección 2.3
De este universo, se ha seleccionado la información que permite calcular
la Mortalidad Infantil definido en [76] por lo que se considera únicamente
información del grupo Personas.
69
Dataset original
Generar n–clusters
Imputar cada cluster
Variable imputada
Figura 3.5: Modelo básico para procesar información por clusters
La pruebas se realizaron utilizando una muestra de la provincia de

Imbabura, cuyo universo tiene una población de 398,244 habitantes, de los
cuales para la muestra se consideró la población correspondiente a mujeres
con un total de 204,580 registros. De esta muestra sólo se consideran los
registros que cumplen las siguientes características:
Sexo: mujer
Edad: entre 15 y 50 (incluidos)
Bajo estas consideraciones se obtiene un dataset con 104,501 observa-

ciones (registros que cumplen con las dos condiciones antes mencionadas).
Se recodificaron los valores especiales como 9, 98, 99 (valores fuera de
rango o extremos) a valores NA.
Se eliminaron las variables que presentan muchos valores NA como p06
y p25. La variable p01 (sexo) se eliminó ya que el universo corresponde a
mujeres (p01=2).
Finalmente, se eliminan todas las observaciones que contienen al menos
un valor NA, esto da como resultado un dataset con 60,662 observaciones
el cual constituye el dataset completo para los experimentos.
Previo al análisis, la información debe ser unificada y en algunos casos
corregida, como por ejemplo variables con valores atípicos como 99 los que
70
deberían ser considerados como valores perdidos. Este proceso se llevó a

cabo para todas las variables del dataset.
Las tablas 3.1 y 3.3 muestran el detalle de los atributos mencionados

anteriormente.
Tabla 3.1: Atributos con valores perdidos
Variable Descripción Total NA

p08 Tiene discapacidad permanente por más de un año 5,496
p23 Cuál es el nivel de instrucción más alto al que asiste 1,795
o asistió
p24 Cuál es el grado, curso o año más alto que aprobó 7,232
p36 Cuántos hijos e hijas nacidos vivos ha tenido durante 1,292
toda su vida
p36m Cuántas hijas nacidas vivas ha tenido durante toda 1,185
su vida
p36h Cuántos hijos nacidos vivos ha tenido durante toda 107
su vida
p37 Total de Hijos Vivos Actualmente 34,819
p38 A qué edad tuvo su primer hijo o hija 36,333
graesc Grados de escolaridad 7,232
Para la realización de pruebas se generó, de forma aleatoria, un con-

junto de valores perdidos (NA) sobre la variable graesc correspondiente al
20 % del total de observaciones. La Tabla 3.2 detalla las características del
dataset de prueba.
Tabla 3.2: Dataset de pruebas
Descripción
Total de atributos 22
Total de observaciones 60,662
Total valores perdidos (NA) 12,132
71
Tabla 3.3: Porcentaje de valores perdidos por atributo
Nombre Descripción Porcentaje NA

i01 provincia 0.0
i02 cantón 0.0
i03 parroquia 0.0
i04 zona 0.0
i05 sector 0.0
urp área urbano/rural 0.0
p01 sexo 0.0
p03 edad 0.0
p04a mes de nacimiento 0.0
p04m año de nacimiento 0.0
p06 Está inscrito en el Registro Civil 96.8
p08 Tiene discapacidad permanente por más de un año 5.3
p16 Cómo se identifica según su cultura y costumbres 0.0
p19 Sabe leer y escribir 0.0
p23 Cuál es el nivel de instrucción más alto al que asiste 1.7
o asistió
p24 Cuál es el grado, curso o año más alto que aprobó 6.9
p25 Tiene algún título de nivel superior o postgrado 76.6
p34 estado conyugal 0.0
p36 Cuántos hijos e hijas nacidos vivos ha tenido durante 1.2
toda su vida
p36m Cuántas hijas nacidas vivas ha tenido durante toda 1.1
su vida
p36h Cuántos hijos nacidos vivos ha tenido durante toda 0.1
su vida
p37 Total de Hijos Vivos Actualmente 33.3
p38 A qué edad tuvo su primer hijo o hija 34.8
graesc Grados de escolaridad 6.9
3.6.1. Plataforma de Prueba
La plataforma sobre la cual se realizaron las pruebas corresponde a:
Procesador: Intel(R) Core(TM) i5-5200 CPU.
Velocidad del procesador: 2.20GHz.
72
Memoria RAM: 16.0GB.
Sistema Operativo: Windows 10 Pro 64 bits.
Software: R Project for Statistical Computing1 versión 3.4.4 64 bits.
Librerías: Hmisc2 (imputación con mediana y moda), VIM3 (impu-

tación con hot-deck), H2O4 .
3.6.2. Selección de atributos

En esta sección se presentan los resultados de aplicar el método bosques
aleatorios (random forest) para seleccionar los atributos más representa-
tivos. El proceso de selección de atributos mediante bosques aleatorios se
realizó utilizando la librearía H2O sobre R debido a que no es posible
procesarlo en R por limitaciones de memoria.
3.6.2.1. Random Forest
Mediante el dataset descrito en la sección 3.6.3 se realizó la clasificación

de la variable graesc utilizando el algoritmo de Random Forest. El método
se ejecutó con una precisión de 89.83 % con un número de árboles igual a
200.
La Figura 3.6 muestra el error del clasificador en función del número
de árboles, como se puede observar, a partir de 40 árboles, el error es
constante. Esto muestra que con 40 árboles es suficiente para obtener una
precisión de 86 % (aproximadamente).
La Tabla 3.4 muestra la importancia relativa de cada una de las varia-
bles (ver Tabla 3.3).
Como se puede observar en la Tabla 3.4, las variables más representa-
tivas son:
p24: Cuál es el grado, curso o año más alto que aprobó.
p23: Cuál es el nivel de instrucción más alto al que asiste o asistió.

1
https://www.r-project.org/
2
https://cran.r-project.org/web/packages/Hmisc/index.html
3
https://cran.r-project.org/web/packages/VIM/index.html
4
https://www.h2o.ai/
73
Figura 3.6: Random Forest - Error vs. número de árboles
Mientras que las variables que menos aportan al modelo son:
urp: Area urbano/rural.
p19: Sabe leer y escribir.
p08: Tiene discapacidad permanente por más de un año.
Ejecutando de nuevo la clasificación con igual número de árboles (200),

pero utilizando solamente las 2 variables más importantes (ver Tabla 3.4),
se obtiene una precisión del 89.32 %.
La Figura 3.7 muestra el error del clasificador en función del número
de árboles, como se puede observar, a partir de 1 o 2 árboles, el error es
constante.
La Tabla 3.5 muestra la importancia relativa de cada una de las varia-
bles (ver Tabla 3.3).
74
Tabla 3.4: Random Forest - Importancia relativa de variables (a)
No. Variable Importancia Importancia relativa Porcentaje

relativa normalizada
1 p24 1,147,775.750000 1.000000 0.370403
2 p23 1,128,546.375000 0.983246 0.364197
3 p38 83,312.062500 0.072586 0.026886
4 p04m 80,410.109375 0.070057 0.025949
5 p04a 79,847.375000 0.069567 0.025768
6 p03 79,680.320312 0.069422 0.025714
7 i05 78,811.421875 0.068664 0.025433
8 i04 63,298.328125 0.055149 0.020427
9 p16 39,915.035156 0.034776 0.012881
10 p36 39,641.273438 0.034537 0.012793
11 i02 39,151.269531 0.034111 0.012635
12 p34 39,061.355469 0.034032 0.012606
13 i03 37,435.160156 0.032615 0.012081
14 p37 37,075.160156 0.032302 0.011965
15 p36h 34,043.679688 0.029661 0.010986
16 p36m 33,356.085938 0.029062 0.010764
17 urp 27,352.345703 0.023831 0.008827
18 p19 23,858.568359 0.020787 0.007699
19 p08 6,153.317871 0.005361 0.001986
Tabla 3.5: Random Forest - Importancia relativa de variables (b)
No. Variable Importancia Importancia relativa Porcentaje

relativa normalizada
1 p24 73,471.460938 1.000000 0.506992
2 p23 71,444.843750 0.972416 0.493008
Esto muestra que la variable graesc puede ser predecida con una pre-
cisión aceptable utilizando solamente la variables p24 y p23.
3.6.3. Imputación con métodos estadísticos

En esta sección se presentan los resultados de aplicar varios métodos
de imputación al dataset descrito en la sección anterior. A continuación se
75
Figura 3.7: Random Forest - Error vs. número de árboles (variables representa-
tivas)
presenta el detalle de la variable a imputar (graesc):
Valor mínimo: 1
Valor máximo: 25
Mediana: 11
Moda: 8
Total NA: 12,132
La Figura 3.8 presenta la distribución por categoría de la variable

graesc.
Los métodos estadísticos de imputación analizados corresponden a:
Median
Mode
Hot-deck
76
Figura 3.8: Detalle variable graesc
3.6.3.1. Imputación dataset completo
La primera prueba realizada corresponde a la imputación de la variable

mencionada anteriormente utilizando el dataset completo. La Tabla 3.6
muestra los resultados de aplicar la imputación utilizando los métodos
listados anteriormente.
Tabla 3.6: Métodos estadísticos - Imputación dataset completo
Método Imputados válidos Imputados con error Precisión ( %)

Mediana 889 11,243 7.33
Moda 3,429 8,703 28.26
Hot-deck 1,554 10,578 12.81
En el caso de la mediana, se procedió a reemplazar todos los valores

perdidos (12,132 en total, ver Tabla 3.2) con el valor de la mediana (11)
y a continuación se verificó qué valores fueron imputados correctamente
comparándolos con los datos originales. De este proceso, 889 valores fueron
imputados correctamente (coinciden con los valores originales del dataset
de pruebas) y 11,243 valores fueron imputados de forma incorrecta (no
coinciden con el valor original), esto da una precisión de 7.33 %.
En el caso de la moda, se procedió a reemplazar todos los valores perdi-
77
dos (12,132 en total) con el valor de la moda (8) y a continuación se verificó

qué valores fueron imputados correctamente comparándolos con los datos
originales. De este proceso, 3,429 valores fueron imputados correctamente
(coinciden con los valores originales del dataset de pruebas) y 8,703 valores
fueron imputados de forma incorrecta (no coinciden con el valor original),
esto da una precisión de 28.26 %.
En el caso de hot-deck, se procedió a reemplazar todos los valores perdi-
dos (12,132 en total) y a continuación se verificó qué valores fueron impu-
tados correctamente comparándolos con los datos originales. De este proce-
so, 1,554 valores fueron imputados correctamente (coinciden con los valores
originales del dataset de pruebas) y 10,578 valores fueron imputados de for-
ma incorrecta (no coinciden con el valor original), esto da una precisión de
12.81 %.
3.6.3.2. Imputación por clusters
La siguiente prueba consiste en crear grupos o clusters de observaciones

de forma manual utilizando una de las variables del dataset, en este caso
se consideró la división geográfica de cantón (variable i02 ), con lo cual se
generaron 6 clusters. La Tabla 3.7 muestra el detalle de los clusters creados
de forma manual (12,132 valores NA en total).
Tabla 3.7: Clusters generados manualmente
No. cluster Tot. elementos Mediana Moda Tot. NA

1 30,351 13 8 6,049
2 6,882 9 8 1,355
3 4,978 8 8 1,031
4 14,354 8 8 2,873
5 1,967 8 8 401
6 2,130 8 8 423
La Tabla 3.8 muestra los resultados de aplicar la imputación utilizando

a cada uno de los clusters utilizando los métodos listados anteriormente.
Al final del proceso, los resultados parciales se consolidaron sobre la región
geográfica completa.
78
Tabla 3.8: Métodos estadísticos - Imputación por clusters

Mediana 1,876 10,526 15.46
Moda 3,429 8,704 28.26
Hot-deck 1,663 10,469 13.71

perdidos de cada uno de los clusters con el valor de la mediana de dicho
cluster y a continuación se verificó qué valores fueron imputados correcta-
mente comparándolos con los datos originales. De este proceso, sumando
los valores imputados correctamente en todos los clusters, 1,876 valores
fueron imputados correctamente (coinciden con los valores originales del
dataset de pruebas) y 10,526 valores fueron imputados de forma incorrecta
(no coinciden con el valor original), esto da una precisión de 15.46 %.
En el caso de la moda, se procedió a reemplazar todos los valores per-
didos de cada uno de los clusters con el valor de la moda de dicho cluster
y a continuación se verificó qué valores fueron imputados correctamente
comparándolos con los datos originales. De este proceso, sumando los va-
lores imputados correctamente en todos los clusters, 3,429 valores fueron
imputados correctamente (coinciden con los valores originales del dataset
de pruebas) y 8,704 valores fueron imputados de forma incorrecta (no coin-
ciden con el valor original), esto da una precisión de 28.26 %. En este caso,
la precisión coincide con la imputación sin realizar ningún cluster.
perdidos de cada uno de los clusters y a continuación se verificó qué valores
fueron imputados correctamente comparándolos con los datos originales.
De este proceso, sumando los valores imputados correctamente en todos
los clusters, 1,663 valores fueron imputados correctamente (coinciden con
los valores originales del dataset de pruebas) y 10,469 valores fueron impu-
tados de forma incorrecta (no coinciden con el valor original), esto da una
precisión de 13.71 %.
El anexo A presenta el detalle de cada uno de los clusters, así como la
precisión de imputación en cada cluster.
79
3.6.4. Imputación con métodos de aprendizaje automático
En esta sección se presentan los resultados de aplicar varios métodos

de aprendizaje automático (métodos supervisados) al dataset descrito en
la sección anterior. A continuación se presenta el detalle de la variable a
imputar (graesc):
3.6.4.1. Imputación dataset completo
La primera prueba realizada corresponde a la imputación de la variable

mencionada anteriormente utilizando el dataset completo. La Tabla 3.9
muestra los resultados de aplicar la imputación utilizando los siguientes
métodos de clasificación:
kNN, k=5
Decision Trees
RandomForest, número de árboles=500
Tabla 3.9: Métodos ML - Imputación dataset completo

kNN 4,933 7,199 40.66
Decision Trees 8,752 3,380 72.21
Random Forest 9,683 2,449 79,98
En el caso de knn, se procedió a clasificar la variable graesc utilizan-

do las variables restantes y a continuación se verificó qué valores fueron
clasificados correctamente comparándolos con los datos originales. De este
proceso, 4,933 valores fueron clasificados correctamente (coinciden con los
valores originales del dataset de pruebas) y 7,199 valores fueron clasifica-
dos de forma incorrecta (no coinciden con el valor original), esto da una
precisión de 40.66 %.
Para los otros métodos de clasificación (Decision Trees y Random Fo-
rest), el proceso es similar al descrito anteriormente.
80
3.6.4.2. Imputación por clusters
La siguiente prueba consiste en crear grupos o clusters de observaciones

de forma manual utilizando una de las variables del dataset, en este caso
se consideró la división geográfica de cantón (variable i02 ), con lo cual se
generó 6 clusters.
La Tabla 3.10 muestra el detalle de los clusters creados manualmente.
Para cada cluster se indica el total de observaciones y el total de valores
perdidos en el cluster.
Tabla 3.10: Clusters generados manualmente
No. cluster Tot. elementos Tot. NA

1 30,351 6,049
2 6,882 1,355
3 4,978 1,031
4 14,354 2,873
5 1,967 401
6 2,130 423
La Tabla 3.11 muestra la clasificación de los datos por cada uno de los
clusters creados manualmente utilizando el método kNN. La tabla muestra
el número de observaciones utilizadas para el entrenamiento (Training),
el número de observaciones utilizadas para pruebas (Test), el número de
observaciones de prueba clasificadas correctamente (Válidos) y la precisión
(Precisión).
Tabla 3.11: knn–Imputación de cada cluster
No. cluster Training Test Válidos Precisión ( %)

1 24,302 6,049 2183 36.09
2 5,527 1,355 550 40.59
3 3,947 1,031 443 42.97
4 11,481 2,873 1133 39.43
5 1,566 401 188 46.88
6 1,707 423 194 45.86
81
3.7. Conclusiones
El proceso par aplicar los otros métodos de aprendizaje automático

(Decision Tree y Random Forest) es similar al indicado anteriormente para
el método kNN.
La Tabla 3.12 muestra los resultados de aplicar la imputación mediante
aprendizaje automático utilizando la generación de clusters.
Tabla 3.12: Métodos ML - Imputación por clusters

kNN 4,691 7,441 38.67
Decision Tree 10,330 1,802 85.14
Random Forest 10,004 1,304 88.47
3.7. Conclusiones
La generación de los grupos se los realiza de forma manual utilizando
como variable que define los grupos, una variable que describe la división
geográfica de cantón, esto permite generar 6 grupos que comparten las
características espaciales.
Como se puede observar de las tablas 3.8 y 3.12, la generación de clus-
ters (grupos) de forma manual mejora ligeramente la clasificación (impu-
tación) de los datos.
Con los resultados encontrados hasta el momento podemos concluir
que el proceso de clasificación de variables depende directamente del ti-
po de datos, del tamaño de la muestra, de los algoritmos utilizados y la
metodología que apliquemos en el procesamiento de datos. Por esto, en el
siguiente capítulo aplicaremos el modelo propuesto (completo) para validar
las mejoras alcanzadas.
82
Capítulo 4
Procesamiento inteligente de
datos socio-demográficos
En este capítulo se presentan los resultados de la aplicación del

modelo propuesto para imputar datos socio-demográficos. Se pre-
sentan resultados y algunas comparaciones. El capítulo está orga-
nizado en las siguientes secciones: la sección 4.1 presenta una breve
introducción a la metodología aplicada, la sección 4.2 analiza de
forma rápida el procesamiento de información y los pasos a seguir
en la etapa de pre-procesamiento, la sección 4.3 realiza el proceso
para selección de variables mediante Random Forest, la sección 4.4
describe el método utilizado para la generación de clusters median-
te SOM-Jerárquico, la sección 4.5 presenta el método para generar
clusters mediante GNG, la sección 4.6 analiza los clusters gene-
rados, la sección 4.7 presenta los resultados al imputar datos, la
sección 4.8 muestra de forma gráfica la distribución de datos del
cluster de forma espacial y el cálculo de la TMI, finalmente, la
sección 4.9 presenta algunas conclusiones.
4.1. Introducción
En este capítulo se emplea la metodología propuesta en la sección 2.4

para la clasificación (imputación) de información categórica provenientes
de censos o encuestas cuyas características son el gran volumen de datos y
4.2. Análisis de datos
alta dimensionalidad.
El procesamiento de conjuntos de datos con un alto número de varia-
bles (dimensionalidad), que son en su mayoría de tipo categóricas, conlleva
varios problemas a resolver como: reducción de la dimensionalidad, impu-
tación y limpieza de datos, altos costos computacionales entre otros. Como
parte de la metodología se propone una etapa de pre–procesamiento orien-
tada a solventar estos problemas.
En el proceso de extracción de conocimiento, es muy común tratar con
una etapa de pre-procesamiento de datos y reducción de dimensionalidad.
Parte fundamental de la extracción de información es contar con datos de
alta calidad.
En este capítulo se propone la utilización de los métodos Pairwise y
Listwise como parte del proceso de reducción de dimensionalidad cuando
existe un alto nivel de datos ausentes presente en una o más variables,
en el siguiente paso utilizamos RF para la selección de variables y así
completar la etapa de reducción de dimensionalidad. Como parte del pre–
procesamiento se generan n-clusters mediante el algoritmo SOM.
A continuación se realiza una comparación del rendimiento y precisión
de algoritmos de clasificación con el dataset completo y aplicando los algo-
ritmos a cada cluster. Como caso de estudio analizamos qué características
influyen en el nivel de escolaridad de las mujeres en edad fértil analizada
en la sección 3.6.

En el campo del análisis de datos el objetivo principal es la extracción
de conocimiento KDD (Knowledge Discovery in Databases). Este proceso
comienza con la obtención de los datos y finalizaría con la aplicación del
conocimiento adquirido, sea este para la toma de decisiones o descripción
de un problema o fenómeno. En el pasado se contaba con pocos datos
y antes de la aparición de técnicas de análisis de datos, la extracción de
conocimiento se realizaba de forma manual, mediante un análisis e inter-
pretación por parte de personal especializado en una área específica, siendo
este un método costoso, poco eficaz y altamente subjetivo.
84
Capítulo 4. Procesamiento inteligente de datos socio-demográficos
Con el crecimiento de los datos disponibles y tomando en cuenta las

diversas fuentes que producen datos a velocidades antes impensables (por
ejemplo redes sociales), se volvió cada vez más necesario encontrar alter-
nativas que vayan acorde con las características presentes en los datos (las
4V’s, ver Figura 1.1), esto permitió a las técnicas de aprendizaje automáti-
co posicionarse en el campo del análisis de datos, como apoyo a las técnicas
tradicionales.
La mayor parte de las técnicas funcionan de forma adecuada para datos
numéricos, en un menor número encontramos técnicas orientadas a tratar
con datos categóricos, sin embargo muy pocas técnicas pueden manejar los
dos tipos de datos de forma simultánea (numéricas y categóricas).
Para la realización de estudios que involucren análisis de datos, sean
estos por métodos estadísticos o mediante técnicas de aprendizaje auto-
mático, existen pasos fundamentales que se deben dar para la obtención
de resultados adecuados. Estos pasos o etapas se pueden ejecutar siempre
y cuando podamos asumir que los datos son correctos y completos. En la
mayoría de los casos, los datos requieren de un proceso previo para consi-
derarlos aceptables para el análisis. Por ello, el pre-procesamiento de datos
nos permite determinar la validez de los resultados obtenidos de la pre-
dicción o si fueron afectados significativamente al no tener un tratamiento
adecuado previo al análisis.
La Figura 4.1 muestra las etapas básicas a seguir en el procesamiento
de los datos.
Figura 4.1: Procesamiento de datos
85
Todo análisis de datos comienza con el proceso de adquisición de datos

seguido por la aplicación de filtros necesarios para el buen funcionamiento
de los algoritmos. En el pre–procesamiento se tratan los datos con una
orientación adecuada dependiendo tanto del tipo de datos como de los
algoritmos que deseamos utilizar para extraer información, el dataset re-
sultante de este paso se convierte en la entrada de datos para los algoritmos
de aprendizaje automático que serán los encargados de generar información
relevante.
En este estudio se utiliza la información demográfica descrita en las
secciones 2.2.1.1 y 3.6. Una vez definidos los datos con los que vamos a
trabajar, pasamos a la etapa de preparación de estos previo a la extracción
de conocimiento como podemos apreciar en la Figura 4.1.
4.2.1. Pre-procesamiento
Los datos a ser analizados provienen del censo de población y vivienda

de Ecuador del 2010, presentan problemas como ausencia de datos, alta
dimensionalidad y un gran volumen de datos, por ello es necesario tratar
los datos previo a cualquier análisis. Se pueden definir cuatro fases dentro
del pre-procesamiento de los datos [42]:
Integración
Limpieza
Reducción
Transformación
Cada una de ellas está orientada a tratar los datos de tal manera que,
al finalizar el proceso, podamos contar con datos confiables, correctos y
concretos que sean de utilidad para el estudio planteado.
A continuación se describe cada una de las fases de la etapa de procesa-
miento a las que fue sometida la información para nuestro caso de estudio.
Los bloques de programa que se ilustran en cada sección se corresponden
con programas escritos en lenguaje R.
86
4.2.1.1. Integración
Para el estudio sobre mortalidad infantil, se integraron los datos pro-

venientes de los grupos descritos en la sección 2.2.1.1 del cual se ha se-
leccionado el conjunto correspondiente a las observaciones que cumplen la
condición que la variable p01 tenga un valor igual a 2 (sexo = mujer).
Sobre este conjunto aplicamos un nuevo filtro a la variable p03 que co-
rresponde a edad, en este estudio se deben seleccionar sólo los registros de
mujeres que están en edad fértil (15-50 años). A continuación mostramos
la aplicación de estos filtros.
1 dataset<-poblacion[ , variables]
2 dataset<-subset(dataset, p01==2 )
3 dataset<-subset(dataset, p03>=15 )
4 dataset<-subset(dataset, p03<=50 )
El dataset generado luego de aplicar los dos filtros corresponde a un

total de 104,501 observaciones. Este paso aporta una solución parcial al
problema NMAR eliminando todos los datos ausentes producto de aplicar
preguntas a un sector de personas a las cuales no corresponde contestar
cierto grupo de preguntas, como por ejemplo: número de hijos nacidos vi-
vos, número hijos varones nacidos vivos a personas de sexo = hombre, en
este caso no se debe imputar valores para estas variables porque serían
incorrectos y produciría información no válida. Con este conjunto proce-
demos a ejecutar la siguiente etapa.
4.2.1.2. Limpieza
Para que los datos sean consistentes, se ha detectado si existen valores

perdidos, inconsistentes o ausentes para poderlos corregir, imputar o en
su caso, eliminar. Tomemos el ejemplo de la variable p23 (Cuál es el nivel
de instrucción más alto al que asiste o asistió). Esta variable no contiene
valores perdidos, sin embargo, al realizar el cálculo de la frecuencia existen
valores igual a 99 (1,776 casos). Estos casos corresponden a personas que
no responden, por lo cual se consideran como valores perdidos. De igual
manera se analizan cada una de las variables. Una vez detectados estos
87
casos cuyos valores no son válidos para cada variable, se los reemplaza con
NA (no aplica).
1 dataset$p08<-recodeValue2Value(dataset$p08,9,NA)
2 dataset$p23<-recodeValue2Value(dataset$p23,99,NA)
3 ...
Luego de la asignación de valores perdidos, se eliminaron mediante

Pairwise deletion las variables para las cuales existe un número alto de
valores NA, ver Tabla 3.3 (la proporción de ausencia de datos es tan grande
que la variable no debe ser considerada). En este caso corresponde a las
variables: p06 (101,126 valores NA) y p25 (80,013 valores NA).
1 colSums(is.na(dataset))
2 dataset$p06<-NULL
3 dataset$p25<-NULL
4 dataset$p01<-NULL
La variable p01 (sexo) fue eliminada porque al realizar el filtro con

valor 2 para esta variable, todos los registros del dataset corresponden a
MUJER y por lo tanto ya no es representativa para el análisis.
Con estos cambios aplicamos Listwise deletion para eliminar las filas
donde al menos una columna tenga valores NA. En este paso obtenemos
un dataset completo que nos permite entrenar el modelo y verificar la
exactitud.
1 row.has.na <- apply(dataset, 1, function(x){any(is.na(x))})
2 dataset<-dataset[!row.has.na, ]
El resultado del paso anterior corresponde al dataset utilizado para

entrenamiento y pruebas de los diferentes métodos.
4.2.1.3. Reducción
De toda la información disponible en el censo se consideran las "posi-

bles" variables que pueden influir en el cálculo de la tasa de mortalidad
infantil según brechas educativas. Mediante el uso de Bosques Aleatorios (
en inglés Random Forest - RF) se obtienen las variables más representa-
tivas para el cálculo de la variable graesc. Como resultado obtenemos un
88
conjunto de datos con un total de 25 variables pero con las consideraciones

anteriores el número se reduce a 22.
En la sección 4.3 se trata de forma detallada el proceso de selección de
variables con RF.
4.2.1.4. Transformación
Una vez conseguido un dataset completo y concreto, transformamos

todas las variables a variables categóricas y, dependiendo del algoritmo a
ser utilizado, realizamos las transformaciones puntuales requeridas para
ser procesados de manera adecuada. Para el uso de métodos de agrupa-
ción basados en modelos neuronales como Mapas auto organizativos–SOM
y Gases neuronales crecientes (en inglés Growing Neural Gas -GNG) [39]
todas las variables son transformadas a binarias. Estos métodos son utili-
zados para la generación de clusters.
1 dataset<-dummy.data.frame( dataset, sep=".")
4.3. Random Forest
En esta sección se revisa el proceso a seguir para la generación de

ranking de variables utilizando Random Forest como proceso para selección
de variables representativas del modelo descrito en la sección anterior.
En la sección 3.6.2.1 se presentó el proceso de selección de variables
para predecir la variable graesc mediante el algoritmo RF, así como una
descripción de las dos variables que aportan de forma significativa a la
predicción de la variable. Si el objetivo del estudio fuese solo la predicción
de esta variable, no se necesita mucho más que utilizar las dos variables
descritas y con una precisión del 89.32 % imputar los valores ausentes para
esta variable. Sin embargo, analizando los datos originales y tomando en
cuenta lo descrito en la sección 3.1 sobre los tipos de datos ausentes, de-
bemos considerar que al presentar un tipo de ausencia NMAR y MAR, la
ausencia en esta variable también puede significar ausencia en las variables
relacionadas, como podemos observar en la Figura 4.2.
89
4.3. Random Forest
Figura 4.2: Muestra del dataset original
Con lo descrito anteriormente y considerando el propósito del estudio

que es el cálculo del indicador TMI-SBE, se necesita tomar en cuenta el
grupo de variables que describen la mortalidad infantil y el grupo corres-
pondiente a la ubicación geográfica.
Como primer paso se ejecuta el modelo Random Forest en modo no
supervisado y a continuación se utilizan los resultados obtenidos para pre-
decir el valor de la variable graesc en función de las variables restantes.
No se consideran las variables geográficas i01, i02, i03, i04, i05 en el pro-
ceso de selección de variables. Necesitamos estas variables para el análisis
final.
4.3.1. Ranking
Para la generación de ranking de variables, se ejecuta un modelo de
Random Forest en modo no supervisado. El proceso de entrenamiento se
lleva a cabo con 50 árboles y se parametriza para que se entrene de forma
no supervisada.
1 set.seed(0)
2 ratio<-0.1
3 split = sample.split(dataset$graesc, SplitRatio = ratio)
4 training_set = subset(dataset, split == TRUE)
5 urf<- randomForest(
6 x=training_set,
90
7 ntree=50,
8 importance = TRUE
9 )
Como resultado de la ejecución del modelo anterior podemos obtener

un ranking de importancia de cada una de las variables del dataset. La
Figura 4.3 muestra la importancia de cada una de las variables, como
era de esperar las variables más relevantes son p23, p24, p03 y p38 que
corresponden a: “nivel de instrucción más alto aprobado”, “año o grado
más alto que asistió”, “edad y “a qué edad tuvo su primer hijo”. Todas
estas variables influyen de forma directa en temas de educación.
Figura 4.3: Ranking de variables
4.3.2. Clasificación
El mismo modelo se utiliza para realizar una clasificación de la variable

graesc en función de las variables restantes. Al igual que en el modelo
anterior, el modelo se parametriza con 50 árboles.
1 urf<- randomForest(
2 graesc ~ .,
91
4.3. Random Forest
3 data=training_set,
4 ntree=50,
5 importance = TRUE,
6 proximity = TRUE
7 )
8 print(urf)
Con esto, el error estimado corresponde al 17.07 %.

También es posible obtener el ranking de variables de la clasificación.
La Figura 4.4 muestra la importancia de cada una de las variables del
modelo de clasificación.
Figura 4.4: Ranking de variables - clasificación
4.3.3. Random Forest mediante H2O

Debido a la limitación de ejecutar Random Forest con el dataset com-
pleto, se optó por ejecutarlo utilizando la librería H2O1 sobre R.
El inconveniente de esta ejecución es que solo soporta la ejecución en
modo supervisado (clasificación) a diferencia de R que soporta la ejecución
1
https://www.h2o.ai/
92
en modo no supervisado.
Todas las variables son de tipo categórico, con lo que el modelo corres-
ponde a un modelo de clasificación.
Del total de observaciones se utiliza el 80 % para entrenamiento y 20 %
para prueba. El número de árboles generados corresponde a 200.
Para la ejecución en modo supervisado se utiliza como variable a pre-
decir la variable graesc.
En la Tabla 4.1 se presenta el ranking de variables indicando la impor-
tancia relativa de cada una.
Tabla 4.1: Random Forest - Importancia relativa de variables (c)
No. Variable Importancia Importancia Porcentaje

relativa relativa
normalizada
1 p24 1,579,690.500000 1.000000 0.368054
2 p38 489,155.031250 0.309652 0.113969
3 p04m 425,017.281250 0.269051 0.099025
4 p04a 375,904.156250 0.237961 0.087582
5 p03 374,609.062500 0.237141 0.087281
6 p34 170,167.281250 0.107722 0.039647
7 p16 165,369.500000 0.104685 0.038530
8 urp 134,247.625000 0.084983 0.031279
9 p36 131,770.453125 0.083415 0.030701
10 p37 129,388.507812 0.081908 0.030146
11 p36m 124,582.335938 0.078865 0.029027
12 p36h 124,255.882812 0.078658 0.028951
13 p19 23,494.177734 0.014873 0.005474
14 p23 23,429.886719 0.014832 0.005459
15 p08 20,925.957031 0.013247 0.004876
La Tabla 4.2 contiene el listado de variables seleccionadas por el método

descrito en la sección 4.3 y el número de valores perdidos en cada una de
ellas. De modo similar, la Tabla 3.3 presenta valores del porcentaje de NA
en el que las variables p06 y p25 “al tener un alto porcentaje de NA” fueron
eliminadas.
93
4.3. Random Forest
Tabla 4.2: Variables a considerar
Variable Descripción Total

NA
i01 Provincia 0
i02 Cantón 0
i03 Parroquia 0
i04 Zona 0
i05 Sector 0
urp Area urbana o rural 0
p01 Cuál es el Sexo 0
p03 Cuántos años cumplidos tiene 0
p04a Cuál es el año en que nació 0
p04m Cuál es el mes en que nació 0
p08 Tiene discapacidad permanente por más de un año 5,496
p16 Como se identifica según su cultura y costumbres 0
p19 Sabe leer y escribir 0
p23 Cuál es el nivel de instrucción más alto al que 1,795
asiste o asistió
p24 Cuál es el grado, curso o año más alto que aprobó 7,232
p34 Estado conyugal 0
p36 Cuántos hijos e hijas nacidos vivos ha tenido 1,292
durante toda su vida
p36m Cuántas hijas nacidas vivas ha tenido durante 1,185
toda su vida
p36h Cuántos hijos nacidos vivos ha tenido durante 107
toda su vida
p37 Total de Hijos Vivos Actualmente 34,819
p38 A qué edad tuvo su primer hijo o hija 36,333
graesc Grados de escolaridad 7,232
Finalmente, la Figura 4.5 muestra el historial de entrenamiento hasta

con 200 árboles. En la Figura 3.6 se usaron hasta 100 árboles para entrenar
y probar el error vs. el número de árboles.
Finalmente, resultado de la etapa de pre-procesamiento descrita en las

secciones 4.2.1 y 4.3, obtenemos un dataset completo con 60,662 observa-
ciones de dimensión 22 (22 atributos).
94
Figura 4.5: Historial de entrenamiento
4.4. Generación de clusters mediante SOM-Cluster

Jerárquico
En esta sección se describe el método para generar agrupaciones de for-

ma automática (clusters) utilizando modelos auto-organizados. El resulta-
do de este proceso consiste en la generación de una serie de subconjuntos o
grupos del dataset original para posteriormente imputar la variable desea-
da en cada uno de estos grupos.
Una vez que se obtuvo un dataset completo, podemos empezar a entre-

nar el modelo para imputar las variables que contienen valores ausentes.
El objetivo del trabajo es predecir la TMI mediante brechas educativas de
acuerdo al sector de residencia. Para tener un resultado adecuado en la
predicción se requiere evitar sesgos producidos por la reducción considera-
ble de la muestra. El primer paso es imputar los datos de la variable graesc,
que es fundamental por ser un estudio que se basa en brechas educativas
(TMI-SBE). Sin embargo, al tratar con datos de nivel de educación se debe
considerar cómo afecta la ubicación geográfica a este indicador.
El método de imputación propuesto genera una cantidad definida de

clusters (agrupaciones) de forma automática (las pruebas con generación
manual de clusters se realizaron en las secciones 3.6.3.2 y 3.6.4.2).
95
4.4. Generación de clusters mediante SOM-Cluster Jerárquico
4.4.1. Modelos auto-organizativas (SOM)
La siguiente etapa en el modelo propuesto es la generación de clus-

ters. A continuación presentamos el proceso utilizando para la generación
de clusters mediante redes auto-organizativas (SOM). Este modelo opera
únicamente con variables numéricas, por ello se crea variables dummy por
cada variable categórica.
La ejecución de SOM se parametrizó con los siguientes valores:
Topología: rectangular
Tamaño de la malla: 5x5
Número de iteraciones: 100
Learning rate: 0.05 - 0.01
El tiempo aproximado en la ejecución del modelo es de 89 segundos.

La Tabla 4.3 muestra el total de elementos asignados a cada celda de la
malla (en total se dispone de 25 celdas).
Tabla 4.3: SOM - Elementos por cluster
Celda Total Celda Total

observaciones observaciones
1 4,992 14 2,137
2 1,360 15 1,835
3 2,146 16 2,883
4 2,406 17 1,225
5 4,803 18 1,321
6 3,039 19 2,171
7 1,230 20 225
8 1,855 21 4,968
9 1,778 22 2,732
10 2,081 23 2,460
11 3,483 24 2,111
12 838 25 3,701
13 851
96
A continuación se presentan algunos resultados obtenidos de la ejecu-

ción del modelo. La Figura 4.6 muestra de forma gráfica la distribución de
cada celda.
Figura 4.6: SOM - Distribución por celda
4.4.1.1. Proceso de entrenamiento (Training progress)
El gráfico de entrenamiento muestra la disminución de la media de la

distancia de cada celda a sus vecinos respecto del número de iteración. La
Figura 4.7 muestra el proceso de entrenamiento.
Figura 4.7: SOM - Entrenamiento
97
4.4.1.2. Mapa de calor (Heat map)
Este gráfico permite asociar observaciones con celdas de la malla (grid).

Cada observación (fila del dataset) se asigna a la celda cuyo vector repre-
sentativo es el más cercano.
La Figura 4.8 muestra el número total de observaciones asociado a
cada celda. El color rojo representa una alta asignación de observaciones,
mientras que el color blanco representa una baja asignación.
Figura 4.8: SOM - Mapa de conteo
El orden de recorrido de las celdas de la malla empieza por la esquina

inferior izquierda identificada como la celda (1,1) y avanza hacia la de-
recha y arriba. Así por ejemplo, la celda de la esquina superior izquierda
corresponde a la coordenada (1,5), mientras que la celda de la esquina
superior derecha corresponde a la coordenada (5,5).
Los datos representados en la Figura 4.8 corresponde a la representa-
ción gráfica de los datos de la Tabla 4.3.
4.4.2. Mapa de distancias

Cuando se utiliza este gráfico, el color de la celda representa la distancia
total a las celdas vecinas. La Figura 4.9 muestra el mapa de distancias.
98
Figura 4.9: SOM - Mapa de distancias
4.4.2.1. SOM Clustering
Este caso consiste en utilizar la asignación de cada observación al vector

representativo como un cluster. Cada celda corresponde a un cluster, y cada
observación se asigna al vector más cercano dentro de la malla..
Con esto, el número de clusters corresponde al tamaño del grid (25 en

nuestro caso).
Para un mejor análisis de la distribución de las variables de acuerdo a

los clusters generados, obtenemos el gráfico de la distribución y la relación
que existe con el mapa de conteo para cada celda.
La Figura 4.10 muestra la relación entre el mapa de conteo y la dis-

tribución por celda. Como podemos observar, existe una estrecha relación
entre el mapa de conteo y el gráfico de la distribución de los clusters. El
color en el mapa de conteo refleja el número de elemento asignados a cada
cluster.
99
Figura 4.10: SOM - Mapa de conteo y distribución por cluster
La caracterización de cada cluster se puede realizar utilizando el mapa

de calor de cada una de las variables dentro de la malla. Por ejemplo,
consideremos la variable URP (zona urbano/rural). La Figura 4.11 muestra
el mapa de calor de la variable indicada para las categorías 1 y 2 (1=urbano,
2=rural).
Figura 4.11: SOM - Mapa de calor variable URP
Como se observa en la Figura 4.11, el cluster 1 tiene una alta concentra-

ción de observaciones cuyo valor para la variable URP es 1. En general las
observaciones con valor URP igual a 2 es casi nula. Si observamos la escala,
el valor rojo representa una alta concentración y el color blanco una baja
concentración de observaciones. Esto concuerda con los datos generados en
cada cluster. Tomamos el cluster 1 (4,992 observaciones según Tabla 4.3)
100
y sobre este conjunto de datos aplicamos el cálculo de una frecuencia sim-

ple de la variable URP, se obtiene que 4,992 observaciones corresponden
a un área URBANA, mientras que 0 observaciones corresponden al área
RURAL.
El proceso anterior se puede generalizar para cualquier variable y así
realizar una descripción detallada de las características que representan a
cada cluster.
4.4.2.2. Clustering en base al mapeo de datos (codebook)
La ejecución del algoritmo SOM genera 25 clusters. Esto dificulta el

análisis debido al alto número de grupos generados. Para la generación
del mapeo de los datos originales a un conjunto más pequeño de valores
cercanos a los valores originales (codebook) se utilizó la salida del mode-
lo SOM. Para ello se generaron 5 clusters sobre el conjunto de vectores
representativos, que en el caso del ejemplo corresponde a 25.
Para la reasignación de clusters a un número menor se utilizó el método
de cluster jerárquico sobre los vectores representativos obtenidos al aplicar
el algoritmo SOM. Luego de generar n-cluster con el dataset de nodos se
extiende la asignación de clusters al dataset original.
El primer paso consiste en determinar la media de la variabilidad de
las observaciones dentro de cada cluster (WCSS within Cluster Sum of
Squares). La Figura 4.12 muestra la distribución del error según el número
de clusters.
Observando la Figura 4.12, es fácil notar que con un número de clusters
igual a 7 se tiene un punto de estabilidad en la distribución del error. A
partir de este punto la variabilidad de los clusters es más homogénea.
Luego de aplicar el algoritmo de cluster jerárquico se obtienen 7–
clusters.
La Figura 4.13 muestra de forma gráfica la distribución de los 7 clusters
generados a partir de la malla de tamaño 5 x 5.
101
Figura 4.12: WCSS - Cluster Jerárquico
Figura 4.13: Cluster Jerárquico - Distribución de los clusters
La Figura 4.14 muestra de forma gráfica la distribución de cada cluster

y cómo se asignaron las 25 celdas (SOM) a cada grupo dentro de la malla
dado que se trata de información que está representada en dos dimensiones.
102
Figura 4.14: Distribución por cada cluster
En la Figura 4.14 se pueden distinguir los siete clusters representados

por distintos colores, la mayoría se encuentran en celdas contiguas, sólo en
el cluster 2 encontramos elementos distantes. Después se debe caracterizar
cada cluster en base al valor de cada uno de los atributos del dataset. El
paso final en esta etapa consiste en generar 7-datasets los cuales serán utili-
zados para imputar la variable graesc por cada dataset para posteriormente
agrupar los resultados en un solo bloque.
4.5. Generación de clusters mediante Gases Neu-

ronales Crecientes
En esta sección se describe el método para generar agrupaciones de

forma automática (clusters) utilizando un algoritmo neuronal no supervi-
sado denominado gases neuronales crecientes (en inglés Growing Neural
Gas - GNG). El resultado de este proceso consiste en la generación de un
grupo de sub-datasets del dataset original para posteriormente imputar la
variable deseada en cada dataset.
En la siguiente sección se presenta el proceso a seguir para la generación
de clusters utilizando GNG.
El dataset de pruebas corresponde al descrito en la sección 4.2.1. Los
parámetros empleados en la ejecución de las pruebas son los siguientes:
103
4.5. Generación de clusters mediante Gases Neuronales Crecientes
Número de nodos: 5, 50, 100, 500 y 1,000.
max.edge.age: Influye en la eliminación de conexiones entre las neu-

ronas que conforman el mapa/grafo resultado, valores utilizados 100,
50, 10.
La Tabla 4.4 muestra el tiempo empleado en cada ejecución para va-

riaciones del parámetro nodos para max.edge.age=200 así como el grado
medio del grafo.
Tabla 4.4: GNG - Tiempo de ejecución para variaciones del número de nodos
Nodos Tiempo (segundos) Grado medio

5 4.18 2.4
50 15.83 9.56
100 24 11.84
500 81.03 8.716
1,000 120.94 7.17
La Tabla 4.5 muestra el tiempo empleado en cada ejecución para va-

riaciones del parámetro max.edge.age y un número de nodos igual a 5.
Tabla 4.5: GNG - Tiempo de ejecución para variaciones de max.edge.age
max.edge.age Tiempo (segundos) Grado medio

200 3.72 2.4
150 3.68 2.8
120 3.53 1.6
110 3.53 1,6
105 3.65 2
Para el caso donde el número de nodos es igual a 5 y 50, la Figura 4.15

muestra el grafo correspondiente.
104
(a) 5 nodos (b) 50 nodos
Figura 4.15: GNG - Grafo de red con 5 y 50 nodos
En el ejemplo de 5 nodos, el grado de cada uno de los vértices (de abajo

hacia arriba) es [2 2 4 2 2] y está calculado de la siguiente manera:
Nodo 1 : 2 nodos conectados
Por lo tanto la media es (2 + 2 + 4 + 2 + 2)/5 = 2.4
4.5.1. GNG Clustering

En esta sección se emplea la asignación de cada observación al nodo.
Cada celda corresponde a un cluster, y cada observación se asigna al nodo
más cercano dentro de la red.
Con esto, el número de clusters corresponde al número de nodos (5, 50,
100, 500 y 1000). Como ejemplo se muestra la asignación de cluster para
un número de nodos igual a 5.
4.5.1.1. Distribución en el cluster
La Figura 4.16 muestra la distribución del número de observaciones por

cada cluster de forma gráfica.
105
4.5. Generación de clusters mediante Gases Neuronales Crecientes
Figura 4.16: Clusters
4.5.2. Clustering en base a los nodos
Para la generación de clusters se utiliza la salida del modelo GNG.

Para esto se considera el dataset formado por los nodos de la red. Para
el ejemplo se utiliza la red conformada por 1000 nodos. Luego de generar
n-cluster con el dataset de nodos se extiende la asignación de clusters al
dataset original.
El primer paso consiste en determinar el WCSS (Within Cluster Sum of
Squares). La Figura 4.17 muestra la distribución del error según el número
de clusters.
Figura 4.17: GNG - WCSS
106
Para comparar con la generación de clusters con SOM vamos a tomar

un tamaño de cluster igual a 7. La Tabla 4.6 muestra la distribución de
observaciones por cada cluster.
Tabla 4.6: Elementos por cluster con GNG
Cluster Total elementos

1 915
2 29
3 7
4 6
5 32
6 2
7 9
Podemos concluir de las observaciones en cada cluster que no son ho-

mogeneas y se concentran en mayor porcentaje en el cluster 1. Lo cual
es más claro si lo visualizamos mediante la Figura 4.18 que muestra la
distribución de cada cluster:
Figura 4.18: GNG - Distribución de los clusters
Finalmente, es necesario re-agrupar los cluster en el dataset original,

para esto utilizamos el cluster generado anteriormente. Esto permite gene-
rar los grupos en el dataset original. La tabla Tabla 4.7 muestra el número
de elementos del dataset original por cada uno de los cluster.
107
4.6. Caracterización de los clusters
Tabla 4.7: Elementos por cluster (dataset original)
Cluster Total elementos

1 60,594
2 11
3 3
4 11
5 31
6 9
7 3
Como se mencionó en la generación de clusters mediante SOM, el paso

siguiente consiste en caracterizar cada cluster en base al valor de cada uno
de los atributos del dataset.

En esta sección se analizan los clusters generados en las secciones 4.4.2.2
y 4.5.2. La idea central es caracterizar cada cluster en base al ranking de
variables descrito en la sección 4.3.1. A manera de ejemplo se utilizará
el primer cluster generado en la sección 4.4.2.2. En la primera etapa se
genera un ranking de variables utilizando Random Forest sobre el 10 % de
las observaciones. La Figura 4.19 muestra la importancia de cada una de
las variables.
Figura 4.19: Ranking de variables - cluster1
108
Tal como se observa en la Figura 4.19, las cuatro variables más impor-
tantes corresponden a:
p08 Tiene discapacidad permanente por más de un año
p23 Cuál es el nivel de instrucción más alto al que asiste o asistió
p24 Cuál es el grado, curso o año más alto que aprobó
p16 Cómo se identifica según su cultura y costumbres
A continuación se procede a analizar los valores de cada una de las

variables descritas anteriormente.
4.6.1. Tiene discapacidad permanente por más de un año

La Figura 4.20 muestra la distribución de la variable p08.
Figura 4.20: Tiene discapacidad permanente por más de un año
Tal como se observa, el cluster corresponde a personas que, en su ma-

yoría, no presentan discapacidad.
4.6.2. Cuál es el nivel de instrucción más alto al que asiste

o asistió
La Figura 4.21 muestra la distribución de la variable p23. Tal como se
observa, el cluster corresponde a personas que, en su mayoría, tienen un
109
nivel de estudios igual a 4 o 5 lo que representa Nivel de Instrucción Prima-

ria. El mayor número de observaciones están concentradas en el rango[4-6].
Figura 4.21: Cuál es el nivel de instrucción más alto al que asiste o asistió
4.6.3. Cuál es el grado, curso o año más alto que aprobó
La Figura 4.22 muestra la distribución de la variable p24. Tal como se

observa, el cluster corresponde a personas que, en su mayoría, aprobaron
hasta el sexto año (instrucción primaria) en concordancia con lo indicado
en la sección 4.6.2.
Figura 4.22: Cuál es el grado, curso o año más alto que aprobó
110
4.6.4. Cómo se identifica según su cultura y costumbres
La Figura 4.23 muestra la distribución de la variable p16. Tal como

se observa, el cluster corresponde a personas que, en su mayoría, indican
pertenecer al grupo 6, el cual corresponde a Mestizo.
Figura 4.23: Cómo se identifica según su cultura y costumbres
4.6.5. Discusión
Como resumen del análisis anterior, podemos concluir que el cluster

analizado corresponde a personas con las siguientes características:
1. Personas que no presentan discapacidad física de ningún tipo.
2. Personas con un nivel de instrucción primaria (6 años de estudio).
3. Personas que se auto-identifican como Mestizos.
El mismo análisis indicado anteriormente se extendió a cada uno de los

clusters generados en las secciones 4.4.2.2 y 4.5.2. Se puede concluir de for-
ma general que cada cluster generado posee características muy similares,
esto nos permite posteriormente imputar la variable graesc con una mejor
precisión.
111
4.7. Imputación por cada cluster

En esta sección se emplean los métodos de imputación (estadísticos
y de aprendizaje automático) sobre los grupos (clusters) generados por
algoritmos de aprendizaje automático descritos en la sección 4.4. Para las
pruebas se seleccionó los clusters generados por SOM-Cluster Jerárquico
(mediante el mapeo de datos) debido a que tienen una mejor distribución
sobre cada cluster (en comparación con los generados por GNG).
4.7.1. Técnicas estadísticas
En la sección 3.6.3.2 se aplicaron los algoritmos estadísticos para impu-

tación de datos sobre los clusters generados manualmente. En esta sección
se muestran los resultados de aplicar las mismas técnicas sobre los clusters
generados mediante SOM-Cluster Jerárquico.
La Tabla 4.8 muestra los resultados obtenidos al ejecutar el algorit-
mo de imputación mediante la mediana sobre cada cluster. Como se pue-
de observar, la precisión global de la imputación corresponde a 39.61 %,
mostrando una mejora con respecto a ejecutar el algoritmo sobre grupos
generados de forma manual (ver Tabla 3.8).
Tabla 4.8: Imputación con Mediana
No. cluster Tot. obs. NA Válidos Precisión

1 13,582 2,733 754 27.59
2 13,090 2,576 1,756 68.17
3 8,185 1,567 368 22,21
4 18,719 1,772 370 20.28
5 851 172 38 22.22
6 11,808 2,295 602 26.23
7 4,427 928 917 98,81
Tot. 60,662 12,132 4,805 39.61
La Tabla 4.9 muestra los resultados obtenidos al ejecutar el algoritmo

de imputación mediante la moda sobre cada cluster. Como se puede obser-
var, la precisión global de la imputación corresponde a 39.43 %, mostrando
112
una mejora respecto a ejecutar el algoritmo sobre grupos generados de

forma manual (ver Tabla 3.8).
Tabla 4.9: Imputación con Moda

1 13,582 2,733 754 27.59
2 13,090 2,576 1,756 68.17
3 8,185 1,567 323 19.49
4 18,719 1,772 370 20.28
5 851 172 62 36.26
6 11,808 2,295 602 26.23
7 4,427 928 917 98,81
Tot. 60,662 12,132 4,784 39.43

de imputación hot–deck sobre cada cluster. Como se puede observar, la
precisión global de la imputación corresponde a 26.34 %, con una mejora
en la precisión respecto a ejecutar el algoritmo sobre grupos generados de
forma manual (ver Tabla 3.8).
Tabla 4.10: Imputación con hot–deck

1 13,582 2,733 329 12.04
2 13,090 2,576 1,243 48.25
3 8,185 1,567 199 12.01
4 18,719 1,772 197 11.12
5 851 172 59 34.50
6 11,808 2,295 265 11.10
7 4,427 928 904 97,41
Tot. 60,662 12,132 3,196 26.34
El resumen de los resultados al aplicar las técnicas estadísticas en los

clusters generados manualmente y generados con SOM-Cluster Jerárquico
se muestra en la Tabla 4.11. Se puede ver que los resultados mejoran en
relación a clusters generados manualmente.
113
Tabla 4.11: Imputación por clusters manual vs clusters SOM-Jerárquico
Método Válidos Válidos Precisión Precisión

SOM-J CManual CSOM-J ( %) CManual ( %)
Mediana 4,805 1,876 39.61 15.46
Moda 4,784 3,389 39.43 28.26
Hot-deck 3,132 1,663 26.34 13.71
El anexo B presenta el detalle de cada uno de los clusters.
4.7.2. Técnicas de aprendizaje automático
En la sección 3.6.4.1 se ejecutaron los algoritmos KNN, DT y RF sobre

el dataset completo y se definieron los parámetros a usar en cada algorit-
mo. Utilizamos los mismo algoritmos y parámetros para cada uno de los
clusters generados por SOM-Cluster Jerárquico y los resultados obtenidos
se resumen a continuación.
La Tabla 4.12 muestra los resultados obtenidos al ejecutar el algorit-
mo KNN sobre cada cluster obteniendo una precisión global del 56,18 %,
mostrando una mejora considerable respecto a ejecutar el algoritmo sobre
grupos generados de forma manual (ver sección 3.6.4.2).
Tabla 4.12: Imputación con KNN

1 13,582 2,733 1,318 48.23
2 13,090 2,576 1,925 74.73
3 8,185 1,657 738 44.54
4 18,719 1,772 814 45.94
5 851 171 66 38.6
6 11,808 2,295 1,035 45.1
7 4,427 928 917 98.81
Tot. 60,662 12,132 6,813 56.18

DT (árboles de decisión) con una precisión global de 85.25 %.
114
Tabla 4.13: Imputación con DT

1 13,582 2,733 2,247 82.22
2 13,090 2,576 2,428 94.25
3 8,185 1,657 1,254 75.68
4 18,719 1,772 1,409 79.52
5 851 171 136 79.52
6 11,808 2,295 1,952 85.05
7 4,427 928 917 98.81
Tot. 60,662 12,132 10,343 85.25

Random Forest a cada uno de los clusters obteniendo una precisión global
del 87.03 %.
Tabla 4.14: Imputación con Random Forest

1 13,582 2,733 2,317 84.78
2 13,090 2,576 2,442 94.8
3 8,185 1,657 1,306 78.82
4 18,719 1,772 1,391 78.5
5 851 171 136 79.54
6 11,808 2,295 2,049 89.28
7 4,427 928 917 98.81
Tot. 60.662 12.132 10.558 87.03
La Tabla 4.15 muestra el resumen de resultados al ejecutar los algorit-

mos de aprendizaje automático a los clusters generados con SOM-Cluster
Jerárquico. La última columna muestra la precisión de los clusters genera-
dos manualmente (CM).
115
4.8. Representación espacial
Tabla 4.15: Resumen Imputación dataset completo
Método Imputados Imputados Precisión Precisión

válidos con error ( %) CM ( %)
kNN 6,813 5,319 56.18 40.66
Decision Trees 10,343 1,789 85.25 72.21
Random Forest 10,558 1,574 87,03 79,98
Como podemos ver la generación de clusters mediante SOM-Cluster

Jerárquico obtiene una mejor precisión que si generamos los clusters de
forma manual.

Es posible distribuir espacialmente los totales generados en cada clus-
ter por unidad geográfica. Tomando como ejemplo el cluster analizado en
la sección anterior, es posible distribuir las 60,594 observaciones (ver Ta-
bla 4.7) sobre la división político-administrativa de la provincia analizada.
Como ejemplo se toma la división política por cantones. La Tabla 4.16
muestra la división político administrativa (DPA) por cantones.
Tabla 4.16: División político administrativa por cantones
Código DPA Nombre Total

1001 Ibarra 72,416
1002 Antonio Ante 16,198
1003 Cotacachi 12,123
1004 Otavalo 32,657
1005 Pimampiro 4,338
1006 San Miguel de Urcuquí 5,331
El primer paso consiste en asignar cada observación del dataset original

al cluster correspondiente y sobre el dataset resultante totalizar el número
de observaciones del cluster 1 por cada nivel geográfico. La Figura 4.24
muestra la distribución del cluster 01 por cada cantón (Código DPA x
Total).
116
Figura 4.24: Distribución clusters por cantón
Para conseguir el resultado anterior, es necesario que el dataset original

contenga los códigos DPA para luego asociarlos a un mapa.
1 provincias_total_clusters<-table(
2 cluster_details$canton,
3 cluster_details$cluster
4 )
5 write.csv2( provincias_total_clusters, "cluster.csv")
La Figura 4.25 muestra el mapa temático generado por la distribución

del cluster 1 sobre cada cantón.
4.8.1. Cálculo de Mortalidad Infantil

Una vez imputados los datos ausentes de la variable graesc realizamos
los cálculos para la mortalidad infantil.
La Tabla 4.17 muestra la tasa de mortalidad infantil por rango de
edades, con el método indirecto para el cálculo de la mortalidad infantil 2
propuesto por Brass cuya ecuación de estimación es:
q(x) = k(i) ∗ D(i) (4.1)

2
https://www.inei.gob.pe/media/MenuRecursivo/boletines/mortalidad.pdf
117
Figura 4.25: Mapa temático cluster 01
Tabla 4.17: Mortalidad Infantil por rango de edades
Rango edad Tot. mujeres THNV THVA D(i) P(i) q(x)

15-19 2,355 2,755 2,711 0.016 1.1699 0.0065
20-24 8,268 12,398 12,083 0.025 1.4995 0.0163
25-29 10,955 22,478 12,123 0.029 2.0518 0.0268
30-34 10,835 27,628 32,657 0.027 2.5498 0.0281
35-39 10,179 31,059 4,338 0.032 3.0512 0.0350
40-44 8,964 30,458 5,331 0.037 3.3978 0.0403
45-50 9,106 34,329 4,338 0.045 3.7699 0.0489
donde,
q(x) es la probabilidad de morir entre el nacimiento y la edad exacta

x.
k(i) es valor que refleja cuanto influyen factores independientes de la

mortalidad sobre D(i).
P1 P2
K(i) = a(i) + b(i) ∗ + c(i) (4.2)
P2 P3
Con P1, P2 y P3 la tasa de maternidad media del rango de mujeres

más fértil: 15-19, 20-24, 25-29. En los trabajos [111] y [24] realizados
118
por Trusell y Coele se estiman los multiplicadores a(i), b(i) y c(i),

para el modelo de Brass.
D(i) es la proporción de hijos fallecidos y todos los nacidos vivos en

cada rango de edad.
T otal_hijos_vivos_actualmente(T HV A)
D(i) = 1 − (4.3)
T otal_hijos_nacidos_vivos(T HN V )
P (i) tasa de maternidad media que se calcula:
T otal_hijos_nacidos_vivos
P (i) = (4.4)
T otal_mujeres_rango_edadi
Si a esto añadimos los datos de grado escolar podemos analizar la mor-

talidad infantil con brechas educativas.
Tabla 4.18: Datos según rango edad y nivel educación
Rango de edad
Nivel 15-19 20-24 25-29 30-34 35-39 40-44 45-49
Educación
Total 2,355 8,268 10,955 10,835 10,179 89,64 9,106
q(x) 0.0065 0.0163 0.0268 0.0281 0.0350 0.0403 0.0489
Ninguno 17 42 73 109 125 116 197
Primaria 947 3,319 4,603 4,562 4,428 3,947 4,450
Secundaria 1,389 3,459 3,883 3,612 3,252 2,755 2,556
Superior 2 1,408 2,222 2,345 2,148 1,887 1,693
Posgrado 0 40 174 207 226 259 210
La Tabla 4.18 muestra los datos de mortalidad con rango de edades y

el nivel de educación. Si analizamos el primer grupo mujeres en el rango
de edad de 15 a 19 años, presenta una tasa baja de mortalidad y el nivel
de educación en mayor porcentaje corresponde a mujeres con educación
secundaria (58.98 %), mientras que el mayor valor para la tasa de mortali-
dad está presente en el rango 45 a 50 y el nivel de educación en términos
de mayor porcentaje corresponde a mujeres con educación básica (48 %).
119
4.9. Conclusiones
4.9. Conclusiones
Se han comparado métodos auto-organizativos no supervisados como
SOM y GNG para organizar los datos en clusters, encontrando que SOM-
jerárquico obtiene mejores resultados.
La generación de clusters mediante SOM-Cluster Jerárquico beneficia
el proceso de imputación de datos, la precisión de los algoritmos utilizados
aumenta en relación a los clusters generados de forma manual mediante
el cantón de residencia como se puede ver en la Tabla 4.15, en donde
las dos últimas columnas muestran la precisión global en los dos casos
mencionados.
La precisión de los algoritmos de aprendizaje automático y de las téc-
nicas estadísticas mejoran en relación a si se aplican las técnicas al dataset
completo o sobre los clusters generados de forma manual.
Obtener mejores resultados en la imputación genera menor error al
realizar el análisis de la tasa de mortalidad con brechas educativas.
120
Capítulo 5
Conclusiones
En este capítulo se presentan las principales conclusiones extraídas

del trabajo realizado. Este capítulo está organizado de la siguiente
forma: la sección 5.1 presenta las conclusiones finales obtenidas del
presente trabajo, la sección 5.2 lista las principales contribuciones
realizadas en el tema de investigación, la sección 5.3 lista las pu-
blicaciones realizadas durante el presente trabajo y, finalmente, la
sección 5.4 presenta posibles opciones de trabajos futuros.
5.1. Conclusiones
En este trabajo se presenta una metodología orientada al procesamien-

to de datos provenientes de censos o encuestas a través de algoritmos de
aprendizaje automático. La propuesta se basa en el análisis previo de las
características de los grandes volúmenes de datos, técnicas estadísticas y
algoritmos de aprendizaje automático, ausencia de datos, alta dimensiona-
lidad y tipos de datos.
En las pruebas preliminares fue necesario introducir cambios en los
modelos habituales de procesamiento de datos debido a que la variable a
clasificar es de naturaleza categórica y el umbral que separa cada categoría
no es sencillo de determinar a partir del resto de variables.
En el primer paso de la metodología se obtiene un conjunto de datos
completo que permite probar la eficiencia de los algoritmos, para cumplir
con este propósito se utiliza Pairwise Deletion y Listwise Deletion con la
5.1. Conclusiones
finalidad de eliminar todas las observaciones que presentan al menos un

valor ausente o fuera de rango.
Como siguiente paso en la metodología, se realizaron pruebas con dis-
tintos algoritmos. Mediante técnicas de aprendizaje automático no super-
visado y redes neuronales artificiales se planteó la creación de grupos (clus-
ters) que comparten características similares. A cada grupo se le aplicaron
las distintas técnicas de clasificación: estadísticas y de aprendizaje auto-
mático.
La generación de grupos (clusters) de forma manual utilizando varia-
bles que delimitan las áreas de estudios (DPA) mejora el rendimiento de
las técnicas de imputación tradicional (técnicas estadísticas, ver sección
3.4.2.1) en comparación con la imputación del conjunto de datos completo
(ver tablas 3.6 y 3.8).
Debido a que una agrupación manual de datos permite mejorar la pre-
cisión de la clasificación de datos en el problema planteado se propuso la
generación de grupos de información de forma automática y aplicar los
métodos de imputación sobre cada uno de estos grupos.
Con la generación de grupos de forma automática se verificó un au-
mento en la precisión utilizando técnicas estadísticas y un aumento en la
precisión de algunos métodos de aprendizaje automático supervisado (ver
Tabla 4.11).
La metodología propuesta para la imputación de datos incorpora una
etapa previa:
Generación del dataset de entrenamiento de los métodos de clasifi-

cación.
Generación de grupos de información para procesarlos de forma in-

dependiente.
El procesamiento de grandes volúmenes de datos suele tener altos cos-

tes computacionales y tiempos elevados de procesamiento, el generar clus-
ters y realizar la imputación sobre cada cluster de forma independiente
contribuye también a reducir el tiempo de procesamiento y bajar el coste
computacional.
122
Capítulo 5. Conclusiones
Finalmente, se presentaron los resultados individuales de aplicar la me-

todología sobre el dataset obtenido en la etapa de procesamiento utilizando
la generación de grupos de forma jerárquico (cluster jerárquico) sobre los
vectores representativos (codebooks) obtenidos luego de aplicar el méto-
do SOM sobre el conjunto de datos. Estos resultados se muestran en el
anexo B.
5.2. Contribuciones
Las principales contribuciones realizadas durante el desarrollo del es-
te trabajo están relacionadas con la imputación de datos provenientes de
censos y encuestas:
1. Revisión exhaustiva del estado de arte de las características de los

grandes volúmenes de datos y técnicas de aprendizaje automático
orientadas al procesamiento de datos.
2. Desarrollo de una metodología para el pre–procesamiento de infor-

mación demográfica a través de técnicas para el manejo de datos
perdidos.
Definición de pasos básicos en la etapa de pre-procesamiento

que permitan obtener un dataset de calidad para ser procesa-
do y garantice resultados aceptables al ejecutar algoritmos de
clasificación, selección de variables o clusterización.
Implementación de combinaciones de técnicas para mejorar el
proceso de selección de variables y generación de clusters.
3. Desarrollo de una metodología basada en aprendizaje automático

para la imputación de valores perdidos o ausentes.
Aplicación de técnicas de aprendizaje automático no supervisa-

do (agrupamiento de datos o clustering) sobre información de-
mográfica para agrupar información relacionada previo al paso
de imputación de datos.
123
5.3. Publicaciones
Aplicación de técnicas de redes neuronales artificiales (ANN)

para la generación de grupos sobre información demográfica.
Aplicación de técnicas de aprendizaje automático supervisado
(clasificación de datos) basada en la generación previa de clus-
ters para la imputación de datos perdidos.
5.3. Publicaciones
Como resultado de la investigación realizada, se publicaron los siguien-
tes artículos:
Artículos publicados en revistas científicas:
• Jaime Salvador-Meneses, Zoila Ruiz-Chavez, and Jose Garcia-

Rodriguez. Compressed kNN: K-Nearest Neighbors with
Data Compression. Entropy, 2019. Impact Factor (JCR 2017):
2.305, 5-Year Impact Factor (JCR 5-Year 2017): 2.303.
• Jaime Salvador, Zoila Ruiz, and Jose Garcia-Rodriguez. A re-

view of infrastructures to process big multimedia data.
International Journal of Computer Vision and Image Processing
(IJCVIP), 7(3):54–64, 2017.
Artículos publicados en conferencias internacionales:
• Zoila Ruiz-Chavez, Jaime Salvador-Meneses, Cristina Mejía-

Astudillo and Soledad Díaz-Quilachamín. Analysis of dogs’s
abandonment problem using georeferenced multi-agent
systems. MACHINE LEARNING METHODS APPLIED TO
BIG DATA ANALYSIS, PROCESSING AND VISUALIZATION
(MLBDAPV). IWINAC 2019. Lecture Notes in Computer Scien-
ce, vol 11487. Springer.

Rodriguez. Categorical big data processing. In Hujun Yin,
124
David Camacho, Paulo Novais, and Antonio J. Tallón-Ballesteros,

editors, Intelligent Data Engineering and Automated Learning
– IDEAL 2018, pages 245–252, Cham, November 2018. Springer
International Publishing.
• Zoila Ruiz-Chavez, Jaime Salvador-Meneses, Jose Garcia-Rodriguez,

and Antonio J. Tallón- Ballesteros. Data pre-processing to
apply multiple imputation techniques: A case study on
real-world census data. In Hujun Yin, David Camacho, Pau-
lo Novais, and Antonio J. Tallón-Ballesteros, editors, Intelligent
Data Engineering and Automated Learning – IDEAL 2018, pa-
ges 288–295, Cham, 2018. Springer International Publishing.
• Zoila Ruiz-Chavez, Jaime Salvador-Meneses, and Jose Garcia-

Rodriguez. Machine learning methods based preproces-
sing to improve categorical data classification. In Hu-
jun Yin, David Camacho, Paulo Novais, and Antonio J. Tallón-
Ballesteros, editors, Intelligent Data Engineering and Automa-
ted Learning – IDEAL 2018, pages 297–304, Cham, 2018. Sprin-
ger International Publishing.
• Z. Ruiz-Chavez, J. Salvador-Meneses, S. Díaz-Quilachamín and

C. Mejía-Astudillo. Solid Waste Management using Geo-
referenced Multi-agent Systems, pages 1-6. IEEE Latin
American Conference on Computational Intelligence (LA-CCI),
Gudalajara, Mexico, 2018.
• Z. Ruiz-Chavez, J. Salvador-Meneses, S. Díaz-Quilachamín and

C. Mejía-Astudillo. Solid Waste Management using Geo-
referenced Multi-agent Systems*, pages 1-6. IEEE Third
Ecuador Technical Chapters Meeting (ETCM), Cuenca, 2018.
125
5.4. Trabajo futuro
Rodriguez. Low level big data compression. In Proceedings

of the 10th International Joint Conference on Knowledge Dis-
covery, Knowledge Engineering and Knowledge Management -
Volume 1: KDIR„ pages 353–358. INSTICC, SciTePress, 2018.

Rodriguez. Low level big data processing. In Proceedings
of the 10th International Joint Conference on Knowledge Dis-
covery, Knowledge Engineering and Knowledge Management -
Volume 1: KDIR„ pages 347–352. INSTICC, SciTePress, 2018.
• Zoila Ruiz, Jaime Salvador, and Jose Garcia-Rodriguez. A Sur-

vey of Machine Learning Methods for Big Data, pages
259–267. In: Ferrández Vicente J., Álvarez-Sánchez J., de la Paz
López F., Toledo Moreo J., Adeli H. (eds) Biomedical Appli-
cations Based on Natural and Artificial Computing. IWINAC
2017. Lecture Notes in Computer Science, vol 10338. Springer,
Cham.
• Jaime Salvador, Zoila Ruiz, and Jose Garcia-Rodriguez. Big

Data Infrastructure: A Survey, pages 249–258. In: Ferrán-
dez Vicente J., Álvarez-Sánchez J., de la Paz López F., Toledo
Moreo J., Adeli H. (eds) Biomedical Applications Based on Na-
tural and Artificial Computing. IWINAC 2017. Lecture Notes
in Computer Science, vol 10338. Springer, Cham.
5.4. Trabajo futuro

En relación a la implementación de la metodología propuesta, como
trabajo futuros se propone:
1. Extender las pruebas a otros tipos de encuestas tales como Violencia

de Género con el fin de encontrar relaciones con posibles causas que
desencadenen en violencia y generen alertas.
126
2. Generalizar la generación de cluster utilizando SOM y variando las

topologías y tamaños de malla con la finalidad de obtener grupos
más homogéneos.
3. Extender el análisis de mortalidad infantil al conjunto de datos com-

pleto (encuesta completa del país).
4. Implementar la clasificación y generación de grupos mediante mé-

tricas de distancia más apropiadas para la información considerada
(información categórica).
5. Implementar el procesamiento de clusters utilizando programación

paralela multicore o con aceleración GPU con la finalidad de procesar
el dataset completo.
6. Incrementar combinaciones de algoritmos en cada etapa, incluidas

las variaciones con técnicas estadísticas.
7. Fusionar los datos de encuestas con datos provenientes de redes so-

ciales.
127
5.4. Trabajo futuro
128
Anexos
Anexo A
Detalle clusters creados

manualmente
En este anexo se presenta el detalle de los clusters presentados en la

sección 3.6.3.
La Tabla A.1 corresponde a la tabla presentada en la sección 3.6.3.2.
Tabla A.1: Detalle clusters generados manualmente
No. cluster Tot. elementos Mediana Moda To. NA

1 30,351 13 8 6,049
2 6,882 9 8 1,355
3 4,978 8 8 1,031
4 14,354 8 8 2,873
5 1,967 8 8 401
6 2,130 8 8 423
1 ds$median1<-with(ds, impute(ds$graescna, median1) )

2 ds$moda1<-with(ds, impute(ds$graescna, moda1) )
3
4 dataset2<-hotdeck(ds, variable="graescna")
5 ds$hotdeck1<-dataset2$graescna
6 dataset2<-NULL
Listado A.1: Clase Java que implementa compresión/descompresión

A.1. Cluster 1
A.1. Cluster 1
La Figura A.1 presenta la distribución por categoría de la variable
graesc para el primer cluster.
Figura A.1: Cluster 1 - Detalle variable graesc
La Tabla A.2 muestra los resultados de aplicar la imputación al primer

cluster utilizando los métodos descritos en la sección 3.4.2.1.
Tabla A.2: Cluster 1 - Imputación

Mediana 214 5,835 3.54
Moda 1,353 4,696 22.37
Hot-deck 670 5,379 11.08
132
Anexo A. Detalle clusters creados manualmente
A.2. Cluster 2
graesc para el segundo cluster.
La Tabla A.3 muestra los resultados de aplicar la imputación al segundo


Mediana 11 1,344 0.81
Moda 425 930 31.37
Hot-deck 229 1,126 16.90
133
A.3. Cluster 3
A.3. Cluster 3
graesc para el tercer cluster.
La Tabla A.4 muestra los resultados de aplicar la imputación al tercer


Mediana 388 643 37.63
Moda 388 643 37.63
Hot-deck 195 836 18.91
134
A.4. Cluster 4
graesc para el cuarto cluster.
La Tabla A.5 muestra los resultados de aplicar la imputación al cuarto


Mediana 897 1,976 31.22
Moda 897 1,976 31.22
Hot-deck 400 2,473 13.92
135
A.5. Cluster 5
A.5. Cluster 5
graesc para el quinto cluster.
La Tabla A.6 muestra los resultados de aplicar la imputación al quinto


Mediana 170 231 42.39
Moda 170 231 42.39
Hot-deck 77 324 19.20
136
A.6. Cluster 6
graesc para el sexto cluster.
La Tabla A.7 muestra los resultados de aplicar la imputación al sexto


Mediana 196 227 46.33
Moda 196 227 46.39
Hot-deck 92 331 21.65
137
A.6. Cluster 6
138
Anexo B
Detalle clusters
SOM-Cluster Jerárquico
En este anexo se presenta el detalle de los clusters presentados en la

sección 4.4.
La Tabla B.1 corresponde a la información presentada en la ??.
Tabla B.1: SOM - Detalle distribución por cluster
No. Cluster Tot. elementos Mediana Moda To. NA

1 13,582 13 13 2,733
2 13,090 7 7 2,576
3 8,185 13 7 1,567
4 8,719 13 13 1,772
5 851 2 0 172
6 11,808 13 13 2,295
7 4,427 7 7 928
B.1. Cluster 1
La Figura B.1 presenta la distribución por categoría de la variable

graesc para el primer cluster.
B.1. Cluster 1
Figura B.1: SOM Cluster 1 - Detalle variable graesc
La Tabla B.2 muestra los resultados de aplicar la imputación al primer

Tabla B.2: SOM Cluster 1 - Imputación

Mediana 754 1,979 27.59
Moda 754 1,979 27.59
Hot-deck 329 2,404 12.04
140
Anexo B. Detalle clusters SOM-Cluster Jerárquico
B.2. Cluster 2
graesc para el segundo cluster.
La Tabla B.3 muestra los resultados de aplicar la imputación al segundo


Mediana 1,756 820 68.17
Moda 1,756 820 68.17
Hot-deck 1,243 1,333 48.25
141
B.3. Cluster 3
B.3. Cluster 3

graesc para el tercer cluster.
La Tabla B.4 muestra los resultados de aplicar la imputación al tercer


Mediana 368 1,289 22.21
Moda 323 1,334 19.49
Hot-deck 199 1,458 12.01
142
B.4. Cluster 4

graesc para el cuarto cluster.
La Tabla B.5 muestra los resultados de aplicar la imputación al cuarto


Mediana 370 1,402 20.88
Moda 370 1,402 20.88
Hot-deck 197 1,575 11.12
143
B.5. Cluster 5
B.5. Cluster 5

graesc para el quinto cluster.
La Tabla B.6 muestra los resultados de aplicar la imputación al quinto


Mediana 38 133 22.22
Moda 62 109 36.26
Hot-deck 59 112 34.50
144
B.6. Cluster 6

graesc para el sexto cluster.
La Tabla B.7 muestra los resultados de aplicar la imputación al sexto


Mediana 602 1,693 26.23
Moda 602 1,693 26.23
Hot-deck 265 2,030 11.55
145
B.7. Cluster 7
B.7. Cluster 7
graesc para el séptimo cluster.
La Tabla B.8 muestra los resultados de aplicar la imputación al sexto


Mediana 917 11 98.81
Moda 917 11 98.81
Hot-deck 904 24 97.41
146
Bibliografía
[1] Agrawal, A. (2013). Global K-Means ( GKM ) Clustering Algorithm :

A Survey. International Journal of Computer Applications, 79(2):20–24.
10
[2] Aguirre, A. and Vela-Peón, F. (2012). La mortalidad infantil en méxico,

2010. Papeles de población, 18(73):29–44. 57
[3] Al-Jarrah, O. Y., Yoo, P. D., Muhaidat, S., Karagiannidis, G. K., and
Taha, K. (2015). Efficient machine learning for big data: A review. Big
Data Research, 2(3):87–93. 5
[4] Al Malki, A., Rizk, M. M., El-Shorbagy, M. A., Mousa, A. A., Malki,
A. A., Rizk, M. M., and Mousa, A. A. (2016). Hybrid Genetic Algorithm
with K-Means for Clustering Problems. Open Journal of Optimization,
5(02):71. 24
[5] Al-Sultana, K. S. and Khan, M. M. (1996). Computational experience

on four algorithms for the hard clustering problem. Pattern Recognition
Letters, 17(3):295–308. 25
[6] Aldehim, G. and Wang, W. (2017). Determining appropriate approa-

ches for using data in feature selection. International Journal of Machine
Learning and Cybernetics, 8(3):915–928. 58
[7] Altimir, O. (1975). Estimaciones de la distribución del ingreso en amé-

rica latina por medio de encuestas de hogares y censos de población: una
evaluación de confiabilidad. 35
Bibliografía
[8] Andridge, R. R. and Little, R. J. (2010). A review of hot deck impu-

tation for survey non-response. International statistical review, 78(1):40–
64. 66
[9] Arellano-Verdejo, J., Alba, E., and Godoy-Calderon, S. (2016). Ef-

ficiently finding the optimum number of clusters in a dataset with a
new hybrid differential evolution algorithm: DELA. Soft Computing,
20(3):895–905. 24
[10] Backlund, H., Hedblom, A., and Neijman, N. (2011). DBSCAN A

Density-Based Spatial Clustering of Application with. Linkoping Uni-
versity–ITN, pages 1–8. 20
[11] Bar, H. (2017). Missing data—mechanisms and possible solutions.

Cultura y Educación, 29(3):492–525. 56, 65
[12] Batabyal, A. K. and Gupta, S. (2017). Fluoride-contaminated ground-

water of birbhum district, west bengal, india: Interpretation of drinking
and irrigation suitability and major geochemical processes using prin-
cipal component analysis. Environmental monitoring and assessment,
189(8):369. 4
[13] Bobadilla, J., Ortega, F., Hernando, A., and de Rivera, G. G. (2013).
A similarity metric designed to speed up, using hardware, the recommen-
der systems k-nearest neighbors algorithm. Knowledge-Based Systems,
51:27–34. 15
[14] Bonetta, D. and Brantner, M. (2018). Evaluation techniques for fast

access to structured, semi-structured and unstructured data using a vir-
tual machine that provides support for dynamic code generation. US
Patent App. 15/864,863. 7
[15] Burrough, P. A., van Gaans, P. F., and MacMillan, R. (2000). High-
resolution landform classification using fuzzy k-means. Fuzzy sets and
systems, 113(1):37–52. 23
[16] Cai, X., Nie, F., and Huang, H. (2013). Multi-view K-means clus-
tering on big data. IJCAI International Joint Conference on Artificial
Intelligence, pages 2598–2604. 24
148
Bibliografía
[17] Cambronero, C. G. and Moreno, I. G. (2006). Algoritmos de aprendi-

zaje: knn & kmeans. Intelgencia en Redes de Comunicación, Universidad
Carlos III de Madrid. 23
[18] Campos, B., Cerrate, A., Montjoy, E., Dulanto Gomero, V., Gonzales,
C., Tecse, A., Pariamachi, A., Lansingh, V. C., Dulanto Reinoso, V.,
Minaya Barba, J., et al. (2014). Prevalencia y causas de ceguera en perú:
encuesta nacional. Revista Panamericana de Salud Pública, 36:283–289.
35
[19] Carvalho, D. R. and Freitas, A. A. (2004). New results for a hybrid

decision tree/genetic algorithm for data mining. In Applications and
Science in Soft Computing, pages 149–154. Springer. 23
[20] Carvalho, F. (2006). Fuzzy c -means clustering methods for symbolic

interval data. Pattern Recognition Letters. 8
[21] CEPAL, N. (2008). Directrices para la elaboración de módulos sobre

envejecimiento en las encuestas de hogares. 38
[22] Chang, P.-C., Wang, Y.-W., and Liu, C.-H. (2006). Combining som
and ga-cbr for flow time prediction in semiconductor manufacturing fac-
tory. In International Conference on Rough Sets and Current Trends in
Computing, pages 767–775. Springer. 23
[23] Cheema, J. R. (2014). A review of missing data handling methods in

education research. Review of Educational Research, 84(4):487–508. 57,
63
[24] Coale, A. J. and Trussell, T. J. (1974). Model fertility schedules:

variations in the age structure of childbearing in human populations.
Population index, pages 185–258. 118
[25] Cohen, R., Grubshtein, A. J., Elliot, P. R., and Crowley, A. J. (2018).
Analysis and visualization tool with combined processing of structured
and unstructured service event data. US Patent App. 14/670,810. 7
149
Bibliografía
[26] Cui, X. and Potok, T. E. (2008). Document Clustering Analysis Based

on Hybrid PSO + K-means Algorithm. Journal of Computer Sciences
(special issue), pages 27–33. 23
[27] Dai, W. and Ji, W. (2014). A MapReduce Implementation of C4. 5

Decision Tree Algorithm. International Journal of Database Theory &
Application, 7(1):49–60. 21
[28] Damaris, P., Filiberto, P., and Salvador, S. J. (2010). A density-

based hierarchical clustering algorithm for highly overlapped distribu-
tions with noisy points. Frontiers in Artificial Intelligence and Appli-
cations, 220(Artificial Intelligence Research and Development):183–192.
8, 24
[29] Das, S. P. and Padhy, S. (2018). A novel hybrid model using teaching–
learning-based optimization and a support vector machine for commo-
dity futures index forecasting. International Journal of Machine Lear-
ning and Cybernetics, 9(1):97–111. 13
[30] Derrac, J., Chiclana, F., García, S., and Herrera, F. (2016). Evolu-
tionary fuzzy k-nearest neighbors algorithm using interval-valued fuzzy
sets. Information Sciences, 329:144–163. 23
[31] Dong, X. L. and Srivastava, D. (2013). Big data integration. In

Data Engineering (ICDE), 2013 IEEE 29th International Conference
on, pages 1245–1248. IEEE. 6
[32] Emani, C. K., Cullot, N., and Nicolle, C. (2015). Understandable big
data: a survey. Computer science review, 17:70–81. 6
[33] Fan, W. and Bifet, A. (2013). Mining Big Data : Current Status ,
and Forecast to the Future. ACM SIGKDD Explorations Newsletter,
14(2):1–5. 2, 9
[34] Farhangfar, A., Kurgan, L., and Dy, J. (2008). Impact of imputation
of missing values on classification error for discrete data. Pattern Re-
cognition, 41(12):3692–3705. 56
150
Bibliografía
[35] Feng, X., Wang, Z., Yin, G., and Wang, Y. (2012). PSO-based DBS-
CAN with obstacle constraints. Journal of Theoretical and Applied In-
formation Technology, 46(1):377–383. 23
[36] Fernández, S. P. and Díaz, S. P. (2004). Asociación de variables cua-

litativas: test de chi-cuadrado. Metodología de la Investigación, 1:5. 60
[37] Fessant, F. and Midenet, S. (2002). Self-organising map for data impu-
tation and correction in surveys. Neural Computing & Applications,
10(4):300–310. 67
[38] Ford, E. S., Giles, W. H., and Dietz, W. H. (2002). Prevalence of the
metabolic syndrome among us adults: findings from the third national
health and nutrition examination survey. Jama, 287(3):356–359. 35
[39] Fritzke, B. (1995). A growing neural gas network learns topologies. In

Advances in neural information processing systems, pages 625–632. 89
[40] Gala García, Y. (2013). Algoritmos svm para problemas sobre big
data. Master’s thesis. 13
[41] Gandomi, A. and Haider, M. (2015). Beyond the hype: Big data
concepts, methods, and analytics. International Journal of Information
Management, 35(2):137–144. 6
[42] García, S., Ramírez, S., Luengo, J., and Herrera, F.-c. (2016). Big
data: Preprocesamiento y calidad de datos. University of Granada, pages
18–20. 86
[43] García-Laencina, P. J., Sancho-Gómez, J.-L., Figueiras-Vidal, A. R.,

and Verleysen, M. (2009). K nearest neighbours with mutual information
for simultaneous classification and missing data imputation. Neurocom-
puting, 72(7-9):1483–1493. 67
[44] Genuer, R., Poggi, J.-M., and Tuleau-Malot, C. (2010). Variable se-
lection using random forests. Pattern Recognition Letters, 31(14):2225–
2236. 61
151
Bibliografía
[45] Gislason, P. O., Benediktsson, J. A., and Sveinsson, J. R. (2006).

Random forests for land cover classification. Pattern Recognition Letters,
27(4):294–300. 62
[46] Guerra, J. B. and Gallestey, J. B. (2010). Imputacion multiple en va-

riables categoricas usando data augmentation y arboles de clasificacion.
Investigación Operacional, 31(2):133–139. 65
[47] Gutiérrez, J. P. and Hernández-Ávila, M. (2013). Cobertura de pro-

tección en salud y perfil de la población sin protección en méxico, 2000-
2012. salud pública de méxico, 55:S83–S90. 35
[48] Guzmán, M. L. (2003). Etnicidad y exclusión en ecuador: una mirada

a partir del censo de población de 2001. Íconos: Revista de Ciencias
Sociales, (17):116–132. 35
[49] Hassan, M. A., Khalil, A., Kaseb, S., and Kassem, M. (2017). Potential
of four different machine-learning algorithms in modeling daily global
solar radiation. Renewable energy, 111:52–62. 34
[50] Hatamlou, A. (2013). Black hole: a new heuristic optimization ap-

proach for data clustering. Information Sciences, 222:175–184. 8
[51] Hernández García, C. L. and Rodríguez Rodríguez, J. E. (2016). Al-

goritmo híbrido basado en aprendizaje computacional para el manejo
de datos faltantes en aplicaciones olap. Ingeniare. Revista chilena de
ingeniería, 24(4):628–642. 67
[52] Hirabayashi, S. and Kroll, C. N. (2017). Single imputation method

of missing air quality data for i-tree eco analyses in the conterminous
united states. 65
[53] Ho, R. (2012). Big Data Machine Learning: Patterns for Predictive
Analytics. DZone Refcardz, (158). 4
[54] Jadhav, M. (2013). Big Data: The New Challenges in Data Mining.
Int J Innov Res ComputSci & Technol, (2). 4
152
Bibliografía
[55] Jagtap, S. B. et al. (2013). Census data mining and data analysis
using weka. arXiv preprint arXiv:1310.4647. 36
[56] Jain, R. (2012). A hybrid clustering algorithm for data mining. arXiv
preprint arXiv:1205.5353, pages 387–393. 24
[57] Jaramillo-Mejía, M. C., Chernichovsky, D., and Jiménez-Moleón, J. J.

(2018). Determinantes de la mortalidad infantil en colombia. path aná-
lisis. Revista de Salud Pública, 20:3–9. 31
[58] Jerez, J. M., Molina, I., García-Laencina, P. J., Alba, E., Ribelles,
N., Martín, M., and Franco, L. (2010). Missing data imputation using
statistical and machine learning methods in a real breast cancer problem.
Artificial intelligence in medicine, 50(2):105–115. 35, 66
[59] Jiang, M., Ding, Y., Goertzel, B., Huang, Z., Zhou, C., and Chao,
F. (2014). Improving machine vision via incorporating expectation-
maximization into Deep Spatio-Temporal learning. Proceedings of the
International Joint Conference on Neural Networks, pages 1804–1811.
16
[60] Jiang, S., Chin, K.-S., Wang, L., Qu, G., and Tsui, K. L. (2017). Modi-
fied genetic algorithm-based feature selection combined with pre-trained
deep neural network for demand forecasting in outpatient department.
Expert Systems with Applications, 82:216–230. 58
[61] Jin, H., Shum, W.-H., Leung, K.-S., and Wong, M.-L. (2004). Ex-
panding self-organizing map for data visualization and cluster analysis.
Information Sciences, 163(1-3):157–173. 23
[62] Jolliffe, I. T. and Cadima, J. (2016). Principal component analy-

sis: a review and recent developments. Philosophical Transactions of
the Royal Society A: Mathematical, Physical and Engineering Sciences,
374(2065):20150202. 61
[63] Jones, K. and Kirby, A. (1980). The use of chi-square maps in the
analysis of census data. Geoforum, 11(4):409–417. 35
153
Bibliografía
[64] Kaempffer, A. and Medina, E. (2006). Mortalidad infantil reciente en

chile: Éxitos y desafíos. Revista chilena de pediatría, 77(5):492–500. 35
[65] Kohonen, T. (1990). The self-organizing map. Proceedings of the

IEEE, 78(9):1464–1480. 58
[66] Kohonen, T. (2013). Essentials of the self-organizing map. Neural

networks, 37:52–65. 18, 58
[67] Kolenikov, S. and Angeles, G. (2009). Socioeconomic status measu-

rement with discrete proxy variables: Is principal component analysis a
reliable answer? Review of Income and Wealth, 55(1):128–165. 4
[68] Kurumalla, S. and Rao, P. S. (2016). K-nearest neighbor based dbscan

clustering algorithm for image segmentation. Journal of Theoretical and
Applied Information Technology, 92(2):395. 23
[69] Lendasse, A., Ji, Y., Reyhani, N., and Verleysen, M. (2005). Ls-svm
hyperparameter selection with a nonparametric noise estimator. In In-
ternational Conference on Artificial Neural Networks, pages 625–630.
Springer. 23
[70] Li, D., Deogun, J., Spaulding, W., and Shuart, B. (2004). Towards
missing data imputation: a study of fuzzy k-means clustering method.
In International Conference on Rough Sets and Current Trends in Com-
puting, pages 573–579. Springer. 58
[71] Li, J., Cheng, K., Wang, S., Morstatter, F., Trevino, R. P., Tang,
J., and Liu, H. (2018). Feature selection: A data perspective. ACM
Computing Surveys (CSUR), 50(6):94. 59
[72] Little Roderick, J. and Rubin Donald, B. (1987). Statistical analysis

with missing data. Hoboken, NJ: Wiley. 65
[73] Liu, X., De Lathauwer, L., Janssens, F., and De Moor, B. (2010).
Hybrid clustering of multiple information sources via HOSVD. Interna-
tional Symposium on Neural Networks, 6064 LNCS(PART 2):337–345.
24
154
Bibliografía
[74] Lizárraga, B. (2008). Agrupamiento de Datos utilizando técnicas

MAM-SOM. PhD thesis, Tesis profe. 26
[75] Luo, W., Nguyen, T., Nichols, M., Tran, T., Rana, S., Gupta, S.,
Phung, D., Venkatesh, S., and Allender, S. (2015). Is demography des-
tiny? application of machine learning techniques to accurately predict
population health outcomes from a minimal demographic dataset. PloS
one, 10(5):e0125602. 8
[76] Mario Acuña (2013). Redatam Informa. Redatam Informa, 19(19).

69
[77] Mazinani, S. M. and Fathi, K. (2015). Combining knn and decision

tree algorithms to improve intrusion detection system performance. In-
ternational Journal of Machine Learning and Computing, 5(6):476. 23
[78] Mei, J.-P. and Chen, L. (2010). Fuzzy clustering with weighted me-
doids for relational data. Pattern Recognition, 43(5):1964–1974. 23
[79] Minot, N. and Baulch, B. (2005). Poverty mapping with aggrega-

te census data: What is the loss in precision? Review of Development
Economics, 9(1):5–24. 35
[80] Mishra, S. K. and Raghavan, V. V. (1994). An empirical study of the

performance of heuristic methods for clustering. In Pattern Recognition
in Practice IV - Multiple Paradigms, Comparative Studies and Hybrid
Systems, pages 425–436. Elsevier BV. 25
[81] Mitchell, T. (1997). Machine learning, mcgraw-hill higher education.

New York. 2
[82] Mujeeb, S. and Naidu, L. K. (2015). A Relative Study on Big Data

Applications and Techniques. International Journal of Engineering and
Innovative Technology (IJEIT), 4(10):133–138. 6, 8
[83] Murugesan, K. and Jun, Z. (2011). Hybrid bisect K-means clustering

algorithm. Business Computing and Global Informatization (BCGIN),
2011 International Conferenceon. IEEE, pages 216–219. 24
155
Bibliografía
[84] Myers, T. A. (2011). Goodbye, listwise deletion: Presenting hot deck

imputation as an easy and effective tool for handling missing data. Com-
munication Methods and Measures, 5(4):297–310. 66
[85] Newman, D. A. (2003). Longitudinal modeling with randomly and sys-

tematically missing data: A simulation of ad hoc, maximum likelihood,
and multiple imputation techniques. Organizational Research Methods,
6(3):328–362. 67
[86] Niknam, T., Fard, E. T., Pourjafarian, N., and Rousta, A. (2011).
An efficient hybrid algorithm based on modified imperialist competitive
algorithm and k-means for data clustering. Engineering Applications of
Artificial Intelligence, 24(2):306–317. 24
[87] Nishanth, K. J. and Ravi, V. (2016). Probabilistic neural network

based categorical data imputation. Neurocomputing, 218:17–25. 64
[88] Oussous, A., Benjelloun, F.-Z., Lahcen, A. A., and Belfkih, S. (2018).
Big data technologies: A survey. Journal of King Saud University-
Computer and Information Sciences, 30(4):431–448. 5
[89] Pais, C. M. and González, S. A. (2017). A new method to detect

apneas in neonates. In Workshop on Engineering Applications, pages
667–678. Springer. 31
[90] Pantoja-Rojas, L. M. and Roa-Vargas, E. M. (2012). Factores rela-

cionados con el diagnóstico de la tuberculosis mediante la prueba chi-
cuadrado para bogotá (colombia). Ingeniería Industrial, 33(2):112–125.
60
[91] Park, H.-S. and Jun, C.-H. (2009). A simple and fast algorithm for k-
medoids clustering. Expert Systems with Applications, 36(2):3336–3341.
11
[92] Parsons, L., Haque, E., and Liu, H. (2004). Subspace clustering for
high dimensional data. Acm Sigkdd Explorations Newsletter, 6(1):90–
105. 8
156
Bibliografía
[93] Pedersen, A. B., Mikkelsen, E. M., Cronin-Fenton, D., Kristensen,

N. R., Pham, T. M., Pedersen, L., and Petersen, I. (2017). Missing data
and multiple imputation in clinical epidemiological research. Clinical
Epidemiology, 9:157. 65
[94] Qi, Z., Tian, Y., and Shi, Y. (2013). Robust twin support vector
machine for pattern classification. Pattern Recognition, 46(1):305–316.
13
[95] Qu, H.-Q., Li, Q., Rentfro, A. R., Fisher-Hoch, S. P., and McCormick,
J. B. (2011). The definition of insulin resistance using homa-ir for ameri-
cans of mexican descent using machine learning. PloS one, 6(6):e21041.
36
[96] Rahman, M. G. and Islam, M. Z. (2010). A decision tree-based mis-

sing value imputation technique for data pre-processing. Conferences in
Research and Practice in Information Technology Series, 121:41–50. 67
[97] Rebentrost, P., Mohseni, M., and Lloyd, S. (2014). Quantum sup-
port vector machine for big data classification. Physical Review Letters,
113(3):1–5. 5
[98] Roy, D. K. and Sharma, L. K. (2010). Genetic k-Means clustering

algorithm for mixed numeric and categorical data sets. International
Journal of Artificial Intelligence & Applications, (1):23–28. 24
[99] Royston, P. et al. (2004). Multiple imputation of missing values. Stata

journal, 4(3):227–41. 65
[100] Rubin, D. B. (1976). Inference and missing data. Biometrika,

63(3):581–592. 57
[101] Rubin, D. B. (1996). Multiple imputation after 18+ years. Journal

of the American statistical Association, 91(434):473–489. 57
[102] Rubin, D. B. (2004). Multiple imputation for nonresponse in surveys,

volume 81. John Wiley & Sons. 57
157
Bibliografía
[103] Ruiz, R., Riquelme, J. C., Aguilar-Ruiz, J. S., and García-Torres,

M. (2012). Fast feature selection aimed at high-dimensional data via
hybrid-sequential-ranked searches. Expert Systems with Applications,
39(12):11094–11102. 24
[104] Sharma, A., Chaturvedi, S., and Gour, B. (2014). A semi-supervised

technique for weather condition prediction using dbscan and knn. In-
ternational Journal of Computer Applications, 95(10). 23
[105] Sheng, W. and Liu, X. (2006). A genetic k-medoids clustering algo-

rithm. Journal of Heuristics, 12(6):447–466. 23
[106] Shim, K. (2013). MapReduce algorithms for big data analysis. Lectu-
re Notes in Computer Science (including subseries Lecture Notes in Arti-
ficial Intelligence and Lecture Notes in Bioinformatics), 7813 LNCS:44–
48. 5
[107] Silva-Ramírez, E.-L., Pino-Mejías, R., López-Coello, M., and

Cubiles-de-la Vega, M.-D. (2011). Missing value imputation on mis-
sing completely at random data using multilayer perceptrons. Neural
Networks, 24(1):121–129. 68
[108] Smiti, A. and Eloudi, Z. (2013). Soft dbscan: Improving dbscan

clustering method using fuzzy set theory. In 2013 6th International
Conference on Human System Interactions (HSI), pages 380–385. IEEE.
23
[109] Svetnik, V., Liaw, A., Tong, C., Culberson, J. C., Sheridan, R. P.,
and Feuston, B. P. (2003). Random forest: a classification and regression
tool for compound classification and qsar modeling. Journal of chemical
information and computer sciences, 43(6):1947–1958. 61
[110] Technique, A. C. and Categorical, W. (2016). Una técnica de clasi-

ficación con variables categóricas. 7(1):15–20. 67
[111] Trussell, T. J. (1975). A re-estimation of the multiplying factors

for the brass technique for determining childhood survivorship rates.
Population Studies, 29(1):97–107. 118
158
Bibliografía
[112] Tsai, M.-c., Chen, K.-h., Su, C.-t., and Lin, H.-c. (2012). An Ap-
plication of PSO Algorithm and Decision Tree for Medical Problem.
2nd Internatonal Conference on Intelligent Computational System, pa-
ges 124–126. 23
[113] Tu, C.-J., Chuang, L.-Y., Chang, J.-Y., Yang, C.-H., et al. (2007).
Feature selection using pso-svm. International Journal of Computer
Science. 23
[114] van der Laan, M. J. and Pollard, K. S. (2003). A new algorithm

for hybrid hierarchical clustering with visualization and the booatstrap.
Journal of Statistical Planning and Inference, 117:275–303. 24
[115] Velázquez Monroy, Ó., Rosas Peralta, M., Lara Esqueda, A., Paste-
lín Hernández, G., Attie, F., and Tapia Conyer, R. (2002). Hipertensión
arterial en méxico: resultados de la encuesta nacional de salud (ensa)
2000. Archivos de cardiología de México, 72(1):71–84. 35
[116] Venkatesh, H., Perur, S. D., and Jalihal, N. (2015). A Study on Use
of Big Data in Cloud Computing Environment. International Journal of
Computer Science and Information Technologies (IJCSIT), 6(3):2076–
2078. 7
[117] Wang, L., Wang, G., and Alexander, C. A. (2015). Big data and vi-
sualization: methods, challenges and technology progress. Digital Tech-
nologies, 1(1):33–38. 6
[118] Wu, F.-X., Zhang, W.-J., and Kusalik, A. J. (2003). A genetic k-

means clustering algorithm applied to gene expression data. In Confe-
rence of the Canadian Society for Computational Studies of Intelligence,
pages 520–526. Springer. 23
[119] Wu, X., Zhu, X., Wu, G.-Q., and Ding, W. (2014). Data Mining
with Big Data. Knowledge and Data Engineering, IEEE Transactions
on, 26(1):97–107. 5
[120] Xu, X., Ester, M., Kriegel, H.-p., and Sander, J. (1998). A
Distribution-Based Clustering Algorithm for Mining in Large Spatial
159
Bibliografía
Databases. 14th International Conference on Data Engineering ( ICDE

’ 98 ). 25
[121] Yang, F., Sun, T., and Zhang, C. (2009). An efficient hybrid da-
ta clustering method based on k-harmonic means and particle swarm
optimization. Expert Systems with Applications, 36(6):9847–9852. 22
[122] Yang, S.-T., Lee, J.-D., Chang, T.-C., Huang, C.-H., Wang, J.-J.,
Hsu, W.-C., Chan, H.-L., Wai, Y.-Y., and Li, K.-Y. (2013). Discrimina-
tion between alzheimer’s disease and mild cognitive impairment using
som and pso-svm. Computational and mathematical methods in medici-
ne, 2013. 23
[123] Yang, Y., Liao, Y., Meng, G., and Lee, J. (2011). A hybrid feature
selection scheme for unsupervised learning and its application in bearing
fault diagnosis. Expert Systems with Applications, 38(9):11311–11320. 24
[124] Ylijoki, O. and Porras, J. (2016). Perspectives to definition of big da-

ta: a mapping study and discussion. Journal of Innovation Management,
4(1):69–91. 5
[125] Yu, D., Liu, G., Guo, M., and Liu, X. (2018a). An improved k-
medoids algorithm based on step increasing and optimizing medoids.
Expert Systems with Applications, 92:464–473. 11
[126] Yu, H., Caldwell, C., Mah, K., and Mozeg, D. (2009). Coregistered
fdg pet/ct-based textural characterization of head and neck cancer for
radiation treatment planning. IEEE transactions on medical imaging,
28(3):374–383. 23
[127] Yu, S.-S., Chu, S.-W., Wang, C.-M., Chan, Y.-K., and Chang, T.-C.
(2018b). Two improved k-means algorithms. Applied Soft Computing,
68:747–755. 10
[128] Zhang, H., Berg, A. C., Maire, M., and Malik, J. (2006). SVM-
KNN: Discriminative nearest neighbor classification for visual category
recognition. Proceedings of the IEEE Computer Society Conference on
Computer Vision and Pattern Recognition, 2:2126–2136. 23
160
Bibliografía
[129] Zhang, X., Wang, W., Norvag, K., and Sebag, M. (2010). K-ap: gene-
rating specified k clusters by efficient affinity propagation. In 2010 IEEE
International Conference on Data Mining, pages 1187–1192. IEEE. 23
161
Bibliografía
162
Lista de Acrónimos
ANN Artificial Neural Network
DBSCAN Density Based Spatial Clustering of Aplications with Noise
DPA División Político Administrativa
DT Decision Tree
EM Expectation-Maximization
FS Feature Selection
GA Genetic Algorithm
GNG Growing Neural Gas
IM Imputación Múltiple
IS Imputación Simple
KDD Knowledge Discovery in Databases
KNN K-Nearest Neighbors
LD Listwise Deletion
MAM Métodos de Acceso Métrico
MAR Missing At Random
MCAR Missing Completely At Random
ML Machine Learning
MLP Multi-Layer Perceptron
NMAR Missing Not At Random
NA Not Applicable
NN Nearest Neighbors
PCA Principal Component Analisys
PSO Particle Swarm Optimization
RF Random Forest
SA Simulated Annealing
SBE Según Brechas Educativas
SOM Self Organizing Map
SVM Support Vector Machine
TS Tabu Search
TMI Tasa de Mortalidad Infantil
164

Tesis Zoila Ruiz

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Tesis Zoila Ruiz

Caricato da

Copyright:

Formati disponibili

Técnicas de Aprendizaje Automático Aplicadas

al Procesamiento de Información Demográfica

Zoila de Lourdes Ruiz Chávez

Escuela Politécnica Superior

Zoila Ruiz Chávez

Tesis presentada para aspirar al grado de

Agradezco en primer lugar a Dios por todas las bendiciones recibidas

Quito, 6 de mayo de 2019

En la actualidad, el recurso más valioso en el campo profesional y de

Nowadays, the most valuable resource in the professional and research

Índice de figuras XVII

Índice de tablas XXI

2. Aprendizaje automático aplicado a datos censales 31

4. Procesamiento inteligente de datos socio-demográficos 83

A. Detalle clusters creados manualmente 131

B. Detalle clusters SOM-Cluster Jerárquico 139

Lista de Acrónimos 163

1.1. Características de Grandes Volúmenes de Datos . . . . . . . 7

2.1. Modelo básico para procesar información . . . . . . . . . . . 44

3.1. Ejemplo de selección de variables con RF . . . . . . . . . . 62

A.1. Cluster 1 - Detalle variable graesc . . . . . . . . . . . . . . 132

B.1. SOM Cluster 1 - Detalle variable graesc . . . . . . . . . . . 140

1.1. Características presentes en los conjuntos de datos . . . . . 8

2.1. Descripción Matriz de Confusión . . . . . . . . . . . . . . . 33

3.1. Atributos con valores perdidos . . . . . . . . . . . . . . . . 71

4.1. Random Forest - Importancia relativa de variables (c) . . . 93

A.1. Detalle clusters generados manualmente . . . . . . . . . . . 131

B.1. SOM - Detalle distribución por cluster . . . . . . . . . . . . 139

8. Algoritmo propuesto para procesar información demográfica 50

Este capítulo introductorio realiza un recorrido que sumariza el

bién lo hace la complejidad de la información a ser analizada, es así que

más adecuadas de Aprendizaje Automático que nos permitan optimizar los

base a los indicadores que se obtienen y calcular proyecciones que se van

1.3. Revisión del Estado del Arte

En los últimos años se ha observado un acelerado crecimiento en el

Las diferentes técnicas de Aprendizaje Automático permiten conseguir

1.3.1. Grandes volúmenes de datos

de los grandes volúmenes de datos (volumen, velocidad, veracidad y varia-

Volumen: Se refiere a grandes colecciones de datos de diversas fuentes,

Velocidad: Se refiere a la velocidad con la que aparecen nuevos datos.

Variedad: Complejidad de múltiples fuentes y formatos de datos.

Veracidad: Analizar los datos y determinar su fiabilidad.

Figura 1.1: Características de Grandes Volúmenes de Datos

ser fusionados para potenciar el valor de los resultados obtenidos gracias

Datos estructurados: son datos que tienen bien definido su longitud

Datos no estructurados: carecen de un formato específico.

1.3.1.1. Conjunto de datos (datasets)

Con el crecimiento del tamaño de los datos, es esencial considerar técni-

Figura 1.2: Clasificación de Grandes Volúmenes de Datos

La Tabla 1.1 propone un clasificación con criterios de velocidad, volu-

Tabla 1.1: Características presentes en los conjuntos de datos

Como vemos en la tabla anterior, existen conjuntos de datos que se

1.3.2. Técnicas de Clasificación

En esta sección introducimos los algoritmos más relevantes para clasifi-

Supervisados. La principal tarea es determinar a qué clase pertenece

No supervisados. Se utilizan cuando no se dispone de conjuntos de

El principal problema encontrado en los diferentes estudios orientados

1.3.3. Algoritmos de Aprendizaje Automático

A continuación se presentan algunos de los algoritmos de aprendizaje

1.3.3.1. K-Media (K-Means)

Es un método sencillo y eficiente, necesita un solo parámetro inicial (k)

Algoritmo 1: Algoritmo k-Media

La Figura 1.3 4 muestra un ejemplo de agrupación de documentos de

Figura 1.3: Ejemplo K-medias