Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
FACULTAD DE INGENIERÍA
DEPARTAMENTO DE INGENIERÍA INDUSTRIAL
ESCUELA DE INGENIERÍA INDUSTRIAL
CONCEPCIÓN 2019
ÍNDICE
Resúmen 3
Abstract 3
Introducción 4
Objetivos del proyecto 5
Objetivo General 5
Objetivos específicos 5
Marco teórico 5
Proceso KDD 5
Imputación de datos 6
Tratamiento de outliers 7
Métodos de filtro 7
Metodología 8
Aplicación experimental del proceso 10
Conclusiones 15
Anexos 16
Referencias 18
Índice de ilustraciones
Figura 1: Proceso KDD ...................................................................................... 5
Figura 2: Valores fuera de rango ...................................................................... 11
Figura 3: Imputación en Rapidminer ................................................................ 12
Figura 4: Matriz de correlación ......................................................................... 13
Figura 5: Transformación nominal to numerical ............................................... 13
Figura 6: Transformación mediante User Specification .................................... 13
Figura 7: Selección de atributos ....................................................................... 14
Figura 8: Proceso completo en Rapidminer ..................................................... 16
Figura 9: Mejor imputación por atributo ............................................................ 16
Figura 10: Resultados prueba Chi-cuadrado .................................................... 17
Figura 11: Resultados Ganancia de información.............................................. 17
Figura 12: Resultados Índice de Gini ............................................................... 17
2
RESÚMEN
En este trabajo, el cual fue propuesto como requisito para aprobar la asignatura
de Minería de datos en el contexto de la formación como ingeniero civil
industrial de la Universidad del BÍo-Bío, se espera dar solución a la
problemática asociada a una base de datos proporcionada por Junaeb, para
definir la zona de procedencia de niños de establecimientos educacionales a
nivel país de los niveles pre-kinder y primero básico. Es importante tener en
cuenta que los datos bien organizados y procesados pueden otorgar un
panorama favorable para un tomador de decisiones, cuyo objetivo es siempre
tomar la mejor decisión basada en la menor incertidumbre. En la literatura se
define la Minería de datos como una de cinco fases de un proceso más general
denominado Knowledge Discovery in Databases (KDD), sin embargo, el
enfoque de este proyecto está basado en las tres primeras etapas del proceso:
Selección o integración de datos, Preprocesamiento, y Transformación, para
finalmente seleccionar las variables más influyentes en la base de datos.
ABSTRACT
In this work, which was proposed as a requirement to pass the Data Mining
course in the context of training as an Industrial Civil Engineer at the University
of Bío-Bío, it is expected to solve the problem associated with a selected
database by Junaeb, to define the area of origin of children from educational
establishments at the country level of preschool and first grade. It’s important to
keep in mind that well-organized and processed data can provide a favorable
outlook for a decision maker, whose goal is always to make the best decision
based on the least uncertainty. In the literature, Data mining is defined as one of
five phases of a more general process called Knowledge Discovery in
Databases (KDD), however, the approach of this project is based on the first
three stages of the process: Selection or integration of data, Preprocessing, and
Transformation, to finally select the most influential variables in the database.
3
INTRODUCCIÓN
Actualmente, la mayoría de compañías reúnen gran cantidad de datos tanto de
clientes, como de los usuarios de sus plataformas a nivel interno. La gestión de
dicha información permite obtener patrones, tendencias o factores que ayuden
a la organización a generar una comunicación eficaz y un mejor manejo de
información para la toma de decisiones. En este contexto, existen diversas
herramientas para el manejo de datos; entre las más importantes están el Data
Warehouse y el Data Mining.
Por otro lado, se encuentra el Data Mining, que se define como el proceso de
extracción de información previamente desconocida, válida y procesable desde
grandes bases de datos para luego ser utilizada en la toma de decisiones [5].
Emplea técnicas estadísticas, de interpretación y de algoritmos con inteligencia
artificial. En ambos casos el objetivo es el mismo, poseer un panorama claro
respecto a la situación de los datos y el comportamiento de estos, el problema
es que muchas veces estos datos no son almacenados de forma eficiente para
una clara interpretación, lo cual hace necesario una revisión profunda de la
base de datos a trabajar determinada por herramientas teóricas como las que
se emplearán en el desarrollo de este trabajo.
4
OBJETIVOS DEL PROYECTO
Objetivo General
● Procesar una base de datos, entrenar, probar y validar modelos de
clasificación.
Objetivos específicos
● Limpieza de la base de datos.
● Identificación y tratamiento de outliers.
● Transformación de la base de datos.
● Elección de atributos relevantes para incorporar a un modelo mediante
métodos de filtro.
MARCO TEÓRICO
Proceso KDD
La minería de datos se establece como una de las etapas de un proceso más
genérico denominado Knowledge Discovery in Databases (KDD), el cual ha
sido definido como “el proceso no trivial de identificación en los datos de
patrones válidos, nuevos, potencialmente útiles y finalmente comprensibles” [1].
En términos simples es encontrar relaciones no triviales en los datos. Este
proceso iterativo consiste en cinco etapas, en donde la minería de datos es
definida como una fase más de este procedimiento.
El esquema general del proceso KDD incluye 5 fases bien diferenciadas, las
cuales se muestra en la figura 1.
5
interacción de múltiples plataformas como parte de selección de fuentes de
información.
Imputación de datos
Para el tratamiento de los valores ausentes existen distintas alternativas, dentro
de las cuales, las más relevantes son [2]:
Descarte de los registros con datos faltantes: Esta alternativa suele utilizarse
cuando la información que aporta la variable es baja, o bien, la cantidad de
valores perdidos es baja y la variable tiene poca varianza.
Reemplazo de los datos faltantes con otro valor: Esta alternativa suele usarse
para identificar al valor ausente.
6
ejemplo más similar y los valores perdidos son imputados de dicho ejemplo. El
método de la media consiste en una imputación de los valores anómalos por la
media de la variable. La regresión sugiere imputar la información de una
variable Y a partir de un grupo de covariables X1, X2,. . ., Xn.
Tratamiento de outliers
Otro tipo de fenómeno son los valores fuera de rango u outliers que se definen
como aquellos valores en el conjunto de datos cuyo comportamiento es
anómalo con respecto a lo observado en la mayoría de los registros [3].
Métodos de filtro
Son métodos para evaluar el poder predictivo de los atributos y que luego son
clasificados mediante un ranking. Los atributos con mayor calificación son
seleccionados y usados para el entrenamiento de un modelo. En el curso se
vieron 3 métodos: el Test Chi-Cuadrado, ganancia de información y el índice de
Gini.
7
METODOLOGÍA
Descripción del problema
Variables
8
prevalencia.sobrepeso.niños Numérico (Decimal)
Transformación
Selección de atributos
9
APLICACIÓN EXPERIMENTAL DEL PROCESO
Limpieza de BDD
Donde cuyas varianzas fueran cercanas o igual a cero, ya que al tener esos
valores, no existe variabilidad en los registros de tales atributos y sólo nos da
un contexto, pero no entrega mayor información. Bajo este criterio se
eliminaron los atributos “niñas.con.desnutrición”, “niños.con.retraso.en.talla”, y
“niñas.con.retraso.en.talla”. Además, se eliminaron 2 atributos, los cuales
fueron “prevalencia.desnutrición.niños” y “prevalencia.desnutrición.niñas”, esto
debido a que dependen de la información contenida en los atributos
previamente eliminados.
Outliers
10
Figura 2: Valores fuera de rango
Imputación de datos
niños.con.bajo.peso Regresión
prevalencia.bajo.peso.niños Regresión
prevalencia.bajo.peso.niñas Regresión
prevalencia.peso.normal.niños Regresión
niñas.con.peso.normal Regresión
11
prevalencia.peso.normal.niñas Hot deck
niños.con.sobrepeso Regresión
prevalencia.sobrepeso.niños Regresión
niñas.con.sobrepeso Regresión
prevalencia.sobrepeso.niñas Regresión
niños.con.obesidad Regresión
prevalencia.obesidad.niños Regresión
niñas.con.obesidad Regresión
Hubieron algunos atributos en los que la mejor imputación fue por promedio,
pero a nuestro criterio decidimos que no se imputará por este método porque
hace que la varianza de los datos disminuya, por lo tanto se escogió el
segundo mejor método de imputación.
12
Figura 4: Matriz de correlación
Transformación
Por otro lado, se realizó una transformación para categorizar los atributos
“prevalencia.peso.normal.niños” y “prevalencia.peso.normal.niñas”. Donde la
definición de rangos fue: muy baja, baja, medio, alta, y muy alta.
13
Selección de atributos
14
CONCLUSIONES
De esta forma, los atributos seleccionados para esta primera etapa del
proyecto en la base de datos fueron: “nombre.comuna”, “nombre.región”,
“prevalencia.peso.normal.niños”, “prevalencia.peso.normal.niñas”, y “nivel”.
15
ANEXOS
16
Figura 10: Resultados prueba Figura 11: Resultados Ganancia Figura 12: Resultados
Chi-cuadrado de información Índice de Gini
17
REFERENCIAS
[1] Cruz, A. M. (Ed.). (2010). Gestión tecnológica hospitalaria: Un enfoque
sistémico. Bogotá, Colombia: Universidad del Rosario.
[2] Barrientos, F., & Ríos, S. A. (2013). Aplicación de Minería de Datos para
Predecir Fuga de Clientes en la Industria de las Telecomunicaciones. Revista
Ingeniería de Sistemas, XXVII, 73–77
[3] V. Barnett and T. Lewis. Outliers in Statistical Data. Wiley, 1994. 584 P.
18