Sei sulla pagina 1di 18

UNIVERSIDAD DEL BÍO-BÍO

FACULTAD DE INGENIERÍA
DEPARTAMENTO DE INGENIERÍA INDUSTRIAL
ESCUELA DE INGENIERÍA INDUSTRIAL

PROYECTO DE MINERÍA DE DATOS

PROCESAMIENTO DE UNA BASE DE DATOS PARA PROBAR Y VALIDAR


MODELOS DE CLASIFICACIÓN PARTE 1

AUTORES: CHACANO IGNACIO, MALDONADO ANA, VALDÉS SERGIO

Profesor: Troncoso Espinosa, Fredy

CONCEPCIÓN 2019
ÍNDICE

Resúmen 3
Abstract 3
Introducción 4
Objetivos del proyecto 5
Objetivo General 5
Objetivos específicos 5
Marco teórico 5
Proceso KDD 5
Imputación de datos 6
Tratamiento de outliers 7
Métodos de filtro 7
Metodología 8
Aplicación experimental del proceso 10
Conclusiones 15
Anexos 16
Referencias 18

Índice de ilustraciones
Figura 1: Proceso KDD ...................................................................................... 5
Figura 2: Valores fuera de rango ...................................................................... 11
Figura 3: Imputación en Rapidminer ................................................................ 12
Figura 4: Matriz de correlación ......................................................................... 13
Figura 5: Transformación nominal to numerical ............................................... 13
Figura 6: Transformación mediante User Specification .................................... 13
Figura 7: Selección de atributos ....................................................................... 14
Figura 8: Proceso completo en Rapidminer ..................................................... 16
Figura 9: Mejor imputación por atributo ............................................................ 16
Figura 10: Resultados prueba Chi-cuadrado .................................................... 17
Figura 11: Resultados Ganancia de información.............................................. 17
Figura 12: Resultados Índice de Gini ............................................................... 17

2
RESÚMEN
En este trabajo, el cual fue propuesto como requisito para aprobar la asignatura
de Minería de datos en el contexto de la formación como ingeniero civil
industrial de la Universidad del BÍo-Bío, se espera dar solución a la
problemática asociada a una base de datos proporcionada por Junaeb, para
definir la zona de procedencia de niños de establecimientos educacionales a
nivel país de los niveles pre-kinder y primero básico. Es importante tener en
cuenta que los datos bien organizados y procesados pueden otorgar un
panorama favorable para un tomador de decisiones, cuyo objetivo es siempre
tomar la mejor decisión basada en la menor incertidumbre. En la literatura se
define la Minería de datos como una de cinco fases de un proceso más general
denominado Knowledge Discovery in Databases (KDD), sin embargo, el
enfoque de este proyecto está basado en las tres primeras etapas del proceso:
Selección o integración de datos, Preprocesamiento, y Transformación, para
finalmente seleccionar las variables más influyentes en la base de datos.

Palabras claves: Análisis, Base de datos, Minería de datos, Proceso KDD.

ABSTRACT
In this work, which was proposed as a requirement to pass the Data Mining
course in the context of training as an Industrial Civil Engineer at the University
of Bío-Bío, it is expected to solve the problem associated with a selected
database by Junaeb, to define the area of origin of children from educational
establishments at the country level of preschool and first grade. It’s important to
keep in mind that well-organized and processed data can provide a favorable
outlook for a decision maker, whose goal is always to make the best decision
based on the least uncertainty. In the literature, Data mining is defined as one of
five phases of a more general process called Knowledge Discovery in
Databases (KDD), however, the approach of this project is based on the first
three stages of the process: Selection or integration of data, Preprocessing, and
Transformation, to finally select the most influential variables in the database.

Keywords: Analysis, Database, Data mining, KDD process.

3
INTRODUCCIÓN
Actualmente, la mayoría de compañías reúnen gran cantidad de datos tanto de
clientes, como de los usuarios de sus plataformas a nivel interno. La gestión de
dicha información permite obtener patrones, tendencias o factores que ayuden
a la organización a generar una comunicación eficaz y un mejor manejo de
información para la toma de decisiones. En este contexto, existen diversas
herramientas para el manejo de datos; entre las más importantes están el Data
Warehouse y el Data Mining.

Según W. H. Inmon, considerado por muchos el padre del Data Warehouse, un


Data Warehouse es un conjunto de datos orientados por temas, integrados,
variantes en el tiempo y no volátiles, que tienen por objetivo dar soporte a la
toma de decisiones [4]

Por otro lado, se encuentra el Data Mining, que se define como el proceso de
extracción de información previamente desconocida, válida y procesable desde
grandes bases de datos para luego ser utilizada en la toma de decisiones [5].
Emplea técnicas estadísticas, de interpretación y de algoritmos con inteligencia
artificial. En ambos casos el objetivo es el mismo, poseer un panorama claro
respecto a la situación de los datos y el comportamiento de estos, el problema
es que muchas veces estos datos no son almacenados de forma eficiente para
una clara interpretación, lo cual hace necesario una revisión profunda de la
base de datos a trabajar determinada por herramientas teóricas como las que
se emplearán en el desarrollo de este trabajo.

4
OBJETIVOS DEL PROYECTO

Objetivo General
● Procesar una base de datos, entrenar, probar y validar modelos de
clasificación.

Objetivos específicos
● Limpieza de la base de datos.
● Identificación y tratamiento de outliers.
● Transformación de la base de datos.
● Elección de atributos relevantes para incorporar a un modelo mediante
métodos de filtro.

MARCO TEÓRICO

Proceso KDD
La minería de datos se establece como una de las etapas de un proceso más
genérico denominado Knowledge Discovery in Databases (KDD), el cual ha
sido definido como “el proceso no trivial de identificación en los datos de
patrones válidos, nuevos, potencialmente útiles y finalmente comprensibles” [1].
En términos simples es encontrar relaciones no triviales en los datos. Este
proceso iterativo consiste en cinco etapas, en donde la minería de datos es
definida como una fase más de este procedimiento.

El esquema general del proceso KDD incluye 5 fases bien diferenciadas, las
cuales se muestra en la figura 1.

Figura 1: Proceso KDD

Integración o Selección: Aquí se escogen las variables y las fuentes a


considerar en el proceso completo, por lo que se refiere a la creación del
conjunto de datos como la base de datos de estudio en el proceso. Dentro de
este informe, esta etapa adquiere gran importancia, pues está sujeta a la

5
interacción de múltiples plataformas como parte de selección de fuentes de
información.

Preprocesamiento: El análisis y limpieza de los datos son las líneas principales


a seguir en esta sección, donde se produce el tratamiento de valores ausentes
(missing), los valores fuera de rango (outliers). Para ello, se emplean distintas
técnicas de imputación de datos que van desde un tratamiento valor a valor
(simple imputation) hasta un reemplazo contemplando múltiples variables y sus
valores (multiple imputation).

Transformación: Acá se generan nuevas variables a partir del estudio de la


naturaleza de las variables originales; desde la perspectiva de la escala,
nominal o continua, o bien de la distribución de los valores presentes.

Minería de datos: Este paso en el proceso de KDD, consiste en la aplicación de


análisis de datos para descubrir un algoritmo ad-hoc que produzca una
particular enumeración de patrones a partir de los datos y que los produzca
considerando restricciones de capacidad computacional. Por ende, se
selecciona el modelo y algoritmo a utilizar, bajo los supuestos que mantienen
los objetivos primarios del estudio.

Interpretación y Evaluación: Esta última fase involucra las medidas de


evaluación y la trasposición de resultados técnicos a niveles comerciales, de tal
manera, que la aplicación del procedimiento converge a acciones correctivas
en el negocio, que solucionen el fenómeno estudiado. Respecto a la
evaluación, ésta se puede aplicar desde dos aristas: técnica y comercial.

Imputación de datos
Para el tratamiento de los valores ausentes existen distintas alternativas, dentro
de las cuales, las más relevantes son [2]:

Descarte de los registros con datos faltantes: Esta alternativa suele utilizarse
cuando la información que aporta la variable es baja, o bien, la cantidad de
valores perdidos es baja y la variable tiene poca varianza.

Reemplazo de los datos faltantes con otro valor: Esta alternativa suele usarse
para identificar al valor ausente.

Imputación de los datos faltantes: Esta alternativa es factible cuando la


cantidad de atributos con datos faltantes es relativamente pequeña en relación
al número de registros que presentan dicha condición. Este método, sí influye
en la información de la variable. En este procedimiento, los valores perdidos
son llenados y la base de datos completada es analizada por métodos
estandarizados. Los métodos comúnmente usados y vistos en el curso, incluye
Hot Deck, Imputación por promedio e Imputación por regresión. El hot deck
imputa para cada ejemplo que contenga un valor perdido, se encuentra el

6
ejemplo más similar y los valores perdidos son imputados de dicho ejemplo. El
método de la media consiste en una imputación de los valores anómalos por la
media de la variable. La regresión sugiere imputar la información de una
variable Y a partir de un grupo de covariables X1, X2,. . ., Xn.

Tratamiento de outliers
Otro tipo de fenómeno son los valores fuera de rango u outliers que se definen
como aquellos valores en el conjunto de datos cuyo comportamiento es
anómalo con respecto a lo observado en la mayoría de los registros [3].

En el curso se identificaron 4 métodos a través de los cuales se pueden


identificar dichos valores, estos son: Método de los cuartiles, Box Plot,
Histogramas, y a través de una Distribución normal de los datos utilizando
media y desviación estándar.

Métodos de filtro
Son métodos para evaluar el poder predictivo de los atributos y que luego son
clasificados mediante un ranking. Los atributos con mayor calificación son
seleccionados y usados para el entrenamiento de un modelo. En el curso se
vieron 3 métodos: el Test Chi-Cuadrado, ganancia de información y el índice de
Gini.

El Test Chi cuadrado permite afirmar con un nivel de confianza estadístico


determinado si los valores de una variable cualitativa influyen en los valores de
la otra variable cualitativa analizada.

Ganancia de Información utiliza como criterio de filtro la información contenida


en un atributo y que sirve para clasificar un objeto dentro de una clase,
definiéndose una clase como los valores que toma la variable objetivo. Reduce
la incertidumbre del atributo.

Índice de Gini normalmente se utiliza para medir la desigualdad en los ingresos


dentro de un país, pero puede utilizarse para medir cualquier forma de
distribución desigual. Sirve para medir el poder predictivo de un atributo.

7
METODOLOGÍA
Descripción del problema

La siguiente base de datos contiene datos suministrados por Junaeb para un


periodo específico de tiempo. Los registros incluyen información tanto
cualitativa como cuantitativa de distintos establecimientos en diferentes
regiones a lo largo del territorio nacional, incluyendo estadísticas de cada
colegio en particular como niños con desnutrición, niños con bajo peso,
prevalencia de sobrepeso entre otras. La idea es determinar los factores o
atributos que determinan el área geográfica del alumno, es decir si corresponde
a zona rural o urbana. La base de datos está compuesta por 10.000 registros y
32 atributos incluido el Label.

Variables

A continuación se entrega la descripción de los atributos:

Atributo Tipo de variable

dependencia.establecimiento Categórico (2 valores distintos)

nombre.región Categórico (15 valores distintos)

nombre.comuna Categórico (344 valores distintos)

niños.con.desnutrición Numérico (Entero)

prevalencia.desnutrición.niños Numérico (Decimal)

niñas.con.desnutrición Numérico (Entero)

prevalencia.desnutrición.niñas Numérico (Decimal)

niños.con.bajo.peso Numérico (Entero)

prevalencia.bajo.peso.niños Numérico (Decimal)

niñas.con.bajo.peso Numérico (Entero)

prevalencia.bajo.peso.niñas Numérico (Decimal)

niños.con.peso.normal Numérico (Entero)

prevalencia.peso.normal.niños Numérico (Decimal)

niñas.con.peso.normal Numérico (Entero)

prevalencia.peso.normal.niñas Numérico (Decimal)

niños.con.sobrepeso Numérico (Entero)

8
prevalencia.sobrepeso.niños Numérico (Decimal)

niñas.con.sobrepeso Numérico (Entero)

prevalencia.sobrepeso.niñas Numérico (Decimal)

niños.con.obesidad Numérico (Entero)

prevalencia.obesidad.niños Numérico (Decimal)

niñas.con.obesidad Numérico (Entero)

prevalencia.obesidad.niñas Numérico (Decimal)

niños.con.retraso.en.talla Numérico (Entero)

prevalencia.retraso.en.talla.niños Numérico (Decimal)

niñas.con.retraso.en.talla Numérico (Entero)

prevalencia.retraso.en.talla.niñas Numérico (Decimal)

total.niños Numérico (Entero)

total.niñas Numérico (Entero)

nivel Categórica (2 posibles valores)

área.geográfica Label (2 posibles valores)

Transformación

La transformación de atributos una etapa que está después de la limpieza de


datos y antes de la reducción de datos. Consiste en transformar los datos en un
formato apropiado para la utilización de minería de datos.

Se pueden hacer transformaciones de numéricas a categóricas y viceversa,


dependiendo de la finalidad de los datos.

Selección de atributos

Se define como como el problema de encontrar el subconjunto de atributos de


un determinado tamaño que conduzca a la mayor generalización posible o de
forma equivalente a un error mínimo. Dado lo anterior, se encuentran los
métodos de filtro, y estos son: Test Chi cuadrado, ganancia de información e
Índice de Gini.

9
APLICACIÓN EXPERIMENTAL DEL PROCESO
Limpieza de BDD

Es fundamental este proceso, ya que debido a ciertas características de


algunos datos pueden hacer que una predicción sea con mucha incertidumbre
pudiendo estar muy alejada de la realidad por lo que en los casos señalados a
continuación se espera tener la mayor certeza de el escenario para poder
hacer una predicción adecuada, por lo que la eliminación de datos se basa en
los siguientes criterios:

Eliminación de columnas (atributos): Donde existen valores nulos en los


registros sobre el 50% del total de registros; en este caso, el atributo eliminado
fue “niños.con.desnutrición”.

Donde cuyas varianzas fueran cercanas o igual a cero, ya que al tener esos
valores, no existe variabilidad en los registros de tales atributos y sólo nos da
un contexto, pero no entrega mayor información. Bajo este criterio se
eliminaron los atributos “niñas.con.desnutrición”, “niños.con.retraso.en.talla”, y
“niñas.con.retraso.en.talla”. Además, se eliminaron 2 atributos, los cuales
fueron “prevalencia.desnutrición.niños” y “prevalencia.desnutrición.niñas”, esto
debido a que dependen de la información contenida en los atributos
previamente eliminados.

Eliminación filas (registros): Donde no existen datos de atributos sobre el 50%


del total de atributos, y donde no se especifica la zona, es decir, sin label. En la
BDD se eliminaron los registros E-04015, E-04054, E-04055 y E-07733.

Outliers

Se utilizó el método de los cuartiles para determinar valores fuera de rango.


Para esto se calculó el cuartil 1 y el cuartil 3, para luego calcular el Rango
Intercuartil (RIC) y definir los límites superiores e inferiores e identificar los
datos fuera de rango. En Excel se calculó un porcentaje de los datos que están
fuera de rango por atributo, cuyo resultado se muestra a continuación:

10
Figura 2: Valores fuera de rango

Como se muestra en la gráfica, el porcentaje máximo de datos que están fuera


de rango es de un 5% aproximadamente, por lo que no es tan significativo y
considerando que algunos registros se tenía información de pocos niños y
niñas. A nuestro criterio no se borrarán ni se imputarán los datos fuera de
rango, ya que igual es información que nos sería de utilidad.

Imputación de datos

Para determinar el tipo de imputación a ejecutar, se seleccionó un registro de


cada atributo, el cual fue anotado en otra hoja de excel y borrado en la BDD,
para posteriormente imputar y comparar los valores, y finalmente determinar el
tipo de imputación para cada atributo (figura 9 en Anexos).

A continuación se muestra el tipo de imputación elegida para cada atributo


numérico:

Atributo Tipo de Imputación

niños.con.bajo.peso Regresión

prevalencia.bajo.peso.niños Regresión

niñas.con.bajo.peso Hot deck

prevalencia.bajo.peso.niñas Regresión

niños.con.peso.normal Hot deck

prevalencia.peso.normal.niños Regresión

niñas.con.peso.normal Regresión

11
prevalencia.peso.normal.niñas Hot deck

niños.con.sobrepeso Regresión

prevalencia.sobrepeso.niños Regresión

niñas.con.sobrepeso Regresión

prevalencia.sobrepeso.niñas Regresión

niños.con.obesidad Regresión

prevalencia.obesidad.niños Regresión

niñas.con.obesidad Regresión

prevalencia.obesidad.niñas Hot deck

total.niños Hot deck

total.niñas Hot deck

Hubieron algunos atributos en los que la mejor imputación fue por promedio,
pero a nuestro criterio decidimos que no se imputará por este método porque
hace que la varianza de los datos disminuya, por lo tanto se escogió el
segundo mejor método de imputación.

Figura 3: Imputación en Rapidminer

Finalmente, se eliminaron atributos mediante matriz de correlación, ya que dos


atributos con alta correlación implica que uno debe ser eliminado, pues el
comportamiento de un atributo es explicado en el comportamiento del otro
atributo con alta correlación. Se eliminarán aquellos que poseen un valor
cercano a uno es decir aquellos que posean una correlación de tipo fuerte,
creciente o decreciente. En nuestra BD se eliminó “total.niños” y “total.niñas”
dado que estos tenían una alta correlación con los atributos
“niños.con.peso.normal” y “niñas.con.peso.normal” respectivamente, como se
muestra en la figura 4.

12
Figura 4: Matriz de correlación

Transformación

Se identificó que los atributos “dependencia.establecimiento” y “nivel” contenían


dos tipos de registros, por lo que se decidió transformar tales variables de
Categórico a Numérico, teniendo como valores 0 y 1.

En el caso de “dependencia.establecimiento”, toma valor 0 cuando es


subvencionado y valor 1 cuando es municipal.

En caso de “nivel” toma valor 0 cuando se trata de primero básico y valor 1


cuando se trata de pre-kínder.

Figura 5: Transformación nominal to numerical

Por otro lado, se realizó una transformación para categorizar los atributos
“prevalencia.peso.normal.niños” y “prevalencia.peso.normal.niñas”. Donde la
definición de rangos fue: muy baja, baja, medio, alta, y muy alta.

Figura 6: Transformación mediante User Specification

13
Selección de atributos

El uso de muchos atributos reduce el rendimiento predictivo de un modelo, es


por esto que bajo el criterio de los métodos de filtro definidos anteriormente, se
seleccionarán los mejores atributos para el modelo.

Figura 7: Selección de atributos

Para la selección de atributos se utilizaron los 3 operadores en el programa


correspondientes a los métodos de filtro previamente mencionados, donde los
atributos seleccionados fueron los mismos para cada método.

De esta forma, los valores obtenidos que se muestran en la tabla de Chi-


Cuadrado (figura 10 en Anexos), se calculó el promedio utilizando el operador
Select by weights dando como resultado 582.2, y los atributos que se
encontraron sobre este promedio se mantienen en la base de datos, y el resto
de ellos quedó fuera del estudio. Como resultado de esta operación los
atributos seleccionados fueron los siguientes:

“nombre.comuna”; “nombre.región”; “dependencia.establecimiento”;


“prevalencia.peso.normal.niñas” y “prevalencia.peso.normal.niños”.

14
CONCLUSIONES

Uno de los principales temas abordar en este trabajo fue el procesamiento de


una base de datos, la cual se lleva a cabo una vez realizada las etapas del
proceso genérico denominado Knowledge Discovery in Databases (KDD), el
cual, para efectos del trabajo es claramente apreciable desde la etapa de
limpieza de datos, con la ayuda del software Excel para luego imputar los datos
faltantes dando cumplimiento el primer objetivo de este trabajo.

El siguiente paso fue identificar valores outliers y tras obtener resultados, se


observó que el o los atributos con mayor porcentaje fueron del 5%, por lo que
se decidió no realizar imputación en aquellos datos.

A continuación, se procedió a realizar transformaciones en las variables


categóricas “dependencia.establecimiento” y “nivel” para la creación de
variables dummy, y lograr numeralizar estos atributos. Por otro lado, se
categorizaron los atributos “prevalencia.peso.normal.niños” y
“prevalencia.peso.normal.niñas” mediante la creación de 5 rangos: Muy bajo,
Bajo, Medio, Alto, Muy alto.

Finalmente se realizó la selección de atributos que tuvieran mayor poder


predictivo mediante los métodos de filtro Chi-cuadrado, Ganancia de
información e Índice de Gini, y dado que no hubo diferencia en el resultado de
selección de atributos, se decidió tomar los valores del primer método, donde
se observó que dos del total de atributos con mayor poder predictivo fueron
“nombre.comuna” y “nombre.región”. Tras observar tales valores, se decidió no
realizar algún tipo de categorización o eliminar el atributo “nombre.comuna”,
con el fin de utilizar este atributo para la realización de la segunda parte del
proyecto.

De esta forma, los atributos seleccionados para esta primera etapa del
proyecto en la base de datos fueron: “nombre.comuna”, “nombre.región”,
“prevalencia.peso.normal.niños”, “prevalencia.peso.normal.niñas”, y “nivel”.

15
ANEXOS

Figura 8: Proceso completo en Rapidminer

Figura 9: Mejor imputación por atributo

16
Figura 10: Resultados prueba Figura 11: Resultados Ganancia Figura 12: Resultados
Chi-cuadrado de información Índice de Gini

17
REFERENCIAS
[1] Cruz, A. M. (Ed.). (2010). Gestión tecnológica hospitalaria: Un enfoque
sistémico. Bogotá, Colombia: Universidad del Rosario.

[2] Barrientos, F., & Ríos, S. A. (2013). Aplicación de Minería de Datos para
Predecir Fuga de Clientes en la Industria de las Telecomunicaciones. Revista
Ingeniería de Sistemas, XXVII, 73–77

[3] V. Barnett and T. Lewis. Outliers in Statistical Data. Wiley, 1994. 584 P.

[4] Curto Díaz, J. (2010). Introducción al Business Intelligence. Barcelona,


España: UOC.

[5] P. Cabena, P. Hadjinian, R. Stadler, J. Verhees, A.Zanasi, Discovering Data


Mining From concept to implementation. Prentice Hall 1997

18

Potrebbero piacerti anche