Sei sulla pagina 1di 16

Proceso KDD

MSc. Carlos Alberto Cobos Lozada


ccobos@unicauca.edu.co
http://www.unicauca.edu.co/~ccobos
Grupo de I+D en Tecnologas de la Informacin
Departamento de Sistemas
Facultad de Ingeniera Electrnica y Telecomunicaciones
Universidad del Cauca
Resumen Previo
Qu es minera de datos?
Por qu la minera de datos?
La minera de datos es totalmente automtica?
Cmo se desarrolla un proyecto de minera de datos?
Falacias de la minera de datos
Tareas de la minera de datos
Descripcin
Clasificacin Estimacin Prediccin
Agrupamiento por similitud (Clustering)
Reglas de Asociacin
Aplicaciones
Proceso de Minera de Datos

Los algoritmos son slo una parte de un


proceso llamado Descubrimiento de
Conocimiento por los Cientficos de la
Computacin, y Minera de Datos por los
estadsticos
El proceso comienza con el reconocimiento
de un problema y termina con el control de
una solucin implementada
Todo el proceso debe ser soportado por una
metodologa exitosa
Metodologas para la Minera
de Datos
Fayyad et al. (Ciencias de la Computacin)
WEKA
SEMMA (SAS) (Estadsticos)
SAS Enterprise Miner
CRISP-DM (SPSS, OHRA, ) (Negocios)
SPSS Clementine

Abril de 2004
http://www.kdnuggets.com/polls/2004/data_mining_methodology.htm
Metodologa de Fayyad
Conocimiento

Datos Patrones
Datos Transformados
Procesados
Datos Interpretacin
Objetivo y evaluacin
Minera de datos
Transformacin y
seleccin de
Datos caractersticas
Pre procesamiento
y limpieza
Seleccin
Metodologa SEMMA

Soportado por SAS Enterprise Mining

SAMPLE EXPLORE MODIFY MODEL ASSESS

Datos de entrada, Transformacin de variables, Evaluacin,


Muestreo, Filtrar valores extremos (anmalos), Puntuacin,
Particin de datos Agrupacin, Reporte
SOM / Kohonen
Explorar distribuciones,
Visualizar, Regresiones,
Entender, rboles de Decisin,
Asociar, Redes Neuronales,
Seleccin de variables Induccin de reglas
Metodologa CRISP-DM
CRoss-Industry Standard Process for Data Mining
Desarrollada por compaas de minera de datos (SPSS,
NCR, OHRA, ChryslerDaimler) y fundada por la Comisin
Europea
Independiente de herramientas
Independiente de la industria
Modelo de proceso jerrquico
Metodologa CRISP-DM
Mapeo de modelos generales a especializados
El Dominio de aplicacin- rea especfica en la que se
desarrolla el proyecto
El Tipo de Problema de minera de datos
Aspectos Tcnicos de cada proyecto (valores faltantes,
anmalos, otros)
Las Herramientas y tcnicas de minera de datos del
proyecto
Existen dos tipos de mapeos:
Mapeando para el presente: Para un solo Proyecto,
denominado sencillo
Mapeando para el Futuro: Para un contexto predefinido
teniendo como base experiencias pasadas. Sirve para
orientar proyectos de contextos similares
Metodologa CRISP-DM
Determinar objetivos del negocio
Background
Objetivos del negocio
Criterios de xito del negocio

Evaluar la situacin
Inventario de recursos
Comprensin del Anlisis de los Requerimientos, supuestos y
negocio datos restricciones
Riesgos y contingencias
Preparacin de
Terminologa
Despliegue Datos Costos y beneficio
los datos

Determinar objetivos de la minera de


Evaluacin Modelamiento datos
Objetivos de la minera de datos
Criterios de xito de la minera de
datos

Construir plan del proyecto


Plan del proyecto
Evaluacin inicial de herramientas y
tcnicas.
Metodologa CRISP-DM

Recoleccin inicial de datos


Comprensin del Anlisis de los Reporte de la recoleccin Inicial de
negocio datos datos.

Descripcin de datos
Preparacin de Reporte de descripcin de datos
Despliegue Datos los datos
Exploracin de datos
Reporte de exploracin de datos
Evaluacin Modelamiento
Verificar la calidad de los datos
Reporte de calidad de los datos
Metodologa CRISP-DM
Seleccin de datos
Razn para inclusin/exclusin

Limpieza de datos
Reporte de limpieza de datos
Comprensin del Anlisis de los
negocio datos Construccin de datos
Atributos derivados
Registros generados
Preparacin de
Despliegue Datos los datos
Integracin de datos
Integracin de datos
Evaluacin Modelamiento
Formato de datos
Reformateo de datos
Metodologa CRISP-DM

Seleccionar la tcnica de modelado


Tcnica de modelado
Supuestos del modelado

Comprensin del Anlisis de los


Generar el diseo de test
negocio datos
Diseo del test

Preparacin de Construir el modelo


Despliegue Datos los datos Configuracin de parmetros
Modelo
Descripcin del modelo.
Evaluacin Modelamiento
Evaluacin del modelo
Evaluacin del modelo
Revisin de la configuracin de
parmetros
Metodologa CRISP-DM

Evaluar los resultados


Evaluar los resultados de minera de
Comprensin del Anlisis de los datos Vs. los criterios de xito del
negocio datos
negocio.
Aprobar modelos
Preparacin de
Despliegue Datos Revisar el proceso
los datos
Revisin del proceso

Evaluacin Modelamiento Determinar el siguiente paso


Lista de posibles acciones
Decisin
Metodologa CRISP-DM

Plan de despliegue
Plan de despliegue
Comprensin del Anlisis de los
negocio datos
Plan de monitoreo y mantenimiento
Plan de monitoreo y mantenimiento
Preparacin de
Despliegue Datos Producir los reportes finales
los datos
Reportes finales
Presentacin final
Evaluacin Modelamiento
Revisin del proyecto
Documentacin de experiencias
Breve Comparacin de
Metodologas Datos
Datos
Transformados
Patrones
Conocimiento

Datos Procesados
Interpretacin
Objetivo y evaluacin
Minera de datos
Transformacin y
seleccin de
Datos caractersticas
Pre procesamiento Comprensin Anlisis de
y limpieza del negocio los datos
Seleccin

Preparacin
Despliegue Datos
de los datos

Evaluacin Modelamiento

SAMPLE EXPLORE MODIFY MODEL ASSESS

Datos de entrada, Transformacin de variables, Evaluacin,


Muestreo, Filtrar valores extremos (anmalos), Puntuacin,
Particin de datos Agrupacin, Reporte
Explorar distribuciones, SOM / Kohonen
Visualizar, Regresiones,
Entender, rboles de Decisin,
Asociar, Redes Neuronales,
Seleccin de variables Induccin de reglas
Referencias
1. Discovering knowledge in Data: An Introduction to Data Mining. Daniel T.
Larose. John Wiley & Sons, Inc. 2005. ISBN 0-471-66657-2
2. Pete Chapman, Julian Clinton, Randy Kerber and other. CRISP-DM 1.0.
Step-by-step data mining guide, 1999-2000. SPSS Inc.
3. Anlisis y Extraccin de Conocimiento en Sistemas de Informacin:
Datawarehouse y Datamining. Departamento de Sistemas Informticos y
Computacin. Universidad Politcnica de Valencia.
http://www.dsic.upv.es/~jorallo/cursoDWDM.
4. Wang, John (Editor). Data Mining: Opportunities and Challenges.
Hershey, PA, USA: Idea Group Inc., 2003.

Potrebbero piacerti anche