Data Mining Tcnicas y herramientas Introduccin Introduccin Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 2 POR QU?
Empresas necesitan aprender de sus
datos para crear una relacin one-to- one con sus clientes.
Recogen datos de todos lo procesos.
Datos recogidos se tienen que analizar,
comprender y convertir en informacin: rol Data Mining Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 3 Data Mining proporciona la Inteligencia
El Data Warehouse proporciona datos.
Data Mining: Bsqueda de patrones,
reglas, nuevas ideas que probar, predicciones
Tcnicas y herramientas aaden
inteligencia al datawarehouse para explotar los datos y sacar el mximo rendimiento Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin + Como nos ayudan? clientes permanecern fieles? clientes estn a punto de abandonar? Dnde localizar la prxima sucursal? Qu productos se deben promocionar y cmo? Las respuestas a estas preguntas estn ocultas en los datos y tcnicas de Data Mining para bsqueda Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 5 Definicin Intuitiva Data Mining (en este contexto) en el anlisis y exploracin, por medios automticos o semiautomticos de grandes cantidades de datos para descubrir patrones significativos (tiles), y reglas. Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 6 Definicin Qu es Data Mining? Es una de las actividades principales asociadas a la comprensin, navegacin y explotacin de los datos en el nuevo mundo digital Automatiza el proceso de identificacin y descubrimiento de estructuras tiles en los datos Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 7 Por qu ahora? Las tcnicas existentes. Convergencia de los siguientes factores: Cantidad de datos producida Los datos estn integrados (data warehouse) La potencia de cmputo Fuerte presin de la competencia Software de data mining disponible Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 8 Cmo se usa Data Mining hoy? Conocer a los clientes Detectar segmentos Calcular perfiles Cross-selling Detectar buenos clientes Evitar el churning, attrition Deteccin de morosidad Mejora de respuesta de mailings Campaas de captacin de clientes Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin El ciclo de Data Mining El ciclo de Data Mining Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 10 El ciclo de data mining Identificar un problema Usar data mining para transformar los datos en informacin Actuar basndonos en la informacin Medir los resultados Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 11 Importante
Promesa de Data Mining: encontrar los
patrones
Hallar patrones no es suficiente
Necesidad de entenderlos, actuar,
convertir los datos en informacin, la informacin en accin y la accin en valor para la organizacin Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 12 Data Mining es un proceso Data Mining proceso centrado en acciones derivadas del descubrimiento de conocimiento no en el mecanismo de descubrimiento en si mismo. Algoritmos son importantes, la solucin es ms que un conjunto de tcnicas y herramientas. Las tcnicas se tienen que aplicar en el caso correcto a los datos correctos Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 13 Conocimiento LIMPIEZA Datos Procesados CODIFICACIN Datos Transformados DATA MINING Modelos INTERPRETACIN Y EVALUACIN Datos objetivo SELECCIN Datos El proceso de KDD Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 1+ Estndar de proyecto de Data Mining: Crisp-DM Comprensin del problema Comprensin de los datos. Preparacin de los datos Nodelado Evaluacin !mplantacin Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 15 Comprensin del problema (I) Comprensin de los objetivos y requerimientos del proyecto desde una perspectiva de negocio. Convertir conocimiento en la definicin de un problema de data mining y en un plan preliminar diseado para alcanzar los objetivos Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 16 Comprensin del problema (II) Fases y salidas: Determinar los objetivos del negocio Antecedentes Objetivos del negocio Criterios de xito del proyecto (perspectiva del negocio) Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 17 Comprensin del problema (II) Evaluar la situacin Recursos Requerimientos, supuestos, restricciones Riesgos y contingencias Terminologa Costos y beneficios Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 18 Comprensin del problema (III) Fases y salidas: Determinar metas de Data Mining Metas de data mining Criterios de xito (perspectiva de data mining) Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 19 Comprensin del problema (III) Producir un plan de proyecto Plan de proyecto Evaluacin inicial de herramientas y tcnicas disponibles Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 20 Comprensin de los datos Inicio: coleccin de datos inicial Objetivo: familiarizarse con los datos, identificar problemas de calidad para descubrir las primeras caractersticas de los datos o detectar subconjuntos para proponer hiptesis iniciales Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 21 Comprensin de los datos (II) Fases y Salidas: Conseguir el conjunto inicial de datos Informe inicial sobre los datos Describir los datos Informe con la descripcin de los datos Explorar los datos Informe de la exploracin de los datos Verificar la Calidad de los datos Informe de la calidad de los datos Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 22 Comprensin de datos: tareas a realizar Seleccin de las fuentes Estudiar los datos Establecer los metadatos Establecer el tipo de las variables: Cuantitativas Cualitativas Establecer la caducidad de cada dato: vida de las variables Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 23 Estudio de los datos Inters: descubrir las relaciones entre los objetos fuente: caractersticas de objetos a analizar Las medidas tienen un perodo de caducidad y se toman en unas circunstancias Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 2+ Tipos de datos Cuantitativas Discretas (nmero de empleados) Continuas (sueldo, ...) Cualitativas. Nominales (estado civil, gnero) Ordinales orden en sus valores (alto, medio, bajo) Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 25 Preparacin de los datos Propsito: construccin del conjunto final de datos (datos entrada de los algoritmos de Data mining), a partir el conjunto inicial de datos. Incluye seleccionar tablas atributos y registros transformacin y limpieza de los datos. Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 26 Preparacin de los datos (II) Entradas Conjunto de datos Descripcin del conjunto de datos Fases y Salidas Seleccin de datos Justificacin de la seleccin Limpieza de datos Informe proceso limpieza Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 27 Preparacin de los datos (III) Fases y Salidas (cont.) Construir el conjunto de datos Atributos derivados Registros generados Integrar los datos Datos integrados Formato de los datos Datos con nuevo formato Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 28 Preparacin de los datos Asegurar calidad de los datos Datos no fueron recogidos para tareas de Data Mining Datos pobres, inconsistentes Numerosas fuentes, diferentes sistemas Funciones Revisin de los datos Tratamiento de Valores nulos e informacin incompleta Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 29 Preparacin: Revisin de los datos Mtodos estadsticos y de visualizacin Variables categricas: Distribucin de variables Histogramas Pie charts Variables cualitativas Media, varianza, moda Scaterplots, boxplots... 0 10 20 30 40 50 60 70 80 90 1er trim. 2do trim. 3er trim. Este Oeste Norte 0 10 20 30 40 50 60 70 80 90 100 0 2 4 6 Este Oeste Norte T1 T2 T3 T4 Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 30 Preparacin: Informacin incompleta Valores atpicos (outliers): Tratamiento depende de su naturaleza Se pueden eliminar en el proceso de carga del data warehouse Valores nulos: (ninguna de las tcnicas es perfecta) Eliminar las observaciones con nulos Eliminar las variables con muchos nulos Utilizar un modelo predictivo Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 31 Preparacin Transformacin Conseguir una la visin integrada, consistente y consolidada de los datos Necesidad de refinar datos de acuerdo con los requisitos de entrada de los algoritmos: Conversin de variables Reduccin /adicin de variables Discretizacin / generalizacin Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 32 Modelado Propsito seleccionar tcnicas de minera a aplicar calibrar parmetros para conseguir los valores ptimos. distintas tcnicas para el mismo tipo de problema diferencia en los requisitos de datos de entrada. Necesidad de volver a la fase de preparacin de datos. Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 33 Modelado (II) Fases y Salidas Seleccin de la tcnica de modelado Tcnica elegida Requisitos de la tcnica elegida Generacin diseo de prueba Diseo de prueba Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 3+ Modelado (II) Fases y Salidas Construir el modelo Parmetros elegidos Modelo y descripcin Evaluar el modelo Evaluacin del modelo Parmetros revisados Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 35 Evaluacin modelo disponible de buena calidad desde la perspectiva del anlisis de datos. verificacin cumplimiento de objetivos de organizacin. determinar si algn aspecto no ha sido tenido suficientemente en consideracin. resultado: decisin sobre el uso de los resultados de minera. Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 36 Evaluacin (II) Fases y Salidas Evaluar los resultados Contrastar los resultados de minera con los criterios de xito del negocio Modelos aprobados Proceso de revisin Revisin del proceso Determinar los pasos siguientes Lista de posibles acciones futuras Decisin sobre la implantacin Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 37 Implantacin Fase puede ser tan simple como la generacin de un informe o tan compleja como la implantacin de un proceso de minera en toda la empresa. Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 38 Implantacin (II) Fases y Salidas Desarrollo del plan de implantacin Plan de Implantacin Desarrollo del plan de monitorizacin y mantenimiento Plan de seguimiento Realizacin del informe final Informe final Revisin del proyecto Experiencia Documentacin Facultad de Ingeniera Escuela de Ingeniera de Sistemas y Computacin 39 Resumen Data Mining es un proceso Todas las fases son igualmente importantes Sin una preparacin adecuada los resultados perdern calidad