Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
TALLER
DE
MINERIA DE DATOS
Presenta:
MSc. IngGustavo Bojorquez Huerta
I.I.Presentacin
Presentacin
II.
II.Objetivo
Objetivo
III.
III.Descripcin
Descripcin
IV.
IV.Temario
Temario
PRESENTACION
1. El proceso KDD
2. Minera de Datos
3. El Problema de la Extraccin Automtica de Conocimiento.
4. Tareas y Tcnicas
5. Caractersticas de las diferentes Tcnicas de Minera de Datos
6. Herramientas de Minera de Datos
7. Anlisis de casos
1. EL PROCESO KDD
EJEMPLO:
Una tabla de cestas de la compra, donde cada atributo indica si el
producto se ha comprado o no.
Objetivo: Ver si dos productos se compran conjuntamente
(regla de asociacin).
Sin embargo...
Slo es necesario hace XOR entre dos filas para saber si hay
asociacin.
1. EL PROCESO KDD : ETAPA 3 - MINERA DE DATOS
Patrones a descubrir:
Una vez recogidos los datos de inters, un explorador puede
decidir qu tipos de patrn quiere descubrir.
El tipo de conocimiento que se desea extraer va a marcar
claramente la tcnica de minera de datos a utilizar.
Segn como sea la bsqueda del conocimiento se puede
distinguir entre:
Directed data mining: se sabe claramente lo que se
busca, generalmente predecir unos ciertos datos o clases.
Undirected data mining: no se sabe lo que se busca, se
trabaja con los datos (hasta que confiesen!).
En el primer caso, los propios sistemas de minera de datos se
encargan generalmente de elegir el algoritmo ms idneo entre
los disponibles para un determinado tipo de patrn a buscar.
1. EL PROCESO KDD : ETAPA 3 - MINERA DE DATOS
La extraccin de
conocimiento a partir de
datos tiene como objetivo
descubrir patrones que
deben ser validos,
novedosos, interesantes y,
en ltima instancia
comprensibles.
3. EL PROBLEMA DE LA EXTRACCIN AUTOMTICA DE CONOCIMIENTO.
TAREAS
Predictivas
(Aprendizaje Supervizado)
Descriptivas
*(Aprendizaje no
Supervizado)
4. TAREAS Y TCNICAS
TAREAS
Se trata de problemas y
tareas en las que hay que
Predictivas predecir uno o mas valores
para uno o mas ejemplos
(clase, categora o valor
numrico).
Clasificacin o discriminacin.
TAREAS Predictivas
TAREAS
El objetivo no es predecir
Descriptivas nuevos datos sino describir
los existentes.
Agrupamiento (Clustering).
Ejm. Agrupar clientes en diferentes
segmentos, para estudiar que grupos se
comportan mejor ente determinados
productos.
Correlaciones y factorizaciones.
Ejm. Detectar atributos redundantes.
4. TAREAS Y TCNICAS
TAREAS Descriptivas
Reglas de asociacin.
Ejm. Si compra aguacates = s Y compra
cebollas = s ENTONCES compra limones =
si
Dependencias funcionales.
Ejm. Dada la edad, el nivel de ingresos, el
cdigo postal y estado civil, entonces se
puede determinar si el cliente tiene vehiculo.
Deteccin de valores e instancias anmalas.
Ejm. De las comparas realizadas con tarjeta,
encontrar aquellas que son anmalas
(extraas).
4. TAREAS Y TCNICAS
TCNICAS
Correspondencia entre tareas y tcnicas
TCNICAS
Tcnicas bayesianas.
Son fciles de usar.
Muy eficientes.
Pueden tratar muchos atributos (cientos o miles).
Son muy robustos al ruido.
La expresin es limitada y depende de la discretizacin.
5. CARACTERISTICAS DE LAS DIFERENTES TECNICAS DE MINERIA DE DATOS
LIBRERIAS
Conjunto de mtodos que implementan las funcionalidades y
utilidades bsicas propias de la MD: acceso a datos, inferencia de
modelos (rboles de decisin, Redes neuronales, mtodos
bayesianos,etc) exportacin y comprobacin de resultados, etc
Ejemplo:
SUITES
Integra en un mismo entorno capacidades para el preprocesado
de datos, diferentes modelos de anlisis, facilidades para el
diseo de experimentos y soporte grafico para la visualizacin de
resultados.
Ejemplo:
SPSS Clementine (arquitectura Cliente-Servidor)
WEKA (waikato for knowledge analysis), libre distribucion,
implementada en java
Kepler (comercial), implementada en java
ODMS (Oracle Data Mining Suite (Darwin)) independiente del
Java Data mining
DBMiner (comercial)
Yale (Universidad de dormund) Ahora RAPID MINER (Gratuita)
DB2 Intelligent Miner (IBM)
SAS Enterprise Miner
STATISTCA Data Miner
6. HERRAMIENTAS DE MINERIA DE DATOS
HERRAMIENTAS ESPECIFICAS
Se caracterizan por centrarse en un determinado modelos (redes
neuronales, rboles de decisin, modelos estadsticos, etc) o en
una determinada tarea de MD ( Clasificacin, agrupamiento, etc)
Ejemplo:
CART (Inferencia de rboles de decisin) Universidad de Salford
Autoclas (tareas de agrupamiento con mtodos bayesianos) NASA
Neural Planner, Neuro Diet y Easy NN-Plus (Modelos de redes
neuronales)
NeuroShell (modelos de Redes Neuronales)
SEE5 (Modelos de clasificacin basados en arboles de decision)
6. HERRAMIENTAS DE MINERIA DE DATOS
En este primer ejemplo, vamos a trabajar con los datos acerca de los das que se
ha podido jugar al tenis, dependiendo de diversos aspectos meteorolgicos.
El objetivo es poder determinar (predecir) si hoy podremos jugar al tenis.
Los datos de que disponemos estn en el archivo:JugarTenis.txt y son los
siguientes:
RUTA RESULTANTE:
7. ANALISIS DE CASOS: 1_ JUGAR TENIS
RUTA RESULTANTE:
7. ANALISIS DE CASOS: 1_ JUGAR TENIS
RESULTADO:
7. ANALISIS DE CASOS: 1_ JUGAR TENIS
RESULTADO:
UN PROBLEMA DE CLASIFICACIN
UN PROBLEMA DE CLASIFICACIN
La primera pregunta que nos podemos hacer es ver qu frmacos son ms
comunes en general, para ver si todos suelen ser igualmente efectivos en
trminos generales. Para ello aadimos un nodo Distribucin en la categora
Grficos y lo enlazamos con la fuente de datos Farmaco. La situacin debe
ser similar a la siguiente:
UN PROBLEMA DE CLASIFICACIN
Apliquemos lo mismo que hemos realizado en el ejemplo anterior. Intentemos
generar un rbol de decisin. Construyamos y ejecutemos una ruta con un nodo
Tipo (donde el atributo FARMACO se ha puesto como salida) y con un nodo
C5.0. Aadamos el modelo generado al rea de trabajo como se ve en la siguiente
figura:
7. ANALISIS DE CASOS: 2_ CLASIFICACION DE FARMACOS
UN PROBLEMA DE CLASIFICACIN
7. ANALISIS DE CASOS: 2_ CLASIFICACION DE FARMACOS
UN PROBLEMA DE CLASIFICACIN
Como podemos observar, el rbol tiene bastantes ramas (en concreto 11).
Podemos ver cul es el acierto (tambin denominado precisin o accuracy) de
este rbol respecto a los datos de entrenamiento.
Para ello, conectamos el nodo Tipo al nodo diamante Farmaco y ste a un
nuevo nodo Anlisis de la categora Resultado, como se ve en la siguiente
figura:
UN PROBLEMA DE AGRUPACION
La empresa de software para Internet Memo Web quiere extraer tipologas de
empleados, con el objetivo de hacer una poltica de personal ms fundamentada
y seleccionar a qu grupos incentivar.
Las variables que se recogen de las fichas de los 15 empleados de la empresa
son:
Sueldo: sueldo anual en Soles.
Casado: si est casado o no.
Coche: si viene en coche a trabajar (o al menos si lo estaciona en la empresa).
Hijos: si tiene hijos.
Alq/Prop: si vive en una casa alquilada o propia.
Sindic.: si pertenece al sindicato revolucionario de Internet
Bajas/Ao: media del n de bajas por ao
Antigedad: antigedad en la empresa
Sexo: H: hombre, M: mujer.
Los datos de los 15 empleados se encuentran en el archivo empleados.txt).
Se intenta extraer grupos de entre estos quince empleados.
UN PROBLEMA DE AGRUPACION
UN PROBLEMA DE AGRUPACION
A continuacin aadimos un nodo Tipo y lo enganchamos. Todos los atributos
deberan ser de ENTRADA exceptuando el nmero de ejemplo (#Ej), que es
irrelevante y pondremos NINGUNA, como se muestra en la siguiente figura:
7. ANALISIS DE CASOS: 3_ AGRUPACION DE EMPLEADOS
UN PROBLEMA DE AGRUPACION
Ahora vamos a utilizar un algoritmo de clustering para obtener grupos sobre esta
poblacin. En primer lugar vamos a probar con tres grupos. Para ello
aadimos un nodo Kmedias (en modelado), lo enganchamos al nodo Tipo y
modificamos el campo Nmero de conglomerados a 3, tambin marcamos que
nos genere el campo de distancia y que nos muestra la proximidad de
conglomerados, como se ve en la siguiente figura:
7. ANALISIS DE CASOS: 3_ AGRUPACION DE EMPLEADOS
UN PROBLEMA DE AGRUPACION
Ahora podemos ejecutar la ruta, obteniendo un nodo diamante K-medias. Lo
podemos aadir y enganchar al nodo Tipo, como se muestra en la siguiente
figura:
UN PROBLEMA DE AGRUPACION
Podemos verlo de una manera
grfica tal y como lo muestra el
Clementine en la pestaa de
Visor:
UN PROBLEMA DE AGRUPACION
Si aadimos un nodo tabla a la salida del nodo diamante Kmedias podemos
observar qu ejemplos exactamente han cado en qu clster.