Mineria - de - Datos - PPT Filename - UTF-8''mineria de Datos

INTELIGENCIA ARTIFICIAL
TALLER
DE
MINERIA DE DATOS
Presenta:
MSc. IngGustavo Bojorquez Huerta
Octubre 2009 Huaraz, PERU

CONTENIDO
I.I.Presentacin
Presentacin
II.
II.Objetivo
Objetivo
III.
III.Descripcin
Descripcin
IV.
IV.Temario
Temario
PRESENTACION
Las tcnicas de minera de datos se emplean para mejorar el

rendimiento de procesos de negocio o industriales en los que se
manejan grandes volmenes de informacin estructurada y
almacenada en bases de datos. Por ejemplo, se usan con xito en
aplicaciones de control de procesos productivos, como herramienta de
ayuda a la planificacin y a la decisin en marketing, finanzas, etc.
Asimismo, la minera de datos es fundamental en la investigacin
cientfica y tcnica, como herramienta de anlisis y descubrimiento de
conocimiento a partir de datos de observacin o de resultados de
experimentos.
OBJETIVO
El objetivo fundamental de este taller es conocer la aplicacin de las

tcnicas de minera de datos apropiadas para problemas concretos
de extraccin de conocimiento til para el anlisis o la toma de
decisiones y as mismo conocer la herramienta SPSS CLEMENTINE
mediante ejemplo de problemas Descriptivos y Predictivos.
DESCRIPCION
En este taller se presenta el problema del anlisis inteligente y

automtico de la informacin para el descubrimiento de
conocimiento til. Para abordarlo, se introducir el rea de la
Extraccin de Conocimiento a partir de Bases de Datos (KDD), sus
fases y se presentarn las tcnicas de aprendizaje automtico ms
habituales en minera de datos. Se estudiar la idoneidad de cada
una para diferentes problemas. El taller intercala la presentacin de
conocimientos tericos con la aplicacin prctica de los mismos
sobre un paquete de minera de datos (SPSS Clementine).
TEMARIO
1. El proceso KDD
2. Minera de Datos
3. El Problema de la Extraccin Automtica de Conocimiento.
4. Tareas y Tcnicas
5. Caractersticas de las diferentes Tcnicas de Minera de Datos
6. Herramientas de Minera de Datos
7. Anlisis de casos
1. EL PROCESO KDD
El descubrimiento de conocimiento en bases de datos

(Knowledge Discovery in Databases, KDD). Se refiere a
un proceso que consta de una serie de Etapas, mientras
que la minera de datos es slo una de ellas.
1. EL PROCESO KDD : ETAPAS
1. Determinar las fuentes de informacin que pueden ser tiles y

dnde conseguirlas.
2. Disear el esquema de un almacn de datos (Data
Warehouse) que consiga unificar de manera operativa toda la
informacin recogida.
3. Implantacin del almacn de datos que permita la
navegacin y visualizacin previa de sus datos, para
discernir qu aspectos puede interesar que sean estudiados.
4. Seleccin, limpieza y transformacin de los datos que se van
a analizar. La seleccin incluye tanto una criba o fusin
horizontal (filas) como vertical (atributos).
5. Seleccionar y aplicar el mtodo de minera de datos
apropiado.
6. Evaluacin, interpretacin, transformacin y representacin
de los patrones extrados.
7. Difusin y uso del nuevo conocimiento.
1. EL PROCESO KDD : ETAPA 1 - RECOPILACION DE DATOS
Generalmente, la informacin que se quiere investigar

sobre un cierto dominio de la organizacin se encuentra:
En bases de datos y otras fuentes muy diversas,

Tanto internas como externas.
Muchas de estas fuentes son las que se utilizan para el
trabajo transaccional.
El anlisis posterior ser mucho ms sencillo si la fuente es

unificada, accesible (interna) y desconectada del trabajo
transaccional.
1. EL PROCESO KDD : ETAPA 1 - RECOPILACION DE DATOS
Recopilacin de Informacin Externa:
Aparte de informacin interna de la organizacin, los

almacenes de datos pueden recopilar informacin externa:
Demografas (censo), pginas amarillas, psicografas,
grficos web, informacin de otras organizaciones.
Datos compartidos en una industria o rea de negocio,
organizaciones y colegios profesionales, catlogos, etc.
Datos resumidos de reas geogrficas, distribucin de la
competencia, evolucin de la economa, informacin de
calendarios y climatolgicas, programaciones televisivas
deportivas, catstofres.
Bases de datos externas compradas a otras compaas.
1. EL PROCESO KDD : ETAPA 2 - SELECCIN, LIMPIEZA Y TRANSFORMACIN DE DATOS
Limpieza (data cleansing) y criba (seleccin) de datos:
Se deben eliminar el mayor nmero posible de datos

errneos o inconsistentes (limpieza) e irrelevantes (criba).
Mtodos estadsticos casi exclusivamente.

Histogramas (deteccin de datos anmalos).
Seleccin de datos (muestreo, ya sea verticalmente,
eliminando atributos, u horizontalmente, eliminando
tuplas).
Redefinicin de atributos (agrupacin o separacin).
Acciones ante datos anmalos (outliers):
Ignorar: algunos algoritmos son robustos a datos anmalos

(p.ej.rboles)
Filtrar (eliminar o reemplazar) la columna: solucin extrema,
pero a veces existe otra columna dependiente con datos de
mayor calidad. Preferible a eliminar la columna es
reemplazarla por una columna discreta diciendo si el valor era
normal o outlier (por encima o por debajo).
Filtrar la fila: claramente sesga los datos, porque muchas
veces las causas de un dato errneo estn relacionadas con
casos o tipos especiales.
Reemplazar el valor: por el valor nulo si el algoritmo lo trata
bien o por mximos o mnimos, dependiendo por donde es el
outlier, o por medias.
Acciones ante datos faltantes (missing values):

Ignorar: algunos algoritmos son robustos a datos faltantes (p.ej.
rboles).
Filtrar (eliminar o reemplazar) la columna: solucin extrema,
pero a veces existe otra columna dependiente con datos de mayor
calidad. Preferible a eliminar la columna, es reemplazarla por una
columna booleana diciendo si el valor exista o no.
Filtrar la fila: claramente sesga los datos, porque muchas veces
las causas de un dato faltante estn relacionadas con casos o
tipos especiales.
Reemplazar el valor: por medias.
Segmentar: se segmentan las tuplas por los valores que tienen
disponibles. Se obtienen modelos diferentes para cada segmento y
luego se combinan.
Modificar la poltica de calidad de datos y esperar hasta que los
datos faltantes estn disponibles.
Intercambio de Dimensiones: (filas por columnas)
EJEMPLO:
Una tabla de cestas de la compra, donde cada atributo indica si el
producto se ha comprado o no.
Objetivo: Ver si dos productos se compran conjuntamente
(regla de asociacin).
Es muy costoso: hay que observar al menos la raz cuadrada de

todas las relaciones (cestas).
Y puede haber millones en una semana...
Sin embargo...
Productos slo hay unos 10.000.

Intercambio de Dimensiones: EJEMPLO

Si se intercambian filas por columnas tenemos:
Slo es necesario hace XOR entre dos filas para saber si hay
asociacin.
1. EL PROCESO KDD : ETAPA 3 - MINERA DE DATOS
Patrones a descubrir:
Una vez recogidos los datos de inters, un explorador puede
decidir qu tipos de patrn quiere descubrir.
El tipo de conocimiento que se desea extraer va a marcar
claramente la tcnica de minera de datos a utilizar.
Segn como sea la bsqueda del conocimiento se puede
distinguir entre:
Directed data mining: se sabe claramente lo que se
busca, generalmente predecir unos ciertos datos o clases.
Undirected data mining: no se sabe lo que se busca, se
trabaja con los datos (hasta que confiesen!).
En el primer caso, los propios sistemas de minera de datos se
encargan generalmente de elegir el algoritmo ms idneo entre
los disponibles para un determinado tipo de patrn a buscar.
1. EL PROCESO KDD : ETAPA 3 - MINERA DE DATOS
Esta etapa produce una o ms hiptesis de modelos.

Para seleccionar y validar estos modelos es necesario el uso
de criterios de evaluacin de hiptesis.
Por ejemplo:
1 Fase: Comprobacin de la precisin del modelo en un
banco de ejemplos independiente del que se ha utilizado
para aprender el modelo. Se puede elegir el mejor modelo.
2 Fase: Se puede realizar una experiencia piloto con ese
modelo. Por ejemplo, si el modelo encontrado se quera
utilizar para predecir la respuesta de los clientes a un nuevo
producto, se puede enviar un mailing a un subconjunto de
clientes y evaluar la fiabilidad del modelo.
1. EL PROCESO KDD : ETAPA 4 - INTERPRETACIN Y DIFUSIN
El despliegue del modelo a veces es trivial pero otras veces requiere

un proceso de implementacin o interpretacin:
El modelo puede requerir implementacin (p.ej. tiempo real

deteccin de tarjetas fraudulentas).
El modelo es descriptivo y requiere interpretacin (p.ej. una
caracterizacin de zonas geogrficas segn la distribucin de
los productos vendidos).
El modelo puede tener muchos usuarios y necesita difusin: el
modelo puede requerir ser expresado de una manera
comprensible para ser distribuido en la organizacin (p.ej. las
cervezas y los productos congelados se compran
frecuentemente en conjunto ponerlos en estantes distantes).
1. EL PROCESO KDD : ETAPA 5 - ACTUALIZACIN Y MONITORIZACIN
Los procesos derivan en un mantenimiento:
Actualizacin: Un modelo vlido puede dejar de

serlo: cambio de contexto (econmicos, competencia,
fuentes de datos, etc.).
Monitorizacin: Consiste en ir revalidando el modelo

con cierta frecuencia sobre nuevos datos, con el
objetivo de detectar si el modelo requiere una
actualizacin.
Producen realimentaciones en el proceso KDD.

2. MINERA DE DATOS
La Minera de Datos es un conjunto de tcnicas de anlisis de datos

que permiten:
Extraer patrones, tendencias y regularidades para describir y

comprender mejor los datos.
Extraer patrones y tendencias para predecir

comportamientos futuros.
Debido al gran volumen de datos este anlisis ya no puede ser

manual (ni incluso facilitado por herramientas de almacenes de datos
y OLAP) sino que ha de ser (semi-)automtico.
2. MINERA DE DATOS
La Minera de Datos se diferencia claramente del resto de

herramientas en el sentido de que:
no transforma y facilita el acceso a la informacin para

que el usuario la analice ms fcilmente.
LA MINERA DE DATOS ANALIZA LOS DATOS

2. MINERA DE DATOS
La minera de datos es slo una etapa del proceso de extraccin de

conocimiento a partir de datos.
Este proceso consta de varias fases:

Preparacin de Datos (seleccin, limpieza, y transformacin),
Minera de Datos, Evaluacin, Difusin y Uso de Modelos.
incorpora muy diferentes tcnicas
rboles de decisin, regresin lineal, redes neuronales
artificiales, tcnicas bayesianas, mquinas de soporte
vectorial, etc.
de campos diversos:
aprendizaje automtico e I.A., estadstica, bases de datos,
aborda una tipologa variada de problemas:
clasificacin, categorizacin, estimacin/regresin,
agrupamiento, ...
MINERA DE DATOS
A que tipo de Datos puede aplicarse la

MINERIA DE DATOS?
Bases de Datos Relacionales

Bases de Datos Espaciales DATOS ESTRUCTURADOS
Bases de Datos Temporales
Bases de Datos Documentales
Bases de Datos Multimedia
La WEB DATOS NO
ESTRUCTURADOS
Documentos de Texto
3. EL PROBLEMA DE LA EXTRACCION
AUTOMATICA DE CONOCIMIENTO
3. EL PROBLEMA DE LA EXTRACCIN AUTOMTICA DE CONOCIMIENTO.
La extraccin de
conocimiento a partir de
datos tiene como objetivo
descubrir patrones que
deben ser validos,
novedosos, interesantes y,
en ltima instancia
comprensibles.
El proceso de minera de datos convierte

datos en conocimiento.
En algunos casos se llega a decir que el
objetivo es extraer verdad a partir de
basura.
Los procesos que extraen patrones son
computacionalmente costosos. Y son mas
costosos cuanto mas expresivos, novedosos,
comprensibles e interesantes queramos que
sean los patrones extrados.
En la figura, las tcnicas de MD aparecen como una

especie de colador que produce una serie de patrones
claros y limpios (sin asperezas ni obstculos).
Pero las cosas no son tan simples. Es entonces que se
debe pensar en un colador sofisticado en su interior.
Proceso ideal de Minera de

Datos
Vista
minable
Tcnica de
Minera de Patrones
Tarea, conocimiento Datos
previo, criterios de
calidad
4. TAREAS Y TECNICAS DE MINERIA
DE DATOS
4. TAREAS Y TCNICAS
Un tipo de tarea de MD es un tipo de

problema de Minera de Datos.
Por ejemplo: Clasificar las piezas de
cierto proveedor en ptimas, defectuosas
reparables y defectuosas irreparables. Es
un tipo de tarea de clasificacin.
Esta tarea, por ejemplo, se podra
resolver mediante rboles de decisin o
redes neuronales, entre otras tcnicas.
4. TAREAS Y TCNICAS
TAREAS
Las TAREAS mas importantes de la Minera

de Datos son:
Predictivas
(Aprendizaje Supervizado)
Descriptivas
*(Aprendizaje no
Supervizado)
4. TAREAS Y TCNICAS
TAREAS
Se trata de problemas y
tareas en las que hay que
Predictivas predecir uno o mas valores
para uno o mas ejemplos
(clase, categora o valor
numrico).
Clasificacin o discriminacin.
Ejm. Clasificar un correo electrnico como

Spam.
Clasificacin Suave.
Ejm. Clasificar entre varios medicamentos

cual es el mejor para una determinada
patologa.
4. TAREAS Y TCNICAS
TAREAS Predictivas
Estimacin de probabilidad de clasificacin.

Ejm. De la clasificacin de varios
medicamentos Cul es el mejor para una
determinada patologa?
Categorizacin
Ejm. Dado un conjunto de documentos,
asignar categoras de los temas que trata
cada documento.
Preferencias o priorizacin.
Ejm. De una serie de candidatos para un
trabajo, dar un orden priorizado para cubrir el
puesto.
4. TAREAS Y TCNICAS
TAREAS
El objetivo no es predecir
Descriptivas nuevos datos sino describir
los existentes.
Agrupamiento (Clustering).
Ejm. Agrupar clientes en diferentes
segmentos, para estudiar que grupos se
comportan mejor ente determinados
productos.
Correlaciones y factorizaciones.
Ejm. Detectar atributos redundantes.
4. TAREAS Y TCNICAS
TAREAS Descriptivas
Reglas de asociacin.
Ejm. Si compra aguacates = s Y compra
cebollas = s ENTONCES compra limones =
si
Dependencias funcionales.
Ejm. Dada la edad, el nivel de ingresos, el
cdigo postal y estado civil, entonces se
puede determinar si el cliente tiene vehiculo.
Deteccin de valores e instancias anmalas.
Ejm. De las comparas realizadas con tarjeta,
encontrar aquellas que son anmalas
(extraas).
4. TAREAS Y TCNICAS
TCNICAS
Correspondencia entre tareas y tcnicas
Cada una de las tareas anteriores , requiere

mtodos, tcnicas o algoritmos para
resolverlas.
La relacin que se muestra a continuacin
solo pretende dar una resea de la variedad
de las tcnicas existentes.
4. TAREAS Y TCNICAS
TCNICAS
Tcnicas algebraicas y estadsticas.

Tcnicas bayesianas.
Tcnicas basadas en conteos de frecuencias
y tablas de contingencia.
Tcnicas basadas en rboles de decisin y
sistemas de aprendizaje de reglas.
Tcnicas relacionales, declarativas y
estructurales.
Tcnicas basadas en redes neuronales
artificiales.
Tcnicas basadas en ncleo.
Tcnicas estocsticas y difusas.
Tcnicas basadas en casos, en densidad o
4. TAREAS Y TCNICAS
CORRELACION : TCNICAS y TAREAS mas comunes

PREDICTIVO DESCRIPTIVO
Nombre
Clasificaci Regresin Agrupamiento Reglas de Correlaciones/
n Asociacin Factorizaciones
Redes Neuronales
rboles de decisin ID3, C4.5,
C5.0
rboles de decisin CART
Otros rboles de decisin
Redes de Kohonen
Regresin lineal y logartmica
Regresin logstica
Kmeans
Apriori
Naive Bayes
Vecinos mas prximos
Anlisis factorial y de comp.
ppales.
Twostep, Cobweb
Algoritmos genticos y evolutivos
Maquinas de soporte vectorial
CN2 rules (cobertura)
5. CARACTERISTICAS DE LAS
DIFERENTES TECNICAS DE MINERIA
DE DATOS
5. CARACTERISTICAS DE LAS DIFERENTES TECNICAS DE MINERIA DE DATOS
Tcnicas de modelizacin estadstica.

Tcnicas bayesianas.
Tcnicas relacionales y declarativas.
artificiales.
Tcnicas basadas en ncleo y mquinas de
soporte vectorial.
distancia.
Tcnicas de modelizacin estadstica.

Las tcnicas paramtricas son muy eficientes.
Las tcnicas no paramtricas son mas expresivas.
Disponibles en muchas herramientas.
Ambas tcnicas trabajan cmodamente con datos
numricos.
Tcnicas bayesianas.
Son fciles de usar.
Muy eficientes.
Pueden tratar muchos atributos (cientos o miles).
Son muy robustos al ruido.
La expresin es limitada y depende de la discretizacin.

Son una de las estrellas de la minera de datos.
Fciles de usar, admiten atributos discretos y continuos.
Son bastante eficientes y obtienen resultados muy buenos.
Uno de los inconvenientes es su limitada expresividad.
Tambin son inestables ante variaciones de la muestra.
Tcnicas relacionales y declarativas.

Son muy expresivas.
La ventaja son que sus modelos son comprensibles.
Los mayores inconveniente son la dificultad de manejo y la
poca eficiencia.

artificiales.
Requieren de cierta experiencia para poder sacarle el
mximo provecho.
Su ventaja es que se obtienen precisiones muy altas.
Son muy expresivas y permiten capturar modelos no
lineales.
Necesitan muchos ejemplos para su aprendizaje.
Son relativamente lentas.
Tcnicas basadas en ncleo y mquinas de

soporte vectorial.
Son muy eficientes.
Proporcionan modelos muy precisos.
El inconveniente es saber elegir una buena funcin de
ncleo.
Se pierde cierta comprensibilidad.

Requieren bastante tiempo para llegar a una convergencia.
Es bastante flexible.
Son expresivas debido al uso de fronteras difusas.

distancia.
Son fciles de usar.
Eficientes si el nmero de ejemplos no es excesivamente
grande.
Tienen bastante expresividad.
No producen un conocimiento comprensible.
6. HERRAMIENTAS DE MINERIA DE
DATOS
6. HERRAMIENTAS DE MINERIA DE DATOS
Existen 3 entornos: Libreras, Suites y Herramientas especificas
LIBRERIAS
Conjunto de mtodos que implementan las funcionalidades y
utilidades bsicas propias de la MD: acceso a datos, inferencia de
modelos (rboles de decisin, Redes neuronales, mtodos
bayesianos,etc) exportacin y comprobacin de resultados, etc
Ejemplo:
XELOPES (Extended Library for Prodsys Embedded Solutions), disponible

para c++ y Java
MLC ( Machine Learning Library) C++

SUITES
Integra en un mismo entorno capacidades para el preprocesado
de datos, diferentes modelos de anlisis, facilidades para el
diseo de experimentos y soporte grafico para la visualizacin de
resultados.
Ejemplo:
SPSS Clementine (arquitectura Cliente-Servidor)
WEKA (waikato for knowledge analysis), libre distribucion,
implementada en java
Kepler (comercial), implementada en java
ODMS (Oracle Data Mining Suite (Darwin)) independiente del
Java Data mining
DBMiner (comercial)
Yale (Universidad de dormund) Ahora RAPID MINER (Gratuita)
DB2 Intelligent Miner (IBM)
SAS Enterprise Miner
STATISTCA Data Miner
HERRAMIENTAS ESPECIFICAS
Se caracterizan por centrarse en un determinado modelos (redes
neuronales, rboles de decisin, modelos estadsticos, etc) o en
una determinada tarea de MD ( Clasificacin, agrupamiento, etc)
Ejemplo:
CART (Inferencia de rboles de decisin) Universidad de Salford
Autoclas (tareas de agrupamiento con mtodos bayesianos) NASA
Neural Planner, Neuro Diet y Easy NN-Plus (Modelos de redes
neuronales)
NeuroShell (modelos de Redes Neuronales)
SEE5 (Modelos de clasificacin basados en arboles de decision)
CARACTERSTICAS DEL SPSS CLEMENTINE

Acceso a Datos (ODBC, Excel, Archivos planos ASCII y SPSS
Preprocesado de Datos: muestreo, particiones, reordenacin
de campos, fusin de tablas
Tcnicas de Aprendizaje (rboles de decisin, NN,
Agrupamiento, Reglas de asociacin, regresin lineal y logstica,
combinacin de modelos
Tcnicas para la evaluacin de modelos guiados por las
condiciones especificadas
Visualizacin de Resultados: grficos 3D y animados,
navegadores para rboles de decisin, etc
Exportacin, Generacin automtica de reportes
CARACTERSTICAS DEL SPSS CLEMENTINE

Clementine clasifica los nodos en seis categoras (aparte de la pestaa
Favoritos, donde se incluyen los nodos ms usados):
Orgenes: Nodos para obtener los datos de trabajo (fuentes de datos).

Oper. con registros: Operadores para modificar o combinar registros (filas)
de distintas fuentes. Es decir, selecciones y combinaciones.
Oper. con campos: Operadores para modificar o combinar campos
(columnas).
Grficos: Generacin de grficas.
Modelado: Tipos de modelos/patrones que puede generar Clementine
Resultados: Presentacin de tablas, anlisis de modelos, estadsticas,
exportacin de datos.
Las categoras han sido las mismas (salvo pequeos cambios en la

nomenclatura) desde, al menos, la versin 5.2 del Clementine, aunque el
nmero de nodos en cada categora se ha ido incrementando.
7. ANALISIS DE CASOS
7. ANALISIS DE CASOS: 1_ JUGAR TENIS
En este primer ejemplo, vamos a trabajar con los datos acerca de los das que se
ha podido jugar al tenis, dependiendo de diversos aspectos meteorolgicos.
El objetivo es poder determinar (predecir) si hoy podremos jugar al tenis.
Los datos de que disponemos estn en el archivo:JugarTenis.txt y son los
siguientes:
Cielo Temperatura Humedad Viento JugarTenis

Soleado Alta Alta Debil No
Soleado Alta Alta Fuerte No
Nublado Alta Alta Debil Si
Lluvioso Media Alta Debil Si
Lluvioso Baja Normal Debil Si
Lluvioso Baja Normal Fuerte No
Nublado Baja Normal Fuerte Si
Soleado Media Alta Debil No
Soleado Baja Normal Debil Si
Lluvioso Media Normal Debil Si
Soleado Media Normal Fuerte Si
Nublado Media Alta Fuerte Si
Nublado Alta Normal Debil Si
Lluvioso Media Alta Fuerte No
RUTA RESULTANTE:
RUTA RESULTANTE:
RESULTADO:
RESULTADO:
La representacin lgica del rbol anterior sera:
(Cielo=Soleado AND Humedad=Normal) OR (Cielo=Nublado) OR (Cielo=Lluvioso AND

7. ANALISIS DE CASOS: 2_ CLASIFICACION DE FARMACOS
UN PROBLEMA DE CLASIFICACIN
En este caso se trata de predecir el tipo de frmaco que se debe administrar a

un paciente afectado de rinitis alrgica segn distintos parmetros/variables.
Las variables que se recogen en los historiales clnicos de cada paciente son:
Edad
Sexo
Presin sangunea.
Nivel de colesterol.
Nivel de sodio en la sangre.
Nivel de potasio en la sangre.
Hay cinco frmacos posibles:
FarmacoA, FarmacoB, FarmacoC, FarmacoX, FarmacoY.
Se han recogido los datos del medicamento idneo para muchos pacientes en
cuatro hospitales (Archivo FARMACOS.TXT).
OBJETIVO: Se pretende, para nuevos pacientes, determinar el mejor

medicamento a probar.
La primera pregunta que nos podemos hacer es ver qu frmacos son ms
comunes en general, para ver si todos suelen ser igualmente efectivos en
trminos generales. Para ello aadimos un nodo Distribucin en la categora
Grficos y lo enlazamos con la fuente de datos Farmaco. La situacin debe
ser similar a la siguiente:
Vemos que el frmaco ms efectivo es el Y, que se administra con xito en casi

la mitad de los pacientes. Una regla vulgar sera aplicar el frmaco Y, en el caso
que falle, el frmaco X, y as sucesivamente siguiendo las frecuencias de uso
con xito. Con la herramienta Clementine seguro que lo podemos hacer mucho
mejor...
Apliquemos lo mismo que hemos realizado en el ejemplo anterior. Intentemos
generar un rbol de decisin. Construyamos y ejecutemos una ruta con un nodo
Tipo (donde el atributo FARMACO se ha puesto como salida) y con un nodo
C5.0. Aadamos el modelo generado al rea de trabajo como se ve en la siguiente
figura:
Como podemos observar, el rbol tiene bastantes ramas (en concreto 11).
Podemos ver cul es el acierto (tambin denominado precisin o accuracy) de
este rbol respecto a los datos de entrenamiento.
Para ello, conectamos el nodo Tipo al nodo diamante Farmaco y ste a un
nuevo nodo Anlisis de la categora Resultado, como se ve en la siguiente
figura:
Si ejecutamos el nodo anlisis (con

el men contextual pulsando el botn
derecho) obtenemos los siguientes
resultados:
7. ANALISIS DE CASOS: 3_ AGRUPACION DE EMPLEADOS
UN PROBLEMA DE AGRUPACION
La empresa de software para Internet Memo Web quiere extraer tipologas de
empleados, con el objetivo de hacer una poltica de personal ms fundamentada
y seleccionar a qu grupos incentivar.
Las variables que se recogen de las fichas de los 15 empleados de la empresa
son:
Sueldo: sueldo anual en Soles.
Casado: si est casado o no.
Coche: si viene en coche a trabajar (o al menos si lo estaciona en la empresa).
Hijos: si tiene hijos.
Alq/Prop: si vive en una casa alquilada o propia.
Sindic.: si pertenece al sindicato revolucionario de Internet
Bajas/Ao: media del n de bajas por ao
Antigedad: antigedad en la empresa
Sexo: H: hombre, M: mujer.
Los datos de los 15 empleados se encuentran en el archivo empleados.txt).
Se intenta extraer grupos de entre estos quince empleados.
1er Paso: Aadimos un nodo tipo: Archivo VAR

Casa Coch Hijo Alq/Pro Sindi Bajas/A Antiged Sex

#Ej Sueldo do e s p c. o ad o
1 10000 S No 0 Alquiler No 7 15 H
2 20000 No S 1 Alquiler S 3 3 M
3 15000 S S 2 Prop S 5 10 H
4 30000 S S 1 Alquiler No 15 7 M
5 10000 S S 0 Prop S 1 6 H
6 40000 No S 0 Alquiler S 3 16 M
7 25000 No No 0 Alquiler S 0 8 H
8 20000 No S 0 Prop S 2 6 M
9 20000 S S 3 Prop No 7 5 H
10 30000 S S 2 Prop No 1 20 H
11 50000 No No 0 Alquiler No 2 12 M
12 8000 S S 2 Prop No 3 1 H
13 20000 No No 0 Alquiler No 27 5 M
14 10000 No S 0 Alquiler S 0 7 H
15 8000 No S 0 Alquiler No 3 2 H
A continuacin aadimos un nodo Tipo y lo enganchamos. Todos los atributos
deberan ser de ENTRADA exceptuando el nmero de ejemplo (#Ej), que es
irrelevante y pondremos NINGUNA, como se muestra en la siguiente figura:
Ahora vamos a utilizar un algoritmo de clustering para obtener grupos sobre esta
poblacin. En primer lugar vamos a probar con tres grupos. Para ello
aadimos un nodo Kmedias (en modelado), lo enganchamos al nodo Tipo y
modificamos el campo Nmero de conglomerados a 3, tambin marcamos que
nos genere el campo de distancia y que nos muestra la proximidad de
conglomerados, como se ve en la siguiente figura:
Ahora podemos ejecutar la ruta, obteniendo un nodo diamante K-medias. Lo
podemos aadir y enganchar al nodo Tipo, como se muestra en la siguiente
figura:
Si examinamos el nodo diamante

Kmeans vemos qu
caractersticas tiene cada
cluster/conglomerados.
A continuacin, se muestra de
una manera ms resumida a cmo
lo muestra el Clementine (que
incluye desviaciones y distancias):
Podemos verlo de una manera
grfica tal y como lo muestra el
Clementine en la pestaa de
Visor:
En esta visualizacin grfica

podemos ver adems a qu campos
el K-medias les asigna mayor o
menor importancia a la hora de
haber realizado los grupos.
Si aadimos un nodo tabla a la salida del nodo diamante Kmedias podemos
observar qu ejemplos exactamente han cado en qu clster.
Podemos ver a qu conglomerado va a parar cada ejemplo. Pero adems,

podemos ver la distancia al centro de su conglomerado. Cuanto menor es ese
valor la pertenencia a su conglomerado es ms fuerte. En cambio, cuanto
mayor es ese valor el empleado no est tan claramente asignado dentro de su
conglomerado.
GRACIAS!
Grupo de Sistemas Inteligentes

Centro de Ciencias Aplicadas y Desarrollo
Tecnolgico (CCADET)

Mineria - de - Datos - PPT Filename - UTF-8''mineria de Datos

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Mineria - de - Datos - PPT Filename - UTF-8''mineria de Datos

Caricato da

Copyright:

Formati disponibili

INTELIGENCIA ARTIFICIAL

Octubre 2009 Huaraz, PERU

Las tcnicas de minera de datos se emplean para mejorar el

El objetivo fundamental de este taller es conocer la aplicacin de las

En este taller se presenta el problema del anlisis inteligente y

El descubrimiento de conocimiento en bases de datos

1. Determinar las fuentes de informacin que pueden ser tiles y

Generalmente, la informacin que se quiere investigar

En bases de datos y otras fuentes muy diversas,

El anlisis posterior ser mucho ms sencillo si la fuente es

Recopilacin de Informacin Externa:

Aparte de informacin interna de la organizacin, los

Limpieza (data cleansing) y criba (seleccin) de datos:

Se deben eliminar el mayor nmero posible de datos

Mtodos estadsticos casi exclusivamente.

Acciones ante datos anmalos (outliers):

Ignorar: algunos algoritmos son robustos a datos anmalos

Acciones ante datos faltantes (missing values):

Intercambio de Dimensiones: (filas por columnas)

Es muy costoso: hay que observar al menos la raz cuadrada de

Y puede haber millones en una semana...

Productos slo hay unos 10.000.

Intercambio de Dimensiones: EJEMPLO

Esta etapa produce una o ms hiptesis de modelos.

El despliegue del modelo a veces es trivial pero otras veces requiere

El modelo puede requerir implementacin (p.ej. tiempo real

Los procesos derivan en un mantenimiento:

Actualizacin: Un modelo vlido puede dejar de

Monitorizacin: Consiste en ir revalidando el modelo

Producen realimentaciones en el proceso KDD.

La Minera de Datos es un conjunto de tcnicas de anlisis de datos

Extraer patrones, tendencias y regularidades para describir y

Extraer patrones y tendencias para predecir

Debido al gran volumen de datos este anlisis ya no puede ser

La Minera de Datos se diferencia claramente del resto de

no transforma y facilita el acceso a la informacin para

LA MINERA DE DATOS ANALIZA LOS DATOS

La minera de datos es slo una etapa del proceso de extraccin de

Este proceso consta de varias fases:

A que tipo de Datos puede aplicarse la

Bases de Datos Relacionales

El proceso de minera de datos convierte

En la figura, las tcnicas de MD aparecen como una

Proceso ideal de Minera de

Un tipo de tarea de MD es un tipo de

Las TAREAS mas importantes de la Minera

Ejm. Clasificar un correo electrnico como

Ejm. Clasificar entre varios medicamentos

Estimacin de probabilidad de clasificacin.

Cada una de las tareas anteriores , requiere

Tcnicas algebraicas y estadsticas.

CORRELACION : TCNICAS y TAREAS mas comunes

Tcnicas de modelizacin estadstica.

Tcnicas de modelizacin estadstica.

Tcnicas basadas en rboles de decisin y

Tcnicas relacionales y declarativas.

Tcnicas basadas en redes neuronales

Tcnicas basadas en ncleo y mquinas de

Tcnicas estocsticas y difusas.

Tcnicas basadas en casos, en densidad o

Existen 3 entornos: Libreras, Suites y Herramientas especificas

XELOPES (Extended Library for Prodsys Embedded Solutions), disponible

MLC ( Machine Learning Library) C++