Sei sulla pagina 1di 70

INTELIGENCIA ARTIFICIAL

TALLER
DE
MINERIA DE DATOS
Presenta:
MSc. IngGustavo Bojorquez Huerta

Octubre 2009 Huaraz, PERU


CONTENIDO

I.I.Presentacin
Presentacin

II.
II.Objetivo
Objetivo

III.
III.Descripcin
Descripcin

IV.
IV.Temario
Temario
PRESENTACION

Las tcnicas de minera de datos se emplean para mejorar el


rendimiento de procesos de negocio o industriales en los que se
manejan grandes volmenes de informacin estructurada y
almacenada en bases de datos. Por ejemplo, se usan con xito en
aplicaciones de control de procesos productivos, como herramienta de
ayuda a la planificacin y a la decisin en marketing, finanzas, etc.
Asimismo, la minera de datos es fundamental en la investigacin
cientfica y tcnica, como herramienta de anlisis y descubrimiento de
conocimiento a partir de datos de observacin o de resultados de
experimentos.
OBJETIVO

El objetivo fundamental de este taller es conocer la aplicacin de las


tcnicas de minera de datos apropiadas para problemas concretos
de extraccin de conocimiento til para el anlisis o la toma de
decisiones y as mismo conocer la herramienta SPSS CLEMENTINE
mediante ejemplo de problemas Descriptivos y Predictivos.
DESCRIPCION

En este taller se presenta el problema del anlisis inteligente y


automtico de la informacin para el descubrimiento de
conocimiento til. Para abordarlo, se introducir el rea de la
Extraccin de Conocimiento a partir de Bases de Datos (KDD), sus
fases y se presentarn las tcnicas de aprendizaje automtico ms
habituales en minera de datos. Se estudiar la idoneidad de cada
una para diferentes problemas. El taller intercala la presentacin de
conocimientos tericos con la aplicacin prctica de los mismos
sobre un paquete de minera de datos (SPSS Clementine).
TEMARIO

1. El proceso KDD
2. Minera de Datos
3. El Problema de la Extraccin Automtica de Conocimiento.
4. Tareas y Tcnicas
5. Caractersticas de las diferentes Tcnicas de Minera de Datos
6. Herramientas de Minera de Datos
7. Anlisis de casos
1. EL PROCESO KDD

El descubrimiento de conocimiento en bases de datos


(Knowledge Discovery in Databases, KDD). Se refiere a
un proceso que consta de una serie de Etapas, mientras
que la minera de datos es slo una de ellas.
1. EL PROCESO KDD : ETAPAS

1. Determinar las fuentes de informacin que pueden ser tiles y


dnde conseguirlas.
2. Disear el esquema de un almacn de datos (Data
Warehouse) que consiga unificar de manera operativa toda la
informacin recogida.
3. Implantacin del almacn de datos que permita la
navegacin y visualizacin previa de sus datos, para
discernir qu aspectos puede interesar que sean estudiados.
4. Seleccin, limpieza y transformacin de los datos que se van
a analizar. La seleccin incluye tanto una criba o fusin
horizontal (filas) como vertical (atributos).
5. Seleccionar y aplicar el mtodo de minera de datos
apropiado.
6. Evaluacin, interpretacin, transformacin y representacin
de los patrones extrados.
7. Difusin y uso del nuevo conocimiento.
1. EL PROCESO KDD : ETAPA 1 - RECOPILACION DE DATOS

Generalmente, la informacin que se quiere investigar


sobre un cierto dominio de la organizacin se encuentra:

En bases de datos y otras fuentes muy diversas,


Tanto internas como externas.
Muchas de estas fuentes son las que se utilizan para el
trabajo transaccional.

El anlisis posterior ser mucho ms sencillo si la fuente es


unificada, accesible (interna) y desconectada del trabajo
transaccional.
1. EL PROCESO KDD : ETAPA 1 - RECOPILACION DE DATOS

Recopilacin de Informacin Externa:

Aparte de informacin interna de la organizacin, los


almacenes de datos pueden recopilar informacin externa:
Demografas (censo), pginas amarillas, psicografas,
grficos web, informacin de otras organizaciones.
Datos compartidos en una industria o rea de negocio,
organizaciones y colegios profesionales, catlogos, etc.
Datos resumidos de reas geogrficas, distribucin de la
competencia, evolucin de la economa, informacin de
calendarios y climatolgicas, programaciones televisivas
deportivas, catstofres.
Bases de datos externas compradas a otras compaas.
1. EL PROCESO KDD : ETAPA 2 - SELECCIN, LIMPIEZA Y TRANSFORMACIN DE DATOS

Limpieza (data cleansing) y criba (seleccin) de datos:

Se deben eliminar el mayor nmero posible de datos


errneos o inconsistentes (limpieza) e irrelevantes (criba).

Mtodos estadsticos casi exclusivamente.


Histogramas (deteccin de datos anmalos).
Seleccin de datos (muestreo, ya sea verticalmente,
eliminando atributos, u horizontalmente, eliminando
tuplas).
Redefinicin de atributos (agrupacin o separacin).
1. EL PROCESO KDD : ETAPA 2 - SELECCIN, LIMPIEZA Y TRANSFORMACIN DE DATOS

Acciones ante datos anmalos (outliers):

Ignorar: algunos algoritmos son robustos a datos anmalos


(p.ej.rboles)
Filtrar (eliminar o reemplazar) la columna: solucin extrema,
pero a veces existe otra columna dependiente con datos de
mayor calidad. Preferible a eliminar la columna es
reemplazarla por una columna discreta diciendo si el valor era
normal o outlier (por encima o por debajo).
Filtrar la fila: claramente sesga los datos, porque muchas
veces las causas de un dato errneo estn relacionadas con
casos o tipos especiales.
Reemplazar el valor: por el valor nulo si el algoritmo lo trata
bien o por mximos o mnimos, dependiendo por donde es el
outlier, o por medias.
1. EL PROCESO KDD : ETAPA 2 - SELECCIN, LIMPIEZA Y TRANSFORMACIN DE DATOS

Acciones ante datos faltantes (missing values):


Ignorar: algunos algoritmos son robustos a datos faltantes (p.ej.
rboles).
Filtrar (eliminar o reemplazar) la columna: solucin extrema,
pero a veces existe otra columna dependiente con datos de mayor
calidad. Preferible a eliminar la columna, es reemplazarla por una
columna booleana diciendo si el valor exista o no.
Filtrar la fila: claramente sesga los datos, porque muchas veces
las causas de un dato faltante estn relacionadas con casos o
tipos especiales.
Reemplazar el valor: por medias.
Segmentar: se segmentan las tuplas por los valores que tienen
disponibles. Se obtienen modelos diferentes para cada segmento y
luego se combinan.
Modificar la poltica de calidad de datos y esperar hasta que los
datos faltantes estn disponibles.
1. EL PROCESO KDD : ETAPA 2 - SELECCIN, LIMPIEZA Y TRANSFORMACIN DE DATOS

Intercambio de Dimensiones: (filas por columnas)

EJEMPLO:
Una tabla de cestas de la compra, donde cada atributo indica si el
producto se ha comprado o no.
Objetivo: Ver si dos productos se compran conjuntamente
(regla de asociacin).

Es muy costoso: hay que observar al menos la raz cuadrada de


todas las relaciones (cestas).

Y puede haber millones en una semana...

Sin embargo...

Productos slo hay unos 10.000.


1. EL PROCESO KDD : ETAPA 2 - SELECCIN, LIMPIEZA Y TRANSFORMACIN DE DATOS

Intercambio de Dimensiones: EJEMPLO


Si se intercambian filas por columnas tenemos:

Slo es necesario hace XOR entre dos filas para saber si hay
asociacin.
1. EL PROCESO KDD : ETAPA 3 - MINERA DE DATOS

Patrones a descubrir:
Una vez recogidos los datos de inters, un explorador puede
decidir qu tipos de patrn quiere descubrir.
El tipo de conocimiento que se desea extraer va a marcar
claramente la tcnica de minera de datos a utilizar.
Segn como sea la bsqueda del conocimiento se puede
distinguir entre:
Directed data mining: se sabe claramente lo que se
busca, generalmente predecir unos ciertos datos o clases.
Undirected data mining: no se sabe lo que se busca, se
trabaja con los datos (hasta que confiesen!).
En el primer caso, los propios sistemas de minera de datos se
encargan generalmente de elegir el algoritmo ms idneo entre
los disponibles para un determinado tipo de patrn a buscar.
1. EL PROCESO KDD : ETAPA 3 - MINERA DE DATOS

Esta etapa produce una o ms hiptesis de modelos.


Para seleccionar y validar estos modelos es necesario el uso
de criterios de evaluacin de hiptesis.
Por ejemplo:
1 Fase: Comprobacin de la precisin del modelo en un
banco de ejemplos independiente del que se ha utilizado
para aprender el modelo. Se puede elegir el mejor modelo.
2 Fase: Se puede realizar una experiencia piloto con ese
modelo. Por ejemplo, si el modelo encontrado se quera
utilizar para predecir la respuesta de los clientes a un nuevo
producto, se puede enviar un mailing a un subconjunto de
clientes y evaluar la fiabilidad del modelo.
1. EL PROCESO KDD : ETAPA 4 - INTERPRETACIN Y DIFUSIN

El despliegue del modelo a veces es trivial pero otras veces requiere


un proceso de implementacin o interpretacin:

El modelo puede requerir implementacin (p.ej. tiempo real


deteccin de tarjetas fraudulentas).
El modelo es descriptivo y requiere interpretacin (p.ej. una
caracterizacin de zonas geogrficas segn la distribucin de
los productos vendidos).
El modelo puede tener muchos usuarios y necesita difusin: el
modelo puede requerir ser expresado de una manera
comprensible para ser distribuido en la organizacin (p.ej. las
cervezas y los productos congelados se compran
frecuentemente en conjunto ponerlos en estantes distantes).
1. EL PROCESO KDD : ETAPA 5 - ACTUALIZACIN Y MONITORIZACIN

Los procesos derivan en un mantenimiento:

Actualizacin: Un modelo vlido puede dejar de


serlo: cambio de contexto (econmicos, competencia,
fuentes de datos, etc.).

Monitorizacin: Consiste en ir revalidando el modelo


con cierta frecuencia sobre nuevos datos, con el
objetivo de detectar si el modelo requiere una
actualizacin.

Producen realimentaciones en el proceso KDD.


2. MINERA DE DATOS

La Minera de Datos es un conjunto de tcnicas de anlisis de datos


que permiten:

Extraer patrones, tendencias y regularidades para describir y


comprender mejor los datos.

Extraer patrones y tendencias para predecir


comportamientos futuros.

Debido al gran volumen de datos este anlisis ya no puede ser


manual (ni incluso facilitado por herramientas de almacenes de datos
y OLAP) sino que ha de ser (semi-)automtico.
2. MINERA DE DATOS

La Minera de Datos se diferencia claramente del resto de


herramientas en el sentido de que:

no transforma y facilita el acceso a la informacin para


que el usuario la analice ms fcilmente.

LA MINERA DE DATOS ANALIZA LOS DATOS


2. MINERA DE DATOS

La minera de datos es slo una etapa del proceso de extraccin de


conocimiento a partir de datos.

Este proceso consta de varias fases:


Preparacin de Datos (seleccin, limpieza, y transformacin),
Minera de Datos, Evaluacin, Difusin y Uso de Modelos.
incorpora muy diferentes tcnicas
rboles de decisin, regresin lineal, redes neuronales
artificiales, tcnicas bayesianas, mquinas de soporte
vectorial, etc.
de campos diversos:
aprendizaje automtico e I.A., estadstica, bases de datos,
aborda una tipologa variada de problemas:
clasificacin, categorizacin, estimacin/regresin,
agrupamiento, ...
MINERA DE DATOS

A que tipo de Datos puede aplicarse la


MINERIA DE DATOS?

Bases de Datos Relacionales


Bases de Datos Espaciales DATOS ESTRUCTURADOS
Bases de Datos Temporales
Bases de Datos Documentales
Bases de Datos Multimedia
La WEB DATOS NO
ESTRUCTURADOS
Documentos de Texto
3. EL PROBLEMA DE LA EXTRACCION
AUTOMATICA DE CONOCIMIENTO
3. EL PROBLEMA DE LA EXTRACCIN AUTOMTICA DE CONOCIMIENTO.

La extraccin de
conocimiento a partir de
datos tiene como objetivo
descubrir patrones que
deben ser validos,
novedosos, interesantes y,
en ltima instancia
comprensibles.
3. EL PROBLEMA DE LA EXTRACCIN AUTOMTICA DE CONOCIMIENTO.

El proceso de minera de datos convierte


datos en conocimiento.
En algunos casos se llega a decir que el
objetivo es extraer verdad a partir de
basura.
Los procesos que extraen patrones son
computacionalmente costosos. Y son mas
costosos cuanto mas expresivos, novedosos,
comprensibles e interesantes queramos que
sean los patrones extrados.
3. EL PROBLEMA DE LA EXTRACCIN AUTOMTICA DE CONOCIMIENTO.

En la figura, las tcnicas de MD aparecen como una


especie de colador que produce una serie de patrones
claros y limpios (sin asperezas ni obstculos).
Pero las cosas no son tan simples. Es entonces que se
debe pensar en un colador sofisticado en su interior.

Proceso ideal de Minera de


Datos
Vista
minable
Tcnica de
Minera de Patrones
Tarea, conocimiento Datos
previo, criterios de
calidad
4. TAREAS Y TECNICAS DE MINERIA
DE DATOS
4. TAREAS Y TCNICAS

Un tipo de tarea de MD es un tipo de


problema de Minera de Datos.
Por ejemplo: Clasificar las piezas de
cierto proveedor en ptimas, defectuosas
reparables y defectuosas irreparables. Es
un tipo de tarea de clasificacin.
Esta tarea, por ejemplo, se podra
resolver mediante rboles de decisin o
redes neuronales, entre otras tcnicas.
4. TAREAS Y TCNICAS

TAREAS

Las TAREAS mas importantes de la Minera


de Datos son:

Predictivas
(Aprendizaje Supervizado)

Descriptivas
*(Aprendizaje no
Supervizado)
4. TAREAS Y TCNICAS

TAREAS
Se trata de problemas y
tareas en las que hay que
Predictivas predecir uno o mas valores
para uno o mas ejemplos
(clase, categora o valor
numrico).
Clasificacin o discriminacin.

Ejm. Clasificar un correo electrnico como


Spam.
Clasificacin Suave.

Ejm. Clasificar entre varios medicamentos


cual es el mejor para una determinada
patologa.
4. TAREAS Y TCNICAS

TAREAS Predictivas

Estimacin de probabilidad de clasificacin.


Ejm. De la clasificacin de varios
medicamentos Cul es el mejor para una
determinada patologa?
Categorizacin
Ejm. Dado un conjunto de documentos,
asignar categoras de los temas que trata
cada documento.
Preferencias o priorizacin.
Ejm. De una serie de candidatos para un
trabajo, dar un orden priorizado para cubrir el
puesto.
4. TAREAS Y TCNICAS

TAREAS

El objetivo no es predecir
Descriptivas nuevos datos sino describir
los existentes.

Agrupamiento (Clustering).
Ejm. Agrupar clientes en diferentes
segmentos, para estudiar que grupos se
comportan mejor ente determinados
productos.
Correlaciones y factorizaciones.
Ejm. Detectar atributos redundantes.
4. TAREAS Y TCNICAS

TAREAS Descriptivas

Reglas de asociacin.
Ejm. Si compra aguacates = s Y compra
cebollas = s ENTONCES compra limones =
si
Dependencias funcionales.
Ejm. Dada la edad, el nivel de ingresos, el
cdigo postal y estado civil, entonces se
puede determinar si el cliente tiene vehiculo.
Deteccin de valores e instancias anmalas.
Ejm. De las comparas realizadas con tarjeta,
encontrar aquellas que son anmalas
(extraas).
4. TAREAS Y TCNICAS

TCNICAS
Correspondencia entre tareas y tcnicas

Cada una de las tareas anteriores , requiere


mtodos, tcnicas o algoritmos para
resolverlas.
La relacin que se muestra a continuacin
solo pretende dar una resea de la variedad
de las tcnicas existentes.
4. TAREAS Y TCNICAS

TCNICAS

Tcnicas algebraicas y estadsticas.


Tcnicas bayesianas.
Tcnicas basadas en conteos de frecuencias
y tablas de contingencia.
Tcnicas basadas en rboles de decisin y
sistemas de aprendizaje de reglas.
Tcnicas relacionales, declarativas y
estructurales.
Tcnicas basadas en redes neuronales
artificiales.
Tcnicas basadas en ncleo.
Tcnicas estocsticas y difusas.
Tcnicas basadas en casos, en densidad o
4. TAREAS Y TCNICAS

CORRELACION : TCNICAS y TAREAS mas comunes


PREDICTIVO DESCRIPTIVO
Nombre
Clasificaci Regresin Agrupamiento Reglas de Correlaciones/
n Asociacin Factorizaciones
Redes Neuronales
rboles de decisin ID3, C4.5,
C5.0
rboles de decisin CART
Otros rboles de decisin
Redes de Kohonen
Regresin lineal y logartmica
Regresin logstica
Kmeans
Apriori
Naive Bayes
Vecinos mas prximos
Anlisis factorial y de comp.
ppales.
Twostep, Cobweb
Algoritmos genticos y evolutivos
Maquinas de soporte vectorial
CN2 rules (cobertura)
5. CARACTERISTICAS DE LAS
DIFERENTES TECNICAS DE MINERIA
DE DATOS
5. CARACTERISTICAS DE LAS DIFERENTES TECNICAS DE MINERIA DE DATOS

Tcnicas de modelizacin estadstica.


Tcnicas bayesianas.
Tcnicas basadas en rboles de decisin y
sistemas de aprendizaje de reglas.
Tcnicas relacionales y declarativas.
Tcnicas basadas en redes neuronales
artificiales.
Tcnicas basadas en ncleo y mquinas de
soporte vectorial.
Tcnicas estocsticas y difusas.
Tcnicas basadas en casos, en densidad o
distancia.
5. CARACTERISTICAS DE LAS DIFERENTES TECNICAS DE MINERIA DE DATOS

Tcnicas de modelizacin estadstica.


Las tcnicas paramtricas son muy eficientes.
Las tcnicas no paramtricas son mas expresivas.
Disponibles en muchas herramientas.
Ambas tcnicas trabajan cmodamente con datos
numricos.

Tcnicas bayesianas.
Son fciles de usar.
Muy eficientes.
Pueden tratar muchos atributos (cientos o miles).
Son muy robustos al ruido.
La expresin es limitada y depende de la discretizacin.
5. CARACTERISTICAS DE LAS DIFERENTES TECNICAS DE MINERIA DE DATOS

Tcnicas basadas en rboles de decisin y


sistemas de aprendizaje de reglas.
Son una de las estrellas de la minera de datos.
Fciles de usar, admiten atributos discretos y continuos.
Son bastante eficientes y obtienen resultados muy buenos.
Uno de los inconvenientes es su limitada expresividad.
Tambin son inestables ante variaciones de la muestra.

Tcnicas relacionales y declarativas.


Son muy expresivas.
La ventaja son que sus modelos son comprensibles.
Los mayores inconveniente son la dificultad de manejo y la
poca eficiencia.
5. CARACTERISTICAS DE LAS DIFERENTES TECNICAS DE MINERIA DE DATOS

Tcnicas basadas en redes neuronales


artificiales.
Requieren de cierta experiencia para poder sacarle el
mximo provecho.
Su ventaja es que se obtienen precisiones muy altas.
Son muy expresivas y permiten capturar modelos no
lineales.
Necesitan muchos ejemplos para su aprendizaje.
Son relativamente lentas.

Tcnicas basadas en ncleo y mquinas de


soporte vectorial.
Son muy eficientes.
Proporcionan modelos muy precisos.
El inconveniente es saber elegir una buena funcin de
ncleo.
Se pierde cierta comprensibilidad.
5. CARACTERISTICAS DE LAS DIFERENTES TECNICAS DE MINERIA DE DATOS

Tcnicas estocsticas y difusas.


Requieren bastante tiempo para llegar a una convergencia.
Es bastante flexible.
Son expresivas debido al uso de fronteras difusas.

Tcnicas basadas en casos, en densidad o


distancia.
Son fciles de usar.
Eficientes si el nmero de ejemplos no es excesivamente
grande.
Tienen bastante expresividad.
No producen un conocimiento comprensible.
6. HERRAMIENTAS DE MINERIA DE
DATOS
6. HERRAMIENTAS DE MINERIA DE DATOS

Existen 3 entornos: Libreras, Suites y Herramientas especificas

LIBRERIAS
Conjunto de mtodos que implementan las funcionalidades y
utilidades bsicas propias de la MD: acceso a datos, inferencia de
modelos (rboles de decisin, Redes neuronales, mtodos
bayesianos,etc) exportacin y comprobacin de resultados, etc
Ejemplo:

XELOPES (Extended Library for Prodsys Embedded Solutions), disponible


para c++ y Java

MLC ( Machine Learning Library) C++


6. HERRAMIENTAS DE MINERIA DE DATOS

SUITES
Integra en un mismo entorno capacidades para el preprocesado
de datos, diferentes modelos de anlisis, facilidades para el
diseo de experimentos y soporte grafico para la visualizacin de
resultados.
Ejemplo:
SPSS Clementine (arquitectura Cliente-Servidor)
WEKA (waikato for knowledge analysis), libre distribucion,
implementada en java
Kepler (comercial), implementada en java
ODMS (Oracle Data Mining Suite (Darwin)) independiente del
Java Data mining
DBMiner (comercial)
Yale (Universidad de dormund) Ahora RAPID MINER (Gratuita)
DB2 Intelligent Miner (IBM)
SAS Enterprise Miner
STATISTCA Data Miner
6. HERRAMIENTAS DE MINERIA DE DATOS

HERRAMIENTAS ESPECIFICAS
Se caracterizan por centrarse en un determinado modelos (redes
neuronales, rboles de decisin, modelos estadsticos, etc) o en
una determinada tarea de MD ( Clasificacin, agrupamiento, etc)
Ejemplo:
CART (Inferencia de rboles de decisin) Universidad de Salford
Autoclas (tareas de agrupamiento con mtodos bayesianos) NASA
Neural Planner, Neuro Diet y Easy NN-Plus (Modelos de redes
neuronales)
NeuroShell (modelos de Redes Neuronales)
SEE5 (Modelos de clasificacin basados en arboles de decision)
6. HERRAMIENTAS DE MINERIA DE DATOS

CARACTERSTICAS DEL SPSS CLEMENTINE


Acceso a Datos (ODBC, Excel, Archivos planos ASCII y SPSS
Preprocesado de Datos: muestreo, particiones, reordenacin
de campos, fusin de tablas
Tcnicas de Aprendizaje (rboles de decisin, NN,
Agrupamiento, Reglas de asociacin, regresin lineal y logstica,
combinacin de modelos
Tcnicas para la evaluacin de modelos guiados por las
condiciones especificadas
Visualizacin de Resultados: grficos 3D y animados,
navegadores para rboles de decisin, etc
Exportacin, Generacin automtica de reportes
6. HERRAMIENTAS DE MINERIA DE DATOS

CARACTERSTICAS DEL SPSS CLEMENTINE


Clementine clasifica los nodos en seis categoras (aparte de la pestaa
Favoritos, donde se incluyen los nodos ms usados):

Orgenes: Nodos para obtener los datos de trabajo (fuentes de datos).


Oper. con registros: Operadores para modificar o combinar registros (filas)
de distintas fuentes. Es decir, selecciones y combinaciones.
Oper. con campos: Operadores para modificar o combinar campos
(columnas).
Grficos: Generacin de grficas.
Modelado: Tipos de modelos/patrones que puede generar Clementine
Resultados: Presentacin de tablas, anlisis de modelos, estadsticas,
exportacin de datos.

Las categoras han sido las mismas (salvo pequeos cambios en la


nomenclatura) desde, al menos, la versin 5.2 del Clementine, aunque el
nmero de nodos en cada categora se ha ido incrementando.
7. ANALISIS DE CASOS
7. ANALISIS DE CASOS: 1_ JUGAR TENIS

En este primer ejemplo, vamos a trabajar con los datos acerca de los das que se
ha podido jugar al tenis, dependiendo de diversos aspectos meteorolgicos.
El objetivo es poder determinar (predecir) si hoy podremos jugar al tenis.
Los datos de que disponemos estn en el archivo:JugarTenis.txt y son los
siguientes:

Cielo Temperatura Humedad Viento JugarTenis


Soleado Alta Alta Debil No
Soleado Alta Alta Fuerte No
Nublado Alta Alta Debil Si
Lluvioso Media Alta Debil Si
Lluvioso Baja Normal Debil Si
Lluvioso Baja Normal Fuerte No
Nublado Baja Normal Fuerte Si
Soleado Media Alta Debil No
Soleado Baja Normal Debil Si
Lluvioso Media Normal Debil Si
Soleado Media Normal Fuerte Si
Nublado Media Alta Fuerte Si
Nublado Alta Normal Debil Si
Lluvioso Media Alta Fuerte No
7. ANALISIS DE CASOS: 1_ JUGAR TENIS

RUTA RESULTANTE:
7. ANALISIS DE CASOS: 1_ JUGAR TENIS

RUTA RESULTANTE:
7. ANALISIS DE CASOS: 1_ JUGAR TENIS

RESULTADO:
7. ANALISIS DE CASOS: 1_ JUGAR TENIS

RESULTADO:

La representacin lgica del rbol anterior sera:

(Cielo=Soleado AND Humedad=Normal) OR (Cielo=Nublado) OR (Cielo=Lluvioso AND


7. ANALISIS DE CASOS: 2_ CLASIFICACION DE FARMACOS

UN PROBLEMA DE CLASIFICACIN

En este caso se trata de predecir el tipo de frmaco que se debe administrar a


un paciente afectado de rinitis alrgica segn distintos parmetros/variables.
Las variables que se recogen en los historiales clnicos de cada paciente son:
Edad
Sexo
Presin sangunea.
Nivel de colesterol.
Nivel de sodio en la sangre.
Nivel de potasio en la sangre.
Hay cinco frmacos posibles:
FarmacoA, FarmacoB, FarmacoC, FarmacoX, FarmacoY.
Se han recogido los datos del medicamento idneo para muchos pacientes en
cuatro hospitales (Archivo FARMACOS.TXT).

OBJETIVO: Se pretende, para nuevos pacientes, determinar el mejor


medicamento a probar.
7. ANALISIS DE CASOS: 2_ CLASIFICACION DE FARMACOS

UN PROBLEMA DE CLASIFICACIN
La primera pregunta que nos podemos hacer es ver qu frmacos son ms
comunes en general, para ver si todos suelen ser igualmente efectivos en
trminos generales. Para ello aadimos un nodo Distribucin en la categora
Grficos y lo enlazamos con la fuente de datos Farmaco. La situacin debe
ser similar a la siguiente:

Vemos que el frmaco ms efectivo es el Y, que se administra con xito en casi


la mitad de los pacientes. Una regla vulgar sera aplicar el frmaco Y, en el caso
que falle, el frmaco X, y as sucesivamente siguiendo las frecuencias de uso
con xito. Con la herramienta Clementine seguro que lo podemos hacer mucho
mejor...
7. ANALISIS DE CASOS: 2_ CLASIFICACION DE FARMACOS

UN PROBLEMA DE CLASIFICACIN
Apliquemos lo mismo que hemos realizado en el ejemplo anterior. Intentemos
generar un rbol de decisin. Construyamos y ejecutemos una ruta con un nodo
Tipo (donde el atributo FARMACO se ha puesto como salida) y con un nodo
C5.0. Aadamos el modelo generado al rea de trabajo como se ve en la siguiente
figura:
7. ANALISIS DE CASOS: 2_ CLASIFICACION DE FARMACOS

UN PROBLEMA DE CLASIFICACIN
7. ANALISIS DE CASOS: 2_ CLASIFICACION DE FARMACOS

UN PROBLEMA DE CLASIFICACIN
Como podemos observar, el rbol tiene bastantes ramas (en concreto 11).
Podemos ver cul es el acierto (tambin denominado precisin o accuracy) de
este rbol respecto a los datos de entrenamiento.
Para ello, conectamos el nodo Tipo al nodo diamante Farmaco y ste a un
nuevo nodo Anlisis de la categora Resultado, como se ve en la siguiente
figura:

Si ejecutamos el nodo anlisis (con


el men contextual pulsando el botn
derecho) obtenemos los siguientes
resultados:
7. ANALISIS DE CASOS: 3_ AGRUPACION DE EMPLEADOS

UN PROBLEMA DE AGRUPACION
La empresa de software para Internet Memo Web quiere extraer tipologas de
empleados, con el objetivo de hacer una poltica de personal ms fundamentada
y seleccionar a qu grupos incentivar.
Las variables que se recogen de las fichas de los 15 empleados de la empresa
son:
Sueldo: sueldo anual en Soles.
Casado: si est casado o no.
Coche: si viene en coche a trabajar (o al menos si lo estaciona en la empresa).
Hijos: si tiene hijos.
Alq/Prop: si vive en una casa alquilada o propia.
Sindic.: si pertenece al sindicato revolucionario de Internet
Bajas/Ao: media del n de bajas por ao
Antigedad: antigedad en la empresa
Sexo: H: hombre, M: mujer.
Los datos de los 15 empleados se encuentran en el archivo empleados.txt).
Se intenta extraer grupos de entre estos quince empleados.

1er Paso: Aadimos un nodo tipo: Archivo VAR


7. ANALISIS DE CASOS: 3_ AGRUPACION DE EMPLEADOS

UN PROBLEMA DE AGRUPACION

Casa Coch Hijo Alq/Pro Sindi Bajas/A Antiged Sex


#Ej Sueldo do e s p c. o ad o
1 10000 S No 0 Alquiler No 7 15 H
2 20000 No S 1 Alquiler S 3 3 M
3 15000 S S 2 Prop S 5 10 H
4 30000 S S 1 Alquiler No 15 7 M
5 10000 S S 0 Prop S 1 6 H
6 40000 No S 0 Alquiler S 3 16 M
7 25000 No No 0 Alquiler S 0 8 H
8 20000 No S 0 Prop S 2 6 M
9 20000 S S 3 Prop No 7 5 H
10 30000 S S 2 Prop No 1 20 H
11 50000 No No 0 Alquiler No 2 12 M
12 8000 S S 2 Prop No 3 1 H
13 20000 No No 0 Alquiler No 27 5 M
14 10000 No S 0 Alquiler S 0 7 H
15 8000 No S 0 Alquiler No 3 2 H
7. ANALISIS DE CASOS: 3_ AGRUPACION DE EMPLEADOS

UN PROBLEMA DE AGRUPACION
A continuacin aadimos un nodo Tipo y lo enganchamos. Todos los atributos
deberan ser de ENTRADA exceptuando el nmero de ejemplo (#Ej), que es
irrelevante y pondremos NINGUNA, como se muestra en la siguiente figura:
7. ANALISIS DE CASOS: 3_ AGRUPACION DE EMPLEADOS

UN PROBLEMA DE AGRUPACION
Ahora vamos a utilizar un algoritmo de clustering para obtener grupos sobre esta
poblacin. En primer lugar vamos a probar con tres grupos. Para ello
aadimos un nodo Kmedias (en modelado), lo enganchamos al nodo Tipo y
modificamos el campo Nmero de conglomerados a 3, tambin marcamos que
nos genere el campo de distancia y que nos muestra la proximidad de
conglomerados, como se ve en la siguiente figura:
7. ANALISIS DE CASOS: 3_ AGRUPACION DE EMPLEADOS

UN PROBLEMA DE AGRUPACION
Ahora podemos ejecutar la ruta, obteniendo un nodo diamante K-medias. Lo
podemos aadir y enganchar al nodo Tipo, como se muestra en la siguiente
figura:

Si examinamos el nodo diamante


Kmeans vemos qu
caractersticas tiene cada
cluster/conglomerados.
A continuacin, se muestra de
una manera ms resumida a cmo
lo muestra el Clementine (que
incluye desviaciones y distancias):
7. ANALISIS DE CASOS: 3_ AGRUPACION DE EMPLEADOS

UN PROBLEMA DE AGRUPACION
Podemos verlo de una manera
grfica tal y como lo muestra el
Clementine en la pestaa de
Visor:

En esta visualizacin grfica


podemos ver adems a qu campos
el K-medias les asigna mayor o
menor importancia a la hora de
haber realizado los grupos.
7. ANALISIS DE CASOS: 3_ AGRUPACION DE EMPLEADOS

UN PROBLEMA DE AGRUPACION
Si aadimos un nodo tabla a la salida del nodo diamante Kmedias podemos
observar qu ejemplos exactamente han cado en qu clster.

Podemos ver a qu conglomerado va a parar cada ejemplo. Pero adems,


podemos ver la distancia al centro de su conglomerado. Cuanto menor es ese
valor la pertenencia a su conglomerado es ms fuerte. En cambio, cuanto
mayor es ese valor el empleado no est tan claramente asignado dentro de su
conglomerado.
GRACIAS!

Grupo de Sistemas Inteligentes


Centro de Ciencias Aplicadas y Desarrollo
Tecnolgico (CCADET)

Potrebbero piacerti anche