Sei sulla pagina 1di 30

MINERIA DE DATOS

CON WEKA

PRESENTADO POR:
Maria Rosa Daz

Minera de Datos?
Objetivo de la Minera de Datos
Para que sirve la Minera de Datos?
El proceso de KDD
Fases del KDD
Que es WEKA?
Historia de WEKA
Interfaz
Uso Bsico de WEKA.
Conclusiones.

En (Clark P., 2000), se define la minera de datos como el proceso de extraer


conocimiento til y comprensible, previamente desconocido, desde grandes
cantidades de datos almacenados en distintos formatos.

A partir del anlisis de los datos podemos conocer a los clientes, optimizar
las comunicaciones, explicar el pasado buscando anticipar y predecir
comportamientos futuros con datos almacenados en las bases de datos.

Sobre el objetivo de la Minera de Datos


Hernndez, Ramrez y Ferri sostienen De una
manera simplista pero ambiciosa podramos
decir que el objetivo de la minera de datos es
convertir datos en conocimiento (2004, p. 6)

Estos es, pasar de tener un conjunto de datos


aislados, a convertirlos en informacin, luego en
conocimiento, el conocimiento en inteligencia, y
esa inteligencia en rentabilidad

Bsicamente, el DATAMINING surge para intentar ayudar a


comprender el contenido de una base de datos.
De forma general, los datos son la materia prima bruta.

En el momento que el usuario les atribuye algn significado especial


pasan a convertirse en informacin.
Cuando los especialistas elaboran o encuentran un modelo, haciendo

que la interpretacin que surge entre la informacin y ese modelo


represente

un

valor

agregado,

entonces

conocimiento(Knowledge Data Discovery (KDD).

nos

referimos

al

AREAS DE APLICACION
mbitos financieros y
de negocios

Salud
Sistemas informticos
Ciencia

EJEMPLOS
En los negocios
Los hbitos de compra en los
supermercados
Los fraudes
Los recursos humanos
El comportamiento por Internet
El terrorismo

La ciencia y la ingeniera

Fuente: Hernndez, Ramrez y Ferri . Introduccin a la Minera de Datos, Madrid, pg.. 13

Fuente: Hernndez, Ramrez y Ferri . Introduccin a la Minera de Datos, Madrid, pg.. 20

1. Orange:

2. RapidMiner
3. WEKA
4. JHepWork

5. KNIME

Waikato Environment for Knowledge Analysis (WEKA), es


un entorno para experimentacin de anlisis de datos que
permite aplicar, analizar y evaluar las tcnicas ms
relevantes de anlisis de datos, principalmente las
provenientes del aprendizaje automtico, sobre cualquier
conjunto de datos.

En 1993, la Universidad de Waikato en Nueva Zelanda,


inici el desarrollo de la versin original de WEKA.
En 1997 se decidi escribir su cdigo en java,
adicionndole la implementacin de nuevos algoritmos de
modelado.
En el 2005, WEKA recibe el galardn Data Mining
and Knowledge Discovery Services (Servicios de
Minera de Datos y Descubrimiento del Conocimiento),
por parte de ACM.
En 2006 Pentaho Corporation adquiri una licencia
exclusiva para usar WEKA en Inteligencia de Negocios

Explorer: Entorno visual que ofrece


una interfaz grfica para el uso de los
paquetes.
Experimenter: Entorno centrado en la
automatizacin de tareas de manera que
se facilite la realizacin de experimentos a
gran escala.
KnowledgeFlow: Permite generar
proyectos de minera de datos mediante la
generacin de flujos de informacin.
Simple CLI: Entorno consola para
invocar directamente con java a los
paquetes de weka

Seleccin de la fuente de
datos y peparacin (filtrado

Fichas del modo Explorer:


Preprocess:Seleccin de la fuente de
datos y preparacin para el filtrado.
Classification:
Facilidades
para
aplicar esquemas de clasificacin y
regresin, entrenar modelos y evaluar
supervisin.
Cluster: Integra varios mtodos de
agrupamiento.
Associate: Incluye unas pocas
tcnicas de reglas de negocio.
Select
Attributes:
Bsqueda
supervisada de subconjuntos de datos
representativos..
Visualice: En este apartado podemos
estudiar el comportamiento de los
datos
mediante
tcnicas
de
visualizacin.

Para dar explicacin al funcionamiento de la herramienta


se utilizara el fichero de datos titanic.arff: Corresponde a
las caractersticas de los 2.201pasajeros del Titanic.
Se consideraran cuatro variables:

clase (0 = tripulacin, 1 = primera, 2 = segunda, 3 = tercera),


edad (1 = adulto, 0 = nio)
sexo (1 = hombre, 0 = mujer)
sobrevivi (1 = s, 0 = no).

Seleccin de
Filtros para
los datos

Desglose del
atributo
seleccionado

Nombres de
los atributos
Estadstica
de los datos

Secuencia de Operaciones

Eleccin del
Clasificador
Porcentaje demasiado optimista, no conviene usarlo
Seleccin de test distintos del entrenamiento.
Porcentaje de acierrtos esperados
Opciones
adicionales para
hacer el test,

Comienza
la
construccin del
clasificador

Porcentaje de registros a ser utilizados

% de aciertos
desglosados por
clase

Matriz de Confusin

Se parte los datos en diferentes


subdivisiones para as arrojar anlisis
de manera independiente

Seleccin de algoritmo
para manejar el cluster.

Resultados.

Recomendaciones
de
informacin de
la
relacin de todos los
registros que ingresamos

Determinar cuales son los atributos mas


relevantes, para saber cual es la variable
mas influyente en todo el proceso.

Algoritmo Evaluador

Mtodo

Elegir variable mas


influyente

Variable que nos recomienda

Muestra grficamente la
distribucin de todos los
atributos, representando en
los ejes todos los pares de
combinacin de los atributos,
nos
permite
ver
correlaciones y asociaciones
entre atributos de forma
grafica.

Definicin de tamao de las


graficas.

La minera de datos es muy importante dentro del proceso global de extraccin de datos
ocultos, previamente desconocidos y potencialmente tiles (KDD), por lo cual merece una
gran atencin y estudio por parte de aquellos quienes tienen la oportunidad de aplicar su
concepto y llevar a cabo el proceso de minera de datos dentro de las organizaciones.

La informacin que sale como resultado de este proceso es clave o principal, la cual al ser
bien manejada e interpretada puede aplicarse como apoyo al proceso de toma de
decisiones en una empresa.

Weka es una herramienta robusta, excelente a la hora de realizar implementaciones de


minera de datos con sus diferentes tcnicas y mltiples algoritmos existentes, sin
embargo la capacidad que provee WEKA en el anlisis de patrones de informacin la
convierte en una excelente herramienta de apoyo en la toma de decisiones.

Harjinder S. Gill, P. C. (1996). Data Warehousing "La integracion de la informacion para la mejor
toma de decisiones". Mexico D.F., Mexico: Prentice Hall Hispanoamericaba.
Machine Learning Group at the University of Waikato. Weka 3: Data Mining Software in Java;
[Citado 2014 Enero 3] Disponible en: http://www.cs.waikato.ac.nz/ml/weka/
http://www.ing.unlpam.edu.ar/home/archivos/mineria_datos.pdf
Clark P., B. (2000). Data Minning, Practical Machine Learning Tools and Techniques with Java
Implementations. Morgan Kaufmann Publishers.
Harjinder S. Gill, P. C. (1996). Data Warehousing "La integracion de la informacion para la mejor
toma de decisiones". Mexico D.F., Mexico: Prentice Hall Hispanoamericaba.
Ramirez, J. H. (2004). Introduccion a la Mineria de Datos. Madrid: Pearson Prentice Hall.

Potrebbero piacerti anche