Sei sulla pagina 1di 28

Knowledge Discovery in Databases (KDD) y

Minera de Datos

Presentado por:
Daniela Anbal
Kevin Lpez
Mara Jos Plaza

Presentado a:
Ingeniero Johan Mardini
Definicin de KDD

Se define como el proceso no trivial


de identificar patrones validos,
novedosos, potencialmente tiles y
comprensibles a partir de datos, es
decir,
nos permite identificar eficaz y
coherentemente, patrones
potencialmente tiles y previamente
desconocidos en grandes bases de
datos.
Propiedades del conocimiento extrado

Valido. Precisin con un grado


de certidumbre

Novedoso. Aportes de
informacin desconocida

Potencialmente til.
Beneficioso para el usuario

Comprensible. Accesible, fcil


y claro para su revisin
Datos
Knowledge Discovery in Databases (KDD)
Se determinan las fuentes de informacin que pueden
Integracin y recopilacin de datos ser tiles y donde conseguirlas

Se eliminan o corrigen los datos incorrectos y se


Seleccin, limpieza y transformacin decide la estrategia a seguir con los datos incompletos

Se decide cual es la tarea a realizar (clasificar, agrupar,


Minera de datos predecir) y se elige el mtodo que se va a utilizar

Se evalan los patrones y se analizan por los expertos y


Evaluacin e interpretacin si es necesario vuelve a las fases anteriores

Se hace uso del nuevo conocimiento y se hace


Difusin y uso participar a todos los usuarios
Metas del KDD

Procesar automticamente grandes cantidades de datos crudos

Identificar los patrones mas significativos y relevantes

Presentar conocimiento apropiado para satisfacer las expectativas del


usuario y permitirle tomar decisiones respecto a un criterio
Asociacin

Clasificacin Prediccin

Descripcin
Clustering
de clases

Anlisis de
series a travs
del tiempo
Aplicaciones de la minera de datos

COMERCIO. Conocer el patrn de


comportamiento en las compras
realizadas para disear campaas
publicitarias (marketing) con el fin de
aumentar las ventas.
EMPLEO. Cuantificar las destrezas del
personal laboral con el objetivo de
aprovecharlas al mximo.
ELECCIONES. Su finalidad es conocer
con detalle las inquietudes y los
intereses del votante y as perfilar
mejores campaas.
MEDICINA. Reunir bases de datos
biolgicos para emplearlos en la
deteccin a tiempo de enfermedades.
ENTORNO INDUSTRIAL. Aporta
informacin valiosa acerca de los
productos de consumo y aporta un
mantenimiento y optimizacin de los
mismos.
NUEVAS TECNOLOGIAS. El anlisis del
acceso a servicios de internet.
Metodologas para
implementacin de un
DM

CRISP-DM SEMMA
(Cross Industry Standard (Sample, Explore, Modify,
Process for Data Mining) Model, Assess)

Es una gua de referencia de Proceso de seleccin,


libre distribucin, la mas exploracin y modelado de
utilizada en el desarrollo de grandes cantidades de datos
proyectos de minera de datos para descubrir patrones ocultos
CRISP-DM

Comprensin del negocio. Determinacin de


los objetivos, evaluacin de la situacin actual,
establecimiento de la minera de datos y
desarrollo de un plan de proyecto.
Comprensin de los datos. Recoleccin,
descripcin, exploracin y verificacin de los
datos.
Preparacin de los datos. Seleccin y
limpieza de los datos, construccin e
integracin de nuevos datos y aplicacin de las
conversiones para que los datos cumplan con
el formato requerido
Modelado. Seleccionar tcnicas de
modelado, generar el diseo de
prueba, construir e interpretar el
modelo y seleccionar la tcnica de
minera de datos adecuada.
Evaluacin. Se evala el modelo,
se revisa el proceso para determinar
mejoras y se define la siguiente fase
a realizar.
Despliegue. Se realizan actividades
de monitoreo y mantenimiento y se
muestran los resultados generando
reportes que identifiquen el xito o
fracaso del proyecto
SEMMA
Muestreo. Se extraen muestras de
un conjunto de datos grandes,
Muestreo
suficientemente grandes para
contener informacin significativa
pero suficientemente pequeas para
Evaluacin Exploracin procesar rpidamente. Su finalidad es
reducir de forma drstica el tiempo
de procesamiento.
Exploracin. Se buscan tendencias
inesperadas y anomalas con el fin de
obtener una mejor comprensin del
Modelizacin Modificacin conjunto de datos. Esto ayuda a
perfeccionar y reorientar el proceso
de descubrimiento
Modificacin. El usuario crea, selecciona
y transforma las variables sobre las que
centrar el proceso de construccin de
modelos .
Modelizacin. El usuario busca
combinaciones para una variable que
predice de forma fiable un resultado
deseado.
Evaluacin. Aqu es donde el usuario
evala la utilidad y la fiabilidad de los
resultados del proceso de minera de
datos. Si el proceso es valido debera
funcionar para la muestra reservada en la
etapa de muestreo
Clasificacin General de las Tcnicas de Minera
de Datos
1. Clasificacin

Consiste en examinar las caractersticas


de un objeto y asignar este a uno de un Principales tcnicas usadas
conjunto predefinido de clases. Estos son
Arboles de decisin, redes
representados por registros en una tabla
neuronales y anlisis de vnculos
de base de datos o archivo.
Los registros se clasifican de acuerdo a un comportamiento
predicho o un valor futuro estimado. La nica forma de
2. Prediccin comprobar la exactitud es esperar y ver

La mayora de tcnicas son adecuadas para su uso. La eleccin


Principales depende de la naturaleza de los datos de entrada.
tcnicas
usadas
3. Agrupacin o segmentacin

La agrupacin es la tarea de
segmentar una poblacin
heterognea en mas de un
subgrupo homogneo. En este
no hay clases predefinidas ni
ejemplos. Los registros se
agrupan sobre la base de auto-
similitud. Corresponde al usuario
determinar cual es el significado
para conectar a los grupos
resultantes.
Principales tcnicas de Minera de Datos

Componentes de los Arboles de


Decisin Un rbol de decisin es un
conjunto de condiciones o
reglas organizadas en una
estructura jerrquica, de tal
Nodo interno
Nodo de manera que la decisin final se
probabilidad puede determinar siguiendo las
condiciones que se cumplen
desde la raz hasta alguna de
sus hojas
Nodo hoja Ramas
Construccin de arboles de decisin
Construir el rbol

- Ejemplos de entrenamiento estn en la raz

- Los atributos deben ser categricos

- El rbol es construido recursivamente de arriba hacia abajo

- Los ejemplos son particionados en forma recursiva

- Los atributos son seleccionados basados en una medida


heurstica o estadstica

- La ganancia de informacin se calcula desde el nivel de entropa


de los datos
Detener la construccin
Todas las muestras para un nodo
dado pertenecen a la misma clase
No existe ningunos atributos
restantes para ser particionados
No existe mas ejemplos para la hoja

Podar el rbol
Identificar y eliminar ramas que
reflejen ruido o valores atpicos
Reglas de asociacin Sus componentes
son:

Premisa Conclusin

Se utilizan para descubrir hechos Ejemplo: {2304} {2304}, la regla


que ocurren en comn dentro indica una afinidad entre la premisa y
de un determinado conjuntos de la conclusin.
datos o registros.

Consiste en encontrar las Caractersticas


asociaciones en forma de
relaciones entre los valores de Confianza: probabilidad de que se
los atributos de los objetos de encuentre el resultado dada la condicin
un conjunto de datos. Soporte: porcentaje de transacciones
donde la regla es cierta
Ejemplo
Segn los datos de la tabla se puede generar la
siguiente regla y se halla el soporte y la confianza

El conjunto de items es: I={Cielo,


temperatura, humedad, viento, jugar}
Regla: {temperatura} {si temperatura=alta
entonces humedad=alta}
Soporte (sop): numero de instancias o
items con: temperatura= alta y humedad=
alta. Sop= 3/14, donde 14 es el numero de
items de las bases de datos
Confianza (conf): soporte dividido entre el
numero de items con temperatura= alta
Dentro de las reglas de asociacin se
encuentran la generacin de reglas:
A veces las combinaciones obtenidas pueden ser de utilidad y se
pueden obtener reglas que pueden ser interesantes.

Las reglas de asociacin toman la forma: Si condicin Entonces

Resultado

Donde tanto la condicin como el resultado son combinaciones


disjuntas de productos.
Hay que establecer parmetros para medir la bondad de las reglas.
Algoritmos de agrupamiento o Clustering

Se entiende como el proceso de dividir


un conjunto de datos en grupos
mutuamente excluyentes de tal manera
que cada miembro de un grupo este lo
mas cercano posible a otro, y grupos
diferentes estn lo mas lejos posible
uno del otro.
Tipos de mtricas de distancias

Distancia eucldea
Estas son empleadas por los
diferentes algoritmos, los
cuales son muy influyentes en
la forma en que el algoritmo Distancia de Minkowski
realiza el clusters. Entre las
mas utilizadas se citan las
siguientes:
Distancia de Mahalanobis
Algoritmos de clustering

Visualizacin basada en otros proyectores


Mapa de caractersticas
Mtodo de las hiperesferas
Clusterizado substractivo
El mtodo del clusterizado de montaa
Algoritmo fuzzy c-medias o fuzzyis o data
Mtodo mx-min
Mtodos de las distancias encadenadas (chain-map)
Algoritmos ivq (learning vector quantization)
Mtodo de los k-vecinos o k-nn
Mtodo de los K-medias
Mtodo de las K-medias
Entre sus principales caractersticas se encuentran:

Es un algoritmo que Se obtienen diferentes Recubre agrupamientos


acelera los clculos y ponderaciones dependiendo que sea tan compacto
acelera la convergencia de la inicializacin y la cantidad como sea posible
de grupos

Utiliza una medida de Habr que probar con k


disimilaridad (distancia 2(2, 3, 4,) y elegir la mas
euclidiana) consistente
Pasos de la implementacin de mtodo de las
k- medias:

Se toman al azar k clusters iniciales

Para el conjunto de observaciones, se vuelve a calcular las


distancias a los controides de los clusters y e resignan a los
que estn mas prximos.

Se repiten los dos pasos anteriores hasta que no se


produzca ninguna reasignacin, es decir, hasta que los
elementos se estabilicen en algn grupo
Ejemplos de agrupamiento

Cul es la forma de agrupar los


siguientes personajes?

Cul es la forma natural de agrupar los


personajes?

El objetivo principal de este ejemplo es


mostrar la subjetividad del clustering!

Potrebbero piacerti anche