KDD

Knowledge Discovery in Databases (KDD) y
Minera de Datos
Presentado por:
Daniela Anbal
Kevin Lpez
Mara Jos Plaza
Presentado a:
Ingeniero Johan Mardini
Definicin de KDD
Se define como el proceso no trivial

de identificar patrones validos,
novedosos, potencialmente tiles y
comprensibles a partir de datos, es
decir,
nos permite identificar eficaz y
coherentemente, patrones
potencialmente tiles y previamente
desconocidos en grandes bases de
datos.
Propiedades del conocimiento extrado
Valido. Precisin con un grado

de certidumbre
Novedoso. Aportes de
informacin desconocida
Potencialmente til.
Beneficioso para el usuario
Comprensible. Accesible, fcil

y claro para su revisin
Datos
Knowledge Discovery in Databases (KDD)
Se determinan las fuentes de informacin que pueden
Integracin y recopilacin de datos ser tiles y donde conseguirlas
Se eliminan o corrigen los datos incorrectos y se

Seleccin, limpieza y transformacin decide la estrategia a seguir con los datos incompletos
Se decide cual es la tarea a realizar (clasificar, agrupar,

Minera de datos predecir) y se elige el mtodo que se va a utilizar
Se evalan los patrones y se analizan por los expertos y

Evaluacin e interpretacin si es necesario vuelve a las fases anteriores
Se hace uso del nuevo conocimiento y se hace

Difusin y uso participar a todos los usuarios
Metas del KDD
Procesar automticamente grandes cantidades de datos crudos
Identificar los patrones mas significativos y relevantes
Presentar conocimiento apropiado para satisfacer las expectativas del

usuario y permitirle tomar decisiones respecto a un criterio
Asociacin
Clasificacin Prediccin
Descripcin
Clustering
de clases
Anlisis de
series a travs
del tiempo
Aplicaciones de la minera de datos
COMERCIO. Conocer el patrn de

comportamiento en las compras
realizadas para disear campaas
publicitarias (marketing) con el fin de
aumentar las ventas.
EMPLEO. Cuantificar las destrezas del
personal laboral con el objetivo de
aprovecharlas al mximo.
ELECCIONES. Su finalidad es conocer
con detalle las inquietudes y los
intereses del votante y as perfilar
mejores campaas.
MEDICINA. Reunir bases de datos
biolgicos para emplearlos en la
deteccin a tiempo de enfermedades.
ENTORNO INDUSTRIAL. Aporta
informacin valiosa acerca de los
productos de consumo y aporta un
mantenimiento y optimizacin de los
mismos.
NUEVAS TECNOLOGIAS. El anlisis del
acceso a servicios de internet.
Metodologas para
implementacin de un
DM
CRISP-DM SEMMA
(Cross Industry Standard (Sample, Explore, Modify,
Process for Data Mining) Model, Assess)
Es una gua de referencia de Proceso de seleccin,

libre distribucin, la mas exploracin y modelado de
utilizada en el desarrollo de grandes cantidades de datos
proyectos de minera de datos para descubrir patrones ocultos
CRISP-DM
Comprensin del negocio. Determinacin de

los objetivos, evaluacin de la situacin actual,
establecimiento de la minera de datos y
desarrollo de un plan de proyecto.
Comprensin de los datos. Recoleccin,
descripcin, exploracin y verificacin de los
datos.
Preparacin de los datos. Seleccin y
limpieza de los datos, construccin e
integracin de nuevos datos y aplicacin de las
conversiones para que los datos cumplan con
el formato requerido
Modelado. Seleccionar tcnicas de
modelado, generar el diseo de
prueba, construir e interpretar el
modelo y seleccionar la tcnica de
minera de datos adecuada.
Evaluacin. Se evala el modelo,
se revisa el proceso para determinar
mejoras y se define la siguiente fase
a realizar.
Despliegue. Se realizan actividades
de monitoreo y mantenimiento y se
muestran los resultados generando
reportes que identifiquen el xito o
fracaso del proyecto
SEMMA
Muestreo. Se extraen muestras de
un conjunto de datos grandes,
Muestreo
suficientemente grandes para
contener informacin significativa
pero suficientemente pequeas para
Evaluacin Exploracin procesar rpidamente. Su finalidad es
reducir de forma drstica el tiempo
de procesamiento.
Exploracin. Se buscan tendencias
inesperadas y anomalas con el fin de
obtener una mejor comprensin del
Modelizacin Modificacin conjunto de datos. Esto ayuda a
perfeccionar y reorientar el proceso
de descubrimiento
Modificacin. El usuario crea, selecciona
y transforma las variables sobre las que
centrar el proceso de construccin de
modelos .
Modelizacin. El usuario busca
combinaciones para una variable que
predice de forma fiable un resultado
deseado.
Evaluacin. Aqu es donde el usuario
evala la utilidad y la fiabilidad de los
resultados del proceso de minera de
datos. Si el proceso es valido debera
funcionar para la muestra reservada en la
etapa de muestreo
Clasificacin General de las Tcnicas de Minera
de Datos
1. Clasificacin
Consiste en examinar las caractersticas

de un objeto y asignar este a uno de un Principales tcnicas usadas
conjunto predefinido de clases. Estos son
Arboles de decisin, redes
representados por registros en una tabla
neuronales y anlisis de vnculos
de base de datos o archivo.
Los registros se clasifican de acuerdo a un comportamiento
predicho o un valor futuro estimado. La nica forma de
2. Prediccin comprobar la exactitud es esperar y ver
La mayora de tcnicas son adecuadas para su uso. La eleccin

Principales depende de la naturaleza de los datos de entrada.
tcnicas
usadas
3. Agrupacin o segmentacin
La agrupacin es la tarea de
segmentar una poblacin
heterognea en mas de un
subgrupo homogneo. En este
no hay clases predefinidas ni
ejemplos. Los registros se
agrupan sobre la base de auto-
similitud. Corresponde al usuario
determinar cual es el significado
para conectar a los grupos
resultantes.
Principales tcnicas de Minera de Datos
Componentes de los Arboles de

Decisin Un rbol de decisin es un
conjunto de condiciones o
reglas organizadas en una
estructura jerrquica, de tal
Nodo interno
Nodo de manera que la decisin final se
probabilidad puede determinar siguiendo las
condiciones que se cumplen
desde la raz hasta alguna de
sus hojas
Nodo hoja Ramas
Construccin de arboles de decisin
Construir el rbol
- Ejemplos de entrenamiento estn en la raz
- Los atributos deben ser categricos
- El rbol es construido recursivamente de arriba hacia abajo
- Los ejemplos son particionados en forma recursiva
- Los atributos son seleccionados basados en una medida

heurstica o estadstica
- La ganancia de informacin se calcula desde el nivel de entropa

de los datos
Detener la construccin
Todas las muestras para un nodo
dado pertenecen a la misma clase
No existe ningunos atributos
restantes para ser particionados
No existe mas ejemplos para la hoja
Podar el rbol
Identificar y eliminar ramas que
reflejen ruido o valores atpicos
Reglas de asociacin Sus componentes
son:
Premisa Conclusin
Se utilizan para descubrir hechos Ejemplo: {2304} {2304}, la regla

que ocurren en comn dentro indica una afinidad entre la premisa y
de un determinado conjuntos de la conclusin.
datos o registros.
Consiste en encontrar las Caractersticas

asociaciones en forma de
relaciones entre los valores de Confianza: probabilidad de que se
los atributos de los objetos de encuentre el resultado dada la condicin
un conjunto de datos. Soporte: porcentaje de transacciones
donde la regla es cierta
Ejemplo
Segn los datos de la tabla se puede generar la
siguiente regla y se halla el soporte y la confianza
El conjunto de items es: I={Cielo,

temperatura, humedad, viento, jugar}
Regla: {temperatura} {si temperatura=alta
entonces humedad=alta}
Soporte (sop): numero de instancias o
items con: temperatura= alta y humedad=
alta. Sop= 3/14, donde 14 es el numero de
items de las bases de datos
Confianza (conf): soporte dividido entre el
numero de items con temperatura= alta
Dentro de las reglas de asociacin se
encuentran la generacin de reglas:
A veces las combinaciones obtenidas pueden ser de utilidad y se
pueden obtener reglas que pueden ser interesantes.
Las reglas de asociacin toman la forma: Si condicin Entonces
Resultado
Donde tanto la condicin como el resultado son combinaciones

disjuntas de productos.
Hay que establecer parmetros para medir la bondad de las reglas.
Algoritmos de agrupamiento o Clustering
Se entiende como el proceso de dividir

un conjunto de datos en grupos
mutuamente excluyentes de tal manera
que cada miembro de un grupo este lo
mas cercano posible a otro, y grupos
diferentes estn lo mas lejos posible
uno del otro.
Tipos de mtricas de distancias
Distancia eucldea
Estas son empleadas por los
diferentes algoritmos, los
cuales son muy influyentes en
la forma en que el algoritmo Distancia de Minkowski
realiza el clusters. Entre las
mas utilizadas se citan las
siguientes:
Distancia de Mahalanobis
Algoritmos de clustering
Visualizacin basada en otros proyectores

Mapa de caractersticas
Mtodo de las hiperesferas
Clusterizado substractivo
El mtodo del clusterizado de montaa
Algoritmo fuzzy c-medias o fuzzyis o data
Mtodo mx-min
Mtodos de las distancias encadenadas (chain-map)
Algoritmos ivq (learning vector quantization)
Mtodo de los k-vecinos o k-nn
Mtodo de los K-medias
Mtodo de las K-medias
Entre sus principales caractersticas se encuentran:
Es un algoritmo que Se obtienen diferentes Recubre agrupamientos

acelera los clculos y ponderaciones dependiendo que sea tan compacto
acelera la convergencia de la inicializacin y la cantidad como sea posible
de grupos
Utiliza una medida de Habr que probar con k

disimilaridad (distancia 2(2, 3, 4,) y elegir la mas
euclidiana) consistente
Pasos de la implementacin de mtodo de las
k- medias:
Se toman al azar k clusters iniciales
Para el conjunto de observaciones, se vuelve a calcular las

distancias a los controides de los clusters y e resignan a los
que estn mas prximos.
Se repiten los dos pasos anteriores hasta que no se

produzca ninguna reasignacin, es decir, hasta que los
elementos se estabilicen en algn grupo
Ejemplos de agrupamiento
Cul es la forma de agrupar los

siguientes personajes?
Cul es la forma natural de agrupar los

personajes?
El objetivo principal de este ejemplo es

mostrar la subjetividad del clustering!

KDD

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

KDD

Caricato da

Copyright:

Formati disponibili

Knowledge Discovery in Databases (KDD) y

Se define como el proceso no trivial

Valido. Precisin con un grado

Comprensible. Accesible, fcil

Se eliminan o corrigen los datos incorrectos y se

Se decide cual es la tarea a realizar (clasificar, agrupar,

Se evalan los patrones y se analizan por los expertos y

Se hace uso del nuevo conocimiento y se hace

Procesar automticamente grandes cantidades de datos crudos

Identificar los patrones mas significativos y relevantes

Presentar conocimiento apropiado para satisfacer las expectativas del

COMERCIO. Conocer el patrn de

Es una gua de referencia de Proceso de seleccin,

Comprensin del negocio. Determinacin de

Consiste en examinar las caractersticas

La mayora de tcnicas son adecuadas para su uso. La eleccin

Componentes de los Arboles de

- Ejemplos de entrenamiento estn en la raz

- Los atributos deben ser categricos

- El rbol es construido recursivamente de arriba hacia abajo

- Los ejemplos son particionados en forma recursiva

- Los atributos son seleccionados basados en una medida

- La ganancia de informacin se calcula desde el nivel de entropa

Se utilizan para descubrir hechos Ejemplo: {2304} {2304}, la regla

Consiste en encontrar las Caractersticas

El conjunto de items es: I={Cielo,

Las reglas de asociacin toman la forma: Si condicin Entonces

Donde tanto la condicin como el resultado son combinaciones

Se entiende como el proceso de dividir

Visualizacin basada en otros proyectores

Es un algoritmo que Se obtienen diferentes Recubre agrupamientos

Utiliza una medida de Habr que probar con k

Se toman al azar k clusters iniciales

Para el conjunto de observaciones, se vuelve a calcular las

Se repiten los dos pasos anteriores hasta que no se

Cul es la forma de agrupar los

Cul es la forma natural de agrupar los

El objetivo principal de este ejemplo es

Potrebbero piacerti anche