Sei sulla pagina 1di 59

Centro Universitario Valle de Mxico

Maestra en Ciencias de la Computacin

Minera de Datos

Introduccin
Elaborado por:
Dra. Maricela Quintana Lpez
Unidad de competencia I:
Introduccin
Objetivo:
Presentar la motivacin, actividades y
usos de la minera de datos.
Conocimientos:
Motivacin, Clasificacin,
Prediccin, Reglas de Asociacin y
Agrupamiento.
Presentacin
Tomando decisiones
Motivacin
Descubrimiento
Minera de Datos
Estilos de Aprendizaje
Aplicaciones
tica

Dra. Maricela Quintana Lpez


Jugamos Golf?
El da esta soleado.
La temperatura es fra.
La humedad es alta.
Hay viento.
Jugamos?

Dra. Maricela Quintana Lpez


El da esta soleado, la temperatura es fra,
la humedad es alta y hay viento.
ambiente temperatura humedad viento Golf
soleado calor alta No No Jugar
soleado calor alta Si No Jugar
soleado frio normal No Jugar
soleado templado alta No No Jugar
soleado templado normal Si Jugar
nublado calor alta No Jugar
nublado calor normal No Jugar
nublado frio normal Si Jugar
nublado templado alta Si Jugar
lluvioso frio normal Si No Jugar
lluvioso frio normal No Jugar
lluvioso templado alta Si No Jugar
lluvioso templado alta No Jugar
lluvioso templado normal No Jugar
El da esta soleado, la temperatura es fra,
la humedad es alta y hay viento.

A
mbiente

soleado nublado luvia


H
umedad claseP viento

alta normal si no
claseN claseP claseN claseP
Dra. Maricela Quintana Lpez
Ejemplos
Fertilizacin artificial
Ganadero
Crditos

Dra. Maricela Quintana Lpez


Fertilizacin in vitro
Seleccionar los mejores embriones para su
implantacin en el tero.
La seleccin se basa en cerca de 60
caractersticas.
Para obtener el material gentico
Biopsia de cuerpo polar
Biopsia de blastmero
Biopsia de tejido extraembrionario
Para analizar el ADN
PCR (Reaccin en cadena de la polimerasa)
FISH (Hibridacin fluorescente in situ)
Ganadero
Qu vacas retener y cules vender al
rastro?
Historia de crecimiento
Historia de produccin
Edad
Salud
Problemas de comportamiento

Dra. Maricela Quintana Lpez


Otros ejercicios
Solicitud de crdito
Alumnos con bajo rendimiento escolar
Seleccin de esposos y/o esposas

Dra. Maricela Quintana Lpez


Motivacin

Informacin: Conjunto de patrones o modelos


especificados como reglas de clasificacin o
asociacin, entre otros.

Dra. Maricela Quintana Lpez


Motivacin

Bases de datos
Almacenes de datos (Datawarehouse)
Archivos
Capacidad de anlisis?
Dra. Maricela Quintana Lpez
Motivacin
Riqueza de datos recolectados,
almacenados y a los que se ha
dado un mantenimiento.

Incapacidad para descubrir la


informacin inmersa en los
datos. cmo?
Tcnicas Estadsticas
Dra. Maricela Quintana Lpez
Motivacin
Los grandes volmenes de datos
han rebasado la capacidad de
analizarlos usando las tcnicas
tradicionales de anlisis de la
informacin.

Extraer el conocimiento para


tomar buenas decisiones y
aprovechar las oportunidades

Dra. Maricela Quintana Lpez


Memoria de la Organizacin
Explicar el pasado
Entender el presente
Predecir el futuro

Dra. Maricela Quintana Lpez


Ejemplos
Enfermedades
Supermercado OXXO

Dra. Maricela Quintana Lpez


Descubrimiento del conocimiento en
Bases de Datos (KDD)

KDD es el proceso de preparacin de los


datos, extraccin de patrones, y validacin de
los modelos o prediccin; mientras que DM
se refiere nicamente a la extraccin de
patrones.

Dra. Maricela Quintana Lpez


Proceso de Extraccin del
Conocimiento

Dra. Maricela Quintana Lpez


Minera de Datos
La minera de datos es el proceso
de extraer informacin vlida,
novedosa, comprensible y
potencialmente til.

Dra. Maricela Quintana Lpez


Minera de Datos

Minera Toma de
Datos de datos decisiones

Integracin Informacin
de los Datos

Conocimiento
fcilmente til

El aprendizaje automtico ofrece las


tcnicas para la Minera de datos.
Minera de Datos
Toma de decisiones
Representacin
Clasificacin y
Agrupamiento
Visualizacin

Dra. Maricela Quintana Lpez


Multidisciplinario
Bases de Datos Minera de Datos
Inteligencia Artificial Reconocimiento de
Algoritmos Patrones
Computacin del alto Adquisicin y
rendimiento Representacin del
Estadstica conocimiento
Visualizacin
Aprendizaje
automtico

Dra. Maricela Quintana Lpez


Minera de Datos
Es el proceso de extraer informacin
vlida, novedosa, comprensible y
potencialmente til.

Informacin (Niveles)
Datos: Datos en bruto
Informacin: Manipulacin de variables
Conocimiento: Atribucin a causas
Sabiduria: Saber sopesar el conocimiento

Dra. Maricela Quintana Lpez


Minera de Datos

Validez : Nivel de certidumbre de la


informacin
Al ser menos formal puede haber ms
mentiras.
Cuando se compran paales se compran
bebidas alcoholicas en el 50% de los casos

Dra. Maricela Quintana Lpez


Minera de Datos
Novedosa : La informacin obtenida era
desconocida
Evaluada por el ser humano
Verdades universales
Si el genero del sujeto es femenino, entonces puede
ser que consulte al gineclogo

Si el genero del sujeto es masculino, entonces no
consulta al gineclogo

Dra. Maricela Quintana Lpez


Minera de Datos
Comprensible : La informacin obtenida debe
ser legible al usuario
Los atributos: genero y tipo de doctor tienen
una correlacin de .....
Si el genero del sujeto es masculino, entonces no
consulta al gineclogo
til : Ayuda a tomar una decisin a predecir un
comportamiento

Dra. Maricela Quintana Lpez


Minera de Datos
Caso 1: Supermercados
Informacin:
Vlida:
Novedosa:
Comprensible:
til:

Dra. Maricela Quintana Lpez


Anlisis de la Cesta

Id Huevos Aceite Paales Vino Leche Mantequilla Salmn Lechugas


1 si no no si no si si si
2 no si no no si no no si
3 no no si no si no no no
4 no si si no si no no no
5 si si no no no si no si
6 si no no si si si si no
7 no no no no no no no no
8 si si si si si si si no

Dra. Maricela Quintana Lpez


Minera de datos
Es la bsqueda de relaciones y patrones
globales escondidos en los datos que existen en
BD grandes.
La relacin entre los datos del paciente y su diagnstico
mdico.
Estas relaciones representan conocimiento
valioso acerca de la base de datos y los objetos
en ella, as como de si la BD es un espejo fiel,
del mundo registrado por ella.

Dra. Maricela Quintana Lpez


Deduccin vs Induccin
Una BD es un almacn de informacin
confiable. Su propsito es recuperar
eficientemente la informacin almacenada en,
o inferida de la BD. Desde una perspectiva
lgica, dos tcnicas de inferencia pueden
distinguirse:
Deduccin
Induccin

Dra. Maricela Quintana Lpez


Deduccin vs Induccin
La diferencia radica en que la deduccin es el
resultado de enunciados correctos acerca del
mundo real (si la BD es correcta), mientras que la
induccin es el resultado de los enunciados
soportados en la BD (pueden no ser verdaderos
en el mundo real)
Induccin: Seleccin de las regularidades y
reglas ms plausibles, soportadas por
la BD.
La minera de Datos es una forma de aprendizaje
inductivo.
Dra. Maricela Quintana Lpez
Minera de datos
Los patrones estn representados en
trminos de una estructura que puede ser
examinada, razonada y usada para tomar
decisiones futuras.
La minera de datos trata de encontrar y
describir patrones estructurales en los
datos con el fin de ayudarnos a explicarlos
y hacer predicciones.

Dra. Maricela Quintana Lpez


Minera de Datos

Entrada: Conceptos, instancias y atributos


Proceso: Tcnica de aprendizaje (Minera)
Salida: Representacin del conocimiento

Entrada Aprendizaje Salida


(patrones)

Dra. Maricela Quintana Lpez


Entrada
El concepto: lo que hay que aprender
Los datos dados al aprendiz toma la forma
de un conjunto de instancias
Cada instancia se caracteriza por un
conjunto de atributos (caractersticas) que
miden aspectos diferentes de la instancia
(numricos, nominales y categricos -
ordinales-)
Dra. Maricela Quintana Lpez
Atributos
Golf Concepto

outlook temperature humidity windy Play


sunny hot high false Don't Play
I
sunny hot high true Don't Play
N
overcast hot high false Play
S rain mild high false Play
T rain cool normal false Play
A rain cool normal true Don't Play
N overcast cool normal true Play
C sunny mild high false Don't Play
I sunny cool normal false Play
A rain mild normal false Play
S sunny mild normal true Play
overcast mild high true Play
overcast hot normal false Play
rain mild high true Don't Play
Salida
Descripcin del concepto: lo que hay que
aprender (inteligible y operacional)

La salida incluye una descripcin de la


estructura, como representacin explcita
del conocimiento adquirido y que puede
usarse para clasificar ejemplos nuevos.

Dra. Maricela Quintana Lpez


Proceso
Estilos de aprendizaje
Clasificacin Asociacin

Agrupamiento Prediccin numrica

Dra. Maricela Quintana Lpez


Aprendizaje Automtico

Un sistema de este tipo utiliza observaciones


codificadas, frecuentemente almacenadas en un
conjunto llamado de entrenamiento.
En el aprendizaje supervisado, el sistema busca
descripciones para las clases definidas por el
usuario y en el no supervisado construye un
sumario del conjunto de entrenamiento, como un
conjunto de clases descubiertas y sus
descripciones.

Dra. Maricela Quintana Lpez


Minera de Datos
Dirigida: La meta principal es predecir,
estimar, clasificar caracterizar el
comportamiento de algun atributo,
prevamente identificado, en trminos de
un conjunto de variables de entrada.

No dirigida: La meta es descubrir una


estructura en el conjunto de datos
Dra. Maricela Quintana Lpez
Clasificacin
Minera de datos dirigida: su objetivo es
clasificar caracterizar el comportamiento
de un atributo particular, en trminos del
resto.
rboles
Reglas

Dra. Maricela Quintana Lpez


rboles de decisin
Ambiente

ID3, C4.5, C5
sole ado nubla do
ndice GINI
l uvia
Humedad cla se P viento

alta normal si no
cla se N cla se P cla se N cla se P
Dra. Maricela Quintana Lpez
Reglas de clasificacin
Antecedente consecuente
Antecedente: precondiciones, son la serie de
pruebas que se realizan sobre los atributos.
Conjuntivas ( cumplen p/ que la regla tenga xito)
Pueden ser expresiones lgicas.
Consecuente: conclusin, da la clase o clases que
aplican a las instancias cubiertas por la regla
Las reglas son disyuntivas 1-Rule
Posibles conflictos PRISM
Crdito
credito credito salario casa cuentas Devuelve
IDC aos euros euros propia morosas credito
101 15 60,000 2,200 si 2 no
102 2 30,000 3,500 si 0 si
103 9 9,000 1,700 si 1 no
104 15 18,000 1,900 no 0 si
105 10 24,000 2,100 no 0 no

Si cuentas morosas > 0 entonces Devuelve crdito=NO


Si cuentas morosas = 0 Y [(Salario >2500) o (aos >10)]
entonces Devuelve crdito=SI
Prediccin numrica

En lugar de predecir categoras estn


diseados para predecir valores numricos
Ya sea las hojas de los rboles o el lado
derecho de la regla contiene un valor
numrico que es el promedio de todos los
valores del conjunto de entrenamiento.

Dra. Maricela Quintana Lpez


Reglas de asociacin
Similares a las reglas de clasificacin
Pueden predecir cualquier atributo, no solo la
clase, o predecir combinaciones de atributos.
Las diferentes reglas de asociacin expresan
diferentes regularidades que yacen en el conjunto
de datos y generalmente predicen cosas
diferentes.
Cuando se compran paales se
compran bebidas alcoholicas en el 50%
de los casos
Anlisis de la Cesta
Id Huevos Aceite Paales Vino Leche Mantequilla Salmn Lechugas
1 si no no si no si si si
2 no si no no si no no si
3 no no si no si no no no
4 no si si no si no no no
5 si si no no no si no si
6 si no no si si si si no
7 no no no no no no no no
8 si si si si si si si no

El 100% de las veces que se compran paales tambin


se compra leche.
El 50% de las veces que se compran huevos tambin
se compra aceite
El 33% de las veces que se compra vino y salmn tambin
Se compra lechuga.
Agrupamiento (Clustering)
Las tcnicas de agrupamiento se aplican
cuando no hay propiamente una clase que
predecir sino cuando las instancias se dividen
en grupos de forma natural
Es una tcnica de minera de datos no
dirigida.
El agrupamiento requiere de tcnicas
diferentes a las de clasificacin y asociacin

Dra. Maricela Quintana Lpez


Diagramas
En el agrupamiento, la salida es un diagrama que
muestra como las instancias forman grupos.
Se asocia un nmero de grupo a cada instancia
grupos disjuntos
grupos traslapados
probabilidad de pertenencia a un grupo
Jerarqua

Dra. Maricela Quintana Lpez


b)
a)

d
e e
d c
c a h
j
j b
a
h k b
k f f
g
i i
g

c) 1 2 3 d)
a 0.4 0.1 0.5
b 0.1 0.8 0.1
c 0.3 0.3 0.4
d 0.1 0.1 0.8
e 0.4 0.1 0.5
f 0.1 0.4 0.5
g 0.7 0.2 0.1 f h
h a c i ed k b j
g

Agrupamiento
Los mapeos auto-organizables: forma
especializada de red neuronal.
K-Medias (K-Means): agrupamiento
iterativo basado en distancias
Agrupamiento incremental
EM-Algorithm: Expectation Maximization

Dra. Maricela Quintana Lpez


Preparacin de los datos
Integracin de los datos
Datawarehouse
Valores faltantes
Valores inexactos
Tipogrficos
Duplicados

Dra. Maricela Quintana Lpez


Aplicaciones
Decisiones que involucran juicios
Prediccion de cargas
Mercadeo y ventas
Deteccin de Fraudes
Cualquier problema en que se requiera
modelar el comportamiento.

Dra. Maricela Quintana Lpez


tica
Uso de los datos Informacin Persona
Responsabilidad cmo ser usada?
Aplicado a Gente Para qu?
Proteccin?
(Blanca Negra)
vender, compartir?
Discriminacin
Sexual
Racial (reas)
Religiosa

Dra. Maricela Quintana Lpez


Referencias
Witten I, & Frank E. Data Mining:
Practical Machine Learning Tools and
Technical with Java implementations.
Morgan Kaufmann 2005.

Orallo Hernndez J; Ramrez Quintana


M; Ferri Ramrez C. Introduccin a la
Minera de Datos. Pearson 2008.
Referencias
Pawet Cichosz; Data Mining Algorithms
explained using R. Wiley 2015.

Richard J. Roiger and Michael W. Geatz.


Data Mining: A tutorial based
primer. Addison Wesley 2003.
Guion Explicativo
Este Material sirve para:
Se introducen los conceptos bsicos de la
minera de datos:
en qu consiste?
en donde se puede aplicar?
cmo surge?
qu puede aprenderse?
Guion Explicativo
Las diapositivas deben verse en orden, y
deben revisarse aproximadamente en 6
horas.
A continuacin se presenta una tabla
para relacionar las dispositivas con los
contenidos del curso.
Guion Explicativo
Nombre del Material: Introduccin a la Minera de Datos
Objetivo: Introducir al alumno a la minera de datos, presentar escenarios donde se
puede utilizar, motivacin, proceso de extraccin del descubrimiento, estilos
de aprendizaje
Diapositivas Explicacin
1- 4 Se utilizan para ubicar el material dentro de la unidad de aprendizaje.
5-12 Se presentan las caractersticas principales de las situaciones en las que se
deben tomar decisiones y se puede aplicar la minera de datos.
13-17 Se presenta la motivacin por la cual surgi la minera de datos.
18-19 Se presenta el proceso de descubrimiento del conocimiento
20-37 Se introduce el concepto de minera de datos, y se explica a detalle
38-51 Se presentan los 4 estilos de aprendizaje: clasificacin, prediccin, reglas de
asociacin y agrupamiento
52-54 Se resume el tema considerando la problemtica de la preparacin de los
datos, y se retoma en dnde puede aplicarse la Minera de datos. Tambin la
importancia de la tica en el proceso de descubrimiento del conocimiento.
55-56 Fuentes de Informacin Consultadas

Potrebbero piacerti anche