Sei sulla pagina 1di 35

Otoo 2009

Cada vez es ms frecuente el almacn


de informacin en bases de datos
como en:

Data Warehouse
Empresas de Marketing
Escuelas
Gobierno

Esto dificulta la realizacin de anlisis


de aspectos relevantes.
MC Beatriz Beltrn Martnez

Otoo 2009

La bsqueda tradicional de datos se


realiza mediante anlisis estadsticos.
A finales de los 80s la estadstica se
ampli a tcnicas como lgica difusa,
razonamiento
heurstico
y
redes
neuronales.
Actualmente, las tcnicas anteriores se
aprovechan
para
generar
conocimiento.
MC Beatriz Beltrn Martnez

Otoo 2009

La Minera de Datos es la extraccin


automtica de informacin predictiva
escondida desde bases de datos.

La Minera de Datos estudia mtodos


y
algoritmos
que
permiten
la
extraccin automtica de informacin
sintetizada que permite caracterizar las
relaciones escondidas.
MC Beatriz Beltrn Martnez

Otoo 2009

En las aplicaciones de la Minera de


Datos se hace sobre datos previamente
recolectados.

Los datos no cambian mientras estn


siendo analizados.

Por lo que los datos generados son


confiables y consistentes para stos
datos.
MC Beatriz Beltrn Martnez

Otoo 2009

La Minera de Datos y las Bases de


Datos comerciales estn disponibles
para resolver problemas de decisin de
negocios.

La Minera de Datos es una tecnologa


que ayuda a enfocarse en la
informacin ms importante en los
almacenes de datos.
MC Beatriz Beltrn Martnez

Otoo 2009

Minera de Datos:

Bases
de
Datos
Comerciales:

No es una solucin

a negocios.
Es slo tecnologa.
Encuentra
las
gemas prdidas
en montaas de
informacin.

MC Beatriz Beltrn Martnez

Involucra

decisiones
informacin.
Da decisiones
negocios.

Otoo 2009

de
de

Las Herramientas
Datos:

de

la

Minera

de

Predicen

tendencias
futuras
comportamientos.
Pueden
responder
a
preguntas
consumaran
demasiado
tiempo
resolverlas.

y
que
para

La automatizacin, provee herramientas


tpicas de soporte de decisin.
MC Beatriz Beltrn Martnez

Otoo 2009

Las Herramientas obtienen de las bases


de datos patrones escondidos.

Las Tcnicas de la Minera de Datos


pueden ser implementadas rpidamente
en software y en las plataformas de
hardware existente.

Las Herramientas de Minera de Datos


pueden
ser
implementadas
en
plataformas
cliente-servidor
o
computadoras de procesamiento paralelo.
MC Beatriz Beltrn Martnez

Otoo 2009

Las Tcnicas de la Minera de Datos son el


resultado de un largo proceso de
investigacin y desarrollo de productos.
La Minera de Datos esta soportada por
tres
tecnologas
que
son
lo
suficientemente maduras:
Coleccin masiva de datos.
Computadoras con multiprocesamiento.
Algoritmos de minera de datos.
MC Beatriz Beltrn Martnez

Otoo 2009

10

En la siguiente tabla se muestra la


evolucin del tipo de consultas.
Evolucin

Preguntas de Negocios

Coleccin de datos
(Aos 60)

Cuales fueron los ingresos


en los ltimos 5 aos?

Acceso a datos.
(Aos 80)

Que rebajas se tuvieron en Bases


de
datos
Nueva
Inglaterra
en relacionales y lenguajes
marzo?
de
consulta
estructurados (SQL)

Data Warehouse y
soporte a la toma
de decisiones.
(Aos 90)
Data Mining
(1995)

Que rebajas se tuvieron


en Nueva Inglaterra en
marzo? Repetir para
Boston.
Que es lo ms probable
que pase con las rebajas
en Boston el prximo mes?

MC Beatriz Beltrn Martnez

Tecnologas
permitidas
Computadoras, cintas y
discos.

(Procesamiento analtico
en lnea, bases de datos
multidimensionales
y
almacenes de datos.
Algoritmos avanzados,
computadoras con
multiprocesador y
bases de datos
masivas.
Otoo 2009

Caractersticas
Liberacin de datos
estticos
retrospectiva.
Nivel de registro en
liberacin de datos
dinmicos
retrospectiva.
Niveles
mltiples
en liberacin de
datos
dinmicos
retrospectiva.
Liberacin de
informacin
proactiva
prospectiva
11

El componente principal en la Tecnologa


de la Minera de Datos ha sido
desarrollado en:
Estadstica
Inteligencia Artificial
Mquinas de Aprendizaje

Actualmente, existe gran relevancia en:


Ambientes de negocios
Las
descripciones
bsicas
de
arquitecturas de almacenes de datos.
MC Beatriz Beltrn Martnez

Otoo 2009

las

12

Las tcnicas para la Minera de Datos


son:
Redes Neuronales Artificiales.
rboles de Decisin.
Algoritmos Genticos.
Modelos Lineales.
Vecino ms Cercano.

MC Beatriz Beltrn Martnez

Otoo 2009

13

La Minera de Datos ha surgido del


potencial del anlisis de grandes
volmenes de informacin.
Su fin es obtener resmenes y
conocimiento para la toma de decisiones.
Adems
se
pretende
construir
experiencia a partir de millones de
transacciones.

MC Beatriz Beltrn Martnez

Otoo 2009

14

El conjunto de datos de donde la


minera intenta extraer conocimiento
se le llama conjunto de entrenamiento.
La meta de la Minera es obtener
conocimiento vlido no solo para la
base de datos considerada sino para
una muy similar.
El conocimiento puede ser probado con
otro conjunto de entrenamiento.
MC Beatriz Beltrn Martnez

Otoo 2009

15

Algunas de las aplicaciones de la


Minera de Datos son:

Compaias Farmaceuticas.
Compaias de crdito.
Compaias de transporte.
Compaias de consumo.
Reacciones qumicas.
Comercio, monitoreo.

MC Beatriz Beltrn Martnez

Otoo 2009

16

Facilidad con que se puede caer en una


falsa interpretacin.

Es fcil equivocarse.

Tiempo y espacio.

Privacidad

MC Beatriz Beltrn Martnez

Otoo 2009

17

BD

Seleccin

Datos

Preprocesado

Seleccin de
caractersticas

Extraccin de
conocimiento

Conocimiento

MC Beatriz Beltrn Martnez

Otoo 2009

Evaluacin

Modelo
clasificador

18

Algoritmos de aprendizaje:
Mediante una tcnica de Minera de
Datos, se obtiene un modelo de
conocimiento.
El modelo representa patrones de
comportamiento observados en los
valores de las variables o relaciones de
asociacin.
Tambin pueden usarse tcnicas para
generar distintos modelos.
MC Beatriz Beltrn Martnez

Otoo 2009

19

Los
mtodos
descubren:

no

supervisados,

patrones y
tendencias en los datos actuales.

El descubrimiento de esa informacin


sirve para llevar a cabo acciones y
obtener un beneficio de ellas.

MC Beatriz Beltrn Martnez

Otoo 2009

20

Data Mining
Verification Driven DM
SQL

Discovery Driven DM

SQL Generator

Description

Visualization
Query Tools
OLAP

Prediction
Clasification

Clustering
Association
Secuential Association

MC Beatriz Beltrn Martnez

Decision Tree
Distillation
Otoo 2009

Statistical
Regression
Rule Induction
Neural Network
21

Agrupamiento.
Tambin se llama segmentacin.
Identifica tipologas de grupos, donde se

guarda similitud.
Se requiere informacin sobre el colectivo
a segmentar.
La informacin corresponde a valores
concretos.
Se basan en herramientas de carcter
estadsticos, generacin de reglas, redes
neuronales,etc.
MC Beatriz Beltrn Martnez

Otoo 2009

22

Mtodos estadsticos.
Tcnica tradicional en el tratamiento de

grandes volmenes de datos.


Existen varios modelos:

ANOVA (Anlisis de Varianza). Contrasta con


variables continuas.
Ji cuadrado. Contrasta con la independencia
de variables.
Componentes principales. Permite reducir el
nmero de variables.
MC Beatriz Beltrn Martnez

Otoo 2009

23

Mtodos estadsticos.
Anlisis de clsters. Permite clasificar
poblaciones.
Anlisis de discrimante. Permite encontrar
reglas de clasificacin de elementos en
grupos.
Regresin lineal. Se identifica una variable
dependiente de las independientes, con una
relacin lineal.
Regresin logstica. Trabaja con variables
discretas, se requiere que las variables sean
lineales.
MC Beatriz Beltrn Martnez

Otoo 2009

24

rboles de decisin.
Herramientas analticas empleadas para el

descubrimiento de reglas y relaciones.


Se construye partiendo el conjuntos de dos
(CART) o ms (CHAID).
Cada subconjunto a su vez es particionado.
Se continua hasta no encontrar diferencias
significativas de influencia.

MC Beatriz Beltrn Martnez

Otoo 2009

25

Reglas de asociacin.
Derivan de un tipo de anlisis que extrae

informacin por coincidencias.


Permite descubrir correlaciones o coocurrencias en los sucesos de la base de
datos.
Se formaliza la obtencin de reglas del tipo
SI... ENTONCES.

MC Beatriz Beltrn Martnez

Otoo 2009

26

Redes neuronales.
Son

capaces de detectar y aprender


patrones y caractersticas de los datos.
Una vez adiestradas las redes pueden
hacer
previsiones,
clasificaciones
y
segmentacin.
Esto se realiza estructurando nivels o
capas.
Se tienen dos tipos de aprendizaje:
supervisado y no supervisado.
MC Beatriz Beltrn Martnez

Otoo 2009

27

Algortmos genticos.
Hacen uso de tcnicas de reproduccin

(mutacin y cruce) para ser utilizadas para


bsqueda y optimizacin.
Se parte de una poblacin inicial, y se
altera optimizndola.
Esta herramienta se usa en las primeras
fases de la minera y despus se aplica
redes neuronales o regresin logstica.

MC Beatriz Beltrn Martnez

Otoo 2009

28

Lgica difusa.
Surge de la necesidad de modelar la

realidad de forma mas exacta, evitando el


determinismo y exactitud.
Permite el tratamiento probabilstico de
categorizacin colectiva.
Trata la existencia de barreras difusas o
suaves entre grupos.

MC Beatriz Beltrn Martnez

Otoo 2009

29

Series temporales.
Consisten en el estudio de una variable a

travs del tiempo para que partiendo de


ese conocimiento y con el supuesto de no
cambios poder realizar predicciones.
basan en ciclos, tendencias y
Se
estaciones.
Se puede aplicar enfoques hbridos entre
mtodos anteriores, o con otro tipo de
variables.
MC Beatriz Beltrn Martnez

Otoo 2009

30

Redes bayesianas.
Son una alternativa para la minera.
Se tiene las ventajas:
Permiten aprender sobre relaciones de
dependencia y causalidad.
Permiten combinar conocimiento de datos.
Evitan el sobre-ajuste de datos.
Permiten el manejo de bases de datos
incompletas.

MC Beatriz Beltrn Martnez

Otoo 2009

31

Induccin de reglas.
Como informacin de entrada, se tiene un

conjunto de casos donde se ha asociado


una clasificacin o evaluacin.
Con tal informacin se obtiene un rbol de
decisin, que soportan la evaluacin o
clasificacin.
En caso de que la entrada tenga ruido,
esta tcnica se puede habilitar con
mtodos estadsticos.
MC Beatriz Beltrn Martnez

Otoo 2009

32

Sistemas basados en conocimiento y


sistemas expertos.
Permiten la formalizacin de rboles y

reglas
de
decisin,
extradas
del
conocimiento de expertos.
motores de inferencia, que
Poseen
gestionan las preguntas.
De esta forma el proceso de decisin es
eficiente y rpido.
MC Beatriz Beltrn Martnez

Otoo 2009

33

Seleccin de tcnicas adecuadas.


El

mnimo aceptable para elegir una


tecnologa de MD y un producto depende
de qu tanto el producto beneficia al
negocio:
Ingresos.
Costos disminuidos.
Rendimiento de inversiones.

Para desarrollar con xito un negocio, el

MD debe buscar algo ms que patrones


deseados.
MC Beatriz Beltrn Martnez

Otoo 2009

34

Se tienen tres medidas claves, para


una evaluacin de las herramientas.
Precisin: Se deben modelos precisos,

pero reconociendo pequeas diferencias


en las tcnicas.
Explicacin: Las herramientas deben
explicar al usuario final de manera clara
como funciona el modelo.
Integracin: Las herramientas deben
integrarse en el proceso real del
negocio, flujos de datos e informacin
de la empresa.
MC Beatriz Beltrn Martnez

Otoo 2009

35

Potrebbero piacerti anche