Sei sulla pagina 1di 19

Jess Garca Herrero

METODOLOGA DE ANLISIS DE DATOS

En esta clase concluimos el curso de Anlisis de Datos con una visin de las metodologas del
anlisis de datos. Como se ha visto, este es un campo creciente, y por tanto hay muchas
metodologas del descubrimiento del conocimiento en uso y bajo desarrollo. Algunas de estas
tcnicas son genricas, mientras otros son de dominio especfico.
Se destaca que, en general, un proyecto de KDD involucra un proceso iterativo e interactivo de
bsqueda de modelos, patrones o parmetros. Los patrones descubiertos han de ser vlidos,
novedosos para el sistema (para el usuario siempre que sea posible) y potencialmente tiles.
Por tanto es preciso evaluar la validez, utilidad y simplicidad de los patrones obtenidos
mediante alguna de las tcnicas de Minera de Datos. Debemos tener en cuenta que el
objetivo final es incorporar el conocimiento obtenido en algn sistema real, tomar decisiones a
partir de los resultados alcanzados o, simplemente, suministrar la informacin alcanzada a
quien est interesado.
El primer paso es la identificacin de los datos. Para ello hay que imaginar qu datos se
necesitan, dnde se pueden encontrar y cmo conseguirlos. Una vez que se dispone de datos,
se deben seleccionar aquellos que sean tiles para los objetivos propuestos. Se preparan,
ponindolos en un formato adecuado. Una vez se tienen los datos adecuados se procede a la
minera de datos, proceso en el que se seleccionarn las herramientas y tcnicas adecuadas
para lograr los objetivos pretendidos. Y tras este proceso llega el anlisis de resultados, con lo
que se obtiene el conocimiento pretendido. Se identifican las siguientes etapas:

Comprensin del dominio de la aplicacin, del conocimiento relevante y de los


objetivos del usuario final.

Creacin del conjunto de datos: consiste en la seleccin del conjunto de datos, o del
subconjunto de variables o muestra de datos, sobre los cuales se va a realizar el
descubrimiento.

Limpieza y preprocesamiento de los datos: Se compone de las operaciones, tales


como: recoleccin de la informacin necesaria sobre la cual se va a realizar el proceso,
decidir las estrategias sobre la forma en que se van a manejar los campos de los datos
no disponibles, estimacin del tiempo de la informacin y sus posibles cambios.

Reduccin de los datos y proyeccin: Encontrar las caractersticas ms significativas


para representar los datos, dependiendo del objetivo del proceso. En este paso se
pueden utilizar mtodos de transformacin para reducir el nmero efectivo de
variables a ser consideradas o para encontrar otras representaciones de los datos.

Elegir la tarea de Minera de Datos: Decidir si el objetivo del proceso de KDD es:
Regresin, Clasificacin, Agrupamiento, etc.

Eleccin del algoritmo(s) de Minera de Datos: Seleccin del mtodo(s) a ser utilizado
para buscar los patrones en los datos. Incluye adems la decisin sobre que modelos y
parmetros pueden ser los ms apropiados.

Minera de Datos: Consiste en la bsqueda de los patrones de inters en una


determinada forma de representacin o sobre un conjunto de representaciones,
utilizando para ello mtodos de clasificacin, reglas o rboles, regresin, agrupacin,
etc.

Interpretacin de los patrones encontrados. Dependiendo de los resultados, a veces se


hace necesario regresar a uno de los pasos anteriores.

Consolidacin del conocimiento descubierto: consiste en la incorporacin de este


conocimiento al funcionamiento del sistema, o simplemente documentacin e
informacin a las partes interesadas.

El proceso de KDD puede involucrar varias iteraciones y puede contener ciclos entre dos de
cualquiera de los pasos. La mayora de los trabajos que se han realizado sobre KDD se centran
en la etapa de minera. Sin embargo, los otros pasos se consideran importantes para el xito
del KDD. Gran parte del esfuerzo del proceso de KDD recae sobre la fase de preparacin de los
datos, fase crucial para tener xito, que se destaca en el proceso con las operaciones ms
habituales.
Finalmente se apuntan otras tcnicas de inters no cubiertas en este curso, que permitirn
complementar el proceso de bsqueda y generalizacin con paradigmas de la computacin
que comparten el inters en esta rea: razonamiento basado en incertidumbre, tcnicas metaheursticas de bsqueda y optimizacin, y algoritmos avanzados de aprendizaje (redes de
neuronas, mquinas de vectores de soporte), disciplinas que entran dentro de la inteligencia
computacional (soft computing).

TCNICAS INFORMTICAS DE MINERA DE DATOS

Metodologa de Anlisis de
Datos

Jess Garca Herrero


Universidad Carlos III de Madrid
Septiembre 2005

TCNICAS INFORMTICAS DE MINERA DE DATOS

ENFOQUES DE ANLISIS DE DATOS


Evaluacin de Hiptesis (Top-Down). Tcnicas estadsticas
Propuesta de hiptesis
Determinar y recolectar datos necesarios para anlisis
Evaluacin de hiptesis para aceptar o rechazar, basadas en
datos
Descubrimento de conocimiento (Bottom-up). Tcnicas de
aprendizaje
Preparar datos disponibles para su exploracin
Aprendizaje supervisado/dirigido
Explicar un atributo particular (clasificacin, prediccin, .)
Aprendizaje no supervisado
Buscar patrones significativos (agrupamiento, asociacin)
Septiembre 2005

TCNICAS INFORMTICAS DE MINERA DE DATOS

El Proceso de KDD
INTERPRETACIN Y EVALUACIN
Conocimiento

MINERA DE DATOS

Modelos

TRANSFORMACIN

Datos Transformados

LIMPIEZA

Datos Procesados

SELECCIN

Datos objetivo
Datos
Septiembre 2005

TCNICAS INFORMTICAS DE MINERA DE DATOS

El Proceso de KDD

Contexto de un aplicacin con Anlisis de Datos.


Proceso interactivo e iterativo. Ensayo y error

Planteamiento

Datos/
Resulados

oportunidad,
problema, ...

Proceso de
Anlisis de
Datos. Modelos

Toma de
decisiones,
acciones
(ms datos)
Septiembre 2005

TCNICAS INFORMTICAS DE MINERA DE DATOS

METODOLOGA
1. Formular el problema
2. Determinar la representacin (atributos y clases)
directamente
hablando con expertos
a partir de otras tcnicas (filtros)

3. Identificar y recolectar datos de entrenamiento (bases de datos,


ficheros, )
4. Preparar datos para anlisis
5. Seleccin de modelo, construccin y entrenamiento
6. Evaluar lo aprendido
validacin cruzada, expertos

7. Integrar la base de conocimiento a la espera de nuevos datos


tras acciones
Septiembre 2005

TCNICAS INFORMTICAS DE MINERA DE DATOS

METODOLOGA NO SUPERVISADO
1. Formular el problema
bsqueda de afinidad, grupos, etc.

2. Representacin
3. Identificar y recolectar datos de entrenamiento (bases de datos)
4. Preparar datos para anlisis
5. Seleccin de modelo y construccin
agrupamiento de clientes (sin tener en cuenta la clase todava)

6. Utilizar las estructuras encontradas para aplicar ap. Supervisado


prediccin de abandono en cada grupo

7. Generar nuevas hiptesis a evaluar


caractersticas de grupos especiales. Bsqueda de ms datos

Metodologa

Septiembre 2005

TCNICAS INFORMTICAS DE MINERA DE DATOS

MINERA DE DATOS EN SIMULACIN


Entradas
Reales

Sistema Real

Salidas
Reales

ANLISIS DE RESULTADOS/

Entradas
Simuladas

Sistema Simulado

Salidas
Simuladas

ANLISIS DE RESULTADOS/

EVALUACIN

EVALUACIN

Prestaciones
Reales

Prestaciones
Simuladas

Evaluacin de relaciones entre diferentes tipos de variables


Bsqueda de patrones y relaciones significativas y tiles
Entradas reales -> mejorar modelo
Entradas/salidas simulados ->comprensin de resultados
Prestaciones -> validacin de resultados
Septiembre 2005

TCNICAS INFORMTICAS DE MINERA DE DATOS

SELECCIN DE DATOS DE ENTRADA


Seleccin de datos

Aleatoriamente: conjuntos grandes. Verificacin


Aquellos que se parecen ms entre s
Aquellos que se diferencian mas entre s
Los datos que estn en las fronteras entre las clases
Los datos que tienen mayores errores de clasificacin se tratan
(proporcionalmente) ms veces

Boosting

Incremental: incorporar sucesivamente datos de un conjunto


reserva

Pre-procesamiento
Reduccin del ruido (filtrado de datos)
Seleccin de atributos
Tratamiento de los valores desconocidos, discretizacin de
valores numricos

Metodologa

Septiembre 2005

TCNICAS INFORMTICAS DE MINERA DE DATOS

SELECCIN DEL MTODO


Necesidades deligibilidad deseada
Naturaleza de datos (estadsticos, linealmente separables, )
Volumen de datos
Cuando no caben en memoria principal se requiere esquema
incremental
Cuando el tamao es muy grande
Seleccin de datos
Mejor si los esquemas son escalables (crecen linealmente o casi).
Mejor si son paralelizables

Incorporar explcitamente conocimiento del dominio


reglas ya conocidas a extender (FOIL)

Metodologa

Septiembre 2005

TCNICAS INFORMTICAS DE MINERA DE DATOS

FILTRADO DE ATRIBUTOS
Los errores en los datos son muy comunes y pueden degradar
fuertemente el anlisis
Se pueden aplicar tcnicas que permitan identificar potenciales
problemas, evitando o agilizando la supervisin manual.

* Mejora de rboles de decisin


El ruido en los atributos debe incorporarse tambin en el
entrenamiento para aprender a combatirlo
Descartar los ejemplos mal clasificados (y re-entrenar)
frecuentemente reduce la complejidad de la estructura, con
diferencias no significativas de prestaciones
Equivale a un proceso de poda global

* Regresin robusta
Eliminar ejemplos separados ms de 3
Estimadores de mnimo error absoluto o de mnima mediana de
error cuadrtico

Metodologa

Septiembre 2005

TCNICAS INFORMTICAS DE MINERA DE DATOS

BUSQUEDA DE ATRIBUTOS

Espacio de bsqueda: subconjuntos posibles de los atributos


Con F atributos hay 2F grupos posibles

Una exploracin exhaustiva no es factible con atributos numerosos (>30)


Se puede comenzar por
conjunto de atributos de entrada completo (backward elimination)
conjunto vaco de atributos (forward selection)

Se puede realizar bsqueda


en escalada (greedy): mueve 1 atributo cada vez. encuentra ptimo
local
mejor-primero: mantiene todas las ramas y puede hacer backtracking.
Es exhaustivo si no se para

La evaluacin de cada nodo (subconjunto de atributos) se realiza llamando al


algoritmo seleccionado (wrapper) o independientemente

Metodologa

Septiembre 2005

TCNICAS INFORMTICAS DE MINERA DE DATOS

EVALUAR CONJUNTOS DE ATRIBUTOS

Tcnicas independientes: filtro previo al aprendizaje


Tcnicas estadsticas: mxima correlacin con clase y mnima
entre atributos
Mxima separacin entre clases
Otros clasificadores: rboles, 1R

Tcnicas asociadas al propio proceso de aprendizaje:


tcnicas wrapper
Evaluacin mediante validacin cruzada, o con conjunto
independiente

Metodologa

Septiembre 2005

TCNICAS INFORMTICAS DE MINERA DE DATOS

Ejemplo bsqueda
A1, A2, A3, A4
A1, A2, A3
A1, A2

A1, A2, A4

A2, A3
A1

A1, A3

A2, A3, A4
A1, A4

A2
Ejemplo

A2, A4
A3

Sitio de
acceso: A1
1

Metodologa
2
1
1

A1, A3, A4
A3, A4
A4

1 cantidad Vivienda:
ltima
gastada: A2
compra: A4
A3
0
2
Libro2005
Septiembre
0

Disco

Clase

Bueno
Malo

Aadir nuevos atributos

TCNICAS INFORMTICAS DE MINERA DE DATOS

Scheme: j48.J48 -C 0.25 -M 2


Attributes: 3

25
20

X, Y, CLASE

15

Number of Leaves :

34

Size of the tree :

67

10
5
0
-5

Scheme: j48.J48 -C 0.25 -M 2

-10
-15

Attributes: 4

-25

X, Y, SUMA, CLASE
Number of Leaves :

Size of the tree :

-20

-15

-10

-5

10

15

20

25

Dataset NaiveBayes | j48.J48


-----------------------------------XYsuma

Metodologa XY

96.7 | 96.72
Septiembre
63.12 | 2005
92.96

Otras tcnicas aplicadas al anlisis de


datos
TCNICAS INFORMTICAS DE MINERA DE DATOS

Redes de neuronas artificiales:


Prediccin/Clasificacin, Clustering

x1
x2
xn
Capa de
entrada

Capa
oculta

y1

yn

Capa de
salida

w1

w2

w3

Interpolacin de funciones no lineales con algoritmos de aprendizaje


Preperacin de datos: entradas numricas normalizadas

SVM (Mquinas de vectores de soporte)


Prediccin/Clasificacin
Transformacin del espacio de entrada en un espacio linealmente separable

Metodologa

Septiembre 2005

Otras tcnicas aplicadas al anlisis de


datos
TCNICAS INFORMTICAS DE MINERA DE DATOS

Algoritmos genticos
Clasificacin como bsqueda (optimizacin)
Seleccin de atributos, ajuste, ...
Meta-aprendizaje: stacking

Generacin de
siguiente
generacin

...

individuos
...

Supervivencia
de mejores

Evaluacin
fitness

poblacin
Metodologa

Septiembre 2005

Otras tcnicas aplicadas al anlisis de


datos
TCNICAS INFORMTICAS DE MINERA DE DATOS

Lgica borrosa
Clasificacin/prediccin, agrupamiento
ENTRADA

Salario

FUZZIFIER

REGLAS

DEFUZZIFIER

Salario

0
0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Edad

Edad

0
-10

10

20

30

40

50

60

70

80

90

100

110

Si (Salario=bajo) &
(Edad=media)
=>(Poco adecuado)

ADECUADO
1

0
-10

Metodologa

10

20

30

40

50

60

70

80

Septiembre 2005

90

Potrebbero piacerti anche