Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
En esta clase concluimos el curso de Anlisis de Datos con una visin de las metodologas del
anlisis de datos. Como se ha visto, este es un campo creciente, y por tanto hay muchas
metodologas del descubrimiento del conocimiento en uso y bajo desarrollo. Algunas de estas
tcnicas son genricas, mientras otros son de dominio especfico.
Se destaca que, en general, un proyecto de KDD involucra un proceso iterativo e interactivo de
bsqueda de modelos, patrones o parmetros. Los patrones descubiertos han de ser vlidos,
novedosos para el sistema (para el usuario siempre que sea posible) y potencialmente tiles.
Por tanto es preciso evaluar la validez, utilidad y simplicidad de los patrones obtenidos
mediante alguna de las tcnicas de Minera de Datos. Debemos tener en cuenta que el
objetivo final es incorporar el conocimiento obtenido en algn sistema real, tomar decisiones a
partir de los resultados alcanzados o, simplemente, suministrar la informacin alcanzada a
quien est interesado.
El primer paso es la identificacin de los datos. Para ello hay que imaginar qu datos se
necesitan, dnde se pueden encontrar y cmo conseguirlos. Una vez que se dispone de datos,
se deben seleccionar aquellos que sean tiles para los objetivos propuestos. Se preparan,
ponindolos en un formato adecuado. Una vez se tienen los datos adecuados se procede a la
minera de datos, proceso en el que se seleccionarn las herramientas y tcnicas adecuadas
para lograr los objetivos pretendidos. Y tras este proceso llega el anlisis de resultados, con lo
que se obtiene el conocimiento pretendido. Se identifican las siguientes etapas:
Creacin del conjunto de datos: consiste en la seleccin del conjunto de datos, o del
subconjunto de variables o muestra de datos, sobre los cuales se va a realizar el
descubrimiento.
Elegir la tarea de Minera de Datos: Decidir si el objetivo del proceso de KDD es:
Regresin, Clasificacin, Agrupamiento, etc.
Eleccin del algoritmo(s) de Minera de Datos: Seleccin del mtodo(s) a ser utilizado
para buscar los patrones en los datos. Incluye adems la decisin sobre que modelos y
parmetros pueden ser los ms apropiados.
El proceso de KDD puede involucrar varias iteraciones y puede contener ciclos entre dos de
cualquiera de los pasos. La mayora de los trabajos que se han realizado sobre KDD se centran
en la etapa de minera. Sin embargo, los otros pasos se consideran importantes para el xito
del KDD. Gran parte del esfuerzo del proceso de KDD recae sobre la fase de preparacin de los
datos, fase crucial para tener xito, que se destaca en el proceso con las operaciones ms
habituales.
Finalmente se apuntan otras tcnicas de inters no cubiertas en este curso, que permitirn
complementar el proceso de bsqueda y generalizacin con paradigmas de la computacin
que comparten el inters en esta rea: razonamiento basado en incertidumbre, tcnicas metaheursticas de bsqueda y optimizacin, y algoritmos avanzados de aprendizaje (redes de
neuronas, mquinas de vectores de soporte), disciplinas que entran dentro de la inteligencia
computacional (soft computing).
Metodologa de Anlisis de
Datos
El Proceso de KDD
INTERPRETACIN Y EVALUACIN
Conocimiento
MINERA DE DATOS
Modelos
TRANSFORMACIN
Datos Transformados
LIMPIEZA
Datos Procesados
SELECCIN
Datos objetivo
Datos
Septiembre 2005
El Proceso de KDD
Planteamiento
Datos/
Resulados
oportunidad,
problema, ...
Proceso de
Anlisis de
Datos. Modelos
Toma de
decisiones,
acciones
(ms datos)
Septiembre 2005
METODOLOGA
1. Formular el problema
2. Determinar la representacin (atributos y clases)
directamente
hablando con expertos
a partir de otras tcnicas (filtros)
METODOLOGA NO SUPERVISADO
1. Formular el problema
bsqueda de afinidad, grupos, etc.
2. Representacin
3. Identificar y recolectar datos de entrenamiento (bases de datos)
4. Preparar datos para anlisis
5. Seleccin de modelo y construccin
agrupamiento de clientes (sin tener en cuenta la clase todava)
Metodologa
Septiembre 2005
Sistema Real
Salidas
Reales
ANLISIS DE RESULTADOS/
Entradas
Simuladas
Sistema Simulado
Salidas
Simuladas
ANLISIS DE RESULTADOS/
EVALUACIN
EVALUACIN
Prestaciones
Reales
Prestaciones
Simuladas
Boosting
Pre-procesamiento
Reduccin del ruido (filtrado de datos)
Seleccin de atributos
Tratamiento de los valores desconocidos, discretizacin de
valores numricos
Metodologa
Septiembre 2005
Metodologa
Septiembre 2005
FILTRADO DE ATRIBUTOS
Los errores en los datos son muy comunes y pueden degradar
fuertemente el anlisis
Se pueden aplicar tcnicas que permitan identificar potenciales
problemas, evitando o agilizando la supervisin manual.
* Regresin robusta
Eliminar ejemplos separados ms de 3
Estimadores de mnimo error absoluto o de mnima mediana de
error cuadrtico
Metodologa
Septiembre 2005
BUSQUEDA DE ATRIBUTOS
Metodologa
Septiembre 2005
Metodologa
Septiembre 2005
Ejemplo bsqueda
A1, A2, A3, A4
A1, A2, A3
A1, A2
A1, A2, A4
A2, A3
A1
A1, A3
A2, A3, A4
A1, A4
A2
Ejemplo
A2, A4
A3
Sitio de
acceso: A1
1
Metodologa
2
1
1
A1, A3, A4
A3, A4
A4
1 cantidad Vivienda:
ltima
gastada: A2
compra: A4
A3
0
2
Libro2005
Septiembre
0
Disco
Clase
Bueno
Malo
25
20
X, Y, CLASE
15
Number of Leaves :
34
67
10
5
0
-5
-10
-15
Attributes: 4
-25
X, Y, SUMA, CLASE
Number of Leaves :
-20
-15
-10
-5
10
15
20
25
Metodologa XY
96.7 | 96.72
Septiembre
63.12 | 2005
92.96
x1
x2
xn
Capa de
entrada
Capa
oculta
y1
yn
Capa de
salida
w1
w2
w3
Metodologa
Septiembre 2005
Algoritmos genticos
Clasificacin como bsqueda (optimizacin)
Seleccin de atributos, ajuste, ...
Meta-aprendizaje: stacking
Generacin de
siguiente
generacin
...
individuos
...
Supervivencia
de mejores
Evaluacin
fitness
poblacin
Metodologa
Septiembre 2005
Lgica borrosa
Clasificacin/prediccin, agrupamiento
ENTRADA
Salario
FUZZIFIER
REGLAS
DEFUZZIFIER
Salario
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
Edad
Edad
0
-10
10
20
30
40
50
60
70
80
90
100
110
Si (Salario=bajo) &
(Edad=media)
=>(Poco adecuado)
ADECUADO
1
0
-10
Metodologa
10
20
30
40
50
60
70
80
Septiembre 2005
90