Sei sulla pagina 1di 46

Introduccin a la Minera de Datos

y al Aprendizaje Automtico
Carlos Alonso Gonzlez
Grupo de Sistemas Inteligentes
Departamento de Informtica
Universidad de Valladolid
Juan Jos Rodriguez Diez
Grupo de Sistemas Inteligentes
Departamento de Ingeniera Civil
Universidad de Burgos
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 2
Contenidos
1. Inters
2. Definicin de aprendizaje
3. Tareas Bsicas de aprendizaje
4. Dimensiones de Anlisis
5. Paradigmas de aprendizaje
6. Minera de datos
1. Motivacin
2. Qu es la minera de datos?
3. Etapas
4. Ejemplos
5. tica y Minera de da datos
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 3
1 Inters
No hay inteligencia sin aprendizaje
(adaptacin, mejora, descubrimiento)
En la prctica
Exceso de informacin
Escasez de conocimiento
Necesidad de automatizar la obtencin de
conocimiento a partir de informacin
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 4
Nichos de aplicacin
Minera de datos: uso de datos histricos para mejorar
la toma de decisiones
Registros mdicos Conocimiento mdico
Imgenes del firmamento -> catlogo de objetos estelares
Aplicaciones software que no se pueden programar con
tcnicas convencionales
Reconocimiento del habla
Vehculos autnomos
Software personalizado
Filtro de noticias de inters
Gestin de Agenda
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 5
2 Una definicin de aprendizaje
Un programa de ordenador APRENDE
de la experiencia E con respecto a una
clase de tareas T y medida de
desempeo P si su rendimiento en
tareas de T, segn la medida P, mejora
con la experiencia E (Mitchell, 97)
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 6
Ejemplos
Aprender a Jugar a las Damas
T: jugar a las damas
P: porcentaje de juegos ganados al adversario
E: juegos de entrenamiento consigo mismo
Aprender a reconocer la escritura manual
T: reconocer y clasificar palabras manuscritas en una imagen
P: porcentaje de palabras reconocidas correctamente
E: base de datos de imgenes de palabras manuscritas,
clasificadas
Aprender a conducir
T: conducir en una autopista pblica de 4 carriles utilizando
sensores de visin
P: distancia media viajada antes de un error (segn instructor
humano)
E: secuencia de imgenes y comandos de guiado registrados a
partir de la observacin de un conductor humano
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 7
3 Tareas bsicas en el
aprendizaje automtico
Descripcin de conceptos
Formacin de conceptos
Mejora de la eficiencia
Anlisis de regularidades en datos
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 8
Descripcin de conceptos
Planteamiento general
Algoritmo
Aprendizaje
Ejemplos
(clasificados)
Conocimiento
Base
Descripcin
Concepto
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 9
Descripcin de conceptos
Dado
Concepto objetivo
Instancias del mismo
Conocimiento base
Obtener
Caracterizacin del concepto
Tpicamente clasificador a partir de atributos
(identificar/predecir el valor de la clase)
Tambin regresin (predecir valor atributo numrico)
Ejemplos
Anlisis de riesgos en asignacin de crditos
Diagnosis
Vehculos autnomos
10
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 11
ALVINN, RALPH
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 12
Anlisis riesgos concesin de
crditos
N Riesgo Historia Deuda Avales Ingresos
1 alto mala alta no 0 a 2M
2 alto desconocida alta no 2 a 5M
3 moderado desconocida baja no 2 a 5M
4 alto desconocida baja no 0 a 2M
5 bajo desconocida baja no ms de 5M
6 bajo desconocida baja adecuados ms de 5M
7 alto mala baja no 0 a 2M
8 moderado mala baja adecuados ms de 5M
9 bajo buena baja no ms de 5M
10 bajo buena alta adecuados ms de 5M
11 alto buena alta no 0 a 2M
12 moderado buena alta no 2 a 5M
13 bajo buena alta no ms de 5M
14 alto mala alta no 2 a 5M
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 13
Anlisis riesgos concesin de
crditos
Ingresos
Alto
0 a 2 2 a 5 ms de 5
Historia Historia
Deuda Alto Moderado Bajo Moderado Bajo
Desconocida Mala Buena Desconocida Mala Buena
Alto Moderado
Alta Baja
Induccin de rboles de decisin
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 14
Anlisis riesgos concesin de
crditos
Redes de neuronas
historia
deuda
avales
ingresos
crdito
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 15
Concepto: Poltica accesos
(Ejemplos, conocimiento base)
Ejemplos
puede_operar(smith, pabxb_17),
puede_operar(miller, lod_2)...
Conocimiento base
manager(smith),
trabaja_para(smith, betecom),
alquila(betecom, pabxb_17)...
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 16
Concepto: Poltica accesos
(Concepto)
trabaja_para(Persona, Compaa),
alquila(Compaa, Sistema,)
manager(Persona)

puede_operar(Persona, Sistema)
Programacin lgica inductiva
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 17
Formacin de conceptos
Algoritmo
Aprendizaje
Ejemplos
Conocimiento
Base
Nuevo
Concepto
(Descripcin)
Planteamiento general
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 18
Formacin de conceptos
Dado
Instancias de un concepto, posiblemente
desconocido
Obtener
Caracterizacin del concepto
Tres aproximaciones principales
Agrupamiento (clustering)
Asociacin
Descubrimiento
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 19
Agrupamiento
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 20
Agrupamiento
Reglas de asociacin
Ejemplo: anlisis de la cesta de la
compra
Si edad < 40 Y
contiene paales
Entonces contiene cerveza
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 21
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 22
4 Dimensiones de Anlisis
Ejemplos
N ejemplos: mltiples / nico (pocos)
Clasificacin: supervisado / no supervisado
Procesamiento: no incremental (lotes) / incremental
Conocimiento bsico
No utilizan /utilizan
Representacin conocimiento
Simblico / subsimblico
Sesgos (bias) inductivos: factores adicionales que
determinan que conceptos se pueden aprender
Representacionales
Restrictivos
De preferencia
Papel del Bias
Propiedad de la inferencia inductiva
Un sistema de aprendizaje que no haga suposiciones a
priori sobre la identidad del concepto objetivo no
tiene ninguna base racional para clasificar instancias
no vistas (Mitchell, 97)
Mtodos y tcnicas de minera de datos: introduccin 23 GSI UVA/UBU
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 24
5 Paradigmas principales
Aprendizaje memorstico
Aprendizaje inductivo
Aprendizaje deductivo
Aprendizaje multiestrategia
Aprendizaje por analoga
Aprendizaje por refuerzo
En este curso: aprendizaje inductivo
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 25
6 Minera de datos
6.1 Motivacin I
Crecimiento explosivo de los datos.
De terabytes a petabyes.
Cada da se crean 52.000.000.000 MB de
datos (1997).
La cantidad de datos almacenados se duplica
cada 10 meses.
Cada persona est en 8001000 bases de
datos.
Slo el 4% de los datos se usa para algo
(IBM).
Aprendizaje memorstico
Discutible: no tiene capacidad de
generalizacin
Primer paradigma utilizado con xito:
Samuel (Damas, 50)
Mtodos y tcnicas de minera de datos: introduccin 26 GSI UVA/UBU
Aprendizaje inductivo
Tambin denominado basado en ejemplos
Se caracteriza por utilizar (numerosos) ejemplos de
un concepto
Objetivo: caracterizar un (nuevo) concepto
Numerosas aproximaciones de inters
GENERALIZACION a PARTIR DE EJEMPLOS
Mtodos y tcnicas de minera de datos: introduccin 27 GSI UVA/UBU
Aprendizaje deductivo
Objetivo: aumentar eficiencia, mediante
caracterizaciones alternativas de un concepto conocido
Requiere:
Definicin inicial del concepto
1+ ejemplos del concepto
Teora del dominio
Criterios operacionales
Paradigmas: aprendizaje basado en explicaciones
ESPECIALIZACION de una teora general a EJEMPLOS
Mtodos y tcnicas de minera de datos: introduccin 28 GSI UVA/UBU
Aprendizaje por analoga
Objetivo: encontrar la solucin a partir de
soluciones previas a problemas similares
Requiere: Ejemplo de problemas y sus
soluciones
Paradigmas: Razonamiento basado en casos
PROBLEMAS Y SOLUCIONES PASADOS
adaptados a PROBLEMA y SOLUCION ACTUAL
Mtodos y tcnicas de minera de datos: introduccin 29 GSI UVA/UBU
Aprendizaje por refuerzo
No hay ejemplos
El sistema aprende mediante prueba y error
Especialmente orientado a agentes que
interaccionan con el entorno
El entorno ha de cuantificar el xito o fracaso de las
acciones
EXPLORACIN del ENTORNO para obtener
MODELO de COMPORTAMIENTO
Mtodos y tcnicas de minera de datos: introduccin 30 GSI UVA/UBU
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 31
Motivacin II
Recogida de datos y disponibilidad de los
mismos.
Recogida de datos automtica, sistemas de bases de
datos, web, sociedad informatizada.
Principales fuentes de datos.
Negocios: web, comercio electrnico, transacciones,
stocks. . .
Ciencia: teledeteccin, bioinformtica, simulaciones.
. .
Sociedad, todos: noticias, cmaras digitales.
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 32
Motivacin III
We are drowing in data, but starving for
knowledge
Si se pudiera hacer algo til con tanto
dato. . .
La necesidad es la madre de la
invencin.
Minera de Datos: anlisis automtico de
conjuntos de datos masivos.
Mtodos y tcnicas de minera de datos: introduccin 33
6.2 Qu es la minera de datos?
La aplicacin de tcnicas de la inteligencia artificial sobre
grandes cantidades de datos, con el objetivo de descubrir
tendencias, patrones, o relaciones ocultas.
Un paso en el proceso de descubrimiento de conocimiento
en bases de datos (KDD) que consiste en la aplicacin de
algoritmos de anlisis de datos y descubrimiento que,
sometidos a restricciones de eficiencia, producen una
enumeracin particular de patrones sobre los datos.
Un rea en la interseccin del aprendizaje computacional,
la estadstica y las bases de datos.
El proceso de seleccionar, explorar y modelar grandes
cantidades de datos para descubrir patrones, previamente
desconocidos, que proporcionen una ventaja competitiva.
GSI UVA/UBU
Mtodos y tcnicas de minera de datos: introduccin 34
Definicin
El anlisis de conjuntos de datos (a
menudo grandes) observados con el
objetivo de
encontrar relaciones insospechadas
resumir los datos de maneras novedosas que
sean
comprensibles
tiles
Tpicamente los datos se han recopilado
para algn otro propsito
GSI UVA/UBU
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 35
Relacin con otras disciplinas I
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 36
Relacin con otras disciplinas II
Bases de datos. De donde provienen los datos.
Tcnicas de indexacin y acceso a datos.
Diferencia: extraer conocimiento novedoso y comprensible.
Recuperacin de la informacin. Obtener
informacin a partir de datos textuales.
E.g., clasificacin de documentos en funcin de palabras
clave.
Estadstica. Fuente de conceptos, algoritmos, tcnicas.
Comprobar hiptesis frente a encontrar hiptesis.
Aprendizaje automtico. rea de la IA, algoritmos
capaces de aprender.
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 37
Relacin con otras disciplinas III
Sistemas para la toma de la decisin. Asistencia a
directivos, diagnstico. . .
Visualizacin de datos. Describir, intuir o entender
patrones. Difciles de comprender a partir de frmulas
matemticas o descripciones textuales.
Computacin paralela y distribuida. Elevado coste
computacional de las tareas ms complejas en MD, BD
distribudas.
Otras. Dependientes del tipo de datos. Procesamiento
del lenguaje natural, anlisis de imgenes,
procesamiento de seales. . .
Mtodos y tcnicas de minera de datos:
introduccin 38
6.3 Etapas del KDD
[TSK06]
GSI UVA/UBU
Mtodos y tcnicas de minera de datos:
introduccin 39
Etapas
KDD
[HK06]
GSI UVA/UBU
Mtodos y tcnicas de minera de datos: introduccin 40
Etapas del KDD
Limpieza de datos. Eliminar ruido y datos inconsistentes
Integracin de datos. De distintas fuentes
Seleccin de datos. Recuperar de la BD los datos relevantes
para la tarea de anlisis
Transformacin de datos. Los datos se transforman o
consolidan en formas apropiadas para su minera (e.g.,
sumarios, agregacin)
Minera de datos. Aplicacin de mtodos inteligentes con el
objetivo de extraer patrones
Evaluacin de patrones. Identificar los patrones
verdaderamente interesantes
Presentacin del conocimiento. Visualizacin y
representacin del conocimiento para presentar el conocimiento
extrado del usuario
GSI UVA/UBU
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 41
6.4 Posibles aplicaciones
Anlisis de dato y soporte a la decisin.
Anlisis y gestin del mercado.
Marketing personalizado, CRM (Customer Relationship
Management), market basket analysis, cross selling,
segmentacin del mercado
Anlisis y gestin de riesgos.
Prediccin, retencin de clientes, aseguracin
mejorada, control de calidad, anlisis competitivo.
Deteccin de fraudes y patrones inusuales (outliers).
Otros.
Text mining, minera sobre flujos de datos,
bioinformtica.
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 42
Ejemplos de aplicacin
Diagnosis: lentes duras o blandas
Bancarias: conceder o no un crdito
Deteccin de fraudes: es una transaccin sospechosa?
Mailings: a quin?
Rendimiento de ordenadores: como configurar
Teledeteccin: polucin del agua
Prediccin de carga: demanda de electricidad
Cajeros inteligentes: cuanto dinero necesito
Identificar grupos de usuarios similares de tarjetas
Organizar e-mails
Caracterizar intereses de un usuario de internet
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 43
Skicat
Sky Image Cataloging and Analysis Tool
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 44
6.5 tica y minera de datos I
La minera de datos se suele usar para discriminar
La discriminacin por ciertos criterios no es tica, e
incluso puede ser ilegal
Todo depende de la aplicacin
S que se puede utilizar el sexo o la raza para diagnosis
mdica
Aunque se eliminen ciertas variable, otras pueden
indicar dicha informacin indirectamente
E.g.: cdigo postal
Al suministrar informacin, debe conocerse para que va
a usarse
Muchas veces, en minera de datos, se pretende extraer
informacin de datos que fueron recopilados para otro
propsito
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 45
tica y minera de datos II
Resultados sorprendentes
Las personas que compran coches rojos son ms
propensas fallar en el pago del crdito
Al trabajar con un conjunto de datos
Quin tiene permitido el acceso
Para que propsito se recopil
Qu tipo de conclusiones es legtimo obtener
Normas de los usuarios habituales de los datos
E.g.: privacidad de los usuarios de bibliotecas
GSI UVA/UBU Mtodos y tcnicas de minera de datos: introduccin 46
Referencias
Krzysztof J. Cios, Witold Pedrycz, Roman W. Swiniarski, Lukasz A. Kurgan. Data Mining: A
Knowledge discovery Approach. Spriner, 2007.
Margaret H. Dunham. Data Mining: Introductory and Advanced Topics. Prentice Hall, 2003.
Jiawei Han and Micheline Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann,
2nd edition, 2006.
David Hand, Heikki Mannila, Padhraic Smyth. Principles of Data Mining. The MIT Press, 2001.
Jos Hernndez Orallo, M. Jos Ramrez Quintana, and Csar Ferri Ramrez, editors.
Introduccin a la Minera de Datos. Pearson Educacin, 2004.
Tom M. Mitchell. Machine Learning. McGraw-Hill, 1997.
Sankar K. Pal, Pabitra Mitra. Pattern Recognition Algorithms for Data Mining. Chapman &
Hall/CRC, 2004.
Basilio Sierra. Aprendizaje Automtico: conceptos bsicos y avanzados. Pearson Educacin,
2006.
Pang-Ning Tan, Michael Steinbach, and Vipin Kumar. Introduction to Data Mining. Addison
Wesley, 2006.
I. H. Witten and E. Frank. Data Mining: Practical Machine Learning Tools and Techniques.
Morgan Kaufmann, 2nd edition, 2005.

Potrebbero piacerti anche