Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Mdulo fundamental
Curso:
Introduccin a la
MINERA DE DATOS
Mara N. Moreno Garca
http://avellano.usal.es/~mmoreno
ndice
1. Introduccin
2. Clasificacin de las tcnicas 2.1. Prediccin 2.2. Descubrimiento de conocimiento 3. El proceso 3.1. Determinacin de objetivos 3.2. Preparacin de datos 3.3. Transformacin de datos 3.4. Minera de datos 3.5. Anlisis de resultados 3.6. Asimilacin del conocimiento
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
1.
Introduccin
Base de datos
Herramientas de visualizacin
INTRODUCCIN
La principal diferencia entre el enfoque de minera de datos y el anlisis tradicional se encuentra en que en el primero se descubre informacin sin una hiptesis formulada previamente Los algoritmos de minera de datos generalmente pueden procesar muchos tipos de datos Un concepto muy ligado al de minera de datos es el de data warehouse (DW): Data warehouse es una coleccin de datos orientada a temas, integrada, variable con el tiempo y no voltil, que sirve de ayuda a la toma de decisiones de gestin Los sistemas de DW proporcionan informacin rpida y oportuna que puede ser confrontada con informacin histrica. La minera de datos amplia el soporte de decisiones realizando bsquedas a travs de criterios significativos, descubriendo tendencias, patrones y correlaciones
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
INTRODUCCIN
La minera de datos es un componente importante de la denominada inteligencia de negocio: Inteligencia de negocio es trmino que engloba el conjunto de procesos, tcnicas y herramientas de ayuda a las decisiones de negocio basadas en la tecnologa de la informacin
Fuentes de datos
Inteligencia de negocio
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
2. Clasificacin de
las tcnicas
Supervisados
Mediante los algoritmos de prediccin se intenta predecir el valor de un atributo llamado etiqueta
Clasificador
Etiquetas
Clasificacin: la etiqueta tiene valores discretos (contiene un conjunto fijo de valores) Prediccin de valores:
Regresin: la etiqueta es un valor continuo (puede tomar un valor de un intervalo continuo de valores ) Series de tiempo: es un tipo especial de regresin en el que las medidas de las mismas caractersticas se realizan a lo largo del tiempo
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
No supervisados
Deteccin de desviaciones: deteccin de cambios respecto a la norma Segmentacin o agrupacin (clustering) : divisin de los datos en grupos basndose en una o varias caracterstica de los mismos Anlisis de asociacin: sirven para encontrar patrones de comportamiento o reglas de implicacin entre atributos Resumen: descripciones compactas de datos Minera de textos: transformacin de textos para su posterior procesamiento
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
3. El proceso
EL PROCESO
Determinacin de objetivos Preparacin de datos
Seleccin: Identificacin de las fuentes de informacin externas e internas y seleccin del subconjunto de datos necesario Preprocesamiento: estudio de la calidad de los datos y determinacin de las operaciones de minera que se pueden realizar
Transformacin de datos: conversin de datos en un modelo analtico Minera de datos: tratamiento automatizado de los datos seleccionados con una combinacin apropiada de algoritmos Anlisis de resultados: interpretacin de los resultados obtenidos en la etapa anterior, generalmente con la ayuda de una tcnica de visualizacin Asimilacin de conocimiento: aplicacin del conocimiento descubierto a los negocios, investigaciones mdicas...
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
El proceso
Determinacin de objetivos
La finalidad de esta etapa es asegurar:
que hay aspectos crticos cientficos o de negocio que se pueden resolver que se disponen de los medios necesarios
Pasos:
Desarrollar una definicin cuidadosa de las necesidades Estimar el tiempo en el que se espera obtener resultados Realizar un primer anlisis del coste-beneficio para determinar si los beneficios potenciales compensarn el esfuerzo realizado
El proceso
llevan
asociada
informacin
Slidas definiciones de los datos descripciones de los tipos de datos Posibles valores Formato Procedencia de los datos ...
Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 15
El proceso
Las variables seleccionadas para la minera de datos se llaman variables activas En esta etapa hay que determinar la estabilidad de las variables Hay que tener en cuenta posibles algoritmos de minera para tratar esos datos
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
El proceso
El proceso
El proceso
Grfico de cajas
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
El proceso
Grfico de dispersin
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
El proceso
Para solucionar el problema se puede eliminar toda la observacin que tiene valores perdidos, eliminar la variable o sustituir el valor perdido por el ms probable ...
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
El proceso
Transformacin de datos
Durante la transformacin de datos, los datos preprocesados se transforman para producir un modelo de datos anltico
Despus de construir el modelo, los datos se refinan para ajustarlos a los requisitos de entrada del algoritmo de minera que se va a usar:
Conversin de formato Clculo de variables derivadas Reduccin de datos Discretizacin Tcnica uno-de-N
El proceso
Minera de datos
El objetivo es aplicar los algoritmos de minera de datos seleccionados a los datos preprocesados y transformados Para aplicar los algoritmos se necesita disponer :
Datos preprocesados en las etapas anteriores Los correspondientes metadatos El conocimiento subyacente en el contenido de los datos
Esta etapa est estrechamente ligada con la siguiente (anlisis de resultados) y ambas se llevan a cabo de forma iterativa. El proceso de minera vara de unas aplicaciones a otras:
Por ejemplo para una segmentacin de una base de datos puede ser suficiente la ejecucin de dos algoritmos El desarrollo de un modelo predictivo ser un proceso cclico en el que los modelos se entrenan repetidamente
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
El proceso
Anlisis de resultados
El objetivo es conocer si los resultados obtenidos son interesantes y vlidos.
El anlisis de resultados no puede separarse de la etapa anterior Si los resultados no son adecuados el proceso de minera-anlisis de resultados se repite En la segmentacin de bases de datos, cada segmento debe ser lo suficientemente homogneo para permitir su interpretacin En los modelos predictivos hay que chequear su exactitud
Tcnicas de estimacin de errores Curvas de esfuerzo y de aprendizaje Matrices de confusin Matrices de prdida Anlisis sensitivo de la entrada ...
Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 24
El proceso
Asimilacin de conocimiento
El objetivo es poner en accin los compromisos fijados en la primera etapa de acuerdo a la informacin obtenida a lo largo de todo el proceso Esta tarea tiene dos aspectos importantes:
Presentar los hallazgos de forma convincente y orientada al rea de negocio (o a cualquier otro dominio que se aplique) Formular maneras en las que la nueva informacin pueda explotarse
4. Tcnicas
predictivas
TCNICAS PREDICTIVAS
Predicen el valor de un atributo (etiqueta) de un conjunto de datos, conocidos otros atributos (atributos descriptivos)
El modelado predictivo se utiliza para analizar una base de datos existente y determinar caractersticas esenciales sobre los datos
Los datos deben incluir observaciones vlidas y completas para que el modelo pueda aprender a hacer predicciones exactas El algoritmo debe encontrar la respuesta correcta de algunos casos ya resueltos antes de aplicarse a nuevas observaciones
Antigedad > 2.5 aos
Si
PERMANECE
No
Servicios < 3
Si
ABANDONA
No
PERMANECE
Modelado predictivo
Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 27
TCNICAS PREDICTIVAS
Los modelos predictivos o supervisados se desarrollan en dos fases:
Entrenamiento: construccin de un modelo usando datos histricos (con etiqueta conocida) Prueba: prueba del modelo con datos diferentes a los utilizados para construir el modelo
El modelo inducido se puede usar posteriormente para predecir el valor de la etiqueta de registros no etiquetados
Tcnicas predictivas
Clasificacin
Las principales tcnicas de clasificacin son: Induccin de rboles (rboles de decisin) Induccin neuronal
En ambas se crea automticamente un modelo de clasificacin a partir de un conjunto de entrenamiento y de un inductor:
Conjunto de entrenamiento (training set): registros de datos cuya etiqueta se conoce Inductor: algoritmo que construye automticamente un clasificador a partir de un conjunto de entrenamiento
Conjunto de entrenamiento
Inductor
Clasificador
Tcnicas predictivas
Clasificacin
Los registros del conjunto de entrenamiento tienen que pertenecer a un pequeo grupo de clases que el analista ha predefinido. Cada clase corresponde a un valor de la etiqueta El modelo inducido (clasificador) consiste en una serie de patrones que son tiles para distinguir las clases Una vez que se ha inducido el modelo se puede utilizar para predecir automticamente la clase de otros registros no clasificados (de etiqueta desconocida)
Clasificador
Etiquetas
Tcnicas predictivas
Los puntos de decisin se llaman nodos y los puntos finales donde se recogen las observaciones de los datos se llaman hojas
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
Tcnicas predictivas
3
2 1
Si
PERMANECE
No
Servicios < 3
Si 1 2 3 4 5 Servicios
ABANDONA
No
PERMANECE
Tcnicas predictivas
Tcnicas predictivas
Clasificacin Ejemplo: resolver el problema de decidir si se espera o no a que le asignen una mesa en un restaurante
Etiqueta: esperar, valores de la etiqueta: SI, NO Atributos: alternativa, bar, viernes/sbado, tener hambre, clientes, precio, lluvia, reserva, tipo, tiempo de espera
Etiqueta
Tcnicas predictivas
Tcnicas predictivas
Clasificacin La mejor solucin es la del rbol ms pequeo. Este se obtiene de la forma siguiente:
Se selecciona el atributo que implique la mayor diferenciacin en la clasificacin Si en alguna de las ramas resultantes de la evaluacin de ese atributo no se da la clasificacin completa se repite el proceso con los atributos restantes
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
Tcnicas predictivas
P(vi): probabilidad de una respuesta n: nmero de respuestas posibles (n de valores posibles de la etiqueta) La entropa es 1 cuando las probabilidades de las respuestas son iguales
Tcnicas predictivas
Tcnicas predictivas
Tcnicas predictivas
Tcnicas predictivas
Visualizador de evidencias
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
Tcnicas predictivas
Tcnicas predictivas
Tcnicas predictivas
Tcnicas predictivas
Tcnicas predictivas
El algoritmo de induccin neuronal ms utilizado es el denominado de retropropagacin (back-propagation) en el que los errores son propagados hacia atrs desde la capa de salida
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
Tcnicas predictivas
Tcnicas predictivas
402 62
464
198 7598
7796
Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 48
Tcnicas predictivas
Construyen un conjunto de hiptesis (ensemble) y combinan de alguna forma las predicciones del conjunto para clasificar ejemplos Se les conoce tambin con el nombre de mtodos de construccin de metamodelos, modelos combinados o mtodos de ensamblaje. Los ms representativos son:
Bagging [Breiman, 1996] Boosting [Freund y Schapire, 1996] Cross-validated committees [Parmanto et al., 1996] Forest [Ho, 1998]
Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 49
Tcnicas predictivas
Clasificacin
Multiclasificadores (II)
Una vez construidos los modelos, la prediccin de nuevos casos se realiza mediante la combinacin o fusin de las predicciones de cada uno de los modelos:
Combinacin bayesiana Mtodos hbridos: RBF (Radial Basis Functions), stacking [Wolpert, 1992], cascading [Gama y Bradzil, 2000]
a1 a2 c0 a1 a2 c0 a1 a2 c0
. . . . . .
C1 C2 Cn
C0
DATOS
rbol de decisin
. . .
SVM
Prediccin combinada
. . .
Mtodo de staking
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
Clasificacin
Tcnicas predictivas
Tcnica Holdout: consiste en utilizar una porcin de registros como conjunto de entrenamiento y el resto como conjunto de prueba
Inductor
Clasificador
Evaluacin
Clasificacin
Evaluacin de los clasificadores
Tcnicas predictivas
Estimacin de errores en los clasificadores (II) Validacin cruzada: Los datos se dividen en k subconjuntos mutuamente excluyentes del mismo tamao aproximadamente
Se realizan k entrenamientos de la forma que muestra la figura El ndice de error estimado es la media de los errores obtenidos La validacin cruzada se puede repetir t veces. En ese caso se construyen y evalan k * t clasificadores
Inductor Inductor Inductor
Clasificacin
Evaluacin de los clasificadores
Tcnicas predictivas
Matrices de confusin Muestran el tipo de las predicciones correctas e incorrectas Sobre los ejes se representa:
Los valores obtenidos por el clasificador Los valores reales
Clasificacin
Evaluacin de los clasificadores
Tcnicas predictivas
Matrices de prdida Matrices utilizadas para construir matrices de confusin en las que se considera el coste asociado a las predicciones incorrectas La minimizacin del coste se puede realizar de dos formas:
Reduciendo al mximo las predicciones incorrectas de mayor coste y aumentando las de menor coste Introduciendo una nueva clase para las predicciones indeterminadas (probabilidad de acierto muy baja)
Clasificacin
Evaluacin de los clasificadores
Tcnicas predictivas
Estimado
Valores normalizados:
True Positive Rate: TPR = TP / (TP + FN) False Positive Rate: FPR = FP / (FP + TN) False Negative Rate: FNR = FN / (TP + FN) True Negative Rate: TNR = TN / (FP + TN)
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
Clasificacin
Evaluacin de los clasificadores Anlisis ROC (Receiver Operating Characteristic)
Tcnicas predictivas
Clasificacin
Evaluacin de los clasificadores
Tcnicas predictivas
Curvas de eficacia (lift curves) Muestran el peso acumulado de los registros con un valor especfico de la etiqueta en relacin con el peso de todos los registros La curva muestra la diferencia entre la ordenacin de los registros al azar (curva roja) y ordenados segn las predicciones del clasificador (curva blanca)
Clasificacin
Tcnicas predictivas
Curvas ROI (Return-On-Investment) Similares a las curvas de esfuerzo, pero muestran la precisin en funcin de la prdida, en lugar de hacerlo en funcin del error
Los puntos de la curva se ordenan por la prdida esperada para cada registro La altura de cada punto indica el beneficio acumulado (prdida inversa) de los registros
Clasificacin
Evaluacin de los clasificadores
Tcnicas predictivas
Curvas de aprendizaje Grfico que muestra el error de un clasificador en funcin del nmero de registros usados para crearlo Cada clasificador se genera usando una muestra de registros al azar, y su error se estima usando el resto de los registros
Tcnicas predictivas
Prediccin de valores
Las principales tcnicas de prediccin de valores son: Regresin:
lineal no lineal Funcin base radial
Series temporales
Las tcnicas tradicionales de prediccin de valores son la regresin lineal y no lineal, sin embargo estas tcnicas presentan bastantes deficiencias Una nueva tcnica de regresin, ms robusta, es la conocida como funcin base radial En problemas con caractersticas dependientes del tiempo se puede hacer uso de las series temporales para la prediccin
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
Tcnicas predictivas
Si el comportamiento de los datos no es lineal, se pueden aadir trminos no lineales a las ecuaciones de regresin lineal, pero la tcnica es costosa y no es muy robusta
La tcnica de funcin base radial (FBR) trabaja con la suma ponderada de un conjunto de funciones no lineales. Cada FBR se ajusta a regiones distintas del espacio de entrada
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
Tcnicas predictivas
Tcnicas predictivas
rbol de regresin
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
Tcnicas predictivas
n | xi-mediana |
n
i=1
n Varianza normalizada: es la varianza dividida por el logaritmo en base 2 del nmero de nodos hijos Desviacin absoluta normalizada: es la desviacin absoluta dividida por el logaritmo en base 2 del nmero de nodos hijos
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
D=
Tcnicas predictivas
Tcnicas predictivas
Los valores futuros estn directamente relacionados con los valores anteriores. Dada una serie, se puede construir una ventana o intervalo de tiempo considerando p puntos de tiempo anteriores:
t0, t1, t2, t3, t4, t5, t6, t7, t8, t9
Intervalo = 5
A partir de los intervalos especificados se transforman las series de tiempo en un formato de casos estndar
Tcnicas predictivas
mm (i, m) =
1 m
t(j) j=i-m+1
La media mvil resume el pasado reciente Las caractersticas de una tendencia se pueden obtener comparando medidas recientes con otras anteriores: t(i) mm(i,m) o mm(i,m) mm (i-k, m)
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
5. Tcnicas de descubrimiento
de conocimiento
Anlisis de asociacin
Deteccin de desviaciones
Visualizacin Estadsticas
La segmentacin de la base de datos se realiza para descubrir subpoblaciones homogneas y determinar mejor su perfil Los algoritmos de segmentacin dividen la base de datos para cualquier entrada sin la referencia de experiencias anteriores y sin que entre en juego la subjetividad humana. Cuando un algoritmo trabaja de esta forma se denomina aprendizaje no supervisado
Basndose en esas puntuaciones se crean segmentos iniciales Comparando nuevamente cada registro de una agrupacin con registros de otros segmentos, se pueden realizar reasignaciones y crear nuevos segmentos
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
Ponderacin de atributos: se puede asignar a cada atributo un peso que determina su influencia en la determinacin de la distancia
Si tiene valor 0.0 el atributo no se utiliza para calcular la distancia Si tiene valor n la influencia ser la de n copias exactas de la columna correspondiente al atributo
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
Anlisis de asociacin
El anlisis de asociacin persigue el establecimiento de relaciones entre registros individuales o grupos de registros de la base de datos. Dos especializaciones del anlisis de asociacin son:
Reglas de asociacin Descubrimiento de patrones secuenciales
EJEMPLO:
Cuando un cliente compra una camisa, en el 70% de los casos compra tambin una corbata. Esto sucede en en el 13,5% de todas las compras
Cuerpo de la regla: un cliente compra una camisa Cabeza de la regla: compra tambin una corbata Factor de soporte: 13,5% Factor de confianza: 70%
Oc 2 3 3 1 3
b
Oc 2 3 3 3
Itemset {A B} {A C} {A E} {B C} {B E} {C E}
b
Oc 1 2 1 2 3 2
Itemset {A C} {B C} {B E} {C E}
b
Oc 2 2 3 2
Itemset {B C E}
b
Oc 2
Factor de soporte: ocurrencia relativa de los patrones secuenciales detectados dentro del conjunto total de transacciones
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
Artculos comprados
(cerveza) (brandy) (zumo, pastel) (cerveza) (vino, agua, sidra) (cerveza) (Vino, sidra) (brandy)
Clientes
L. Lpez, A. Ramos J. Martn, A. Ramos
Deteccin de desviaciones
Las tcnicas de deteccin de desviaciones facilitan la identificacin de datos que se desvan de la norma o del valor esperado. Las tcnicas ms utilizadas son: Visualizacin Estadsticas Las tcnicas de visualizacin permiten representar la informacin resumida facilitando la deteccin de desviaciones Los mtodos estadsticos son tiles para detectar las desviaciones y para medir su importancia Ambas tcnicas se utilizan tanto en la etapa de preparacin de los datos como en la de anlisis de resultados
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
6.
Aplicaciones
Aplicaciones
APLICACIONES Los mbitos de aplicacin de las tcnicas de minera de datos son muy variados Las reas en las que ms experiencia de aplicacin existe son fundamentalmente:
Aplicaciones de negocio
Medicina y Biologa
Deteccin de patrones en texto, imgenes y msica
Aplicaciones de negocio
Aplicaciones
Las aplicaciones de minera de datos ms desarrolladas y utilizadas se encuentran en el mbito de los negocios. En la tabla siguiente se muestra la clasificacin de las aplicaciones de minera en funcin del rea de negocio en la que se utilizan.
Gestin de mercado
Marketing Relacin con los clientes Segmentacin de mercado
Gestin de riesgos
Predicciones Retencin de clientes Control de calidad Anlisis competitivo
Gestin de fraude
Deteccin de fraude
Aplicaciones
Gestin de mercados
Uno de los objetivos es dirigir las campaas promocionales de una manera efectiva
Creacin de agrupaciones de modelos de consumidores: consumidores con caractersticas similares en cuanto a inters, nivel de sueldo, hbitos de gasto Determinacin de patrones secuenciales de compra: secuencia en que usan servicios financieros, secuencia de cambio de coche... En campaas de ventas cruzadas se construyen modelos de clientes que adquieren ms de un producto o servicio Uso de tarjetas de cliente para fomentar las ventas y adquirir datos para usar en operaciones de minera. Con dichos datos se pueden crear subpoblaciones de clientes mediante tcnicas de agrupacin demogrfica
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
Aplicaciones
Gestin de mercados
Grupo 1
Tamao: 37756 clientes Sexo: femenino (78%) Edad: 32-41 (65%) Hijos: 1 (60%) 0 (25%) >1 (15%) Tipo de gasto: alto (58%) Departamentos visitados: ropa (57%) cocina (54%) Jardn (42%) cosmticos (39%) Material escolar (42%) Ultima visita: 0-1 meses (39%) 1-2 meses (20%)
Grupo 18
Tamao: 3056 clientes Sexo: femenino (91%) Edad: 32-41 (70%) Hijos: 0 (100%) Tipo de gasto: alto (64%) Departamentos visitados: ropa (91%) cocina (89%) Jardn (79%) cosmticos (41%) Ultima visita: 2-4 meses (31%) 1-2 meses (20%)
Aplicaciones
Gestin de riesgos
La gestin de riesgos no solo cubre riesgos asociados con inversiones o seguros sino tambin riesgos de negocios en general producidos por amenazas competitivas, baja calidad de los productos, prdida de clientes...
En la industria de los seguros, la minera de datos es muy adecuada para predecir propiedades o bajas de asegurados:
Reglas que contemplan riesgos externos Segmentacin de clientes en funcin del nivel de riesgo
En el campo de las finanzas, ventas, telecomunicaciones se puede predecir la probabilidad de prdida de clientes mediante la construccin de un modelo de clientes vulnerables.
Frecuencia de cambio de vivienda Historial de tarjetas de crdito Patrones de compra histricos
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
Aplicaciones
Gestin de riesgos
En el sector bancario la minera de datos permite segmentar los clientes con crdito en clases que muestran los ndices de fracaso y los factores responsables. La aplicacin de tcnicas de minera de datos en el campo de las finanzas se conoce con el nombre de ingeniera financiera.
Prediccin de cambios en comportamientos financieros Se pueden utilizar modelos para predecir los cambios de precios en funcin de los cambios histricos y de factores externos que tienen influencia
En mercados altamente competitivos se puede aplicar la minera para desarrollar una poltica de precios. Se puede elaborar un modelo en funcin de los competidores ms cercanos que toma como entradas los precios ms recientes de los competidores, mtodos de pago que permiten, distancia ...
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
Aplicaciones
Gestin de fraude
Algunos sectores como la sanidad, ventas, servicios de tarjetas de crdito y telecomunicaciones, tienen un nivel de fraude mucho mayor que otros sectores. Organizaciones de este tipo usan tcnicas avanzadas de minera de datos para detectar posibles fraudes El enfoque general es la construccin de un modelo de comportamiento fraudulento a partir de datos histricos. La minera ayuda a detectar instancias similares de ese comportamiento
Las compaas de telecomunicaciones usan un modelo para examinar millones de transacciones diarias y encontrar patrones que se desvan de la norma Las compaas sanitarias utilizan modelos que detectan tratamientos costosos inapropiados
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
Medicina y biologa
Aplicaciones
La aplicacin de algoritmos de minera de datos en estos campos est menos desarrollado que en los negocios. Su uso se realiza casi exclusivamente a nivel experimental Las aplicaciones ms comunes en el dominio de la medicina y biologa son:
Emisin de diagnsticos mdicos Clasificacin de seales biomdicas Clasificacin biolgica de la calidad del agua de los ros
Aplicaciones
Diagnosis mdica
La minera de datos se usa para obtener automticamente reglas de diagnstico a partir de descripciones de pacientes tratados en el pasado en los que el diagnstico final ha sido verificado. La fiabilidad de estos mtodos se ha comprobado en los siguientes problemas de diagnstico:
Localizacin de un tumor primario: se determina una de 22 posibles localizaciones del tumor en base a la edad, sexo, tipo histolgico y otras caractersticas de la metstasis descubierta Prediccin de reaparicin de cncer de mama: la probabilidad de reaparicin se calcula en funcin de la edad, tamao y localizacin del tumor ... Enfermedades de tiroides: Determinacin de una de cuatro posibles diagnsticos a partir de datos histolgicos y pruebas de laboratorio Reumatologa: seleccin de uno de seis grupos posibles
Aplicaciones
Diagnosis mdica
La tabla siguiente proporciona la comparacin de los resultados producidos en diagnsticos realizados aplicando un algoritmo de minera y los realizados por especialistas para los cuatro problemas descritos
Tumor primario Minera de datos Mdicos 49 % 42% Cncer de mama 78% 64% Enferm. tiroides 70% 64% Reumatologa 67% 56%
Aplicaciones
El tratamiento de estas seales se puede realizar mediante tcnicas de clasificacin que producen representaciones de dos o ms conceptos que facilitan la clasificacin. Cuando se presenta una instancia no clasificada se chequean sus propiedades frente a los modelos almacenados
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
Aplicaciones
Deteccin de asociaciones en texto: las herramientas de este tipo ayudan a los usuarios a acceder y entender la gran cantidad de informacin heterognea disponible en la actualidad Aprendizaje de patrones en imgenes: el aprendizaje de patrones en imgenes y secuencias de imgenes se utiliza para interpretar nuevas imgenes:
Interpretacin semntica de imgenes en color Deteccin de objetos en imgenes de rayos-x reconocimiento de acciones en imgenes de vdeo
Estudio de fenmenos musicales: se han desarrollado algoritmos que examinan las caractersticas de la prctica musical y obtener reglas de expresividad musical
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
Parsing
Interfaz grfica
Algoritmos de categorizacin
Sistemas Web
E-bussiness
Actividad comercial a travs de medios electrnicos
comerciante Servidor
Soluciones:
Mecanismos para la recuperacin selectiva de la informacin Recomendacin personalizada de productos Uso de tcnicas de inteligencia de negocios
Minera de datos Agentes inteligentes
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
Cliente
Sistemas Web
Sistemas de recomendacin: proporcionan a los usuarios mecanismos inteligentes de bsqueda de productos que se adaptan a sus preferencias Mtodos de recomendacin
Enfoque basado en contenidos: se recomiendan documentos de texto por comparacin entre sus contenidos y los perfiles de usuario Filtrado colaborativo: prediccin de preferencias de un usuario de productos basadas en las opiniones de otros usuarios
Algoritmos basados en memoria (o en el usuario) : Mediante tcnicas estadsticas se encuentran usuarios con preferencias similares (neighbors) Algoritmos basados en modelos (o en items): desarrollan un modelo de valoraciones del usuario
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
Sistemas Web
Tecnologas de minera de datos:
Se utilizan en el filtrado colaborativo basado en modelos Reduce los inconvenientes Aumentan la calidad de las recomendaciones eliminando dos tipos de errores:
Falsos negativos, que son productos que desea el cliente pero no se recomiendan Falsos positivos, que son productos recomendados pero que el cliente no desea
Mineria Web (Web mining) es el proceso de aplicar tcnicas de minera de datos a informacin procedente de la web para obtener patrones de los usuarios
Bibliografa
P. Cabena; P. Hadjinian; R. Stadler; J. Verhees y A. Zanasi, Discovering Data Mining. From Concept to Implementation, Prentice Hall, 1998. U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth y R. Uthurusamy Eds. Advances in Knowledge Discovery and Data Mining, AAAI Press, 1996. R. Giraldez, J.C. Riquelme y J.S. Aguilar (eds.), Tendencias de la Minera de Datos en Espaa, Red Espaola de Minera de Datos y Aprendizaje, 2004. http://www.lsi.us.es/redmidas/LibroMD.htm J. Hernndez, M.J. Ramrez y C. Ferri, Introduccin a la Minera de Datos, Pearson Education, 2004 . R.S. Michalski; I. Bratko y M. Kubat, Machine Learning and Data Mining, Johb Wiley and Sons, 1998. Mineset users guide, v. 007-3214-004, 5/98, Silicon Graphics, 1998. S.M. Weiss y N. Indurkhya, Predictive Data Mining. A Practical Guide, Morgan Kaufmann Publishers, San Francisco, 1998. I.H. Witten y E. Frank, Data Mining. Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, 2000.
Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 108
Webs de inters:
UCI Machine Learning Group http://www.ics.uci.edu/~mlearn/ KD nuggetsTM http://www.kdnuggets.com/ Twiki Software de minera de datos http://www.the-data-mine.com/bin/view/Software/AllDataMiningSoftware Electronic Textbook StatSoft http://www.statsoftinc.com/textbook/stathome.html
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca
Mdulo fundamental
Curso:
Introduccin a la
MINERA DE DATOS
Mara N. Moreno Garca
http://avellano.usal.es/~mmoreno