Sei sulla pagina 1di 110

Postgrado en Informtica y Automtica Mster en Sistemas Inteligentes

Mdulo fundamental
Curso:

Introduccin a la

MINERA DE DATOS
Mara N. Moreno Garca
http://avellano.usal.es/~mmoreno

ndice
1. Introduccin

2. Clasificacin de las tcnicas 2.1. Prediccin 2.2. Descubrimiento de conocimiento 3. El proceso 3.1. Determinacin de objetivos 3.2. Preparacin de datos 3.3. Transformacin de datos 3.4. Minera de datos 3.5. Anlisis de resultados 3.6. Asimilacin del conocimiento
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 2

ndice 4. Tcnicas de prediccin


4.1. Clasificacin 4.2. Prediccin de valores 5. Tcnicas de descubrimiento de conocimiento 5.1. Segmentacin de la base de datos 5.2. Anlisis de asociacin 5.3. Deteccin de desviaciones 6. Aplicaciones 6.1. Aplicaciones de negocio 6.2. Medicina y Biologa 6.3. Deteccin de patrones en texto, imgenes y msica 6.4. Sistemas Web
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 3

1.
Introduccin

INTRODUCCIN Minera de datos ...


es el proceso de obtener informacin previamente desconocida, vlida y transformable a partir de grandes volmenes de datos para utilizarla posteriormente en la toma de decisiones cruciales

Base de datos

Herramientas de minera de datos

Herramientas de visualizacin

Componentes de un entorno de minera de datos


Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 5

INTRODUCCIN
La principal diferencia entre el enfoque de minera de datos y el anlisis tradicional se encuentra en que en el primero se descubre informacin sin una hiptesis formulada previamente Los algoritmos de minera de datos generalmente pueden procesar muchos tipos de datos Un concepto muy ligado al de minera de datos es el de data warehouse (DW): Data warehouse es una coleccin de datos orientada a temas, integrada, variable con el tiempo y no voltil, que sirve de ayuda a la toma de decisiones de gestin Los sistemas de DW proporcionan informacin rpida y oportuna que puede ser confrontada con informacin histrica. La minera de datos amplia el soporte de decisiones realizando bsquedas a travs de criterios significativos, descubriendo tendencias, patrones y correlaciones
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 6

INTRODUCCIN
La minera de datos es un componente importante de la denominada inteligencia de negocio: Inteligencia de negocio es trmino que engloba el conjunto de procesos, tcnicas y herramientas de ayuda a las decisiones de negocio basadas en la tecnologa de la informacin

Decisiones Presentacin de datos Minera de datos Exploracin de datos Data warehouse

Potencial de soporte a decisiones de negocio

Fuentes de datos

Inteligencia de negocio
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 7

2. Clasificacin de

las tcnicas

CLASIFICACIN DE LAS TCNICAS


Algoritmos supervisados o de prediccin : Predicen valores de atributos basndose en valores de otros atributos Algoritmos no supervisados o de descubrimiento de conocimiento : Descubren patrones y segmentos de datos
Supervisados Clasificacin Regresin Series temporales No supervisados Deteccin de desviaciones Segmentacin Agrupamiento ("clustering") Anlisis de asociacin Resumen Minera de textos

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 9

Clasificacin de las tcnicas

Supervisados

Mediante los algoritmos de prediccin se intenta predecir el valor de un atributo llamado etiqueta

Registros sin etiqueta

Clasificador

Etiquetas

Clasificacin: la etiqueta tiene valores discretos (contiene un conjunto fijo de valores) Prediccin de valores:
Regresin: la etiqueta es un valor continuo (puede tomar un valor de un intervalo continuo de valores ) Series de tiempo: es un tipo especial de regresin en el que las medidas de las mismas caractersticas se realizan a lo largo del tiempo
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 10

Clasificacin de las tcnicas

No supervisados
Deteccin de desviaciones: deteccin de cambios respecto a la norma Segmentacin o agrupacin (clustering) : divisin de los datos en grupos basndose en una o varias caracterstica de los mismos Anlisis de asociacin: sirven para encontrar patrones de comportamiento o reglas de implicacin entre atributos Resumen: descripciones compactas de datos Minera de textos: transformacin de textos para su posterior procesamiento
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 11

3. El proceso

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 12

EL PROCESO
Determinacin de objetivos Preparacin de datos
Seleccin: Identificacin de las fuentes de informacin externas e internas y seleccin del subconjunto de datos necesario Preprocesamiento: estudio de la calidad de los datos y determinacin de las operaciones de minera que se pueden realizar

Transformacin de datos: conversin de datos en un modelo analtico Minera de datos: tratamiento automatizado de los datos seleccionados con una combinacin apropiada de algoritmos Anlisis de resultados: interpretacin de los resultados obtenidos en la etapa anterior, generalmente con la ayuda de una tcnica de visualizacin Asimilacin de conocimiento: aplicacin del conocimiento descubierto a los negocios, investigaciones mdicas...
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 13

El proceso

Determinacin de objetivos
La finalidad de esta etapa es asegurar:

que hay aspectos crticos cientficos o de negocio que se pueden resolver que se disponen de los medios necesarios

Pasos:
Desarrollar una definicin cuidadosa de las necesidades Estimar el tiempo en el que se espera obtener resultados Realizar un primer anlisis del coste-beneficio para determinar si los beneficios potenciales compensarn el esfuerzo realizado

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 14

El proceso

Preparacin de datos Seleccin (I)


El objetivo de esta etapa es identificar las fuentes de datos disponibles y extraer los datos necesarios para un anlisis preliminar Las variables seleccionadas semntica (metadatos). Los metadatos deben incluir:

llevan

asociada

informacin

Slidas definiciones de los datos descripciones de los tipos de datos Posibles valores Formato Procedencia de los datos ...
Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 15

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

El proceso

Preparacin de datos Seleccin (II)


Los principales tipos de variables son:
Clasificatorias: toman valores finitos y difieren en el tipo
Nominales: nombran el tipo de objeto sin establecer un orden Ordinales: sus posibles valores tienen un orden

Cuantitativas: hay una diferencia medible entre los posibles valores


Continuas: sus valores son nmeros reales discretas: sus valores son enteros

Las variables seleccionadas para la minera de datos se llaman variables activas En esta etapa hay que determinar la estabilidad de las variables Hay que tener en cuenta posibles algoritmos de minera para tratar esos datos
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 16

El proceso

Preparacin de datos preprocesamiento (I)


El objetivo de esta etapa es asegurar la calidad de los datos selecionados Se utiliza una combinacin de mtodos estadsticos y tcnicas de visualizacin de los datos Para variables clasificatorias se utiliza:
Distribuciones de frecuencia Histogramas Diagramas de sectores

Para variables cuantitativas se combinan medidas estadsticas:


Valores mximo y mnimo Media, mediana Tendencia ...
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 17

El proceso

Preparacin de datos preprocesamiento (II)

Histograma Diagrama de sectores

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 18

El proceso

Preparacin de datos preprocesamiento (III)


Otros grficos muy utilizados son: Grficos de cajas (boxplots): utilizados para representar valores estadsticos Grficos de dispersin (scatterplots): grficos que representan la relacin entre dos o ms variables continuas

Grfico de cajas
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 19

El proceso

Preparacin de datos preprocesamiento (IV)

Grfico de dispersin
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 20

El proceso

Preparacin de datos preprocesamiento (V)


Durante el preprocesamiento nos podemos encontrar:
Datos con ruido: una o ms variables tienen valores que estn significativamente fuera de la lnea que se espera para esas variables. Si el ruido en los datos es producido por un error humano, tienen que eliminarse esos datos incorrectos Valores perdidos: Son valores que no se encuentran en los datos seleccionados o valores no vlidos que se han eliminado durante la deteccin de ruido. Los valores perdidos pueden aparecen por:
Errores humanos Seleccin de datos de fuentes heterogneas

Para solucionar el problema se puede eliminar toda la observacin que tiene valores perdidos, eliminar la variable o sustituir el valor perdido por el ms probable ...
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 21

El proceso

Transformacin de datos
Durante la transformacin de datos, los datos preprocesados se transforman para producir un modelo de datos anltico
Despus de construir el modelo, los datos se refinan para ajustarlos a los requisitos de entrada del algoritmo de minera que se va a usar:
Conversin de formato Clculo de variables derivadas Reduccin de datos Discretizacin Tcnica uno-de-N

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 22

El proceso

Minera de datos
El objetivo es aplicar los algoritmos de minera de datos seleccionados a los datos preprocesados y transformados Para aplicar los algoritmos se necesita disponer :
Datos preprocesados en las etapas anteriores Los correspondientes metadatos El conocimiento subyacente en el contenido de los datos

Esta etapa est estrechamente ligada con la siguiente (anlisis de resultados) y ambas se llevan a cabo de forma iterativa. El proceso de minera vara de unas aplicaciones a otras:
Por ejemplo para una segmentacin de una base de datos puede ser suficiente la ejecucin de dos algoritmos El desarrollo de un modelo predictivo ser un proceso cclico en el que los modelos se entrenan repetidamente
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 23

El proceso

Anlisis de resultados
El objetivo es conocer si los resultados obtenidos son interesantes y vlidos.

El anlisis de resultados no puede separarse de la etapa anterior Si los resultados no son adecuados el proceso de minera-anlisis de resultados se repite En la segmentacin de bases de datos, cada segmento debe ser lo suficientemente homogneo para permitir su interpretacin En los modelos predictivos hay que chequear su exactitud
Tcnicas de estimacin de errores Curvas de esfuerzo y de aprendizaje Matrices de confusin Matrices de prdida Anlisis sensitivo de la entrada ...
Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 24

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

El proceso

Asimilacin de conocimiento
El objetivo es poner en accin los compromisos fijados en la primera etapa de acuerdo a la informacin obtenida a lo largo de todo el proceso Esta tarea tiene dos aspectos importantes:
Presentar los hallazgos de forma convincente y orientada al rea de negocio (o a cualquier otro dominio que se aplique) Formular maneras en las que la nueva informacin pueda explotarse

Algunas de las acciones a realizar pueden ser:


Integracin de nuevos modelos predictivos y reglas de asociacin en las aplicaciones existentes Los sistemas de bases de datos pueden mejorarse con nuevas estructuras de datos Mejora de la calidad de los datos
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 25

4. Tcnicas
predictivas

TCNICAS PREDICTIVAS

Predicen el valor de un atributo (etiqueta) de un conjunto de datos, conocidos otros atributos (atributos descriptivos)
El modelado predictivo se utiliza para analizar una base de datos existente y determinar caractersticas esenciales sobre los datos
Los datos deben incluir observaciones vlidas y completas para que el modelo pueda aprender a hacer predicciones exactas El algoritmo debe encontrar la respuesta correcta de algunos casos ya resueltos antes de aplicarse a nuevas observaciones
Antigedad > 2.5 aos

Si
PERMANECE

No

Servicios < 3

Si
ABANDONA

No
PERMANECE

Esta forma de trabajar se conoce como aprendizaje supervisado


Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Modelado predictivo
Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 27

TCNICAS PREDICTIVAS
Los modelos predictivos o supervisados se desarrollan en dos fases:
Entrenamiento: construccin de un modelo usando datos histricos (con etiqueta conocida) Prueba: prueba del modelo con datos diferentes a los utilizados para construir el modelo

El modelo inducido se puede usar posteriormente para predecir el valor de la etiqueta de registros no etiquetados

Hay dos especializaciones del modelado predictivo:


Clasificacin: se usa un modelado predictivo para establecer una clase para cada registro de la base de datos. El atributo etiqueta representa la clase. La clase debe ser una de un conjunto finito de posibles clases. Las tcnicas de clasificacin ms usadas son induccin de rboles e induccin neuronal Prediccin de valores: el modelo de prediccin se utiliza para estimar un valor numrico continuo que se asocia con un registro de la base de datos. Las principales tcnicas de este tipo son regresin y series temporales
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 28

Tcnicas predictivas

Clasificacin
Las principales tcnicas de clasificacin son: Induccin de rboles (rboles de decisin) Induccin neuronal
En ambas se crea automticamente un modelo de clasificacin a partir de un conjunto de entrenamiento y de un inductor:
Conjunto de entrenamiento (training set): registros de datos cuya etiqueta se conoce Inductor: algoritmo que construye automticamente un clasificador a partir de un conjunto de entrenamiento
Conjunto de entrenamiento

Inductor

Clasificador

Construccin de un clasificador a partir de registros clasificados


Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 29

Tcnicas predictivas

Clasificacin
Los registros del conjunto de entrenamiento tienen que pertenecer a un pequeo grupo de clases que el analista ha predefinido. Cada clase corresponde a un valor de la etiqueta El modelo inducido (clasificador) consiste en una serie de patrones que son tiles para distinguir las clases Una vez que se ha inducido el modelo se puede utilizar para predecir automticamente la clase de otros registros no clasificados (de etiqueta desconocida)

Registros sin etiqueta

Clasificador

Etiquetas

Uso del clasificador con registros sin etiqueta


Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 30

Tcnicas predictivas

Clasificacin Induccin de rboles (I)


Con sta tcnica se construye un modelo predictivo en forma de rbol de decisin. Proceso:
El algoritmo comienza identificando la variable ms importante (aquella que se considera que influye ms en la clasificacin) y se le asocia el nodo raz del rbol Todos los registros del conjunto de entrenamiento se chequean frente a esa condicin. Los que satisfacen la condicin se colocan en la rama izquierda del rbol y los que no en la derecha (para condiciones binarias) A continuacin se decide cual es la siguiente variable en importancia y se repite el proceso

Los puntos de decisin se llaman nodos y los puntos finales donde se recogen las observaciones de los datos se llaman hojas
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 31

Tcnicas predictivas

Clasificacin Induccin de rboles (II)


Cliente 4 Antigedad
Antigedad > 2.5 aos

3
2 1

Si
PERMANECE

No

Servicios < 3

Si 1 2 3 4 5 Servicios
ABANDONA

No
PERMANECE

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 32

Tcnicas predictivas

Clasificacin Induccin de rboles (III)

Visualizacin tridimensional de un modelo de induccin de rboles


Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 33

Tcnicas predictivas

Clasificacin Ejemplo: resolver el problema de decidir si se espera o no a que le asignen una mesa en un restaurante
Etiqueta: esperar, valores de la etiqueta: SI, NO Atributos: alternativa, bar, viernes/sbado, tener hambre, clientes, precio, lluvia, reserva, tipo, tiempo de espera
Etiqueta

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 34

Tcnicas predictivas

Clasificacin Induccin de rboles (V)


Una posible solucin al problema podra ser la ofrecida por el rbol de decisin de la figura siguiente:

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 35

Tcnicas predictivas

Clasificacin La mejor solucin es la del rbol ms pequeo. Este se obtiene de la forma siguiente:
Se selecciona el atributo que implique la mayor diferenciacin en la clasificacin Si en alguna de las ramas resultantes de la evaluacin de ese atributo no se da la clasificacin completa se repite el proceso con los atributos restantes
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 36

Tcnicas predictivas

Clasificacin Induccin de rboles (VII)


Modelo matemtico para seleccionar los atributos que influyen en la clasificacin
Medida basada en la cantidad esperada de informacin (Entropa) que proporciona el atributo: I (P(v1), ..., P(vn)) = - P(vi) logn P(vi) = entropa
i=1 n

P(vi): probabilidad de una respuesta n: nmero de respuestas posibles (n de valores posibles de la etiqueta) La entropa es 1 cuando las probabilidades de las respuestas son iguales

Pureza de un nodo del rbol:


Pureza = 1- entropa
La pureza mxima se obtiene cuando la probabilidad de una respuesta es del 100% y las probabilidades del resto son del 0% (clasificacin completa)
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 37

Tcnicas predictivas

Clasificacin Induccin de rboles (VIII)


Criterios de particin Criterio para seleccionar el mejor atributo para dividir el conjunto de registros
Informacin mutua: Es el cambio en la pureza entre el nodo padre y las medias ponderadas de la pureza de los nodos hijos Informacin mutua normalizada: Es la informacin mutua dividida por el logaritmo en base 2 del nmero de hijos ndice de ganancia: Es la informacin mutua dividida por la entropa de la particin ignorando el valor de las etiquetas

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 38

Tcnicas predictivas

Clasificacin Induccin de rboles (IX)


Poda del rbol de decisin Consiste en evitar la separacin repetitiva de atributos que no tienen evidente relevancia, an cuando los datos de ese nodo del rbol no estn clasificados convenientemente
Un atributo irrelevante divide el conjunto de entrenamiento en subconjuntos que tienen aproximadamente las mismas proporciones de cada una de las clases Se realizan pruebas estadsticas para determinar cuando los subrboles no son significativamente mejores que el nodo del que parten El crecimiento del rbol se detiene cuando la ganancia en la informacin obtenida con la particin de un conjunto se encuentra por debajo de una cantidad umbral. La poda se utiliza para evitar el problema de sobreadaptacin (overfitting) que consiste en encontrar una regularidad irrelevante en los datos.
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 39

Tcnicas predictivas

Clasificacin Clasificador de evidencias o de Naive-Bayes (I)


Realiza la clasificacin asignando probabilidades de pertenencia a una clase en funcin de un valor o intervalo de valores de un atributo con independencia de los dems. Se utiliza para conocer:
La importancia de los valores de un atributo especfico para la clasificacin La probabilidad de que un registro pertenezca a una clase cuando se conocen pocos atributos de dicho registro La distribucin de registros por valores de los atributos Las caractersticas de los registros que tienen cierta etiqueta
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 40

Tcnicas predictivas

Clasificacin Clasificador de evidencias (II)


Probabilidad previa: probabilidad de los valores de la etiqueta sin considerar los valores de los atributos ( grfico izda.) Probabilidades condicionales: probabilidad relativa de que cada valor de un atributo condicione un valor de la etiqueta (evidencia) Distribucin de probabilidad para cada valor de un atributo muestra la proporcin de registros de cada clase

Visualizador de evidencias
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 41

Tcnicas predictivas

Clasificacin Tablas de decisin (I)


Muestran correlaciones entre pares de atributos a diferentes niveles
Una tabla de decisin se induce automticamente mediante el clculo de probabilidades a partir de los registros del conjunto de entrenamiento:
Los atributos continuos se separan en intervalos discretos Se determina la probabilidad previa de la etiqueta:
probabilidad de cada clase sin considerar el resto de atributos Sobre los ejes de la tabla aparecen representados el nmero de intervalos discretos de valores para cada par de atributos

Probabilidad previa de la etiqueta

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 42

Tcnicas predictivas

Clasificacin Tablas de decisin (II)


En el interior de la tabla se muestra la distribucin de probabilidad para cada combinacin de valores de los atributos (bloques de la tabla) En cada bloque se muestra, mediante colores diferentes, la proporcin de registros que tiene de cada una de las clases Los bloques de un solo color nicamente tienen registros de una clase

Visualizacin de una tabla de decisin


Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 43

Tcnicas predictivas

Clasificacin Tablas de decisin (III)


En el primer nivel se muestran los atributos que proporcionan la mejor clasificacin En los bloques donde no se ha producido la clasificacin completa (aparece ms de un color) se puede acceder al siguiente nivel de la tabla en el que se relacionan otros dos atributos

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 44

Tcnicas predictivas

Clasificacin Induccin neuronal (I)


Con sta tcnica se representa el modelo como una arquitectura de nodos y enlaces ponderados que los conectan Las redes neuronales son colecciones de nodos conectados con entrada, salida y procesamiento en cada nodo Entre las capas de entrada y salida visibles puede haber capas de procesamiento ocultas Cada unidad de procesamiento en una capa est conectada con cada unidad de procesamiento de la siguiente capa. La fuerza de las relaciones se expresa mediante un factor de peso. Los factores se ajustan durante el entrenamiento de la red Las salidas de la red representan los valores de las clases calculados a partir de los datos
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 45

Tcnicas predictivas

Clasificacin Induccin neuronal (II)


Antigedad Clase Servicios Entradas Capa interna de procesamiento Salida

El algoritmo de induccin neuronal ms utilizado es el denominado de retropropagacin (back-propagation) en el que los errores son propagados hacia atrs desde la capa de salida
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 46

Tcnicas predictivas

Clasificacin Induccin neuronal (III)


La induccin neuronal es una tcnica ms robusta que los rboles de decisin por la ponderacin en los datos A veces la convergencia de las redes neuronales falla debido a impurezas en los datos de entrada o a la complejidad del problema La lgica interna que sigue el modelo para realizar la clasificacin no es fcilmente accesible. Existen dos maneras de solventar estas dificultades:
Anlisis de sensibilidad de las entradas: permite determinar qu campos de entrada tienen ms influencia en la imposicin de las acciones del modelo clasificacin Matrices de confusin: ofrecen una medida del nivel de efectividad del modelo de clasificacin, mostrando el nmero de clasificaciones correctas e incorrectas para cada posible valor de la variable que est siendo clasificada
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 47

Tcnicas predictivas

Clasificacin Induccin neuronal (IV)


En las matrices de confusin se puede medir la exactitud del modelo:
Exactitud: grado en que el modelo es correcto al realizar predicciones para un valor determinado de la etiqueta

Ejemplo: exactitud (abandonan ) = 402/464 = 0.87


Abandonarn Permanecern Han abandonado Han permanecido
Errores

402 62
464

198 7598
7796
Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 48

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Tcnicas predictivas

Clasificacin Multiclasificadores (I)


Mtodos que combinan hiptesis con el fin de mejorar la precisin de las predicciones

Construyen un conjunto de hiptesis (ensemble) y combinan de alguna forma las predicciones del conjunto para clasificar ejemplos Se les conoce tambin con el nombre de mtodos de construccin de metamodelos, modelos combinados o mtodos de ensamblaje. Los ms representativos son:
Bagging [Breiman, 1996] Boosting [Freund y Schapire, 1996] Cross-validated committees [Parmanto et al., 1996] Forest [Ho, 1998]
Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 49

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Tcnicas predictivas

Clasificacin

Multiclasificadores (II)
Una vez construidos los modelos, la prediccin de nuevos casos se realiza mediante la combinacin o fusin de las predicciones de cada uno de los modelos:
Combinacin bayesiana Mtodos hbridos: RBF (Radial Basis Functions), stacking [Wolpert, 1992], cascading [Gama y Bradzil, 2000]
a1 a2 c0 a1 a2 c0 a1 a2 c0

. . . . . .

rbol de decisin Red neuronal

C1 C2 Cn
C0

DATOS

rbol de decisin

. . .
SVM

Prediccin combinada

. . .

Mtodo de staking
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 50

Evaluacin de los clasificadores

Clasificacin

Tcnicas predictivas

Estimacin de errores en los clasificadores (I)


Cuando se construye el clasificador se puede predecir cual ser su ndice de error cuando se aplique a datos sin clasificar

Tcnica Holdout: consiste en utilizar una porcin de registros como conjunto de entrenamiento y el resto como conjunto de prueba

Inductor
Clasificador

Evaluacin

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 51

Clasificacin
Evaluacin de los clasificadores

Tcnicas predictivas

Estimacin de errores en los clasificadores (II) Validacin cruzada: Los datos se dividen en k subconjuntos mutuamente excluyentes del mismo tamao aproximadamente
Se realizan k entrenamientos de la forma que muestra la figura El ndice de error estimado es la media de los errores obtenidos La validacin cruzada se puede repetir t veces. En ese caso se construyen y evalan k * t clasificadores
Inductor Inductor Inductor

Clasificador Clasificador Clasificador

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 52

Clasificacin
Evaluacin de los clasificadores

Tcnicas predictivas

Matrices de confusin Muestran el tipo de las predicciones correctas e incorrectas Sobre los ejes se representa:
Los valores obtenidos por el clasificador Los valores reales

Las entradas fuera de la diagonal indican predicciones incorrectas

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 53

Clasificacin
Evaluacin de los clasificadores

Tcnicas predictivas

Matrices de prdida Matrices utilizadas para construir matrices de confusin en las que se considera el coste asociado a las predicciones incorrectas La minimizacin del coste se puede realizar de dos formas:
Reduciendo al mximo las predicciones incorrectas de mayor coste y aumentando las de menor coste Introduciendo una nueva clase para las predicciones indeterminadas (probabilidad de acierto muy baja)

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 54

Clasificacin
Evaluacin de los clasificadores

Tcnicas predictivas

Evaluacin de los clasificadores (V)


Anlisis ROC (Receiver Operating Characteristic) Cuando la matriz de coste no se conoce durante el aprendizaje se crean un conjunto de clasificadores y se selecciona el que mejor se comporte para contextos de coste determinados a posteriori
Se utiliza para problemas de dos clases: positiva y negativa Matriz de confusin:
Real
True Positives (TP) False Positives (FP) True Negatives (TN) Real Estimado
TPR FNR FPR TNR

Estimado

False Negatives (FN)

Valores normalizados:
True Positive Rate: TPR = TP / (TP + FN) False Positive Rate: FPR = FP / (FP + TN) False Negative Rate: FNR = FN / (TP + FN) True Negative Rate: TNR = TN / (FP + TN)
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Matriz de confusin normalizada

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 55

Clasificacin
Evaluacin de los clasificadores Anlisis ROC (Receiver Operating Characteristic)

Tcnicas predictivas

TPR = TP / (TP + FN) FPR = FP / (FP + TN)

Clasificador en el espacio ROC


Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 56

Clasificacin
Evaluacin de los clasificadores

Tcnicas predictivas

Curvas de eficacia (lift curves) Muestran el peso acumulado de los registros con un valor especfico de la etiqueta en relacin con el peso de todos los registros La curva muestra la diferencia entre la ordenacin de los registros al azar (curva roja) y ordenados segn las predicciones del clasificador (curva blanca)

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 57

Evaluacin de los clasificadores

Clasificacin

Tcnicas predictivas

Curvas ROI (Return-On-Investment) Similares a las curvas de esfuerzo, pero muestran la precisin en funcin de la prdida, en lugar de hacerlo en funcin del error
Los puntos de la curva se ordenan por la prdida esperada para cada registro La altura de cada punto indica el beneficio acumulado (prdida inversa) de los registros

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 58

Clasificacin
Evaluacin de los clasificadores

Tcnicas predictivas

Curvas de aprendizaje Grfico que muestra el error de un clasificador en funcin del nmero de registros usados para crearlo Cada clasificador se genera usando una muestra de registros al azar, y su error se estima usando el resto de los registros

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 59

Tcnicas predictivas

Prediccin de valores
Las principales tcnicas de prediccin de valores son: Regresin:
lineal no lineal Funcin base radial

Series temporales

Las tcnicas tradicionales de prediccin de valores son la regresin lineal y no lineal, sin embargo estas tcnicas presentan bastantes deficiencias Una nueva tcnica de regresin, ms robusta, es la conocida como funcin base radial En problemas con caractersticas dependientes del tiempo se puede hacer uso de las series temporales para la prediccin
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 60

Tcnicas predictivas

Prediccin de valores Regresin (I)


La regresin lineal trata de ajustar un conjunto de datos a una lnea recta Para un vector n-dimensional de entradas ( X = [x1,, x2,, ... , xn ] ) hay un vector de n + 1 parmetros ( = [0 , 1 , ... , n ] ) tal que:
F (X|) = 0 + 1 x1 + ... + n xn

Si el comportamiento de los datos no es lineal, se pueden aadir trminos no lineales a las ecuaciones de regresin lineal, pero la tcnica es costosa y no es muy robusta

La tcnica de funcin base radial (FBR) trabaja con la suma ponderada de un conjunto de funciones no lineales. Cada FBR se ajusta a regiones distintas del espacio de entrada
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 61

Tcnicas predictivas

Prediccin de valores Regresin (II)


104 102 100 98 96 94 92 0 10 20 30
104 102 100 98 96 94 92 90 88 86 0 5 10 15 20

Lnea de regresin predicha Lnea de regresin verdadera

Deficiencias de la regresin lineal


Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 62

Tcnicas predictivas

Prediccin de valores Regresin (III) Induccin de rboles de regresin


Similares a los rboles de decisin, pero trabajan con etiquetas que tienen valores continuos
Los valores continuos del conjunto de entrenamiento se dividen en subrangos

rbol de regresin
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 63

Tcnicas predictivas

Prediccin de valores Regresin (IV) Induccin de rboles de regresin


Criterios de particin: Criterio para seleccionar el mejor atributo para dividir el conjunto de registros
Varianza: se elige la particin que minimiza la varianza (V) (xi-xM)2 V=
i=1 n

Desviacin absoluta: se elige la particin que minimiza la desviacin absoluta (D)

n | xi-mediana |
n
i=1

n Varianza normalizada: es la varianza dividida por el logaritmo en base 2 del nmero de nodos hijos Desviacin absoluta normalizada: es la desviacin absoluta dividida por el logaritmo en base 2 del nmero de nodos hijos
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

D=

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 64

Tcnicas predictivas

Prediccin de valores Series temporales (I)


Una serie de tiempo es una secuencia de vectores numricos recogidos a lo largo del tiempo La prediccin de series de tiempo requiere la estimacin de valores que van a aparecer en la secuencia, dados los valores anteriores y los valores actuales A medida que transcurre el tiempo, los nuevos valores obtenidos se van incorporando a la informacin disponible Un aspecto importante de las series temporales es que se descarta la informacin irrelevante, utilizando nicamente la necesaria para generar las predicciones deseadas

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 65

Tcnicas predictivas

Prediccin de valores Series temporales (II)


Las series de tiempo se miden a unidades fijas de tiempo. Sus valores pueden representarse como:
t(1), t(2), ..., t(i), ..., t(n) donde t(n) es el valor ms reciente

Los valores futuros estn directamente relacionados con los valores anteriores. Dada una serie, se puede construir una ventana o intervalo de tiempo considerando p puntos de tiempo anteriores:
t0, t1, t2, t3, t4, t5, t6, t7, t8, t9

Intervalo = 5

A partir de los intervalos especificados se transforman las series de tiempo en un formato de casos estndar

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 66

Tcnicas predictivas

Prediccin de valores Series temporales (II)


Los casos se especifican en funcin de un objetivo y una ventana de tamao m Se puede calcular la media mvil (mm) para esos casos:
Caso F1 F2 F3 F4 F5 Objetivo 1 2 3 4 5 t0 t1 t2 t3 t4 t1 t2 t3 t4 t5 t2 t3 t4 t5 t6 t3 t4 t5 t6 t7 t4 t5 t6 t7 t8 t5 t6 t7 t8 t9

mm (i, m) =

1 m

t(j) j=i-m+1

La media mvil resume el pasado reciente Las caractersticas de una tendencia se pueden obtener comparando medidas recientes con otras anteriores: t(i) mm(i,m) o mm(i,m) mm (i-k, m)
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 67

5. Tcnicas de descubrimiento

de conocimiento

TCNICAS DE DESCUBRIMIENTO DE CONOCIMIENTO


Los algoritmos de descubrimiento de conocimiento extraen patrones de los datos cuando la informacin disponible es insuficiente para realizar predicciones. En la siguiente tabla se observa una clasificacin de estos algoritmos:
Segmentacin de la base de datos
Agrupacin conceptual

Anlisis de asociacin

Deteccin de desviaciones
Visualizacin Estadsticas

Agrupacin demogrfica Reglas de asociacin Descubrimiento de patrones secuenciales

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 69

Tcnicas de descubrimiento de conocimiento

Segmentacin de la base de datos


La segmentacin es la particin de la base de datos en segmentos de registros similares. Se puede llevar a cabo usando
Agrupacin (clustering) demogrfica Agrupacin conceptual

La segmentacin de la base de datos se realiza para descubrir subpoblaciones homogneas y determinar mejor su perfil Los algoritmos de segmentacin dividen la base de datos para cualquier entrada sin la referencia de experiencias anteriores y sin que entre en juego la subjetividad humana. Cuando un algoritmo trabaja de esta forma se denomina aprendizaje no supervisado

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 70

Tcnicas de descubrimiento de conocimiento

Segmentacin de la base de datos Agrupacin demogrfica (I)


Dado un gran conjunto multidimensional de datos, los mtodos de agrupacin demogrfica identifican los espacios poco y muy poblados, y a partir de ah descubre patrones de distribucin del conjunto de datos Cada columna (atributo) de los datos constituye una dimensin del espacio multidimensional de registros Realizan una medida de la distancia entre parejas de registros. En funcin de dicha medida, los registros de entrada se asignan a una agrupacin especfica Los algoritmos de agrupacin demogrfica distribuyen los registros de datos en agrupaciones con dispersin mnima Dispersin2 = ( (distanciai)2 )/n
i=1
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 71

Tcnicas de descubrimiento de conocimiento

Segmentacin de la base de datos Agrupacin demogrfica (II)


Tcnica de medida de la distancia basada en el principio de Condorset:
Cuando un par de registros tiene el mismo valor para el mismo campo se le asigna una puntuacin de +1. (Si las variables son continuas se preestablece una tolerancia en la comparacin) Cuando el campo no tiene el mismo valor para ambos registros se le asigna la puntuacin de -1 La puntuacin final se calcula sumando las puntuaciones parciales

Basndose en esas puntuaciones se crean segmentos iniciales Comparando nuevamente cada registro de una agrupacin con registros de otros segmentos, se pueden realizar reasignaciones y crear nuevos segmentos
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 72

Tcnicas de descubrimiento de conocimiento

Segmentacin de la base de datos Agrupacin demogrfica (III)


Algoritmo k-medias sencillo
Se establece inicialmente un nmero de agrupaciones n Los centros de las n agrupaciones se inicializan en posiciones al azar del espacio de todos los registros Cada uno de los registros restantes se asigna a una agrupacin, aquella cuyo centro est mas cerca del registro Se recalculan los centros de las nuevas agrupaciones Los siguientes pasos se ejecutan iterativamente hasta que no se consiga ninguna mejora:
Si hay registros que estn ms cercanos al centro de una agrupacin distinta a la que pertenecen se mueven a dicha agrupacin Se recalculan los centros de las nuevas agrupaciones
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 73

Tcnicas de descubrimiento de conocimiento

Segmentacin de la base de datos Agrupacin demogrfica (IV)


Algoritmo k-medias iterativo (I)
Se establece inicialmente un nmero mnimo y mximo de agrupaciones Con el nmero mnimo se realiza una ejecucin del algoritmo kmedias sencillo para obtener las agrupaciones iniciales Los siguientes pasos se ejecutan iterativamente hasta que se alcance el nmero mximo de agrupaciones
La agrupacin con mayor dispersin se divide en dos partes, creando dos nuevas agrupaciones y se recalculan sus centros Si hay registros ms cercanos al centro de otra agrupacin que al de la suya, se mueven a la agrupacin ms cercana y se recalculan los centros de las agrupaciones El ltimo paso se repite hasta que no sea necesario mover ningn registro o hasta que se haya ejecutado el nmero mximo de veces permitido
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 74

Tcnicas de descubrimiento de conocimiento

Segmentacin de la base de datos Agrupacin demogrfica (IV)


Algoritmo k-medias iterativo (II)
Punto de seleccin: selecciona el grado de dispersin deseado, medido como la proporcin entre la dispersin media del nmero mnimo de agrupaciones y la dispersin media del mximo nmero de agrupaciones Se utiliza para determinar las agrupaciones finales:
Si tiene valor 1.0, se seleccionar el nmero mximo de agrupaciones Si tiene valor 0.0 se seleccionar el nmero mnimo

Ponderacin de atributos: se puede asignar a cada atributo un peso que determina su influencia en la determinacin de la distancia
Si tiene valor 0.0 el atributo no se utiliza para calcular la distancia Si tiene valor n la influencia ser la de n copias exactas de la columna correspondiente al atributo
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 75

Tcnicas de descubrimiento de conocimiento

Segmentacin de la base de datos Agrupacin conceptual (I)


El trmino agrupacin conceptual se ha introducido para designar a las agrupaciones de objetos que juntos representan un concepto La agrupacin conceptual no solo produce segmentos o clusters sino tambin descripciones de los conceptos relacionados El aprendizaje se basa en la idea de cobertura progresiva de los datos de entrada mediante reglas de decisin generadas consecutivamente

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 76

Tcnicas de descubrimiento de conocimiento

Segmentacin de la base de datos Agrupacin conceptual (II)


Algoritmo de agrupamiento conceptual Seleccionar k semillas (registros iniciales) Construir k salidas, cada salida representa una coleccin de las descripciones ms generales de una semilla Seleccionar para cada salida una regla de forma que cada regla tenga la mnima interseccin lgica con otras reglas y que la unin lgica de tales reglas cubra el mximo nmero de instancias Si hay instancias no cubiertas encontrar con las que mejor se ajusten. Refinar las reglas para cubrir todas las instancias En este momento cada regla representa un conjunto de registros. Para cada uno de los conjuntos seleccionar una nueva semilla Repetir el procedimiento para mejorar la solucin anterior
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 77

Tcnicas de descubrimiento de conocimiento

Segmentacin de la base de datos Agrupacin conceptual (III)


Registro at1 at2 at3 at1 : [a, b, c] e1 a 2 110 e2 b 4 100 at2 : [2 ... 6] e3 b 2 9 e4 b 3 10 at3 : [ 1 ... 300] pequeo: 1 - 30 e5 c 5 20 medio: 31 - 150 e6 c 4 15 e7 b 5 200 grande: 151 -300 e8 b 4 50 des(e1): (at1 = a) & (at2 = 2) & (at3 = medio) Agrupacin 1: instancias e1, e3, e4 des(e5): (at1 = c) & (at2 = 5) & (at3 = pequeo) (at1 = a b) & (at2 = 2 3) Salidas iniciales: Agrupacin 2: instancias e2, e5, s(e1): (at1 c) & (at2 5) & (at3 pequeo) e6, e7, e8 s(e5): (at1 a) & (at2 2) & (at3 medio) (at1 = b c) & (at2 = 4 5)
b

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 78

Tcnicas de descubrimiento de conocimiento

Anlisis de asociacin
El anlisis de asociacin persigue el establecimiento de relaciones entre registros individuales o grupos de registros de la base de datos. Dos especializaciones del anlisis de asociacin son:
Reglas de asociacin Descubrimiento de patrones secuenciales
EJEMPLO:

Transaccin: conjunto de productos comprados en una visita a una tienda.


Reglas de asociacin: revela afinidades ocultas entre los productos (productos que tienden a venderse mejor juntos) Patrones secuenciales: revelan informacin sobre la secuencia en que los consumidores adquieren bienes
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 79

Tcnicas de descubrimiento de conocimiento

Anlisis de asociacin Reglas de asociacin (I)


El propsito de las reglas de asociacin es descubrir artculos que implican la presencia de otros artculos en la misma transaccin Aplicando esta tcnica a un conjunto de transacciones se descubren afinidades entre la coleccin de artculos. Las afinidades se expresan mediante las reglas de asociacin La regla tiene la forma Si X entonces Y
Cuerpo de la regla: X Cabeza de la regla: Y Factor de confianza o previsibilidad: grado en que la regla es verdad en relacin con los registros individuales Factor de soporte o prevalencia: relacin entre el nmero de veces que tiene lugar la regla y el nmero total de transacciones Previsibilidad esperada: nmero de veces que ocurre Y
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 80

Tcnicas de descubrimiento de conocimiento

Anlisis de asociacin Reglas de asociacin (II)


EJEMPLO:

Cuando un cliente compra una camisa, en el 70% de los casos compra tambin una corbata. Esto sucede en en el 13,5% de todas las compras
Cuerpo de la regla: un cliente compra una camisa Cabeza de la regla: compra tambin una corbata Factor de soporte: 13,5% Factor de confianza: 70%

La tcnica se basa en el recuento de ocurrencias de todas las posibles combinaciones de artculos


Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 81

Tcnicas de descubrimiento de conocimiento

Anlisis de asociacin Reglas de asociacin (II)

Visualizacin de reglas de asociacin


Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 82

Tcnicas de descubrimiento de conocimiento

Anlisis de asociacin Reglas de asociacin (III)


Proceso de descubrimiento de asociaciones:
Cada transaccin se asocia con un identificador Las transacciones se ordenan secuencialmente segn el identificador Se cuentan todas las ocurrencias de los artculos simples que estn presentes en transacciones y se crea un vector en el que se coloca la cuenta para cada artculo. Aquellos elementos en los que la cuenta est por debajo de un umbral se eliminan Se crea una matriz bidimensional donde se almacenan las cuentas de ocurrencias de cada artculo con todos los dems. Se eliminan las celdas cuya cuenta est por debajo del valor umbral Se crea una tabla tridimensional y se repite el proceso

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 83

Tcnicas de descubrimiento de conocimiento

Anlisis de asociacin Reglas de asociacin (IV)


TID 100 200 300 400
b

Item ACD BCE ABCE BE


b

Itemset {A} {B} {C} {D} {E}

Oc 2 3 3 1 3
b

Itemset {A} {B} {C} {E}

Oc 2 3 3 3

Itemset {A B} {A C} {A E} {B C} {B E} {C E}
b

Oc 1 2 1 2 3 2

Itemset {A C} {B C} {B E} {C E}
b

Oc 2 2 3 2

Itemset {B C E}
b

Oc 2

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 84

Tcnicas de descubrimiento de conocimiento

Anlisis de asociacin Descubrimiento de patrones secuenciales (I)


Las tcnicas de descubrimiento de patrones secuenciales detectan patrones entre transacciones de forma que la presencia de un conjunto de items es seguida por otro conjunto de items en una base de datos de transacciones, durante un periodo de tiempo Para una base de datos de compras (transacciones) y clientes (grupo de transacciones):
Cada transaccin se identifica por su fecha y hora (ID de la transaccin) Cada item tiene un identificador nico (ID del item) Cada cliente tiene un identificador nico (grupo de transacciones)

Factor de soporte: ocurrencia relativa de los patrones secuenciales detectados dentro del conjunto total de transacciones
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 85

Tcnicas de descubrimiento de conocimiento

Anlisis de asociacin Descubrimiento de patrones secuenciales (II)


Cliente L. Lpez L. Lpez J. Martn J. Martn J. Martn A. Ramos A. Ramos A. Ramos Fecha/hora transaccin 21/1/2000, 5:27 pm 22/1/2000, 10:34 am 20/1/2000, 10:13 am 20/1/2000, 11:47 am 21/1/2000, 9:22 am 20/1/2000, 2:32 pm 21/1/2000, 6:17 pm 22/1/2000, 5:03 pm Artculos comprados cerveza brandy zumo, pastel cerveza vino, agua, sidra cerveza Vino, sidra brandy

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 86

Tcnicas de descubrimiento de conocimiento

Anlisis de asociacin Descubrimiento de patrones secuenciales (III)


Cliente
L. Lpez J. Martn A. Ramos

Artculos comprados
(cerveza) (brandy) (zumo, pastel) (cerveza) (vino, agua, sidra) (cerveza) (Vino, sidra) (brandy)

Clientes
L. Lpez, A. Ramos J. Martn, A. Ramos

Patrones secuenciales con soporte > 40%


(cerveza) (brandy) (cerveza) (vino, sidra)

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 87

Tcnicas de descubrimiento de conocimiento

Deteccin de desviaciones
Las tcnicas de deteccin de desviaciones facilitan la identificacin de datos que se desvan de la norma o del valor esperado. Las tcnicas ms utilizadas son: Visualizacin Estadsticas Las tcnicas de visualizacin permiten representar la informacin resumida facilitando la deteccin de desviaciones Los mtodos estadsticos son tiles para detectar las desviaciones y para medir su importancia Ambas tcnicas se utilizan tanto en la etapa de preparacin de los datos como en la de anlisis de resultados
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 88

Tcnicas de descubrimiento de conocimiento

Deteccin de desviaciones Visualizacin


La visualizacin es una de las tcnicas ms potentes para identificar patrones ocultos en los datos Con estas tcnicas se pueden detectar fenmenos que ocurren para un subconjunto relativamente pequeo de datos Representaciones: histogramas, grficos de cajas, grficos de dispersin, diagramas de sectores, grficos tridimensionales
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 89

Tcnicas de descubrimiento de conocimiento

Deteccin de desviaciones Estadsticas


La medida de la magnitud de la desviacin, que proporcionan los mtodos estadsticos, es crtica para saber que hacer con la desviacin una vez detectada Estos mtodos se aplican en la fase de anlisis de resultados para obtener una mejor evaluacin de los mismos
La media y la mediana son medidas de la tendencia central en la distribucin de los datos. Se pueden usar para medir la magnitud de la desviacin La varianza es la extensin con que los valores difieren de la media. El significado de la varianza de un valor individual puede obtenerse a partir de la representacin de la curva de varianza y del valor estndar
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 90

6.
Aplicaciones

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 91

Aplicaciones

APLICACIONES Los mbitos de aplicacin de las tcnicas de minera de datos son muy variados Las reas en las que ms experiencia de aplicacin existe son fundamentalmente:
Aplicaciones de negocio

Medicina y Biologa
Deteccin de patrones en texto, imgenes y msica

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 92

Aplicaciones de negocio

Aplicaciones

Las aplicaciones de minera de datos ms desarrolladas y utilizadas se encuentran en el mbito de los negocios. En la tabla siguiente se muestra la clasificacin de las aplicaciones de minera en funcin del rea de negocio en la que se utilizan.

Gestin de mercado
Marketing Relacin con los clientes Segmentacin de mercado

Gestin de riesgos
Predicciones Retencin de clientes Control de calidad Anlisis competitivo

Gestin de fraude
Deteccin de fraude

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 93

Aplicaciones

Gestin de mercados
Uno de los objetivos es dirigir las campaas promocionales de una manera efectiva
Creacin de agrupaciones de modelos de consumidores: consumidores con caractersticas similares en cuanto a inters, nivel de sueldo, hbitos de gasto Determinacin de patrones secuenciales de compra: secuencia en que usan servicios financieros, secuencia de cambio de coche... En campaas de ventas cruzadas se construyen modelos de clientes que adquieren ms de un producto o servicio Uso de tarjetas de cliente para fomentar las ventas y adquirir datos para usar en operaciones de minera. Con dichos datos se pueden crear subpoblaciones de clientes mediante tcnicas de agrupacin demogrfica
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 94

Aplicaciones

Gestin de mercados
Grupo 1
Tamao: 37756 clientes Sexo: femenino (78%) Edad: 32-41 (65%) Hijos: 1 (60%) 0 (25%) >1 (15%) Tipo de gasto: alto (58%) Departamentos visitados: ropa (57%) cocina (54%) Jardn (42%) cosmticos (39%) Material escolar (42%) Ultima visita: 0-1 meses (39%) 1-2 meses (20%)

Grupo 18
Tamao: 3056 clientes Sexo: femenino (91%) Edad: 32-41 (70%) Hijos: 0 (100%) Tipo de gasto: alto (64%) Departamentos visitados: ropa (91%) cocina (89%) Jardn (79%) cosmticos (41%) Ultima visita: 2-4 meses (31%) 1-2 meses (20%)

Segmentos con caractersticas similares


Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 95

Aplicaciones

Gestin de riesgos
La gestin de riesgos no solo cubre riesgos asociados con inversiones o seguros sino tambin riesgos de negocios en general producidos por amenazas competitivas, baja calidad de los productos, prdida de clientes...
En la industria de los seguros, la minera de datos es muy adecuada para predecir propiedades o bajas de asegurados:
Reglas que contemplan riesgos externos Segmentacin de clientes en funcin del nivel de riesgo

En el campo de las finanzas, ventas, telecomunicaciones se puede predecir la probabilidad de prdida de clientes mediante la construccin de un modelo de clientes vulnerables.
Frecuencia de cambio de vivienda Historial de tarjetas de crdito Patrones de compra histricos
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 96

Aplicaciones

Gestin de riesgos
En el sector bancario la minera de datos permite segmentar los clientes con crdito en clases que muestran los ndices de fracaso y los factores responsables. La aplicacin de tcnicas de minera de datos en el campo de las finanzas se conoce con el nombre de ingeniera financiera.
Prediccin de cambios en comportamientos financieros Se pueden utilizar modelos para predecir los cambios de precios en funcin de los cambios histricos y de factores externos que tienen influencia

En mercados altamente competitivos se puede aplicar la minera para desarrollar una poltica de precios. Se puede elaborar un modelo en funcin de los competidores ms cercanos que toma como entradas los precios ms recientes de los competidores, mtodos de pago que permiten, distancia ...
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 97

Aplicaciones

Gestin de fraude
Algunos sectores como la sanidad, ventas, servicios de tarjetas de crdito y telecomunicaciones, tienen un nivel de fraude mucho mayor que otros sectores. Organizaciones de este tipo usan tcnicas avanzadas de minera de datos para detectar posibles fraudes El enfoque general es la construccin de un modelo de comportamiento fraudulento a partir de datos histricos. La minera ayuda a detectar instancias similares de ese comportamiento
Las compaas de telecomunicaciones usan un modelo para examinar millones de transacciones diarias y encontrar patrones que se desvan de la norma Las compaas sanitarias utilizan modelos que detectan tratamientos costosos inapropiados
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 98

Medicina y biologa

Aplicaciones

La aplicacin de algoritmos de minera de datos en estos campos est menos desarrollado que en los negocios. Su uso se realiza casi exclusivamente a nivel experimental Las aplicaciones ms comunes en el dominio de la medicina y biologa son:
Emisin de diagnsticos mdicos Clasificacin de seales biomdicas Clasificacin biolgica de la calidad del agua de los ros

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 99

Aplicaciones

Diagnosis mdica
La minera de datos se usa para obtener automticamente reglas de diagnstico a partir de descripciones de pacientes tratados en el pasado en los que el diagnstico final ha sido verificado. La fiabilidad de estos mtodos se ha comprobado en los siguientes problemas de diagnstico:
Localizacin de un tumor primario: se determina una de 22 posibles localizaciones del tumor en base a la edad, sexo, tipo histolgico y otras caractersticas de la metstasis descubierta Prediccin de reaparicin de cncer de mama: la probabilidad de reaparicin se calcula en funcin de la edad, tamao y localizacin del tumor ... Enfermedades de tiroides: Determinacin de una de cuatro posibles diagnsticos a partir de datos histolgicos y pruebas de laboratorio Reumatologa: seleccin de uno de seis grupos posibles

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 100

Aplicaciones

Diagnosis mdica
La tabla siguiente proporciona la comparacin de los resultados producidos en diagnsticos realizados aplicando un algoritmo de minera y los realizados por especialistas para los cuatro problemas descritos
Tumor primario Minera de datos Mdicos 49 % 42% Cncer de mama 78% 64% Enferm. tiroides 70% 64% Reumatologa 67% 56%

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 101

Aplicaciones

Clasificacin de seales biomdicas


En medicina se analizan seales biolgicas con el objetivo de detectar patrones que indican estados patolgicos especficos Las seales que se analizan son, entre otras:
Ritmo cardiaco respiracin seales de encefalogramas contracciones musculares ...

El tratamiento de estas seales se puede realizar mediante tcnicas de clasificacin que producen representaciones de dos o ms conceptos que facilitan la clasificacin. Cuando se presenta una instancia no clasificada se chequean sus propiedades frente a los modelos almacenados
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 102

Deteccin de patrones en texto, imgenes y msica

Aplicaciones

Deteccin de asociaciones en texto: las herramientas de este tipo ayudan a los usuarios a acceder y entender la gran cantidad de informacin heterognea disponible en la actualidad Aprendizaje de patrones en imgenes: el aprendizaje de patrones en imgenes y secuencias de imgenes se utiliza para interpretar nuevas imgenes:
Interpretacin semntica de imgenes en color Deteccin de objetos en imgenes de rayos-x reconocimiento de acciones en imgenes de vdeo

Estudio de fenmenos musicales: se han desarrollado algoritmos que examinan las caractersticas de la prctica musical y obtener reglas de expresividad musical
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 103

Deteccin de asociaciones en texto


Fuentes de conocimiento Colecciones de texto

Parsing

Interfaz grfica

Algoritmos de categorizacin

Ejecucin de query Mdulo de presentacin


Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 104

Sistemas Web
E-bussiness
Actividad comercial a travs de medios electrnicos
comerciante Servidor

Problemas de los negocios electrnicos


Sobrecarga de informacin Aumento de la competitividad
Catlogo

Soluciones:
Mecanismos para la recuperacin selectiva de la informacin Recomendacin personalizada de productos Uso de tcnicas de inteligencia de negocios
Minera de datos Agentes inteligentes
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Cliente

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 105

Sistemas Web
Sistemas de recomendacin: proporcionan a los usuarios mecanismos inteligentes de bsqueda de productos que se adaptan a sus preferencias Mtodos de recomendacin
Enfoque basado en contenidos: se recomiendan documentos de texto por comparacin entre sus contenidos y los perfiles de usuario Filtrado colaborativo: prediccin de preferencias de un usuario de productos basadas en las opiniones de otros usuarios
Algoritmos basados en memoria (o en el usuario) : Mediante tcnicas estadsticas se encuentran usuarios con preferencias similares (neighbors) Algoritmos basados en modelos (o en items): desarrollan un modelo de valoraciones del usuario
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 106

Sistemas Web
Tecnologas de minera de datos:
Se utilizan en el filtrado colaborativo basado en modelos Reduce los inconvenientes Aumentan la calidad de las recomendaciones eliminando dos tipos de errores:
Falsos negativos, que son productos que desea el cliente pero no se recomiendan Falsos positivos, que son productos recomendados pero que el cliente no desea

Mineria Web (Web mining) es el proceso de aplicar tcnicas de minera de datos a informacin procedente de la web para obtener patrones de los usuarios

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 107

Bibliografa
P. Cabena; P. Hadjinian; R. Stadler; J. Verhees y A. Zanasi, Discovering Data Mining. From Concept to Implementation, Prentice Hall, 1998. U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth y R. Uthurusamy Eds. Advances in Knowledge Discovery and Data Mining, AAAI Press, 1996. R. Giraldez, J.C. Riquelme y J.S. Aguilar (eds.), Tendencias de la Minera de Datos en Espaa, Red Espaola de Minera de Datos y Aprendizaje, 2004. http://www.lsi.us.es/redmidas/LibroMD.htm J. Hernndez, M.J. Ramrez y C. Ferri, Introduccin a la Minera de Datos, Pearson Education, 2004 . R.S. Michalski; I. Bratko y M. Kubat, Machine Learning and Data Mining, Johb Wiley and Sons, 1998. Mineset users guide, v. 007-3214-004, 5/98, Silicon Graphics, 1998. S.M. Weiss y N. Indurkhya, Predictive Data Mining. A Practical Guide, Morgan Kaufmann Publishers, San Francisco, 1998. I.H. Witten y E. Frank, Data Mining. Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, 2000.
Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 108

Postgrado en Informtica y Automtica


Departamento de Informtica y Automtica Universidad de Salamanca

Recursos en Internet Revistas:


Data Mining and Knowledge Discovery http://www.kluweronline.com/issn/1384-5810/current Decision Support Systems http://www.sciencedirect.com/science/journal/01679236 Data and Knowledge Engineering http://www.sciencedirect.com/science/journal/0169023X Expert Systems with Applications http://www.sciencedirect.com/science/journal/09574174 Artificial Intelligence http://www.sciencedirect.com/science/journal/00043702

Webs de inters:
UCI Machine Learning Group http://www.ics.uci.edu/~mlearn/ KD nuggetsTM http://www.kdnuggets.com/ Twiki Software de minera de datos http://www.the-data-mine.com/bin/view/Software/AllDataMiningSoftware Electronic Textbook StatSoft http://www.statsoftinc.com/textbook/stathome.html
Postgrado en Informtica y Automtica
Departamento de Informtica y Automtica Universidad de Salamanca

Mster en Sistemas Inteligentes Curso: Introduccin a la Minera de Datos 109

Postgrado en Informtica y Automtica Mster en Sistemas Inteligentes

Mdulo fundamental
Curso:

Introduccin a la

MINERA DE DATOS
Mara N. Moreno Garca
http://avellano.usal.es/~mmoreno

Potrebbero piacerti anche