Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Datos
Informacin
Conocimiento
Procesos
Minera de datos
Conocimiento
Datos
Informacin
Transformacin
Minera de
datos
Proceso
Seleccin
Conocimiento
Patrones
Data
Warehouse
Datos
procesados
Datos
transformados
Se apoyan de
herramientas
como
Bases de datos
Trabajan con
Grandes
cantidades de
datos
Mtodos
matemticos
hardware y
software
informtico
INFORMACION
Conjunto de
Procesos
conocimiento
Conjunto de tcnicas que se utilizan para la obtencin de informacin implcita de las grandes bases de datos.. En
otras palabras es una tecnologa poderosa y de gran potencial que permite a las organizaciones la recoleccin de
informacin desconocida para sus propias bases (almacn de datos).
PRE PROCESAMIENTO
SELECCIN DE VARIABLES
EXTRACCION DEL
CONOCIMIENTO
INTERPRETACION
1. Limpieza de datos(Crear rutinas para llenar valores nulos, duplicados, errneos e inconsistentes)
2. Integracin de los datos.(Consiste principalmente en modificaciones sintcticas llevadas a cabo sobre los
datos, sin que supongan un cambio en el significado de los mismos.)
3. Transformacin de los datos..(Conversin de datos a formas mas apropiadas para trabajar la minera de datos)
4. Reduccin de los datos....(Consiste en decidir qu datos deben ser utilizados para el anlisis)
Redes neuronales
rboles de decisin
Modelos estadsticos
Agrupamiento o Clustering
Algoritmos supervisados (o predictivos)
Algoritmos no supervisados (o del descubrimiento del conocimiento)
Redes Neuronales
Son un paradigma de aprendizaje y procesamiento automtico inspirado en la
forma en que funciona el cerebro. Se trata de un sistema de interconexin de
neuronas en una red que colabora para producir un estmulo de salida.
Arboles de decisin
Es un modelo de prediccin utilizado en la inteligencia artificial, dada una base de
datos se construyen estos diagramas de construcciones lgicas, muy similares a
los sistemas de prediccin basados en reglas, que sirven para representar y
categorizar una serie de condiciones que suceden de forma sucesiva para la
resolucin de un problema.
VENTAJAS
Facilita la interpretacin
Explica el comportamiento
Reduce las variables
Gestiona
DESVENTAJAS
Arboles de decisin
Arboles de decisin
Arboles de decisin
Arboles de decisin
Por ejemplo:
En un escenario para predecir qu clientes van a adquirir probablemente una
bicicleta,
Si 9 de 10 clientes jvenes compran una bicicleta, pero solo
lo hacen 2 de 10 clientes de edad mayor,
El algoritmo infiere que la edad es un buen elemento de prediccin en la
compra de bicicletas.
Arboles de decisin
Mtodos estocsticos
Es una expresin simblica en forma de igualdad o ecuacin
que se emplea en todos los diseos experimentales y en la
regresin para indicar los diferentes factores que modifican la
variable de respuesta.
Agrupamiento o Clustering
Proceso de dividir un conjunto de datos en grupos mutuamente
excluyentes de tal manera que cada miembro de un grupo est lo ms
cercano posible a otro, y grupos diferentes estn lo ms lejos posible
uno del otro, donde la distancia est medida con respecto a todas las
variables disponibles.
Agrupamiento o Clustering
El objetivo de ste metodo es obtener grupos o conjuntos entre los
elementos, de tal manera que los elementos asignados al mismo sean
similares.
Lo importante del agrupamiento respecto a la clasificacin es que son
precisamente los grupos y la pertenencia a los grupos lo que se quiere
determinar y a priori, no se sabe ni como son los grupos ni cuantos hay.
El agrupamiento se conoce muy frecuentemente tambin como:
segmentacin y aglomeracin.
Ejemplos:
Algoritmo K-medias
K-medias
Tambin conocido como k-means o Iterative Distance-based Clustering. Necesita
que se le proporcione a priori el numero de grupos k. El algoritmo es el siguiente:
1.
2.
3.
4.
5.
6.
7.
Agrupamiento:
Seleccionar al azar k ejemplos como centros iniciales de cada grupo;
repetir
asignar cada ejemplo al grupo con menor distancia a su centro;
recalcular los nuevos centros de cada grupo;
hasta (los grupos sean estables)
Los centros de cada grupo, tambin denominados centroides pueden
corresponderse con ejemplos o no, en ese caso se les denomina prototipos.
Los grupos se consideran estables cuando los ejemplos no cambian de grupo
respecto la iteracin anterior.
Se pueden obtener agrupaciones jerarquizadas tomando k = 2 y aplicando el
mismo algoritmo de manera recursiva sobre los ejemplos de cada grupo.
Algoritmo K-medias
Mtodo de agrupacin
de casos que se basa en
las distancias existentes
entre ellos en un
conjunto de variables.
Algoritmo K-medias
Algoritmo K-medias
Data Warehouse es una base de datos corporativa que se caracteriza por integrar,
procesar y depurar informacin de una o ms fuentes distintas.
Links consultados:
1. http://msdn.microsoft.com/
2. file:///C:/Users/optimus/Pictures/Mineria_Datos_Vallejos.pdf
Libros:
1. Base de datos de enrique Jos Reinosa, ed. alfaomega