Sei sulla pagina 1di 34

ndice de contenidos

Unidad 4 Adquisicin del conocimiento


4.1 Introduccin a la minera de datos

4.2 Tcnicas para el pre-procesamiento de datos: limpiado, reduccin y normalizacin.


4.3 Tcnicas para identificacin de conceptos, reglas y relaciones.
4.4 Herramienta para anlisis del conocimiento, seleccin de datos, extraccin de reglas.

Empresa, Organismo, Institucin, Dependencia

Datos

Informacin

Conocimiento

Procesos

Minera de datos

Conocimiento
Datos

Informacin

Descubrimiento del conocimiento en base de datos


Es un proceso en el cual se identifican patrones tiles en los datos para obtener
posteriormente conocimiento til, valido y relevante.

El conocimiento resultante debe ser presentado de manera clara y comprensible ya


que de esta manera de puede decir que el trabajo de generar cocimiento fue un
xito.

escubrimiento del conocimiento en BD


Interpretacin/evaluacin

Transformacin

Minera de
datos

Proceso
Seleccin

Conocimiento
Patrones

Data
Warehouse

Datos
procesados

Datos
transformados

Se apoyan de
herramientas
como
Bases de datos

Trabajan con
Grandes
cantidades de
datos

Mtodos
matemticos

hardware y
software
informtico

INFORMACION

Conjunto de
Procesos

conocimiento

Conjunto de tcnicas que se utilizan para la obtencin de informacin implcita de las grandes bases de datos.. En
otras palabras es una tecnologa poderosa y de gran potencial que permite a las organizaciones la recoleccin de
informacin desconocida para sus propias bases (almacn de datos).

escubrimiento del conocimiento en BD


SELECCIN

Se seleccionan de los datos fuentes aquellos que son los


adecuados a nuestro problema

PRE PROCESAMIENTO

Consiste en la preparacin previa de los datos con los


que se va a trabajar , para eliminar errores, anomalas,
inconsistencias, ruidos, etc.

SELECCIN DE VARIABLES

Consiste en elegir los mejores atributos del problema y,


Buscar variables independientes mediante diversas pruebas de
sensibilidad, por lo tanto esta seleccin de variables permite
generar patrones que son los usados para crear modelos que son
tiles para la extraccin del conocimiento

EXTRACCION DEL
CONOCIMIENTO

A partir de los patrones generados por el uso de las variables


independientes se crea un modelo, el cual va a representar el
comportamiento de los valores del problema.

INTERPRETACION

El modelo representativo del problema se utiliza para poder sacar


conclusiones validas, para que de esta forma se pueda obtener el
conocimiento, lo cual es lo medular en la minera de datos

1. Limpieza de datos(Crear rutinas para llenar valores nulos, duplicados, errneos e inconsistentes)
2. Integracin de los datos.(Consiste principalmente en modificaciones sintcticas llevadas a cabo sobre los
datos, sin que supongan un cambio en el significado de los mismos.)

3. Transformacin de los datos..(Conversin de datos a formas mas apropiadas para trabajar la minera de datos)
4. Reduccin de los datos....(Consiste en decidir qu datos deben ser utilizados para el anlisis)

Redes neuronales
rboles de decisin
Modelos estadsticos
Agrupamiento o Clustering
Algoritmos supervisados (o predictivos)
Algoritmos no supervisados (o del descubrimiento del conocimiento)

Redes Neuronales
Son un paradigma de aprendizaje y procesamiento automtico inspirado en la
forma en que funciona el cerebro. Se trata de un sistema de interconexin de
neuronas en una red que colabora para producir un estmulo de salida.

Arboles de decisin
Es un modelo de prediccin utilizado en la inteligencia artificial, dada una base de
datos se construyen estos diagramas de construcciones lgicas, muy similares a
los sistemas de prediccin basados en reglas, que sirven para representar y
categorizar una serie de condiciones que suceden de forma sucesiva para la
resolucin de un problema.
VENTAJAS

Facilita la interpretacin
Explica el comportamiento
Reduce las variables
Gestiona

DESVENTAJAS

Puede convertirse en una maraa


Probabilstico
Subjetivo

Arboles de decisin

Arboles de decisin

Arboles de decisin

Arboles de decisin
Por ejemplo:
En un escenario para predecir qu clientes van a adquirir probablemente una
bicicleta,
Si 9 de 10 clientes jvenes compran una bicicleta, pero solo
lo hacen 2 de 10 clientes de edad mayor,
El algoritmo infiere que la edad es un buen elemento de prediccin en la
compra de bicicletas.

El rbol de decisin realiza predicciones basndose en la tendencia hacia un


resultado concreto.

Arboles de decisin

Mtodos estocsticos
Es una expresin simblica en forma de igualdad o ecuacin
que se emplea en todos los diseos experimentales y en la
regresin para indicar los diferentes factores que modifican la
variable de respuesta.

Agrupamiento o Clustering
Proceso de dividir un conjunto de datos en grupos mutuamente
excluyentes de tal manera que cada miembro de un grupo est lo ms
cercano posible a otro, y grupos diferentes estn lo ms lejos posible
uno del otro, donde la distancia est medida con respecto a todas las
variables disponibles.

Agrupamiento o Clustering
El objetivo de ste metodo es obtener grupos o conjuntos entre los
elementos, de tal manera que los elementos asignados al mismo sean
similares.
Lo importante del agrupamiento respecto a la clasificacin es que son
precisamente los grupos y la pertenencia a los grupos lo que se quiere
determinar y a priori, no se sabe ni como son los grupos ni cuantos hay.
El agrupamiento se conoce muy frecuentemente tambin como:
segmentacin y aglomeracin.
Ejemplos:
Algoritmo K-medias

K-medias
Tambin conocido como k-means o Iterative Distance-based Clustering. Necesita
que se le proporcione a priori el numero de grupos k. El algoritmo es el siguiente:
1.
2.
3.
4.
5.

6.
7.

Agrupamiento:
Seleccionar al azar k ejemplos como centros iniciales de cada grupo;
repetir
asignar cada ejemplo al grupo con menor distancia a su centro;
recalcular los nuevos centros de cada grupo;
hasta (los grupos sean estables)
Los centros de cada grupo, tambin denominados centroides pueden
corresponderse con ejemplos o no, en ese caso se les denomina prototipos.
Los grupos se consideran estables cuando los ejemplos no cambian de grupo
respecto la iteracin anterior.
Se pueden obtener agrupaciones jerarquizadas tomando k = 2 y aplicando el
mismo algoritmo de manera recursiva sobre los ejemplos de cada grupo.

Algoritmo K-medias

Mtodo de agrupacin
de casos que se basa en
las distancias existentes
entre ellos en un
conjunto de variables.

Algoritmo K-medias

Algoritmo K-medias

Segn el objetivo del anlisis de los datos, los algoritmos utilizados se


clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998):
Algoritmos supervisados (o predictivos) Predicen un dato (o un conjunto de
ellos) desconocido a priori, a partir de otros conocidos.

Algoritmos no supervisados (o del descubrimiento del conocimiento) Se


descubren patrones y tendencias en los datos.

Data Warehouse es una base de datos corporativa que se caracteriza por integrar,
procesar y depurar informacin de una o ms fuentes distintas.

Es un conjunto discreto de elementos objetivos acerca de distintos eventos, que


pueden derivar de hechos, informacin, estadsticas o similares, tanto histricos
como derivados del clculo o de la experimentacin.
Los datos en s mismos, carecen de sentido, ya que solo describen lo que sucede
de manera parcial y no proporcionan juicio o interpretacin, ni favorecen la toma de
decisiones.

Son el conjunto de datos dotados de relevancia y de propsito. Consiste en


conocimiento comunicado o recibido concerniente a hechos o circunstancias
particulares, es cualquier conocimiento adquirido mediante comunicacin,
aprendizaje o instruccin. La informacin se construyen a travs de datos a los que
en cierto sentido, se le ha aplicado un control de calidad previo, se los ha
contextual izado.
Los datos se convierten en informacin cuando se les aade un sentido mediante la
contextualizacin de los mismos, es decir, conocer para qu propsito han sido
recolectados

Fusin de valores , informacin y experiencia


Aprensin de hechos, verdades o principios como resultado
del estudio, investigacin o de la erudicin en general.

Links consultados:
1. http://msdn.microsoft.com/
2. file:///C:/Users/optimus/Pictures/Mineria_Datos_Vallejos.pdf

Libros:
1. Base de datos de enrique Jos Reinosa, ed. alfaomega

Potrebbero piacerti anche