Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Maximiliano Silva
La informacin
Herramienta estratgica
para el desarrollo de:
Sociedad de la
informacin.
Economa cuya base
es el conocimiento.
Problemtica
Incremento en dos sentidos en
Bases de Datos:
Nmero N de registros u objetos.
Nmero D de campos u atributos
por objeto.
Crecimiento BD (tamao y
nmero)
Supera a las habilidades humanas
para analizar.
Necesidad y oportunidad de
extraer conocimiento.
Descubrimiento de Conocimiento en
Bases de Datos (KDD)
Descubrimiento del conocimiento
en Base de Datos :
KDD: Knowledge
Database. 1989.
Discovery
in
Estadstica
Inteligencia
Artificial / Machine
Learning
Data
Mining
Informtica
Bases de Datos
KDD
El proceso no trivial de identificar patrones
vlidos, nuevos, potencialmente tiles y en
ultima instancia comprensible en los datos
Usama Fayyad 1996
Seleccin
Limpieza .
Reduccin.
Interpretacin.
Uso del conocimiento.
Variables Predictoras
Variable a
predecir
rbol de Decisin
Herramienta potentsima de clasificacin.
Construyen un rbol del que se pueden
extraer reglas.
Validaciones. Detectar elementos anmalos
en funcin de si encajan o no con las reglas
surgidas del rbol.
Predecir el valor de un atributo con precisin,
encontrando correlaciones entre las variables
predictoras y la variable a predecir.
Ejemplo:
Redes neuronales
Se basan en la analoga que existe en el
comportamiento y funcin del cerebro humano, en
particular del sistema nervioso.
Aprende variando el peso sinptico.
Neurona
Biolgica
Modelo
Matemtico
de la Neurona
Biolgica
Redes neuronales
Aprenden a travs del entrenamiento.
Objetivo: balance entre
Habilidad para responder correctamente en relacin a la
entrada de patrones es decir usado para el
entrenamiento .
Habilidad de dar una respuesta (buena) razonable para la
entrada que es similar.
Agrupamiento (Clustering)
Es una tcnica cuya idea bsica es agrupar un
conjunto de observaciones en un nmero
dado de clusters o grupos. Este agrupamiento
se basa en la idea de distancia o similitud
entre las observaciones.
La idea es que los elementos en un grupo sean
similares y en grupos diferentes tengan la
menor similitud posible.
Clustering
1000 clientes
en una BD
K-medias
El algoritmo de las K-medias es un algoritmo
de particin. Bsicamente este algoritmo
busca formar clusters (grupos) los cuales sern
representados por K objetos (centroides)
La cantidad de K es un valor ingresado por el
usuario.
Utiliza la nocin de centroide.
Cada uno de estos centroide es el valor medio
de los objetos que pertenecen a dicho grupo.
Es un algoritmo iterativo por naturaleza.
Ejemplo
Distancia de Manhattan
Centroide 1
(c1)
Centroide 2
(c2)
Algoritmo Jerrquico
El primer paso es calcular las distancias entre
todos los pares de objetos. Esto es lo mismo
que asumir que cada objeto constituye un
cluster: {C1, ...,CN}.
Se buscan los dos clusters ms cercanos
(Ci, Cj), stos se juntan y constituyen uno solo
Cij.
Se repite el paso 2 hasta que no quedan
pares de comparacin.
Entre
los
algoritmos
jerrquicos
acumulativos destacan los siguientes
mtodos:
Mtodo de las distancias mnimas: se busca
la mayor semejanza entre los elementos o
grupos ms cercanos.
Mtodo de las distancias mximas: se calcula
la mnima distancia entre los elementos ms
alejados.
Mtodo de las distancias medias: se calcula
la media de las distancias entre elementos.
Dendograma
Ejemplo de aplicacin
Utilizacin del algoritmo k- medias para
clasificacin de sistemas productivos en una
provincia Argentina.
Software utilizado: SPSS Clementine.
Dimensiones del conjunto de datos:
Ms de 9000 registros.
Ms de 400 variables (atributos).
Conclusin
La Minera de datos es una herramienta que
permite convertir los datos almacenados en
informacin valiosa.
Los campos en los que se pueden aplicar
estas tcnicas son extremadamente variados,
siempre que se disponga de un conjunto de
datos.
En el INTA, permitira crear modelos para
predecir lluvias, rendimiento de cultivos, etc.
Bibliografa
Fayyad, U., Piatetsky-Shapiro, G., and Smyth, P.
From data mining to knowledge discovery: An
overview. In Advances in Knowledge
Discovery and Data Mining, U. Fayyad, G.
Piatetsky-Shapiro, P. Smyth,
and R.
Uthurusamy, Eds. AAAI/MIT Press, Cambridge,
Mass., 1996.
Apuntes proporcionados por la Ctedra.