Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
MINERA DE DATOS
Bajo el nombre de minera de datos se engloban un conjunto de tcnicas encaminadas a la extraccin de
conocimiento procesable, implcito en las bases de datos.
Las bases de la minera de datos se encuentran en la inteligencia artificial y en el anlisis estadstico y mediante los
modelos extrados utilizando tcnicas de minera de datos se aborda la solucin a problemas de prediccin,
clasificacin y segmentacin.
PROCESO
Un proceso tpico de minera de datos parte de la seleccin del conjunto de datos, tanto en lo que se refiere a las
variables dependientes, como a las variables objetivo, como posiblemente al muestreo de los registros disponibles.
A continuacin se analiza las propiedades de los datos, en especial los histogramas, diagramas de dispersin,
presencia de valores atpicos y ausencia de datos. Como consecuencia de este anlisis, al conjunto de datos de
entrada se le aplican una serie de transformaciones con el objetivo de prepararlo para aplicar la tcnica de minera
de datos que mejor se adapte a los datos y al problema. Finalmente se selecciona la tcnica de minera, se construye
el modelo predictivo, de clasificacin o segmentacin, y se evalan los resultados contrastando con un conjunto de
datos previamente reservado para validar la generalidad del modelo.
Por ltimo, los modelos obtenidos por tcnicas de minera de datos se aplican incorporndolos en los sistemas de
anlisis de informacin de las empresas, e incluso, en los sistemas transaccionales. En este sentido cabe destacar
los esfuerzos del Data Mining Group, que est estandarizando el lenguaje PMML (Predictive Modelling Markup
Language), de manera que los modelos de minera de datos sean interoperables en distintas plataformas, con
independencia del sistema con el que han sido construidos. Los principales fabricantes de sistemas de bases de
datos y programas de anlisis de la informacin hacen uso de este estndar.
Tradicionalmente, las tcnicas de minera de datos se aplicaban sobre informacin contenida en almacenes de
datos. De hecho, muchas grandes empresas e instituciones han creado y alimentan bases de datos especialmente
diseadas para proyectos de minera de datos en las que centralizan informacin potencialmente til de todas sus
reas de negocio, etc.
No obstante, actualmente est cobrando una importancia cada vez mayor la minera de datos desestructurados como
informacin contenida en ficheros de texto, en Internet, etc.
EJEMPLOS DE USO DE LA MINERA DE DATOS
El ejemplo clsico aparte de algo rancio y, posiblemente, apcrifo de aplicacin de la minera de datos tiene que ver
con la deteccin de hbitos de compra en supermercados. Un estudio muy citado detect que los viernes haba una
cantidad inusualmente elevada de clientes que adquiran a la vez paales y cerveza. Se detect que se deba a que
dicho da solan acudir al supermercado padres jvenes cuya perspectiva para el fin de semana consista en
quedarse en casa cuidando de su hijo y viendo la televisin con una cerveza en la mano. El supermercado pudo
incrementar sus ventas de cerveza colocndolas prximas a los paales para fomentar las ventas compulsivas.
Un ejemplo ms habitual es el de la deteccin de patrones de fuga. En muchas industrias como la banca, las
telecomunicaciones, etc. existe un comprensible inters en detectar cuanto antes aquellos clientes que puedan estar
pensando en rescindir sus contratos para, posiblemente, pasarse a la competencia. A estos clientes y en funcin de
su valor se les podran hacer ofertas personalizadas, ofrecer promociones especiales, etc., con el objetivo ltimo de
retenerlos. La minera de datos ayuda a determinar qu clientes son los ms proclives a darse de baja estudiando
sus patrones de comportamiento y comparndolos con muestras de clientes que, efectivamente, se dieron de baja en
el pasado.
1
MINERA DE DATOS
MINERA DE DATOS
Inteligencia Artificial: Mediante un sistema informtico que simula un sistema inteligente, se procede al
anlisis de los datos disponibles. Entre los sistemas de Inteligencia Artificial se encuadraran los Sistemas
Expertos y las Redes Neuronales.
Sistemas Expertos: Son sistemas que han sido creados a partir de reglas prcticas extradas del conocimiento
de expertos. Principalmente a base de inferencias o de causa-efecto.
Sistemas Inteligentes: Son similares a los sistemas expertos, pero con mayor ventaja ante nuevas situaciones
desconocidas para el experto.
Redes neuronales: Genricamente, son mtodos de proceso numrico en paralelo, en el que las variables
interactan mediante transformaciones lineales o no lineales, hasta obtener unas salidas. Estas salidas se
contrastan con los que tenan que haber salido, basndose en unos datos de prueba, dando lugar a un proceso de
retroalimentacin mediante el cual la red se reconfigura, hasta obtener un modelo adecuado.
PROTOCOLO DE UN PROYECTO DE MINERA DE DATOS
Un proyecto de minera de datos tiene varias fases necesarias que son, esencialmente:
MINERA DE DATOS
En 1948 Claude Shannon public un trabajo llamado Una Teora Matemtica de la Comunicacin.
Posteriormente esta pas a llamarse Teora de la Informacin y sent las bases de la comunicacin y la codificacin
de la informacin. Shannon propuso una manera de medir la cantidad de informacin a ser expresada en bits.
En 1999 Dorian Pyle public un libro llamado Data Preparation for Data Mining en el que propone una manera
de usar la Teora de la Informacin para analizar datos. En este nuevo enfoque, una base de datos es un canal que
transmite informacin. Por un lado est el mundo real que captura datos generados por el negocio. Por el otro estn
todas las situaciones y problemas importantes del negocio. Y la informacin fluye desde el mundo real y a travs de
los datos, hasta la problemtica del negocio.
Con esta perspectiva y usando la Teora de la Informacin, es posible medir la cantidad de informacin disponible
en los datos y qu porcin de la misma podr utilizarse para resolver la problemtica del negocio. Como un
ejemplo prctico, podra encontrarse que los datos contienen un 65% de la informacin necesaria para predecir qu
cliente rescindirn sus contratos. De esta manera, si el modelo final es capaz de hacer predicciones con un 60% de
acierto, se puede asegurar que la herramienta que gener el modelo hizo un buen trabajo capturando la informacin
disponible. Ahora, si el modelo hubiese tenido un porcentaje de aciertos de solo el 10%, por ejemplo, entonces
intentar otros modelos o incluso con otras herramientas podra valer la pena.
La capacidad de medir informacin contenida en los datos tiene otras ventajas importantes.
Al analizar los datos desde esta nueva perspectiva se genera un mapa de informacin que hace innecesario la
preparacin previa de los datos, una tarea absolutamente imprescindible si se desea buenos resultados, pero que
lleva enorme cantidad de tiempo.
Es posible seleccionar un grupo de variables ptimo que contenga la informacin necesaria para realizar un modelo
de prediccin.
Una vez que las variables fueron procesadas con el fin de crear el mapa de informacin y luego seleccionadas
aquellas que aportan la mayor informacin, la eleccin de la herramienta que se usar para crear el modelo deja de
tener importancia, ya que el mayor trabajo fue realizado en los pasos previos.
VASE TAMBIN
Minera de textos
Minera de datos espacial
Data warehousing o Almacenamiento de datos
Inteligencia Empresarial
Estadstica
Web mining
Sistemas de informacin ejecutiva
Sistemas de soporte a decisiones
Almacn operacional de los datos
ENLACES EXTERNOS
MINERA DE DATOS