Sei sulla pagina 1di 5

MINERA DE DATOS

MINERA DE DATOS
Bajo el nombre de minera de datos se engloban un conjunto de tcnicas encaminadas a la extraccin de
conocimiento procesable, implcito en las bases de datos.
Las bases de la minera de datos se encuentran en la inteligencia artificial y en el anlisis estadstico y mediante los
modelos extrados utilizando tcnicas de minera de datos se aborda la solucin a problemas de prediccin,
clasificacin y segmentacin.
PROCESO
Un proceso tpico de minera de datos parte de la seleccin del conjunto de datos, tanto en lo que se refiere a las
variables dependientes, como a las variables objetivo, como posiblemente al muestreo de los registros disponibles.
A continuacin se analiza las propiedades de los datos, en especial los histogramas, diagramas de dispersin,
presencia de valores atpicos y ausencia de datos. Como consecuencia de este anlisis, al conjunto de datos de
entrada se le aplican una serie de transformaciones con el objetivo de prepararlo para aplicar la tcnica de minera
de datos que mejor se adapte a los datos y al problema. Finalmente se selecciona la tcnica de minera, se construye
el modelo predictivo, de clasificacin o segmentacin, y se evalan los resultados contrastando con un conjunto de
datos previamente reservado para validar la generalidad del modelo.
Por ltimo, los modelos obtenidos por tcnicas de minera de datos se aplican incorporndolos en los sistemas de
anlisis de informacin de las empresas, e incluso, en los sistemas transaccionales. En este sentido cabe destacar
los esfuerzos del Data Mining Group, que est estandarizando el lenguaje PMML (Predictive Modelling Markup
Language), de manera que los modelos de minera de datos sean interoperables en distintas plataformas, con
independencia del sistema con el que han sido construidos. Los principales fabricantes de sistemas de bases de
datos y programas de anlisis de la informacin hacen uso de este estndar.
Tradicionalmente, las tcnicas de minera de datos se aplicaban sobre informacin contenida en almacenes de
datos. De hecho, muchas grandes empresas e instituciones han creado y alimentan bases de datos especialmente
diseadas para proyectos de minera de datos en las que centralizan informacin potencialmente til de todas sus
reas de negocio, etc.
No obstante, actualmente est cobrando una importancia cada vez mayor la minera de datos desestructurados como
informacin contenida en ficheros de texto, en Internet, etc.
EJEMPLOS DE USO DE LA MINERA DE DATOS
El ejemplo clsico aparte de algo rancio y, posiblemente, apcrifo de aplicacin de la minera de datos tiene que ver
con la deteccin de hbitos de compra en supermercados. Un estudio muy citado detect que los viernes haba una
cantidad inusualmente elevada de clientes que adquiran a la vez paales y cerveza. Se detect que se deba a que
dicho da solan acudir al supermercado padres jvenes cuya perspectiva para el fin de semana consista en
quedarse en casa cuidando de su hijo y viendo la televisin con una cerveza en la mano. El supermercado pudo
incrementar sus ventas de cerveza colocndolas prximas a los paales para fomentar las ventas compulsivas.
Un ejemplo ms habitual es el de la deteccin de patrones de fuga. En muchas industrias como la banca, las
telecomunicaciones, etc. existe un comprensible inters en detectar cuanto antes aquellos clientes que puedan estar
pensando en rescindir sus contratos para, posiblemente, pasarse a la competencia. A estos clientes y en funcin de
su valor se les podran hacer ofertas personalizadas, ofrecer promociones especiales, etc., con el objetivo ltimo de
retenerlos. La minera de datos ayuda a determinar qu clientes son los ms proclives a darse de baja estudiando
sus patrones de comportamiento y comparndolos con muestras de clientes que, efectivamente, se dieron de baja en
el pasado.
1

MINERA DE DATOS

Un caso anlogo es el de la deteccin de transacciones de blanqueo de dinero o de fraude en el uso de tarjetas de


crdito o de servicios de telefona mvil e, incluso, en la relacin de los contribuyentes con el fisco. Generalmente,
estas operaciones fraudulentas o ilegales suelen seguir patrones caractersticos que permiten, con cierto grado de
probabilidad, distinguirlas de las legtimas y desarrollar as mecanismos para tomar medidas rpidas frente a ellas.
Tambin es un rea en boga el del anlisis del comportamiento de los visitantes sobre todo, cuando son clientes
potenciales en una pgina de Internet. O la utilizacin de la informacin obtenida por medios ms o menos
legtimos sobre ellos para ofrecerles propaganda adaptada especficamente a su perfil. O para, una vez que
adquieren un determinado producto, saber inmediatamente qu otro ofrecerle teniendo en cuenta la informacin
histrica disponible acerca de los clientes que han comprado el primero.
MINERA DE DATOS Y OTRAS DISCIPLINAS ANLOGAS
Suscita cierta polmica el definir las fronteras existentes entre la minera de datos y disciplinas anlogas, como
pueden serlo la estadstica, la inteligencia artificial, etc. Hay quienes sostienen que la minera de datos no es sino
estadstica envuelta en una jerga de negocios que la conviertan en un producto vendible. Otros, en cambio,
encuentran en ella una serie de problemas y mtodos especficos que la hacen distinta de otras disciplinas.
El hecho es, que en la prctica la totalidad de los modelos y algoritmos de uso general en minera de datos redes
neuronales, rboles de regresin y clasificacin, modelos logsticos, anlisis de componentes principales, etc. gozan
de una tradicin relativamente larga en otros campos.
DE LA ESTADSTICA
Ciertamente, la minera de datos bebe de la estadstica, de la que toma las siguientes tcnicas:
Anlisis de varianza, mediante el cual se evala la existencia de diferencias significativas entre las medias de
una o ms variables continas en poblaciones distintas.
Regresin: define la relacin entre una o ms variables y un conjunto de variables predictoras de las primeras.
Prueba chi-cuadrado: por medio de la cual se realiza el contraste la hiptesis de dependencia entre variables.
Anlisis de agrupamiento o clustering: permite la clasificacin de una poblacin de individuos caracterizados
por mltiples atributos (binarios, cualitativos o cuantitativos) en un nmero determinado de grupos, con base en
las semejanzas o diferencias de los individuos.
Anlisis discriminante: permite la clasificacin de individuos en grupos que previamente se han establecido,
permite encontrar la regla de clasificacin de los elementos de estos grupos, y por tanto una mejor identificacin
de cules son las variables que definan la pertenencia al grupo.
Series de tiempo: permite el estudio de la evolucin de una variable a travs del tiempo para poder realizar
predicciones, a partir de ese conocimiento y bajo el supuesto de que no van a producirse cambios estructurales.
DE LA INFORMTICA
De la informtica toma las siguientes tcnicas:
Algoritmos genticos: Son mtodos numricos de optimizacin, en los que aquella variable o variables que se
pretenden optimizar junto con las variables de estudio constituyen un segmento de informacin. Aquellas
configuraciones de las variables de anlisis que obtengan mejores valores para la variable de respuesta,
correspondern a segmentos con mayor capacidad reproductiva. A travs de la reproduccin, los mejores
segmentos perduran y su proporcin crece de generacin en generacin. Se puede adems introducir elementos
aleatorios para la modificacin de las variables (mutaciones). Al cabo de cierto nmero de iteraciones, la
poblacin estar constituida por buenas soluciones al problema de optimizacin, pues las malas soluciones han
ido descartndose, iteracin tras iteracin.

MINERA DE DATOS

Inteligencia Artificial: Mediante un sistema informtico que simula un sistema inteligente, se procede al
anlisis de los datos disponibles. Entre los sistemas de Inteligencia Artificial se encuadraran los Sistemas
Expertos y las Redes Neuronales.
Sistemas Expertos: Son sistemas que han sido creados a partir de reglas prcticas extradas del conocimiento
de expertos. Principalmente a base de inferencias o de causa-efecto.
Sistemas Inteligentes: Son similares a los sistemas expertos, pero con mayor ventaja ante nuevas situaciones
desconocidas para el experto.
Redes neuronales: Genricamente, son mtodos de proceso numrico en paralelo, en el que las variables
interactan mediante transformaciones lineales o no lineales, hasta obtener unas salidas. Estas salidas se
contrastan con los que tenan que haber salido, basndose en unos datos de prueba, dando lugar a un proceso de
retroalimentacin mediante el cual la red se reconfigura, hasta obtener un modelo adecuado.
PROTOCOLO DE UN PROYECTO DE MINERA DE DATOS
Un proyecto de minera de datos tiene varias fases necesarias que son, esencialmente:

Comprensin del negocio y del problema que se quiere resolver


Determinacin, obtencin y limpieza de los datos necesarios
Creacin de modelos matemticos
Validacin, comunicacin, etc. de los resultados obtenidos

Integracin, si procede, de los resultados en un sistema transaccional o similar


La relacin entre todas estas fases slo es lineal sobre el papel. En realidad, es mucho ms compleja y esconde toda
una jerarqua de subfases. A travs de la experiencia acumulada en proyectos de minera de datos se han ido
desarrollando metodologas que permiten gestionar esta complejidad de una manera ms o menos uniforme.
Ejemplos de ellas son CRISP-DM y SEMMA.
TENDENCIAS
La Minera de Datos ha sufrido transformaciones en los ltimos aos de acuerdo con cambios tecnolgicos, de
estrategias de marketing, la extensin de los modelos de compra en lnea, etc. Los ms importantes de ellos son:
La importancia que han cobrado los datos no estructurados (texto, pginas de Internet, etc.)
La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales, portales de Internet,
etc.
La exigencia de que los procesos funcionen prcticamente en lnea (por ejemplo, que frente a un fraude con una
tarjeta de crdito, sta pueda ser cancelada casi al instante)
MINERA DE DATOS BASADA EN TEORA DE LA INFORMACIN
Todas las herramientas tradicionales de minera de datos asumen que los datos que usarn para construir los
modelos contienen la informacin necesaria para lograr el propsito buscado: obtener suficiente conocimiento que
pueda ser aplicado al negocio para obtener un beneficio.
El problema es que esto no necesariamente es cierto. Adems, existe otro problema mayor an. Una vez construido
el modelo no es posible conocer si el mismo ha capturado toda la informacin disponible en los datos. Por esta
razn la prctica comn es realizar varios modelos con distintos parmetros para ver si alguno logra mejores
resultados.
Un relativamente nuevo enfoque al anlisis de datos soluciona estos problemas haciendo que la prctica de la
minera de datos se parezca ms a una ciencia que a un arte.
3

MINERA DE DATOS

En 1948 Claude Shannon public un trabajo llamado Una Teora Matemtica de la Comunicacin.
Posteriormente esta pas a llamarse Teora de la Informacin y sent las bases de la comunicacin y la codificacin
de la informacin. Shannon propuso una manera de medir la cantidad de informacin a ser expresada en bits.
En 1999 Dorian Pyle public un libro llamado Data Preparation for Data Mining en el que propone una manera
de usar la Teora de la Informacin para analizar datos. En este nuevo enfoque, una base de datos es un canal que
transmite informacin. Por un lado est el mundo real que captura datos generados por el negocio. Por el otro estn
todas las situaciones y problemas importantes del negocio. Y la informacin fluye desde el mundo real y a travs de
los datos, hasta la problemtica del negocio.
Con esta perspectiva y usando la Teora de la Informacin, es posible medir la cantidad de informacin disponible
en los datos y qu porcin de la misma podr utilizarse para resolver la problemtica del negocio. Como un
ejemplo prctico, podra encontrarse que los datos contienen un 65% de la informacin necesaria para predecir qu
cliente rescindirn sus contratos. De esta manera, si el modelo final es capaz de hacer predicciones con un 60% de
acierto, se puede asegurar que la herramienta que gener el modelo hizo un buen trabajo capturando la informacin
disponible. Ahora, si el modelo hubiese tenido un porcentaje de aciertos de solo el 10%, por ejemplo, entonces
intentar otros modelos o incluso con otras herramientas podra valer la pena.
La capacidad de medir informacin contenida en los datos tiene otras ventajas importantes.
Al analizar los datos desde esta nueva perspectiva se genera un mapa de informacin que hace innecesario la
preparacin previa de los datos, una tarea absolutamente imprescindible si se desea buenos resultados, pero que
lleva enorme cantidad de tiempo.
Es posible seleccionar un grupo de variables ptimo que contenga la informacin necesaria para realizar un modelo
de prediccin.
Una vez que las variables fueron procesadas con el fin de crear el mapa de informacin y luego seleccionadas
aquellas que aportan la mayor informacin, la eleccin de la herramienta que se usar para crear el modelo deja de
tener importancia, ya que el mayor trabajo fue realizado en los pasos previos.
VASE TAMBIN

Minera de textos
Minera de datos espacial
Data warehousing o Almacenamiento de datos
Inteligencia Empresarial
Estadstica
Web mining
Sistemas de informacin ejecutiva
Sistemas de soporte a decisiones
Almacn operacional de los datos

ENLACES EXTERNOS

Monogrfico sobre Data Minig


Program de Minera de Datos, University of Central Florida
Tutorial de Data mining y su relacin con otros conceptos de Business Intelligence
Minera de Datos (tutoriales)
Cursos de Minera de Datos
Red Espaola de Minera de Datos
4

MINERA DE DATOS

Artculo para Principiantes


Minera de datos
Tesis que describe plan para enfocar campaas bancarias utilizando minera de datos
Minera de Datos en Dataprix
WEKA: Software libre, licencia GPL, escrito en lenguaje Java, que incluye una gran variedad de algoritmos de
minera de datos, fundamentalmente de clasificacin
Data Time
Minera de textos
Organizacin de Categoras por pas* Minera de datos en la Blaa
Manual de Business Intelligence (en espaol)
Diseo de variables en bases de datos multidimensionales(en espaol)

Potrebbero piacerti anche