Sei sulla pagina 1di 13

DATA MINING

INTRODUCCION

Cada día las organizaciones se enfrentan a un mundo cada vez más competitivo y,
por tanto, las estrategias de administración deben ser flexibles para adaptarse a las
condiciones cambiantes del entorno. Lo que significa un gran reto para las
organizaciones es el poder manejar grandes volúmenes de información que estas
generan, y para conocer su entorno y poder predecir su evolución.

Estamos generando gran cantidad de información, conscientes o inconscientes de


ello. Son muchos los motivos que nos llevan a generar información, esto nos ayuda a
controlar, optimizar, administrar, examinar, investigar, planificar, predecir, someter,
negociar o tomar decisiones de cualquier ámbito según el dominio en que nos
desarrollemos. La información por sí misma está considerada un bien patrimonial, de
esta forma, si una empresa tiene una pérdida total o parcial de información provoca
muchos perjuicios. Es evidente que la información debe ser protegida, pero también
explotada.

Los factores que en la actualidad nos han permitido generar tanta información son:

1. Los bajos costos de los sistemas de almacenamiento tanto temporal como


permanente.

2. El incremento de las velocidades de cómputo en los procesadores.

3. Las mejoras en la confiabilidad y aumento de la velocidad en la transmisión de


datos.

4. El desarrollo de sistemas administradores de bases de datos más poderosos.

Todas estas ventajas nos han llevado a abusar del almacenamiento de la información
en las bases de datos. Es necesario contar con tecnologías que nos ayuden a
explotar el potencial de este tipo de datos.

CONCEPTO

Es un mecanismo de explotación, consistente en la búsqueda de información valiosa


en grandes volúmenes de datos. Está muy ligada a las bodegas de datos que
proporcionan la información histórica con la cual los algoritmos de minería de datos
tienen la información necesaria para la toma de decisiones.

"La minería de datos es un proceso no trivial de identificación válida, novedosa,


potencialmente útil y entendible de patrones comprensibles que se encuentran
ocultos en los datos" (Fayyad y otros, 1996).

"Es la integración de un conjunto de áreas que tienen como propósito la identificación


de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo
hacia la toma de decisión" (Molina y otros, 2001).

Se denomina minería de datos (data mining) al análisis de archivos y bitácoras de


transacciones, trabaja a nivel del conocimiento con el fin de descubrir patrones,
relaciones, reglas, asociaciones o incluso excepciones útiles para la toma de
decisiones. Por ejemplo, qué productos se comercializan mejor en la temporada
navideña, en qué regiones es productivo sembrar café, qué áreas de una zona
urbana incrementarán su demanda de escuelas primarias.

También es una etapa dentro de un proceso mayor llamado Extracción de


Conocimiento en Bases de Datos (Knowledge Discovery in Databases o KDD), esta
etapa usa algoritmos concretos que generan una enumeración de patrones a partir de
los datos preprocesados. El Data Mining reúne las ventajas de varias áreas como la
Estadística, la Inteligencia Artificial, la Computación Gráfica, las Bases de Datos y el
Procesamiento Masivo, principalmente usando como materia prima las bases de
datos.

Aunque algunos autores usan los términos Minería de Datos y KDD indistintamente,
como sinónimos, existen claras diferencias entre los dos. Así la mayoría de los
autores coinciden en referirse al KDD como un proceso que consta de un conjunto de
fases, una de las cuales es la minería de datos. De acuerdo con esto, el proceso de
minería de datos consiste únicamente en la aplicación de un algoritmo para extraer
patrones de datos y se llamará KDD al proceso completo que incluye pre-
procesamiento, minería y post-procesamiento de los datos.

En esta figura vemos las fases del proceso de KDD, una de las cuales es la Minería
de Datos
IMPORTANCIA

La Minería de Datos es el resultado de un largo proceso de investigación y


desarrollo de productos. Esta evolución comenzó cuando los datos de negocios
fueron almacenados por primera vez en computadoras, y continuó con mejoras en el
acceso a los datos, y más recientemente con tecnologías generadas para permitir a
los usuarios navegar a través de los datos en tiempo real. Data Mining toma este
proceso de evolución más allá del acceso y navegación retrospectiva de los datos,
hacia la entrega de información prospectiva y proactiva. Data Mining está listo para su
aplicación en la comunidad de negocios porque está soportado por tres tecnologías
que ya están suficientemente maduras:

• Obtención masiva de datos.

• Potentes computadoras con multiprocesadores.

• Algoritmos de Data Mining.

La gran cantidad de aplicaciones que tiene la Minería de Datos, en tan diversas


áreas suponen su gran importancia, pues básicamente en todas las áreas
relacionadas con nuestra vida es posible recoger datos desde hace mucho tiempo, y
esto es lo que precisamente permite realizar estudios de este tipo. Además, la idea de
poder predecir situaciones futuras, partiendo de algo que ya se tienen en la mano
como son los datos, es algo que se puede ver como una herramienta de gran utilidad
y que basados en todo lo que puede significar una ventaja como el uso de esta
herramienta, se puede llevar una gran delantera competitiva sobre los demás entes
bien sean estos personas, organizaciones, empresas, etc.

Como punto de encuentro entre varias ramas de la ciencia, la Minería de Datos


es el eje central del proceso de extracción de conocimiento en el cual se aplican
conceptos y técnicas provenientes de áreas de la ciencia como: Inteligencia artificial,
Estadística, Bases de Datos, Ingeniería del conocimiento, entre otros...

Como herramienta fundamental para apoyar la toma de decisiones en las


empresas, tanto a nivel descriptivo de lo que ya se tiene en los datos como también
una poderosa herramienta para realizar predicciones a partir de los datos obtenidos
hasta la actualidad. Así, es posible realizar estudios que permitan conocer mejor a los
cliente de su negocio, o también conocer cuál es el perfil del cliente ideal para
aumentar sus ventas, o para que sus clientes actuales no lo abandonen.

La gran cantidad de sitios Web, portales, artículos en revistas, y seminarios que se


realizan alrededor del mundo, demuestran la importancia que tiene este tema en la
actualidad, aunque muchos sitios tienen ya varios años de existencia, es común
encontrar artículos, y portales actualizados, junto con cientos de herramientas nuevas
de software que permiten realizar procesos de Minería de Datos.

Las diferentes variaciones que están naciendo y que son objeto de investigación y de
estudio a nivel mundial, como lo son el Web Mining, Text Mining, Graphic Mining,
entre otros. Todo esto demuestra que el uso de técnicas y algoritmos para el estudio
de patrones y reglas en repositorios de datos, es aplicable y con gran importancia a
muchos formatos diferentes.

MODELOS DEL DATA MINING

Se define al modelo de Minería de Datos como a una descripción de los patrones y


relaciones entre los datos que pueden usarse para hacer predicciones y entender
mejor los datos o para explicar situaciones pasadas. En esencia, toda aplicación y
desarrollo de trabajos en Minería de Datos, debe pertenecer o identificarse bien sea
con un modelo descriptivo, o un modelo predictivo, y la elección de las tareas y
técnicas de Minería de Datos deben resolver el modelo elegido.

Un modelo predictivo responde preguntas sobre datos futuros como:

• ¿Cuáles serán las ventas el año próximo?

• ¿Será esta transacción fraudulenta?

• ¿Qué tipo de seguro es más probable que contrate el cliente X?

• Encontrar el perfil del comprador del producto A

• Encontrar el perfil del cliente que me abandonará el mes siguiente

• Calcular el valor potencial de un cliente

• Probabilidad de que un cliente devuelva un préstamo

Un modelo descriptivo proporciona información sobre las relaciones entre los


datos y sus características. Genera información del tipo:

• Los clientes que compran pañales suelen comprar cerveza.

• El tabaco y el alcohol son los factores determinantes de una enfermedad


específica.

• Los clientes sin televisión y con bicicleta tienen características de


comportamiento muy diferentes del resto.
• Conocer cuáles son los clientes de una organización (características de los
mismos).

• Encontrar los productos que frecuentemente se compran juntos.

• Síntomas de enfermedades que se presentan juntos.

Hernández considera algunos aspectos antes de empezar el proceso de Minería


de Datos:

• Determinar qué tipo de tarea de Minería de Datos es la más apropiada.

• Elegir el tipo de modelo.

• Elegir el algoritmo de Minería de Datos que resuelva la tarea y obtenga el tipo


de modelo que estamos buscando.

TAREAS DEL DATA MINING

Cada tarea dentro de la Minería de Datos puede considerarse como un problema


diferente a ser resuelto por un algoritmo. Cada tarea tiene sus propios requisitos, y
retorna información posiblemente diferente en cada caso.

Las tareas corresponden al modelo (predictivo o descriptivo) que pertenezcan, y las


más comúnmente utilizadas en los trabajos de Minería de Datos son: en las
predictivas están la clasificación y la regresión, y en las descriptivas, están el
agrupamiento (o segmentación) y las reglas de asociación.

Clasificación: Consiste en examinar las características de una entidad nueva y


asignarle una clase predefinida. Por ejemplo: Clasificar a un nuevo cliente según su
riesgo de crédito (alto, medio, bajo). Básicamente la clasificación establece la
construcción de una lógica que tome un registro sin clasificar y luego lo clasifique en
una de las clases existentes, de manera que al final cada uno de los registros
existentes en la base de datos se encuentre clasificado. La clasificación trata con
problemas de salidas discretas (si o no, alto, medio o bajo riesgo, responderá o no
responderá...)

Regresión: La regresión también pretende asignar un registro a una clase


especificada con anterioridad, pero esta vez la variable es continua. El objetivo es
predecir los valores de una variable continua a partir de la evolución sobre otra
variable continua, esta variable generalmente es el tiempo. Para los casos de
regresión, lo que se hace es establecer una función real que permite tomar un registro
numérico y luego de aplicada retorne un valor real que se puede decir refleja un
comportamiento o parámetro.

Agrupamiento (o segmentación): Es el descubrimiento de grupos de registros que


cumplen características o atributos similares, pero a partir de los mismos datos o
registros y en donde no hay clases predefinidas. Se diferencia de la clasificación en
que no se conocen ni las clases ni su número. Los datos son agrupados basándose
en el principio de maximizar la similitud entre los elementos de un grupo minimizando
la similitud en los distintos grupos. Es decir, se forman grupos tales que los objetos de
un mismo grupo son muy similares entre sí y, al mismo tiempo, son muy diferentes a
los objetos de otro grupo.

Reglas de Asociación: Los algoritmos de Asociación permiten la búsqueda


automática de reglas que relacionan conjuntos de atributos entre sí. Estas reglas se
evalúan usando dos parámetros: precisión y soporte (cobertura). Por ejemplo: que
productos debieran ir juntos en un supermercado, recomendaciones de productos,
etc.

CICLO O ETAPAS DEL PROCESO DE DATA MINING

Consta de cuatro procesos principales, el éxito en la minería de datos requiere de los


cuatro pasos:

1. Identificar el Problema: Es importante que los técnicos entiendan cuáles son


las necesidades reales y delimitar los objetivos que el cliente desea.

2. La Transformación de los Datos en los Resultados Recurribles: Se refiere a


la selección, la limpieza, el enriquecimiento, la reducción y la transformación de
las bases de datos. Esta etapa consume generalmente alrededor del setenta por
ciento del tiempo total de un proyecto de data mining.

3. Actuando sobre los Resultados: Se comienza realizando unos análisis


estadísticos de los datos, y después se lleva a cabo una visualización gráfica de
los mismos para tener una primera aproximación. Según los objetivos planteados
y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en
diferentes áreas de la Inteligencia Artificial.

4. Medir los Resultados: Verifica si los resultados obtenidos son coherentes y los
coteja con los obtenidos por los análisis estadísticos y de visualización gráfica. El
cliente determina si son novedosos y si le aportan un nuevo conocimiento que le
permita considerar sus decisiones.

TÉCNICAS DE MINERÍA DE DATOS

Las técnicas de la minería de datos provienen de la Inteligencia artificial y de la


estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados
que se aplican sobre un conjunto de datos para obtener unos resultados.

Las técnicas más representativas son:

• Redes neuronales.- Son un paradigma de aprendizaje y procesamiento


automático inspirado en la forma en que funciona el sistema nervioso de los
animales. Se trata de un sistema de interconexión de neuronas en una red que
colabora para producir un estímulo de salida.

• Regresión lineal.- Es la más utilizada para formar relaciones entre datos.


Rápida y eficaz pero insuficiente en espacios multidimensionales donde puedan
relacionarse más de 2 variables.

Una función de regresión lineal modela la salida de la clasificación como una


combinación lineal de los atributos de entrada. Las regresiones lineales se utilizan
para clasificar datasets con clases numéricas.

• Árboles de decisión.- Un árbol de decisión es un modelo de predicción


utilizado en el ámbito de la inteligencia artificial, dada una base de datos se
construyen estos diagramas de construcciones lógicas, muy similares a los
sistemas de predicción basados en reglas, que sirven para representar y
categorizar una serie de condiciones que suceden de forma sucesiva, para la
resolución de un problema.

• Modelos estadísticos.- Es una expresión simbólica en forma de igualdad o


ecuación que se emplea en todos los diseños experimentales y en la regresión
para indicar los diferentes factores que modifican la variable de respuesta.

• Agrupamiento o Clustering.- Es un procedimiento de agrupación de una


serie de vectores según criterios habitualmente de distancia; se tratará de
disponer los vectores de entrada de forma que estén más cercanos aquellos que
tengan características comunes.

HERRAMIENTAS DE MINERIA DE DATOS

• R: es un lenguaje y entorno de programación para análisis estadístico y


gráfico.Se trata de un proyecto de software libre.

• KNIME: (o Konstanz Information Miner) es una plataforma de minería de datos


que permite el desarrollo de modelos en un entorno visual. Está construido bajo la
plataforma Eclipse.

• Statistical Package for the Social Sciences (SPSS): es un programa


estadístico informático muy usado en las ciencias sociales y las empresas de
investigación de mercado. En la actualidad, la sigla se usa tanto para designar el
programa estadístico como la empresa que lo produce.

• Statistica: es un paquete estadístico usado en investigación, minería de datos y


en el ámbito empresarial. Lo creó StatSoft.

• RapidMiner: (anteriormente, YALE, Yet Another Learning Environment) es un


programa informático para el análisis y minería de datos. Permite el desarrollo de
procesos de análisis de datos mediante el encadenamiento de operadores a
través de un entorno gráfico. Se usa en investigación y en aplicaciones
empresariales.

• Orange: es un programa informático para realizar minería de datos y análisis


predictivo desarrollado en la facultad de informática de la Universidad de
Ljubljana. Consta de una serie de componentes desarrollados en C++ que
implementan algoritmos de minería de datos, así como operaciones de pre
procesamiento y representación gráfica de datos.

• Weka, KXEN

EXTENSIONES DEL DATA MINING

Web Mining: consiste en aplicar las técnicas de minería de datos a documentos y


servicios del Web (Kosala y otros, 2000). Todos los que visitan un sitio en Internet
dejan huellas digitales (direcciones de IP, navegador, etc.) que los servidores
automáticamente almacenan en una bitácora de accesos (Log). Las herramientas de
Web mining analizan y procesan estos logs para producir información significativa.
Debido a que los contenidos de Internet consisten en varios tipos de datos, como
texto, imagen, vídeo, metadatos o hiperligas, investigaciones recientes usan el
término multimedia data mining (minería de datos multimedia) como una instancia del
Web mining (Zaiane y otros, 1998) para tratar ese tipo de datos. Los accesos totales
por dominio, horarios de accesos más frecuentes y visitas por día, entre otros datos,
son registrados por herramientas estadísticas que complementan todo el proceso de
análisis del Web mining.

Text Mining: dado que el ochenta por ciento de la información de una compañía está
almacenada en forma de documentos, las técnicas como la categorización de texto, el
procesamiento de lenguaje natural, la extracción y recuperación de la información o el
aprendizaje automático, entre otras, apoyan al text mining (minería de texto). En
ocasiones se confunde el text mining con la recuperación de la información
(Information Retrieval o IR) (Hearst, 1999). Esta última consiste en la recuperación
automática de documentos relevantes mediante indexaciones de textos, clasificación,
categorización, etc. Generalmente se utilizan palabras clave para encontrar una
página relevante. En cambio, el text mining se refiere a examinar una colección de
documentos y descubrir información no contenida en ningún documento individual de
la colección; en otras palabras, trata de obtener información sin haber partido de algo
(Nasukawa y otros, 2001).

APLICACIONES DE LA MINERIA DE DATOS

En la actualidad, existe una gran cantidad de aplicaciones, en áreas tales como:

• Astronomía: clasificación de cuerpos celestes.


• Aspectos climatológicos: predicción de tormentas, etc.

• Medicina: caracterización y predicción de enfermedades, probabilidad de


respuesta satisfactoria a tratamiento médico.

• Industria y manufactura: diagnóstico de fallas.

• Mercadotecnia: identificar clientes susceptibles de responder a ofertas de


productos y servicios por correo, fidelidad de clientes, selección de sitios de
tiendas, afinidad de productos, etc.

• Inversión en casas de bolsa y banca: análisis de clientes, aprobación de


préstamos, determinación de montos de crédito, etc.

• Detección de fraudes y comportamientos inusuales: telefónicos, seguros, en


tarjetas de crédito, de evasión fiscal, electricidad, etc.

• Análisis de canastas de mercado para mejorar la organización de tiendas,


segmentación de mercado (clustering)

• Determinación de niveles de audiencia de programas televisivos

• Normalización automática de bases de datos

¿Por qué usar data mining?

Si bien el data mining se presenta como una tecnología emergente, posee ciertas
ventajas, como ser:

• Resulta un buen punto de encuentro entre los investigadores y las personas de


negocios.

• Ahorra grandes cantidades de dinero a una empresa y abre nuevas


oportunidades de negocios.

• Trabajar con esta tecnología implica cuidar un sin número de detalles debido a
que el producto final involucra "toma de decisiones".

• Contribuye a la toma de decisiones tácticas y estratégicas proporcionando un


sentido automatizado para identificar información clave desde volúmenes de
datos generados por procesos tradicionales y de e-business.
• Permite a los usuarios dar prioridad a decisiones y acciones mostrando factores
que tienen un mayor en un objetivo, qué segmentos de clientes son desechables
y qué unidades de negocio son sobrepasados y por qué.

• Proporciona poderes de decisión a los usuarios del negocio que mejor entienden
el problema y el entorno y es capaz de medir la acciones y los resultados de la
mejor forma.

• Genera modelos descriptivos: en un contexto de objetivos definidos en los


negocios permite a empresas, sin tener en cuenta la industria o el tamaño,
explorar automáticamente, visualizar y comprender los datos e identificar
patrones, relaciones y dependencias que impactan en los resultados finales de la
cuenta de resultados (tales como el aumento de los ingresos, incremento de los
beneficios, contención de costes y gestión de riesgos).

• Genera modelos predictivos: permite que relaciones no descubiertas e


identificadas a través del proceso del data mining sean expresadas como reglas
de negocio o modelos predictivos. Estos outputs pueden comunicarse en
formatos tradicionales (presentaciones, informes, información electrónica
compartida, embebidos en aplicaciones, etc.) Para guiar la estrategia y
planificación de la empresa.
CONCLUSIONES

El desarrollo de la tecnología de Minería de Datos está en un momento crítico. Existe


una serie de elementos que la hacen operable, sin embargo, existen algunos factores
que pueden crear un descrédito a la Minería de Datos, como ser:

• Que los productos a comercializar son, en la actualidad, significativamente


costosos, y los consumidores pueden hallar una relación costo/beneficio
improductiva

• Que se requiera de mucha experiencia para utilizar herramientas de la tecnología,


o que sea muy fácil hallar patrones equívocos, triviales o no interesantes,

• Que no sea posible resolver los aspectos técnicos de hallar patrones en tiempo o
en espacio,

• Además, hoy en día, las corporaciones comercializan con millones de perfiles


personales, sin que aquellos a que se refieren los datos intercambiados, estén en
posibilidad de intervenir, entonces, se llega a pensar que presenta un peligro o
riesgo para la privacidad de los clientes.
BIBLIOGRAFIA

• Fayyad, U., Haussler, D., Sstolorz, P. (1996). “Mining scientific data”.


Communications of the ACM.Vol. 39, pp. 51 - 57.

• Hernández, J. (2001). Minería de Datos: El Proceso de KDD. Universidad


Politécnica de Valencia.

• Molina, L. C. (2002). Data mining: torturando a los datos hasta que confiesen.

http://www.uoc.edu/web/esp/art/uoc/molina1102/molina1102.html

Potrebbero piacerti anche