Sei sulla pagina 1di 18

SISTEMA DE GESTION DE BASE DE DATOS

Un Sistema Gestor de Bases de Datos (SGBD) o DBMA (DataBase Management


System) es una colección de programas cuyo objetivo es servir de interfaz entre la
base de datos, el usuario y las aplicaciones. Se compone de un lenguaje de definición
de datos, de un lenguaje de manipulación de datos y de un lenguaje de consulta. Un
SGBD permite definir los datos a distintos niveles de abstracción y manipular dichos
datos, garantizando la seguridad e integridad de los mismos.

Un Sistema Gestor de Bases de Datos (SGBD) o DGBA (Data Base Management


System) es un conjunto de programas no visibles que administran y gestionan la
información que contiene una base de datos. A través de él se maneja todo acceso
a la base de datos con el objetivo de servir de interfaz entre ésta, el usuario y las
aplicaciones.

Gracias a este sistema de software invisible para el usuario final, compuesto por un
lenguaje de definición de datos, un lenguaje de manipulación y de consulta, es posible
gestionar los datos a distintos niveles. Tanto almacenar, modificar y acceder a la
información como realizar consultas y hacer análisis para generar informes.

A su vez, el SGBD puede entenderse como una colección de datos relacionados entre
sí, estructurados y organizados dentro del ecosistema conformado por ese conjunto de
programas que acceden a ellos y facilitan su gestión. Frente al anterior sistema de
gestión de archivos, -un conjunto de programas que definían y trabajaban sus propios
datos-, el acceso a los datos es independiente de los programas que los gestionan,
una gran ventaja de cara a tratar grandes volúmenes de información.

Básicamente, el gestor controla cualquier operación ejecutada por el usuario contra


la base de datos. Para ello, se utilizan herramientas específicas, como sistemas de
búsqueda y de generación de informes, además de distintas aplicaciones.

Igualmente, permite la definición de bases de datos a distintos niveles de


abstracción, así como su manipulación, garantizando tanto la seguridad como la
integridad y consistencia de los mismos. Siempre de forma separada a los programas
o aplicaciones que los gestionan, sin tener que modificar éstos.

En cuanto a su tipología, suelen agruparse a partir de criterios relacionados con


el modelo de datos (dentro de éste encontramos los SGBD relacionales, EnRed,
jerárquicos u orientados a objetos), y también es posible diferenciarlos según sean o
no propietarios, así como a partir de elementos como el número de
usuarios (monousuarios y distribuidos) o de sitios, en cuyo caso serían centralizados
o distribuidos.

Algunos ejemplos de SGBD son Oracle, DB2, PostgreSQL, MySQL, MS SQL Server,
etc.
Un SGBD debe permitir:
 Definir una base de datos: especificar tipos, estructuras y restricciones de
datos.
 Construir la base de datos: guardar los datos en algún medio controlado por el
mismo SGBD.
 Manipular la base de datos: realizar consultas, actualizarla, generar informes.

Las funciones clave de un SGBD

Muchas de las funciones de un gestor de bases de datos vienen contenidas en la


breve definición realizada. Como hemos apuntado, un SGBD nos permite definir los
datos, así como manipularlos, aplicar medidas de seguridad e integridad y
recuperarlos/restaurarlos tras un posible fallo.

Son numerosas las ventajas a la hora de construir y definir la base de datos para
distintas aplicaciones, pues facilita los procesos y también su mantenimiento. Entre
otras funciones, ayuda a realizar acciones tan importantes como la definición de los
datos, el mantenimiento de su integridad, su manipulación y el control de su seguridad
y privacidad.
Al suponer un punto y aparte con respecto al sistema de gestión de archivos, su
desarrollo se debe al objetivo fundamental de subsanar los inconvenientes de aquél
proporcionando eficiencia y seguridad a la hora de extraer o almacenar información en
las bases de datos.

Un SGBD, en definitiva, proporciona una serie de servicios y lenguajes para la


creación, configuración y manipulación de la base de datos, así como mecanismos de
respaldo. También permite almacenar una descripción de dichos lenguajes en un
diccionario de datos, así como su mantenimiento, proporcionando un acceso
controlado a la misma.

Las características de un Sistema Gestor de Base de Datos SGBD son:

 Abstracción de la información. Los SGBD ahorran a los usuarios detalles


acerca del almacenamiento físico de los datos. Da lo mismo si una base de
datos ocupa uno o cientos de archivos, este hecho se hace transparente al
usuario. Así, se definen varios niveles de abstracción.
 Independencia. La independencia de los datos consiste en la capacidad de
modificar el esquema (físico o lógico) de una base de datos sin tener que
realizar cambios en las aplicaciones que se sirven de ella.
 Redundancia mínima. Un buen diseño de una base de datos logrará evitar la
aparición de información repetida o redundante. De entrada, lo ideal es lograr
una redundancia nula; no obstante, en algunos casos la complejidad de los
cálculos hace necesaria la aparición de redundancias.
 Consistencia. En aquellos casos en los que no se ha logrado esta
redundancia nula, será necesario vigilar que aquella información que aparece
repetida se actualice de forma coherente, es decir, que todos los datos
repetidos se actualicen de forma simultánea.
 Seguridad. La información almacenada en una base de datos puede llegar a
tener un gran valor. Los SGBD deben garantizar que esta información se
encuentra seguridad frente a usuarios malintencionados, que intenten leer
información privilegiada; frente a ataques que deseen manipular o destruir la
información; o simplemente ante las torpezas de algún usuario autorizado pero
despistado. Normalmente, los SGBD disponen de un complejo sistema de
permisos a usuarios y grupos de usuarios, que permiten otorgar diversas
categorías de permisos.
 Integridad. Se trata de adoptar las medidas necesarias para garantizar la
validez de los datos almacenados. Es decir, se trata de proteger los datos ante
fallos de hardware, datos introducidos por usuarios descuidados, o cualquier
otra circunstancia capaz de corromper la información almacenada.
 Respaldo y recuperación. Los SGBD deben proporcionar una forma eficiente
de realizar copias de respaldo de la información almacenada en ellos, y de
restaurar a partir de estas copias los datos que se hayan podido perder.
 Control de la concurrencia. En la mayoría de entornos (excepto quizás el
doméstico), lo más habitual es que sean muchas las personas que acceden a
una base de datos, bien para recuperar información, bien para almacenarla. Y
es también frecuente que dichos accesos se realicen de forma simultánea. Así
pues, un SGBD debe controlar este acceso concurrente a la información, que
podría derivar en inconsistencias.

BIG DATA

INTRODUCCIÓN: Big Data nació con el objetivo de cubrir unas necesidades no


satisfechas por las tecnologías existentes, como es el almacenamiento y tratamiento
de grandes volúmenes de datos que poseen unas características muy concretas
definidas como las tres V’s (puede haber más):

¿Qué es Big Data?

Cuando hablamos de Big Data nos referimos a conjuntos de datos o combinaciones de


conjuntos de datos cuyo tamaño (volumen), complejidad (variabilidad) y velocidad de
crecimiento (velocidad) dificultan su captura, gestión, procesamiento o análisis
mediante tecnologías y herramientas convencionales, tales como bases de datos
relacionales y estadísticas convencionales o paquetes de visualización, dentro del
tiempo necesario para que sean útiles.

Aunque el tamaño utilizado para determinar si un conjunto de datos determinado se


considera Big Data no está firmemente definido y sigue cambiando con el tiempo, la
mayoría de los analistas y profesionales actualmente se refieren a conjuntos de datos
que van desde 30-50 Terabytes a varios Petabytes.

La naturaleza compleja del Big Data se debe principalmente a la naturaleza no


estructurada de gran parte de los datos generados por las tecnologías modernas,
como los web logs, la identificación por radiofrecuencia (RFID), los sensores
incorporados en dispositivos, la maquinaria, los vehículos, las búsquedas en Internet,
las redes sociales como Facebook, computadoras portátiles, teléfonos inteligentes y
otros teléfonos móviles, dispositivos GPS y registros de centros de llamadas.
En la mayoría de los casos, con el fin de utilizar eficazmente el Big Data, debe
combinarse con datos estructurados (normalmente de una base de datos relacional)
de una aplicación comercial más convencional, como un ERP (Enterprise Resource
Planning) o un CRM (Customer Relationship Management).

Características del es Big Data más conocidas como las cuatro V del Big Data:

1. Volumen
2. Velocidad
3. Variedad de los datos
4. Veracidad de los datos
5. Viabilidad
6. Visualización de los datos
7. Valor de los datos

1: Volumen de información

El volumen se refiere a la cantidad de datos que son generados cada segundo, minuto
y días en nuestro entorno. Es la característica más asociada al Big Data, ya que hace
referencia a las cantidades masivas de datos que se almacenan con la finalidad de
procesar dicha información, transformando los datos en acciones.

Cada vez estamos más conectados al mundo 2.0 por lo que generamos más y más
datos. Para algunas empresas, el estar en el mundo digital es algo obligatorio, por lo
que la cantidad de datos generados es aún mayor.

Por ejemplo, una empresa que vende sus productos únicamente a través de un canal
online, le convendría implantar tecnología Big Data para procesar toda aquella
información que recoge su página web rastreando todas las acciones que lleva a cabo
el cliente; conocer donde cliquea más veces, cuántas veces ha pasado por el carrito
de la compra, cuáles son los productos más vistos, las páginas más visitadas, etc.

2: Velocidad de los datos

La velocidad se refiere a los datos en movimiento por las constantes interconexiones


que realizamos, es decir, a la rapidez en la que son creados, almacenados y
procesados en tiempo real.

Para los procesos en los que el tiempo resulta fundamental, tales como la detección
de fraude en una transacción bancaria o la monitorización de un evento en redes
sociales, estos tipos de datos deben estudiarse en tiempo real para que resulten útiles
para el negocio y se consigan conclusiones efectivas.

3: Variedad de los datos

La variedad se refiere a las formas, tipos y fuentes en las que se registran los datos.
Estos datos pueden ser datos estructurados y fáciles de gestionar como son las bases
de datos, o datos no estructurados, entre los que se incluyen documentos de texto,
correos electrónicos, datos de sensores, audios, vídeos o imágenes que tenemos en
nuestro dispositivo móvil, hasta publicaciones en nuestros perfiles de redes sociales,
artículos que leemos en blogs, las secuencias de click que hacemos en una misma
página, formularios de registro e infinidad de acciones más que realizamos desde
nuestro Smartphone, Tablet y ordenador.
Estos últimos datos requieren de una herramienta específica, debido a que el
tratamiento de la información es totalmente diferente con respecto a los datos
estructurados. Para ello, las empresas necesitan integrar, observar y procesar datos
que son recogidos a través de múltiples fuentes de información con herramientas
cualificadas.

4: Veracidad de los datos

Cuando hablamos de veracidad nos referimos a la incertidumbre de los datos, es


decir, al grado de fiabilidad de la información recibida.
Es necesario invertir tiempo para conseguir datos de calidad, aplicando soluciones y
métodos que puedan eliminar datos imprevisibles que puedan surgir como datos
económicos, comportamientos de los consumidores que puedan influir en las
decisiones de compra.

La necesidad de explorar y planificar la incertidumbre es un reto para el Big Data que


está a la orden del día en las compañías dedicadas al análisis de datos.

5: Viabilidad

La inteligencia empresarial es un componente fundamental para la viabilidad de un


proyecto y el éxito empresarial. Se trata de la capacidad que tienen las compañías en
generar un uso eficaz del gran volumen de datos que manejan.
La inteligencia competitiva también se asocia con la innovación de los equipos de
trabajo y el uso de tecnologías empleadas. Una empresa inteligente analiza,
selecciona y monitoriza la información con el fin de conocer mejor el mercado en el
que opera, a sus clientes y diseñar estrategias eficaces.

Es necesario filtrar a través de esta información y seleccionar cuidadosamente los


atributos y factores que son capaces de predecir los resultados que más interesan a
las empresas. El secreto del éxito es descubrir las relaciones entre las variables
ocultas.

Una vez que conoces la viabilidad de tu organización, es el momento de detallar el


proyecto en una hoja de ruta, y desarrollar el plan de negocio.

6: Visualización de los datos

Cuando hablamos de visualización nos referimos al modo en el que los datos son
presentados. Una vez que los datos son procesados (los datos están en tablas y hojas
de cálculo), necesitamos representarlos visualmente de manera que sean legibles y
accesibles, para encontrar patrones y claves ocultas en el tema a investigar. Para que
los datos sean comprendidos existen herramientas de visualización que te ayudarán a
comprender los datos gráficamente y en perspectiva contextual.

7: Valor de los datos

El dato no es valor. Tampoco tienes valor por el mero hecho de recopilar gran cantidad
de información. El valor se obtiene de datos que se transforman en información; esta a
su vez se convierte en conocimiento, y este en acción o en decisión. El valor de los
datos está en que sean accionables, es decir, que los responsable de la empresas
puedan tomar una decisión (la mejor decisión) en base a estos datos.

No todos los datos de los que partimos se convierten en acción o decisión. Para ello,
es necesario tener tecnologías aplicadas. Por ejemplo, una publicación en una red
social, que gracias al uso de tecnologías de procesamiento de lenguaje natural, puede
medir el sentimiento positivo o negativo, con la ayuda de un algoritmo de análisis de
redes sociales o herramientas que permitan obtener de esto información.

En definitiva, el Big Data es una combinación de estas siete características donde las
empresas pueden obtener una ventaja competitiva frente a sus competidores
contribuyendo al éxito asegurado con las tres últimas V de viabilidad, visualización y la
más importante, la de valor.
No todas las compañías optaran por la misma metodología con respecto al desarrollo
y la creación de sus capacidades con tecnologías Big Data. Sin embargo, en todos los
sectores existe la posibilidad de recurrir a estas nuevas tecnologías y analíticas para
mejorar la toma de decisiones y el rendimiento, tanto a nivel interno como en el
mercado.

¿Por qué el Big Data es tan importante?

Lo que hace que Big Data sea tan útil para muchas empresas es el hecho de que
proporciona respuestas a muchas preguntas que las empresas ni siquiera sabían que
tenían. En otras palabras, proporciona un punto de referencia. Con una cantidad tan
grande de información, los datos pueden ser moldeados o probados de cualquier
manera que la empresa considere adecuada. Al hacerlo, las organizaciones son
capaces de identificar los problemas de una forma más comprensible.

La recopilación de grandes cantidades de datos y la búsqueda de tendencias dentro


de los datos permiten que las empresas se muevan mucho más rápidamente, sin
problemas y de manera eficiente. También les permite eliminar las áreas
problemáticas antes de que los problemas acaben con sus beneficios o su reputación.

El análisis de Big Data ayuda a las organizaciones a aprovechar sus datos y utilizarlos
para identificar nuevas oportunidades. Eso, a su vez, conduce a movimientos de
negocios más inteligentes, operaciones más eficientes, mayores ganancias y clientes
más felices. Las empresas con más éxito con Big Data consiguen valor de las
siguientes formas:
 Reducción de coste. Las grandes tecnologías de datos, como Hadoop y el análisis
basado en la nube, aportan importantes ventajas en términos de costes cuando se
trata de almacenar grandes cantidades de datos, además de identificar maneras
más eficientes de hacer negocios.
 Más rápido, mejor toma de decisiones. Con la velocidad de Hadoop y la analítica
en memoria, combinada con la capacidad de analizar nuevas fuentes de datos, las
empresas pueden analizar la información inmediatamente y tomar decisiones
basadas en lo que han aprendido.
 Nuevos productos y servicios. Con la capacidad de medir las necesidades de los
clientes y la satisfacción a través de análisis viene el poder de dar a los clientes lo
que quieren. Con la analítica de Big Data, más empresas están creando nuevos
productos para satisfacer las necesidades de los clientes.

Algunos desafíos a los que se enfrenta la calidad de datos de Big Data son:

Muchas fuentes y tipos de datos:

Con tantas fuentes, tipos de datos y estructuras complejas, la dificultad de integración


de datos aumenta.

Las fuentes de datos de big data son muy amplias:

 Datos de internet y móviles.


 Datos de Internet de las Cosas.
 Datos sectoriales recopilados por empresas especializadas.
 Datos experimentales.

Y los tipos de datos también lo son:

1. Tipos de datos no estructurados: documentos, vídeos, audios, etc.


2. Tipos de datos semi-estructurados: software, hojas de cálculo, informes.
3. Tipos de datos estructurados

Solo el 20% de información es estructurada y eso puede provocar muchos errores si


no acometemos un proyecto de calidad de datos.

DATA MINING
Data mining o la minería de datos o exploración de datos (es la etapa de análisis de
"Knowledge Discovery in Databases" o KDD) es un campo de la estadística y
las ciencias de la computación referido al proceso que intenta descubrir patrones en
grandes volúmenes de conjuntos de datos.1 Utiliza los métodos de la inteligencia
artificial, aprendizaje automático, estadística y sistemas de bases de datos. El objetivo
general del proceso de minería de datos consiste en extraer información de un
conjunto de datos y transformarla en una estructura comprensible para su uso
posterior. Además de la etapa de análisis en bruto, supone aspectos de gestión de
datos y de bases de datos, de procesamiento de datos, del modelo y de las
consideraciones de inferencia, de métricas de Intereses, de consideraciones de
la teoría de la complejidad computacional, de post-procesamiento de las estructuras
descubiertas, de la visualización y de la actualización en línea.

El término es un concepto de moda, y es frecuentemente mal utilizado para referirse a


cualquier forma de datos a gran escala o procesamiento de la información
(recolección, extracción, almacenamiento, análisis y estadísticas), pero también se ha
generalizado a cualquier tipo de sistema de apoyo informático decisión, incluyendo la
inteligencia artificial, aprendizaje automático y la inteligencia empresarial. En el uso de
la palabra, el término clave es el descubrimiento, comúnmente se define como "la
detección de algo nuevo". Incluso el popular libro "La minería de datos: sistema de
prácticas herramientas de aprendizaje y técnicas con Java" (que cubre todo el material
de aprendizaje automático) originalmente iba a ser llamado simplemente "la máquina
de aprendizaje práctico", y el término "minería de datos" se añadió por razones de
marketing. A menudo, los términos más generales "(gran escala) el análisis de datos",
o "análisis" -. o cuando se refiere a los métodos actuales, la inteligencia artificial y
aprendizaje automático, son más apropiados.

La tarea de minería de datos real es el análisis automático o semi-automático de


grandes cantidades de datos para extraer patrones interesantes hasta ahora
desconocidos, como los grupos de registros de datos (análisis clúster), registros poco
usuales (la detección de anomalías) y dependencias (minería por reglas de
asociación). Esto generalmente implica el uso de técnicas de bases de datos como los
índices espaciales. Estos patrones pueden entonces ser vistos como una especie de
resumen de los datos de entrada, y pueden ser utilizados en el análisis adicional o, por
ejemplo, en el aprendizaje automático y análisis predictivo. Por ejemplo, el paso de
minería de datos podría identificar varios grupos en los datos, que luego pueden ser
utilizados para obtener resultados más precisos de predicción por un sistema de
soporte de decisiones. Ni la recolección de datos, preparación de datos, ni la
interpretación de los resultados y la información son parte de la etapa de minería de
datos, pero que pertenecen a todo el proceso KDD como pasos adicionales.

Los términos relacionados con la obtención de datos, la pesca de datos y espionaje de


los datos se refieren a la utilización de métodos de minería de datos a las partes de la
muestra de un conjunto de datos de población más grandes establecidas que son (o
pueden ser) demasiado pequeñas para las inferencias estadísticas fiables que se hizo
acerca de la validez de cualquier patrón descubierto. Estos métodos pueden, sin
embargo, ser utilizados en la creación de nuevas hipótesis que se prueban contra
poblaciones de datos más grandes.

PROCESO:
Un proceso típico de minería de datos consta de los siguientes pasos generales:

1. Selección del conjunto de datos, tanto en lo que se refiere a las variables


objetivo (aquellas que se quiere predecir, calcular o inferir), como a
las variables independientes(las que sirven para hacer el cálculo o proceso),
como posiblemente al muestreo de los registros disponibles.
2. Análisis de las propiedades de los datos, en especial los histogramas,
diagramas de dispersión, presencia de valores atípicos y ausencia de datos
(valores nulos).
3. Transformación del conjunto de datos de entrada, se realizará de diversas
formas en función del análisis previo, con el objetivo de prepararlo para aplicar
la técnica de minería de datos que mejor se adapte a los datos y al problema,
a este paso también se le conoce como preprocesamiento de los datos.
4. Seleccionar y aplicar la técnica de minería de datos, se construye el modelo
predictivo, de clasificación o segmentación.
5. Extracción de conocimiento, mediante una técnica de minería de datos, se
obtiene un modelo de conocimiento, que representa patrones de
comportamiento observados en los valores de las variables del problema o
relaciones de asociación entre dichas variables. También pueden usarse
varias técnicas a la vez para generar distintos modelos, aunque generalmente
cada técnica obliga a un reprocesado diferente de los datos.
6. Interpretación y evaluación de datos, una vez obtenido el modelo, se debe
proceder a su validación comprobando que las conclusiones que arroja son
válidas y suficientemente satisfactorias. En el caso de haber obtenido varios
modelos mediante el uso de distintas técnicas, se deben comparar los
modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los
modelos alcanza los resultados esperados, debe alterarse alguno de los pasos
anteriores para generar nuevos modelos.

Si el modelo final no superara esta evaluación el proceso se podría repetir desde el


principio o, si el experto lo considera oportuno, a partir de cualquiera de los pasos
anteriores. Esta retroalimentación se podrá repetir cuantas veces se considere
necesario hasta obtener un modelo válido.

Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas
y/o con márgenes de error admisibles) éste ya está listo para su explotación. Los
modelos obtenidos por técnicas de minería de datos se aplican incorporándolos en los
sistemas de análisis de información de las organizaciones, e incluso, en los sistemas
transaccionales. En este sentido cabe destacar los esfuerzos del Data Mining Group,
que está estandarizando el lenguaje PMML (Predictive Model Markup Language), de
manera que los modelos de minería de datos sean interoperables en
distintas plataformas, con independencia del sistema con el que han sido construidos.
Los principales fabricantes de sistemas de bases de datos y programas de análisis de
la información hacen uso de este estándar.

Tradicionalmente, las técnicas de minería de datos se aplicaban sobre información


contenida en almacenes de datos. De hecho, muchas grandes empresas e
instituciones han creado y alimentan bases de datos especialmente diseñadas para
proyectos de minería de datos en las que centralizan información potencialmente útil
de todas sus áreas de negocio. No obstante, actualmente está cobrando una
importancia cada vez mayor la minería de datos desestructurados como información
contenida en ficheros de texto, en Internet, etc.

PROTOCOLO:
Un proyecto de minería de datos tiene varias fases necesarias que son,
esencialmente:

 Comprensión: del negocio y del problema que se quiere resolver.


 Determinación, obtención y limpieza: de los datos necesarios.
 Creación de modelos matemáticos.
 Validación, comunicación: de los resultados obtenidos.
 Integración: si procede, de los resultados en un sistema transaccional o similar.

La relación entre todas estas fases sólo es lineal sobre el papel. En realidad, es mucho
más compleja y esconde toda una jerarquía de subfases. A través de la experiencia
acumulada en proyectos de minería de datos se han ido
desarrollando metodologías que permiten gestionar esta complejidad de una manera
más o menos uniforme.

TECNICAS:
Como ya se ha comentado, las técnicas de la minería de datos provienen de
la inteligencia artificial y de la estadística, dichas técnicas, no son más que algoritmos,
más o menos sofisticados que se aplican sobre un conjunto de datos para obtener
unos resultados.

Las técnicas más representativas son:

 Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automático


inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata
de un sistema de interconexión de neuronas en una red que colabora para
producir un estímulo de salida. Algunos ejemplos de red neuronal son:
 El perceptrón.
 El perceptrón multicapa.
 Los mapas auto organizados, también conocidos como redes de Kohonen.

 Regresión lineal.- Es la más utilizada para formar relaciones entre datos. Rápida y
eficaz pero insuficiente en espacios multidimensionales donde puedan
relacionarse más de 2 variables.

 Árboles de decisión.- Un árbol de decisión es un modelo de predicción utilizado en


el ámbito de la inteligencia artificial y el análisis predictivo, dada una base de datos
se construyen estos diagramas de construcciones lógicas, muy similares a los
sistemas de predicción basados en reglas, que sirven para representar y
categorizar una serie de condiciones que suceden de forma sucesiva, para la
resolución de un problema. Ejemplos:
 Algoritmo ID3.
 Algoritmo C4.5

 Modelos estadísticos.- Es una expresión simbólica en forma de igualdad o


ecuación que se emplea en todos los diseños experimentales y en la regresión
para indicar los diferentes factores que modifican la variable de respuesta.

 Agrupamiento o Clustering.- Es un procedimiento de agrupación de una serie de


vectores según criterios habitualmente de distancia; se tratará de disponer los
vectores de entrada de forma que estén más cercanos aquellos que tengan
características comunes. Ejemplos:
 Algoritmo K-means
 Algoritmo K-medoids

 Reglas de asociación.- Se utilizan para descubrir hechos que ocurren en común


dentro de un determinado conjunto de datos.

Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican en
supervisados y no supervisados (Weiss y Indurkhya, 1998):

 Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos)


desconocido a priori, a partir de otros conocidos.
 Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren
patrones y tendencias en los datos.

DATA WAREHOUSE

Descripción de un Data Warehouse O almacén de datos

En el contexto de la informática, un almacén de datos (del inglés data warehouse) es


una colección de datos orientada a un determinado ámbito (empresa, organización,
etc.), integrado, no volátil y variable en el tiempo, que ayuda a la toma de decisiones
en la entidad en la que se utiliza. Se usa por reportajes y análisis de datos1 y se
considera un componente fundamental de la inteligencia empresarial.2 Se trata, sobre
todo, de un expediente completo de una organización, más allá de la información
transaccional y operacional, almacenado en una base de datos diseñada para
favorecer el análisis y la divulgación eficiente de datos
(especialmente OLAP, procesamiento analítico en línea). El almacenamiento de los
datos no debe usarse con datos de uso actual. Los almacenes de datos contienen a
menudo grandes cantidades de información que se subdividen a veces en unidades
lógicas más pequeñas dependiendo del subsistema de la entidad del que procedan o
para el que sea necesario.

Definición de almacén de datos:


1. Bill Inmon- fue uno de los primeros autores en escribir sobre el tema de los
almacenes de datos, define un data warehouse (almacén de datos) en términos de las
características del repositorio de datos:

 Orientado a temas.- Los datos en la base de datos están organizados de manera


que todos los elementos de datos relativos al mismo evento u objeto del mundo
real queden unidos entre sí.
 Variante en el tiempo.- Los cambios producidos en los datos a lo largo del tiempo
quedan registrados para que los informes que se puedan generar reflejen esas
variaciones.
 No volátil.- La información no se modifica ni se elimina, una vez almacenado un
dato, éste se convierte en información de sólo lectura, y se mantiene para futuras
consultas.
 Integrado.- La base de datos contiene los datos de todos los sistemas
operacionales de la organización, y dichos datos deben ser consistentes.

Inmon defiende una metodología descendente (top-down) a la hora de diseñar un


almacén de datos, ya que de esta forma se considerarán mejor todos los datos
corporativos. En esta metodología los Data marts se crearán después de haber
terminado el data warehouse completo de la organización.

2. Ralph Kimball es otro conocido autor en el tema de los data warehouse, define un
almacén de datos como: "Es una almacén de datos que extrae, limpia, conforma y
entrega una fuente de datos dimensional para la consulta y el análisis".3 También fue
Kimball quien determinó que un data warehouse no era más que: "la unión de todos
los Data marts de una entidad". Defiende por tanto una metodología ascendente
(bottom-up) a la hora de diseñar un almacén de datos.

FUNCIÓN DE ALMACEN DE DATOS


En un almacén de datos lo que se quiere es contener datos que son necesarios o
útiles para una organización, es decir, que se utiliza como un repositorio de datos para
posteriormente transformarlos en información útil para el usuario. Un almacén de datos
debe entregar la información correcta a la gente indicada en el momento óptimo y en
el formato adecuado. El almacén de datos da respuesta a las necesidades de usuarios
expertos, utilizando Sistemas de Soporte a Decisiones (DSS), Sistemas de
información ejecutiva (EIS) o herramientas para hacer consultas o informes. Los
usuarios finales pueden hacer fácilmente consultas sobre sus almacenes de datos sin
tocar o afectar la operación del sistema.

En el funcionamiento de un almacén de datos son muy importantes las siguientes


ideas:

 Integración de los datos provenientes de bases de datos distribuidas por las


diferentes unidades de la organización y que con frecuencia tendrán diferentes
estructuras (fuentes heterogéneas). Se debe facilitar una descripción global y un
análisis comprensivo de toda la organización en el almacén de datos.
 Separación de los datos usados en operaciones diarias de los datos usados en el
almacén de datos para los propósitos de divulgación, de ayuda en la toma de
decisiones, para el análisis y para operaciones de control. Ambos tipos de datos
no deben coincidir en la misma base de datos, ya que obedecen a objetivos muy
distintos y podrían entorpecerse entre sí.

Periódicamente, se importan datos al almacén de datos de los distintos sistemas de


planeamiento de recursos de la entidad (ERP) y de otros sistemas de software
relacionados con el negocio para la transformación posterior. Es práctica común
normalizar los datos antes de combinarlos en el almacén de datos mediante
herramientas de extracción, transformación y carga (ETL). Estas herramientas leen los
datos primarios (a menudo bases de datos OLTP de un negocio), realizan el proceso
de transformación al almacén de datos (filtración, adaptación, cambios de formato,
etc.) y escriben en el almacén.

SUBCONJUNTOS DE WAREHOUSE:
Los Data marts son subconjuntos de datos de un data warehouse para áreas
específicas.

Entre las características de un data mart destacan:

 Usuarios limitados.
 Área específica.
 Tiene un propósito específico.
 Tiene una función de apoyo.
DISEÑOS DE UN ALMACEN DE DATOS:
Para construir un Data Warehouse se necesitan herramientas para ayudar a la
migración y a la transformación de los datos hacia el almacén. Una vez construido, se
requieren medios para manejar grandes volúmenes de información. Se diseña su
arquitectura dependiendo de la estructura interna de los datos del almacén y
especialmente del tipo de consultas a realizar. Con este criterio los datos deben ser
repartidos entre numerosos data marts. Para abordar un proyecto de data warehouse
es necesario hacer un estudio de algunos temas generales de la organización o
empresa, los cuales se describen a continuación:

 Situación actual de partida - Cualquier solución propuesta de data warehouse


debe estar muy orientada por las necesidades del negocio y debe ser compatible
con la arquitectura técnica existente y planeada de la compañía.

 Tipo y características del negocio - Es indispensable tener el conocimiento exacto


sobre el tipo de negocios de la organización y el soporte que representa la
información dentro de todo su proceso de toma de decisiones.

 Entorno técnico - Se debe incluir tanto el aspecto del hardware (mainframes,


servidores, redes) así como aplicaciones y herramientas. Se dará énfasis a
los Sistemas de soporte a decisiones (DSS), si existen en la actualidad, cómo
operan, etc.

 Expectativas de los usuarios - Un proyecto de data warehouse no es únicamente


un proyecto tecnológico, es una forma de vida de las organizaciones y como tal,
tiene que contar con el apoyo de todos los usuarios y su convencimiento sobre su
bondad.

 Etapas de desarrollo - Con el conocimiento previo, ya se entra en el desarrollo de


un modelo conceptual para la construcción del data warehouse.

 Prototipo - Un prototipo es un esfuerzo designado a simular tanto como sea


posible el producto final que será entregado a los usuarios.

 Piloto - El piloto de un data warehouse es el primero, o cada uno de los primeros


resultados generados de forma iterativa que se harán para llegar a la construcción
del producto final deseado.
 Prueba del concepto tecnológico< - Es un paso opcional que se puede necesitar
para determinar si la arquitectura especificada del data warehouse funcionará
finalmente como se espera.

VENTAJAS:

 Los almacenes de datos hacen más fácil el acceso a una gran variedad de datos a
los usuarios finales
 Facilitan el funcionamiento de las aplicaciones de los sistemas de apoyo a la
decisión tales como informes de tendencia, por ejemplo: obtener los ítems con la
mayoría de las ventas en un área en particular dentro de los últimos dos
años; informes de excepción, informes que muestran los resultados reales frente a
los objetivos planteados a priori.
 Los almacenes de datos pueden trabajar en conjunto y, por lo tanto, aumentar el
valor operacional de las aplicaciones empresariales, en especial la gestión de
relaciones con clientes.

Potrebbero piacerti anche