Sei sulla pagina 1di 11

UNIVERSIDAD NACIONAL DE SAN AGUSTÍN

FACULTAD DE INGENIERÍA DE PRODUCCIÓN Y SERVICIOS


ESCUELA PROFESIONAL DE INGENIERÍA INDUSTRIAL

CURSO:
Tecnologias de Bases de Datos

TEMA:
Data Warehouse

DOCENTE:
Ing. Hernan Marquina

SECCIÓN:
A

TRABAJO PRESENTADO POR:


- Collado Rodriguez Mike David

AREQUIPA – PERÚ
2018
1. QUE ES DATA WAREHOUSE

Un Data Warehouse es un repositorio unificado para todos los datos que recogen los
diversos sistemas de una empresa. El repositorio puede ser físico o lógico y hace hincapié
en la captura de datos de diversas fuentes sobre todo para fines analíticos y de acceso.

Normalmente, un Data Warehouse se aloja en un servidor corporativo o cada vez más, en


la nube. Los datos de diferentes aplicaciones de procesamiento de transacciones Online
(OLTP) y otras fuentes se extraen selectivamente para su uso por aplicaciones analíticas y
de consultas por usuarios.

Data Warehouse es una arquitectura de almacenamiento de datos que permite a los


ejecutivos de negocios organizar, comprender y utilizar sus datos para tomar decisiones
estratégicas. Un Data Warehouse es una arquitectura conocida ya en muchas empresas
modernas.

Entre los elementos que componen el almacén de datos, y cuya comprensión permite
conocer qué es warehouse, se encuentran los siguientes:

 Servicios de acceso a datos: a diferencia de los almacenes de información


tradicionales, en los actuales es preciso disponer de capacidades de servicios de
acceso a los datos ampliadas. Sólo de esta forma es posible garantizar el acceso a
fuentes NoSQL, la conmutación flexible entre métodos de acceso a datos, la
transformación de datos no estructurados o la adaptación a fuentes en la nube. ,
acceso a fuentes NoSQL y posibilidades de calidad y transformación para
geocodificación y datos no estructurados. Todas estas diferentes tecnologías deben
ser gestionadas y supervisadas por el almacén de datos lógico. Es importante que las
soluciones de Data Warehouse ofrezcan un alto grado de flexibilidad en este área.

 Preparación de datos: este componente se ocupa de llevar a cabo las comprobaciones


y reparaciones de los datos. Gracias a su intervención se puede garantizar la
confiabilidad de la fuente (linaje de datos), así como que se cumplen las condiciones
mínimas de completitud, integridad y otros atributos de la calidad del dato. La
preparación de datos es importante especialmente para el trabajo con datos no
estructurados, aunque, precisamente son éstos los que requieren de la participación
de especialistas en el proceso, apoyados por las herramientas adecuadas.

 Modelado: en un entorno de almacén de datos moderno, las necesidades de


modelado están muy relacionadas con la capacidad para hacer frente a diferentes
semánticas de datos de procedencias diversas. Entender qué es warehouse es asumir
que el enfoque de modelado no debe ser único, sino adaptable a los procesos de
negocio y las necesidades de la organización.

 Metadatos: los datos sobre los datos ganan en importancia en los nuevos almacenes
puesto que es necesario que éstos puedan asimilar los cambios en la forma en que los
datos están representados. Los metadatos hacen posible que contexto y naturaleza se
descubran independientemente de su representación real.
El almacén de datos diversificado de hoy en día tiene que estar preparado para poder
cubrir las necesidades usuarias, ya se trate de demandas relacionadas con información on
premise, ya se trate de big data o del cloud.

2. ARQUITECTURA DE UN DATA WAREHOUSE

Capas de toda arquitectura de un Data Warehouse

 Capa de fuentes de datos: Esta representa las diferentes fuentes de datos que
alimentan los datos del Data Warehouse. La fuente de datos puede estar en cualquier
formato: archivo de texto plano, base de datos relacional, otros tipos de base de
datos, archivo Excel, etc. Todos estos pueden actuar como fuente de datos. Además,
los tipos de datos pueden ser muy variados:

 Datos de operaciones, como datos de ventas, datos de recursos


humanos, datos de productos, datos de inventario, datos de marketing
y datos de sistemas.

 Logs de un servidor web, con datos de navegación de los usuarios.

 Datos internos de investigación de mercado.

 Datos de terceros, como datos del censo, datos demográficos o datos


de encuestas.

 Capa de extracción de datos: Los datos se extraen de las fuentes de datos y se llevan
al sistema dataw arehouse. Es probable que en esta capa se limpien algunos datos
mínimos, pero no es previsible que haya una transformación de datos importante.

 Área de pruebas: Aquí es donde los datos son depurados y transformados en un data
mart y Data Warehouse. Tener un área común facilita el proceso y la integración
posterior de los datos.

 Capa ETL: Aquí es donde los datos obtienen su inteligencia ya que se aplica la lógica
para transformar los datos de una naturaleza transaccional a una naturaleza analítica.
En esta capa es también donde se limpian los datos. La fase de diseño ETL es
frecuentemente la fase que más se demora en un proyecto de data ware house y
habitualmente se utiliza una herramienta ETL en esta capa.

 Capa de almacenamiento de datos: Aquí es dónde se colocan los datos transformados


y limpios. Basándose en el alcance y la funcionalidad se pueden encontrar tres tipos de
entidades: Data Warehouse, data mart y almacén de datos operacional (ODS). En
cualquier sistema puedes encontrar sólo uno de los 3, 2 de los 3, o los tres tipos
juntos.

 Capa lógica de datos: Aquí es donde se almacenan las reglas de negocio. Estas reglas
de negocio no afectan a las reglas de transformación de datos, pero afectan a lo que
luego puedes ver en los informes.
 Capa de presentación de datos: Se refiere a la información que llega a los usuarios.
Esto puede ser en forma de un informe tabular o gráfico a través de un navegador, un
informe enviado por email que se genera automáticamente y se envia a diario, una
alerta que advierte a los usuarios acerca de excepciones, etc. Usualmente en esta capa
se utiliza una herramienta OLAP y una herramienta de generación de informes.

 Capa de metadatos: Aquí es donde la información sobre los datos almacenados en el


Data Warehouse es almacenada. Un modelo de datos lógico sería un ejemplo de algo
que está en esta capa de metadatos. Frecuentemente se utiliza una herramienta de
metadatos para administrar los metadatos.

 Capa de operaciones del sistema: esta capa incluye información sobre cómo está
funcionando el sistema de Data Warehouse, cuál es el estado de trabajo ETL, cuál es el
rendimiento del sistema y el historial de acceso de los usuarios.

Propiedades de la arquitectura de un Data Warehouse

Las siguientes propiedades son esenciales para la arquitectura de un Data Warehouse :

 Separación: el proceso analítico y transaccional deben mantenerse separados


tanto como sea posible.
 Escalabilidad: la arquitectura de un Data Warehouse, tanto de hardware como de
software, debe ser fácil de actualizar a medida que crece el volumen de datos que
debe ser gestionado y procesado, así como el número de requisitos de los
usuarios que tienen que ser satisfechos.
 Extensibilidad: la arquitectura debería ser capaz de alojar nuevas aplicaciones y
tecnologías sin necesidad de revisar todo el sistema.
 Seguridad: monitorizar los accesos es esencial debido a los datos estratégicos
que hay almacenados en el Data Warehouse.
 Administrabilidad: la gestión del Data Warehouse no debería ser excesivamente
difícil.

3. VENTAJAS Y DESVENTAJAS DEL DATA WAREHOUSE

VENTAJAS DEL DATA WAREHOUSE


La implementación exitosa de un almacén de datos puede traer mayores beneficios a una
organización, incluyendo:

 Posibles altos rendimientos de la inversión:


La implementación del almacenamiento de datos por parte de una organización
requiere una gran inversión. Sin embargo, un estudio realizado por la International
Data Corporation (IDC) en 1996 informó que el rendimiento promedio de la inversión
a tres años (RO I) en el almacenamiento de datos llegó al 401%.
 Ventaja competitiva:
El gran rendimiento de la inversión para aquellas empresas que han implementado
con éxito un almacén de datos es una prueba de la enorme ventaja competitiva que
acompaña a esta tecnología. La ventaja competitiva se obtiene al permitir que los
responsables de la toma de decisiones accedan a datos que pueden revelar
información previamente no disponible, desconocida y no explorada sobre, por
ejemplo, clientes, tendencias y demandas.

 Aumento de la productividad de los responsables de la toma de decisiones


corporativas:
El almacenamiento de datos mejora la productividad de los responsables de la toma
de decisiones corporativas al crear una base de datos integrada de datos históricos
consistentes y orientados a temas. Integra datos de múltiples sistemas incompatibles
en una forma que proporciona una vista coherente de la organización.

Al transformar los datos en información significativa, un almacén de datos permite a


los gerentes de negocios realizar análisis más sustantivos, precisos y consistentes.

 Toma de decisiones más rentable:


El almacenamiento de datos ayuda a reducir el costo total del producto · reduciendo
la cantidad de canales.

 Mejor inteligencia empresarial:


Ayuda a proporcionar una mejor inteligencia empresarial.

 Servicio al cliente mejorado.

DESVENTAJAS DE DATA WAREHOUSE


Los problemas asociados con el desarrollo y la administración de un almacenamiento de
datos son los siguientes:

 Subestimación de recursos de carga de datos:


Algunas veces subestimamos el tiempo requerido para extraer, limpiar y cargar los
datos en el almacén. Puede tomar la proporción significativa del tiempo de desarrollo
total, aunque existen algunas herramientas que se utilizan para reducir el tiempo y el
esfuerzo dedicado a este proceso.

 Problemas ocultos con los sistemas fuente:


Algunas veces, los problemas ocultos asociados con los sistemas fuente que alimentan
el depósito de datos pueden identificarse después de años de no haber sido
detectados. Por ejemplo, al ingresar los detalles de una nueva propiedad, ciertos
campos pueden permitir nulos que pueden hacer que el personal ingrese datos de
propiedad incompletos, incluso cuando estén disponibles y sean aplicables.

 Datos requeridos no capturados:


En algunos casos, los sistemas fuente no capturan los datos requeridos, lo que puede
ser muy importante para el propósito del depósito de datos. Por ejemplo, la fecha de
registro de la propiedad no se puede usar en el sistema fuente, pero puede ser un
propósito de análisis muy importante.

 Mayores demandas del usuario final:


Después de satisfacer algunas de las consultas de los usuarios finales, las solicitudes
de asistencia del personal pueden aumentar en lugar de disminuir.

Esto se debe a una mayor conciencia de los usuarios sobre las capacidades y el valor
del almacén de datos. Otra razón para aumentar las demandas es que una vez que un
almacén de datos está en línea, a menudo el número de usuarios y las consultas
aumentan junto con las solicitudes de respuestas a consultas cada vez más complejas.

 Homogeneización de datos:
El concepto de depósito de datos se ocupa de la similitud de formatos de datos entre
diferentes fuentes de datos. Por lo tanto, da como resultado perder algún valor
importante de los datos.

 Alta demanda de recursos:


El almacén de datos requiere grandes cantidades de datos.

 Propiedad de los datos:


El almacenamiento de datos puede cambiar la actitud de los usuarios finales sobre la
propiedad de los datos. Los datos confidenciales que son propiedad de un
departamento deben cargarse en el depósito de datos para fines de toma de
decisiones. Pero, en algún momento, esto resulta en renuencia de ese departamento
porque puede dudar en compartirlo con otros.

 Alto mantenimiento:
Los almacenes de datos son sistemas de alto mantenimiento. Cualquier
reorganización de los procesos de negocios y los sistemas de origen puede afectar el
almacén de datos y resulta en un alto costo de mantenimiento.

 Proyectos de larga duración:


La construcción de un almacén puede llevar hasta tres años, por lo que algunas
organizaciones son reacias a investigar en el depósito de datos. Algunos solo los datos
históricos de un departamento en particular se capturan en los almacenes de datos
resultantes del almacén de datos. Data Mart solo admite los requisitos de un
departamento en particular y limita la funcionalidad solo a ese departamento o área.

 Complejidad de la integración:
El área más importante para la gestión de un almacén de datos es la capacidad de
integración. Una organización debe dedicar una gran cantidad de tiempo a
determinar qué tan bien se pueden integrar las diferentes herramientas de
almacenamiento de datos en la solución general que se necesita.

4. APLICACIONES DEL DATA WAREHOUSE

Data Warehouse y Sistemas de Marketing:


La aplicación de tecnologías de Data Warehouse supone un nuevo enfoque de Marketing,
haciendo uso del Marketing de Base de Datos. En efecto, un sistema de Marketing
Warehouse implica un marketing científico, analítico y experto, basado en el
conocimiento exhaustivo de clientes, productos, canales y mercado.

Este conocimiento se deriva de la disposición de toda la información necesaria, tanto


interna como externa, en un entorno de Data Warehouse, persiguiendo con toda esta
información, la optimización de las variables controladas del Marketing Mix y el soporte a
la predicción de las variables no controlables (mediante técnicas de Data Mining).
Basándose en el conocimiento exhaustivo de los clientes se consigue un tratamiento
personalizado de los mismos tanto en el día a día (atención comercial) como en acciones
de promoción específicas.

Las áreas en las que se puede aplicar las tecnologías de Data Warehouse a Marketing son,
entre otras:

- Investigación Comercial
- Segmentación de mercados
- Identificación de necesidades no cubiertas y generación de nuevos productos,
o modificación de productos existentes
- Fijación de precios y descuentos
- Definición de la estrategia de canales de comercialización y distribución
- Definición de la estrategia de promoción y atención al cliente
- Relación con el cliente:
- Programación, realización y seguimiento de acciones comerciales
- Lanzamiento de nuevos productos
- Campañas de venta cruzada, vinculación, fidelización, etc.
- Apoyo al canal de venta con información cualificada

Data Warehouse y Análisis de Riesgo Financiero


El Data Warehouse aplicado al análisis de riesgos financieros ofrece capacidades
avanzadas de desarrollo de aplicaciones para dar soporte a las diversas actividades de
gestión de riesgos. Es posible desarrollar cualquier herramienta utilizando las funciones
que incorpora la plataforma, gracias a la potencialidad estadística aplicada al riesgo de
crédito.

Así se puede usar para llevar a cabo las siguientes funcionalidades:


- Para la gestión de la posición:
Determinación de la posición, Cálculo de sensibilidades, Análisis what/if,
Simulaciones, Monitorización riesgos contra límites, etc.

- Para la medición del riesgo:


Soporte metodología RiskMetrics (Metodología registrada de J.P. Morgan /
Reuters), Simulación de escenarios históricos, Modelos de covarianzas,
Simulación de Montecarlo, Modelos de valoración, Calibración modelos
valoración, Análisis de rentabilidad, Establecimiento y seguimiento. de límites,
Desarrollo/modificación modelos, Stress testing, etc.

El uso del Data Warehouse ofrece una gran flexibilidad para creación o modificación de
modelos propios de valoración y medición de riesgos, tanto motivados por cambios en la
regulación, como en avances en la modelización de estos instrumentos financieros.

Ello por cuanto se puede almacenar y poner a disposición información histórica de


mercado y el uso de técnicas de Data Mining nos simplifica la implantación de cualquier
método estadístico. Los métodos de previsión, se pueden realizar usando series históricas,
(GARCH, ARIMA, etc.)

Pero la explotación de la información nos permite no solo la exploración de los datos para
un conocimiento de la información histórica, sino también para examinar condiciones de
normalidad de las que la mayoría de las metodologías de valoración del riesgo parten.

Además de implantar modelos ya existentes, se pueden acometer análisis con vistas a


determinar modelos propios, basados en análisis de correlación para el estudio de la
valoración del riesgo de carteras o procesos de simulación de Montecarlo.

Todo ello en una plataforma avanzada de gestión de la información basada en la fácil


visualización de la misma y de su análisis estadístico como soporte a metodologías
estándar de facto, o a las particularidades de cada entorno.

Data Warehouse y Análisis de Riesgo de Crédito


La información relativa a clientes y su entorno se ha convertido en fuente de prevención
de Riesgos de Crédito. En efecto, existe una tendencia general en todos los sectores a
recoger, almacenar y analizar información crediticia como soporte a la toma de decisiones
de Análisis de Riesgos de Crédito.

Los avances en la tecnología de Data Warehouse hacen posible la optimización de los


sistemas de Análisis de Riesgo de Crédito:

Para la gestión del riesgo de crédito los sistemas operacionales han ofrecido:

- Sistemas de Información para Gerencia (MIS) e informes de Soporte a la


Decisión de Problemas (DSS) estáticos y no abiertos a nuevas relaciones y
orígenes de datos, situación en la que la incorporación de nuevas fuentes de
información ha sido un problema en lugar de una ventaja.
- Exploraciones de datos e informes cerrados y estáticos.
- Análisis sin inclusión de consideraciones temporales lo que imposibilita el
análisis del pasado y la previsión del futuro.
- Herramientas de credit-scoring no flexibles, construidas sobre algoritmos
difícilmente modificables, no adaptados al entorno de la empresa, o
exclusivamente basados en la experiencia personal no contrastada, con lo que
los sistemas han ayudado a repetir los errores en vez de a corregirlos.
-
Pero estos sistemas tradicionales se enfrentan a una problemática difícil de resolver para
acomodarse a las necesidades analíticas de los Sistemas de Análisis del Riesgo,
necesidades que se pueden cubrir mediante el uso de tecnologías de Data Warehouse

Dentro de la Prevención de Impagados, utilizando sistemas OLAP se puede obtener el


grado interno de concentración de riesgos con el cliente, y almacenar la variedad de
fuentes internas o externas de información disponibles sobre el mismo. Ello nos permite
obtener sin dificultad la posición consolidada respecto al riesgo del cliente. El análisis se
puede realizar asimismo por las diferentes características de la operación para la que se
realiza el análisis, en cuanto al plazo y la cuantía de la misma, la modalidad de crédito
elegida, la finalidad de la operación o las garantías asociadas a la misma. Usando las
mismas capacidades es fácil el establecer una segmentación ABC de la cartera de clientes
potenciales o reales que nos optimicen el nivel de esfuerzo en el Análisis de Riesgos.

En el soporte al proceso de Anticipación al Riesgo, se puede dar un adecuado soporte a la


correcta generación y consideración de señales de alerta, teniendo en cuenta las pautas y
condicionantes diferenciados dependiendo del tipo de cliente y producto usando Data
Mining

Para el caso del Seguimiento del ciclo de Impagados, de nuevo el uso de sistemas OLAP,
simplifican el análisis la diversidad de los diferentes parámetros que intervienen en el
mismo, tales como la jerarquía de centros de recobro a contemplar, la diferente
consideración dependiendo de la antigüedad del impago, del cliente o del importe
impagado. Un sistema de Data Mining puede aconsejar la mejor acción en caso de
impagados, litigio, precontencioso, etc. frente a los parámetros de importe, antigüedad,
zona geográfica, etc.

Estos sistemas hacen que el analista se dedique con más intensidad al análisis de la
información, que es donde aporta su mayor valor añadido, que a la obtención de la
misma. No obstante, estos sistemas deben de huir de las automatizaciones completas sin
intervención del analista: es él el que mejor sabe lo que quiere descubrir.

5. SOFTWARE DEL DATA WAREHOUSE


Software Ab Initio

Desarrollado por Ab Initio Software, los productos producidos por esta compañía están
destinados a ayudar a las empresas a realizar funciones relacionadas con análisis de datos
de cuarta generación, procesamiento por lotes, manipulación de datos y software de
procesamiento paralelo basado en la interfaz gráfica de usuario (GUI).

(El software basado en GUI se usa comúnmente para extraer, transformar y cargar datos.)

Ab Initio Software es una compañía que se especializa en producir aplicaciones de


procesamiento de datos de gran volumen y se fundó hace más de 20 años, lo que les
otorga una experiencia considerable en este campo.

Algunos de los productos fabricados por la compañía incluyen el entorno de desarrollo


gráfico, el sistema de cooperación, Enterprise Meta, entre otros. Además, la compañía
también presentó una versión limitada de funciones gratuitas conocida como Elementum
en 2010, aunque solo estaba disponible para clientes que tienen una licencia comercial de
la compañía.

Redshift Amazon

Otro producto de almacenamiento de datos alojado, Amazon Redshift es parte de


Amazon Web Services, que básicamente es una gran plataforma de computación en la
nube. Construido sobre la tecnología del procesamiento paralelo masivo, Redshift es
diferente de otras bases de datos ofrecidas por Amazon.

Esto se debe a que Amazon Redshift puede manejar cargas de trabajo analíticas de
grandes cantidades. Para manejar datos tan enormes, la empresa utiliza el procesamiento
paralelo masivo.

Algunos de los socios de Amazon Redshift que proporcionan herramientas de integración


de datos incluyen Alooma, Attunity, FlyData, Informatics, SnapLogic, Talend y Xplenty.

AnalytiX DS

Un proveedor de software, AnalytiX DS proporciona mapeo de datos especializados y


herramientas para integración de datos, gestión de datos, integración de aplicaciones
empresariales y software y servicios de big data.

Con su oficina principal en Virginia, la compañía tiene oficinas en Asia y América del Norte
con un equipo internacional de socios de servicio y asistentes técnicos. El fundador de
AnalytixX DS, Mike Boggs, fue el responsable de acuñar el término mapeo pre-ETL.

Además, la compañía lanzó AnalytiX Mapping Manager, una herramienta de primer nivel
que es capaz de automatizar el origen de pre_ETL en el proceso de asignación de
objetivos.

DBSHard

DbShards es una plataforma NewSQL basada en el intercambio de bases de datos.


Lo que lo distingue de otros productos SQL es el hecho de que dbShards ha sido diseñado
para proporcionar escalabilidad a las empresas y se puede utilizar con plataformas de
bases de datos tradicionales como MySQL y PostgreSQL. Esto significa que las empresas
no tendrán que reemplazar su motor de base de datos existente, pero se pueden usar
dbShards junto con ellas.

Teradata

Tiene dos divisiones, a saber, análisis de datos y aplicaciones de marketing que se ocupan
de las plataformas de análisis de datos y del software de marketing, respectivamente. Al
proporcionar un sistema de procesamiento paralelo, Teradata permite a las empresas
recuperar y analizar datos de una manera simple y efectiva.

Una de las características más importantes de esta aplicación de almacenamiento de


datos es que segrega los datos en caliente y frío, donde los datos fríos no se utilizan con
frecuencia. Además, Teradata se considera una de las aplicaciones de depósito de base de
datos más populares.

Scriptella

Una herramienta de ejecución de script y ETL de código abierto, Scriptella está escrita en
Java. Permite el uso de SQL u otro lenguaje de scripting para la fuente de datos. Sin
embargo, no ofrece ninguna interfaz gráfica de usuario.

Además, Scriptella se utiliza para la migración de bases de datos, scripts de creación /


actualización de bases de datos, operaciones ETL entre bases de datos, importación /
exportación, entre otras funciones.