Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
INTRODUCCIÓN
De acuerdo con lo propuesto para la presente actividad, en el presente documento encontrará un comparativo de las diferentes técnicas de migración de
datos, que además contempla la comparación de herramientas ETCL, de acuerdo con las características más relevantes que ofrecen para la migración de
datos.
Formato .XML:
XML es uno de los mejores formatos para la exportación de la información de un catálogo
bibliográfico. Destaca fundamentalmente por ser completamente adaptable a cualquier esquema
de datos por complejo que pueda resultar. Esto se consigue gracias a que es un lenguaje de
marcas extensible que depende de un Schema o Document Type Description para su verificación.
De esta forma se puede definir por completo las características de cada uno de los campos de
descripción de un catálogo automatizado según las normas o reglas de catalogación establecidas.
Un ejemplo de ello es el formato MARC XML que trata de implantar la Library of Congress, que
permite adaptar sus registros a una serie de items que reflejan todas las etiquetas, campos
numéricos y subcampos correspondientes para la descripción bibliográfica. De esta forma se logra
representar todo el etiquetado MARC y toda la casuística que conlleva atendiendo a una sintaxis y
normas definidas.
Por tanto XML, al establecer etiquetas de inicio y cierre de los contenidos, permite def¡nir de
forma muy sencilla el nombre de los campos, sus atributos y valores. A diferencia de CSV que
obligaba a introducir todos los datos de un registro en una sola línea, XML permite el anidamiento
de los registros favoreciendo la separación de cuantos asientos bibliográficos o registros sean
necesarios, sin límites físicos en los archivos. Por este motivo, resulta más fiable porque reduce
errores y pérdidas de información en las migraciones que se efectuen.
Proceso ETL
ETL - este termino viene de ingles de las siglas Extract-Transform-Load que significan Extraer, Transformar y Cargar y se refiere a los datos en una empresa. ETL es el
proceso que organiza el flujo de los datos entre diferentes sistemas en una organización y aporta los métodos y herramientas necesarias para mover datos desde
múltiples fuentes a un almacén de datos, reformatearlos, limpiarlos y cargarlos en otra base de datos, data mart ó bodega de datos. ETL forma parte de la Inteligencia
Empresarial (Business Intelligence), también llamado “Gestión de los Datos” (Data Management).
La idea es que una aplicación ETL lea los datos primarios de unas bases de datos de sistemas principales, realice transformación, validación, el proceso cualitativo,
filtración y al final escriba datos en el almacén y en este momento los datos son disponibles para analizar por los usuarios.
Los más populares herramientas y aplicaciones ETL del mercado
IBM Websphere DataStage (anteriormente Ascential DataStage y Ardent DataStage)
Pentaho Data Integration (Kettle ETL) - Una herramienta Open Source Business Intelligence
SAS ETL Studio
Oracle Warehouse Builder
Informatica PowerCenter
Cognos Decisionstream
Ab Initio
BusinessObjects Data Integrator (BODI)
Microsoft SQL Server Integration Services (SSIS)
A cualquier empresa u organización le beneficia poner en marcha un proceso ETL para mover y transformar los datos que maneja por los siguientes motivos:
Poder crear una Master Data Management, es decir, un repositorio central estandarizado de todos los datos de la organización. Por ejemplo, si tenemos un
objeto cliente en una base de datos de créditos y otro objeto cliente en la base de datos de tarjetas de crédito, lo que haría el Master sería definir, de forma
concreta e inequívoca, un registro cliente único con su nombre y apellidos para la organización.
Posibilita a los directivos tomar decisiones estratégicas basadas en el análisis de los datos cargados en las bases nuevas y actualizadas: la dama mart o data
warehouse.
Sirve para integrar sistemas. Las organizaciones crecen de forma orgánica y cada vez se van agregando más fuentes de datos. Esto provoca que comience a surgir
nuevas necesidades, como por ejemplo integrar los datos de un banking on line con los datos antiguos de un sistema legacy.
Poder tener una visión global de todos los datos consolidados en una data warehouse. Por ejemplo, crear una estrategia de marketing basándose en el análisis de
los datos anteriores.
Herramienta ETCL Propietario Herramienta ETCL de uso libre Herramienta ETCL del SMBD
INFORMÁTICA POWER CENTER PENTAHO DATA INTEGRATION MICROSOFT SQL SERVER INTERGRATION SERVICES
Este producto es posiblemente el producto de PDI es una herramienta ETL de código abierto Tiene un costo menor que otras herramientas ETL
ETL más maduro del mercado. Es parte de una gran ampliamente conocida por su interfaz gráfica Spoon. empresariales y es bastante intuitiva y fácil de
cartera de productos, incluida como plataforma PDI exporta los proceos en archivos XML y estos son usar. Sin embargo, está limitada a implementaciones
de Informática. Informática es menos maduro que ejecutados a través de su motor ETL bajo el sistema operativo de Windows
otros productos para fuentes semiestructuradas y no
estructuradas