Sei sulla pagina 1di 7

EVIDENCIA AA5-1 PARA LA ACTIVIDAD AA5-1 CONCEPTUALIZACIÓN SOBRE TÉCNICAS DE MIGRACIÓN Y HERRAMIENTAS ETCL

ESPECIALIZACION TECNOLÓGICA EN GESTION Y SEGURIDAD DE BASES DE DATOS


RODRIGO BURITICA PAREDES CC94472151
SERVICIO NACIONAL DE APRENDIZAJE – SENA
SEPTIEMBRE DE 2019

INTRODUCCIÓN

De acuerdo con lo propuesto para la presente actividad, en el presente documento encontrará un comparativo de las diferentes técnicas de migración de
datos, que además contempla la comparación de herramientas ETCL, de acuerdo con las características más relevantes que ofrecen para la migración de
datos.

TÉCNICAS DE MIGRACIÓN CARACTERISTICAS HERRAMIENTAS SOFTWARE


Sincronización de Bases de Beneficios: SQL Server:
datos Actualmente existen en la red multitud de aplicaciones y de sistemas que tienen por debajo una El SMBD Microsoft SQL Server
(https://blog.powerdata.es/el- base de datos que sigue el modelo cliente-servidor. Muchas veces esos sistemas deben de tener proporciona los siguientes tipos
valor-de-la-gestion-de- garantizada la accesibilidad por lo que para evitar problemas es necesario utilizar este tipo de de replicación:
datos/beneficios-de-la- técnicas de replicación de base de datos de forma que un fallo en uno de los servidores de base - Transaccional
replicacion-de-base-de-datos) de datos no impida a los usuarios seguir utilizando la aplicación. - De Mezcla
- De instantáneas
Una replicación de base de Desventajas: - Punto a punto
datos es una técnica mediante Elevados requerimientos de recursos. - Bidireccional
la cual copiamos de forma - Suscripciones
exacta en otra ubicación una Tipos de Sincronización: actualizables
instancia de la base de datos. Por lo general, cada tipo de
Se utiliza en entornos - Replicación de instantáneas: En la replicación de instantáneas los datos se copian tal y replicación comienza con una
distribuidos de Sistemas de como aparecen exactamente en un momento determinado. Por consiguiente, no sincronización inicial de los
Gestión de Bases de Datos requiere un control continuo de los cambios. Las publicaciones de instantáneas se objetos publicados entre el
donde una sola base de datos suelen replicar con menos frecuencia que otros tipos de publicaciones. Puede llevar publicador y los
tiene que ser utilizada y más tiempo propagar las modificaciones de datos a los suscriptores. Se recomienda suscriptores. Esta
actualizada en varios lugares utilizar: cuando la mayoría de los datos no cambian con frecuencia; se replican sincronización inicial puede
de forma simultánea pequeñas cantidades de datos; los sitios con frecuencia están desconectados y es llevarse a cabo mediante la
aceptable un periodo de latencia largo (la cantidad de tiempo que transcurre entre la replicación con
actualización de los datos en un sitio y en otro). En ocasiones se hace necesario utilizarla una instantánea, que es una
cuando están involucrados algunos tipos de datos (text, ntext, e image) cuyas copia de todos los objetos y
modificaciones no se registran en el registro de transacciones y por tanto no se pueden datos especificados por una
replicar utilizando la metodología de replicación transaccional. publicación. Una vez creada la
instantánea, se envía a los
- Replicación transaccional: En este caso se propaga una instantánea inicial de datos a los suscriptores. Para algunas
suscriptores, y después, cuando se efectúan las modificaciones en el publicador, las aplicaciones, la replicación de
transacciones individuales se propagan a los suscriptores. SQL Server 2000 almacena las instantáneas es lo único que se
transacciones que afectan a los objetos replicados y propaga esos cambios a los necesita. Para otros tipos de
suscriptores de forma continua o a intervalos programados. Al finalizar la propagación aplicaciones, es importante que
de los cambios, todos los suscriptores tendrán los mismos valores que el publicador. los cambios de datos
Suele utilizarse cuando: se desea que las modificaciones de datos se propaguen a los posteriores fluyan al suscriptor
suscriptores, normalmente pocos segundos después de producirse; se necesita que las de forma incremental a lo largo
transacciones sean atómicas, que se apliquen todas o ninguna al suscriptor; los del tiempo. Algunas
suscriptores se conectan en su mayoría al publicador; su aplicación no puede permitir aplicaciones también requieren
un periodo de latencia largo para los suscriptores que reciban cambios. que los cambios vuelvan del
- De mezcla: Permite que varios sitios funcionen en línea o desconectados de manera suscriptor al publicador. La
autónoma, y mezclar más adelante las modificaciones de datos realizadas en un replicación transaccional y la
resultado único y uniforme. La instantánea inicial se aplica a los suscriptores; a replicación de mezcla
continuación SQL Server 2000 hace un seguimiento de los cambios realizados en los proporcionan opciones para
datos publicados en el publicador y en los suscriptores. Los datos se sincronizan entre estos tipos de aplicaciones.
los servidores a una hora programada o a petición. Las actualizaciones se realizan de (https://docs.microsoft.com/es-
manera independiente, sin protocolo de confirmación, en más de un servidor, así el es/sql/relational-
publicador o más de un suscriptor pueden haber actualizado los mismos datos. Por lo databases/replication/types-of-
tanto, pueden producirse conflictos al mezclar las modificaciones de datos. Cuando se replication?view=sql-server-
produce un conflicto, el Agente de mezcla invoca una resolución para determinar qué 2017)
datos se aceptarán y se propagarán a otros sitios. Es útil cuando: varios suscriptores
necesitan actualizar datos en diferentes ocasiones y propagar los cambios al publicador
y a otros suscriptores; los suscriptores necesitan recibir datos, realizar cambios sin
conexión y sincronizar más adelante los cambios con el publicador y otros suscriptores;
el requisito de periodo de latencia de la aplicación es largo o corto; la autonomía del
sitio es un factor crucial.
-
Importación/Exportación de Beneficios: SQL Server:
archivos CSV o XML a través Es un método utilizado para procesos rápidos de migración
de comands de consola o Al importar masivamente datos
interfaz gráfica Desventajas: en una tabla de SQL Server o
Gran probabilidad de que se presenten errores debido a una mala delimitación de los datos. exportar masivamente datos de
Para estas actividades es una tabla, puede usar
común utilizar los archivos de Formatos de Migración más Comunes un archivo de formato para
movimientos de datos, en los (http://ccdoc-automatizacion.blogspot.com/2014/03/la-migracion-de-datos-exportacion-e.html) almacenar toda la información
cuales se pueden utilizar de formato necesaria para
diferentes tipos de archivos, exportar o importar datos
pero algunos de los formatos masivamente. Esto incluye la
más comunes son archivos de  Formato .CSV: información de formato para
texto o lo que comúnmente CSV son las siglas de Comma-separated values, y se considera uno de los formatos de exportación cada campo de un archivo de
llamamos archivos planos más sencillos que se hayan diseñado nunca. CSV permite representar todos los datos en forma de datos relativo a la tabla.
estos archivos son los que tabla, de forma que se adapta por completo a toda la casuística de tipologías de bases de datos y SQL Server 2017 admite dos
guardan los datos sin ningún especificaciones de cada campo, con independencia de su naturaleza, ya sea numérico, fecha, tipos de archivos de formato:
formato usando solo texto, etc. formatos XML y archivos de
caracteres. Estos archivos son Se caracteriza por utilizar unos caracteres separadores para diferenciar las columnas de la tabla. formato no XML. Tanto los
delimitados por comas por Dichos separadores son siempre las comas ",". De esta forma el salto de línea representa una fila archivos con formato XML
puntos y comas o se delimitan de datos nueva, diferente a la anterior. Otra de las reglas de construcción de un archivo CSV es la como los archivos no XML
para los campos y así poder disposición de comillas dobles para separar columnas, siempre que en el valor textual de cada contienen descripciones de
definir las filas y las columnas, campo se incluyan comas "," como parte del contenido. todos los campos de un archivo
como también se puede elegir El formato CSV no requiere de un set de caracteres concretos, por lo que tiene una gran de datos, y los archivos de
el ancho para los campos, los interoperabilidad en diferentes aplicaciones. formato XML también
cuales utilizaremos para De cara a la importación y exportación de catálogos bibliográficos es muy adecuado, siempre que contienen descripciones de las
delimitar las filas y las se definan correctamente las etiquetas catalográficas de cada columna de forma adecuada y se columnas de tabla
columnas. generen todos los campos necesarios. Por lo que requiere de una exhaustividad descriptiva correspondientes. Por lo
importante para reflejar todos los campos que el estándar ISO2709 establece. general, los archivos de
Referencias sobre CSV formato XML y no XML son
Norma RFC 4180 Comma Separated Values intercambiables. Sin embargo,
Creativyst. Desarrollo de archivos CSV es recomendable utilizar la
sintaxis XML para los nuevos
 Formato .TAB: archivos de formato porque
El fichero TAB, toma su nombre de Tabulación. Al igual que CSV es un formato de texto, pero proporciona varias ventajas con
difiere en la forma de delimitar los campos de datos, ya que utiliza las tabulaciones o espacios relación a los archivos de
para separar cada columna de datos. Por otro lado al igual que CSV, cada salto de línea formato no XML.
corresponde a una fila o registro nuevo de la tabla que se trata de exportar. Estas características
hacen que .TAB no sea un formato adecuado de exportación al menos en lo que al catálogo se
refiere, ya que se generan excesivos caracteres en blanco para poder hacer coincidir en cada
columna la información correspondiente a un campo.
De hecho es un formato de exportación utilizado fundamentalmente para pequeñas migraciones
de datos y para tablas de menores dimensiones que no revistan de una complejidad o extensión
excesivas. En esos casos y en aquellos en los que los valores de cada campo no son excesivamente
largos, el formato .TAB sigue utilizándose frecuentemente, aunque en claro detrimento en favor
de CSV.

 Formato .XML:
XML es uno de los mejores formatos para la exportación de la información de un catálogo
bibliográfico. Destaca fundamentalmente por ser completamente adaptable a cualquier esquema
de datos por complejo que pueda resultar. Esto se consigue gracias a que es un lenguaje de
marcas extensible que depende de un Schema o Document Type Description para su verificación.
De esta forma se puede definir por completo las características de cada uno de los campos de
descripción de un catálogo automatizado según las normas o reglas de catalogación establecidas.
Un ejemplo de ello es el formato MARC XML que trata de implantar la Library of Congress, que
permite adaptar sus registros a una serie de items que reflejan todas las etiquetas, campos
numéricos y subcampos correspondientes para la descripción bibliográfica. De esta forma se logra
representar todo el etiquetado MARC y toda la casuística que conlleva atendiendo a una sintaxis y
normas definidas.
Por tanto XML, al establecer etiquetas de inicio y cierre de los contenidos, permite def¡nir de
forma muy sencilla el nombre de los campos, sus atributos y valores. A diferencia de CSV que
obligaba a introducir todos los datos de un registro en una sola línea, XML permite el anidamiento
de los registros favoreciendo la separación de cuantos asientos bibliográficos o registros sean
necesarios, sin límites físicos en los archivos. Por este motivo, resulta más fiable porque reduce
errores y pérdidas de información en las migraciones que se efectuen.

 Formato ISO 2709 Unimarc:


Se considera un formato de exportación fundamental, necesario en cualquier sistema de gestión
de bibliotecas. De hecho su norma internacional lo titula como "Format for Bibliographic
Information Interchange" Formato para el Intercambio de Información Bibliográfica. Fue diseñado
a partir de la década de los 60 y desde entonces ha sufrido múltiples revisiones, hasta llegar a la
actual ISO 2709:1996.
Cada registro en formato ISO2709 se caracteriza por tener cuatro apartados principales, a saber:
Rótulo de la Etiqueta: Son los primeros 24 caracteres del registro. Siendo la única porción del
formato que se traslada formateada en su extensión original. Además incluye la extensión y
dirección base de los datos contenidos en el registro.
Directorio: El segmento de directorio, permite establecer las posiciones de entrada en el registro,
mediante las etiquetas de campo. A su vez, cada entrada de directorio tiene cuatro subcampos
que no pueden exceder de una extensión de 9 caracteres.
Etiqueta de Campo.
Extensión del Campo.
Caracter de Inicio del Campo.
Definición de Parte.
Campos de Datos: Son los elementos contenedores de toda la información bibliográfica.
Separador de Registro: Un caracter sencillo de separación para cada registro.
En relación a los campos del formato ISO2709, existen tres tipos fundamentales:
Identificador de Campo en el Registro: Es el campo que identifican el registro, siendo asignado
por el centro o institución catalogadora que ha elaborado la catalogación del documento. Se
identifica por la etiqueta 001.
Campos Reservados: Contiene información que puede ser necesitada para el procesamiento de la
información bibliográfica recogida en campos especializados. Se identifican por estar
representados mediante etiquetas que varían desde 002-009 y 00A-ZZZ.
Campos Bibliográficos: Son campos específicos para la descripción de los documentos y que
constan de rangos 010-999 y 0AA-ZZZ. Los campos de descripción bibliográfica tienen separadores
especificos, determinados a su vez por la norma ISO 646, es decir por la American Standard Code
for Information Interchage o ASCII. Además cada campo, puede disponer a su vez de subcampos
que corresponden o equivalen a las marcas de los dólares en formatos MARC, que están limitados
a un espectro comprendido entre 0 y 9.

Sentencias lenguaje de Scripts generados por sentencias DML SQL Server:


manipulación de datos (DML)
Los scripts que se generan en esta sentencia se realizarían de la siguiente manera: El lenguaje de manipulación de
Estas sentencias son utilizadas datos (DML) es un vocabulario
para gestionar datos dentro usado para recuperar y trabajar
de schemas. Una posibilidad Copia de Seguridad: en esta encontramos la copia de seguridad de los usuarios que se con datos en SQL Server 2017 y
de los sistemas gestores de encuentren, los inicios de sesión, los grupos y todos los permisos que se hayan generado en SQL Database. La mayoría
datos es la utilización de esta funciona también en SQL Data
sentencia para generar los Creación o actualización de Datos: aquí se crea o se actualiza el código según sea necesario para Warehouse y PDW (revise cada
respectivos scripts SQL que la implementación de una base de datos. instrucción individual para más
permiten realizar las información). Use estas
migraciones existentes. Creación de entorno de pruebas: En esta parte se hace las pruebas de fallo y error para que en el instrucciones para agregar,
momento de la migración definitiva no se presente ningún fallo y funcione bien la base de datos. modificar, consultar o quitar
datos de una base de datos
de SQL Server.
Procedimientos de Extracción, Transformación, Limpieza y carga de datos: encontramos los
procedimientos que organizan el flujo de los datos entre diferentes sistemas en una organización Instrucciones DML que usa SQL
y aporta los métodos y herramientas necesarias para mover los datos desde múltiples fuentes a server son:
un almacén de datos, reformatearlos, limpiarlos y cargarlos en otra base de datos, Data Mart o
bodega de Datos. BULK INSERT (Transact-SQL)
DELETE (Transact-SQL)
Las funciones de este sistema son la carga inicial de mantenimiento o refresco periódico que INSERT (Transact-SQL)
puede ser diario semanal, trimestral o mensual. El almacenamiento interno permite realizar MERGE (Transact-SQL)
transformaciones sin la necesidad de paralizar la base de datos operacionales y el almacén de READTEXT (Transact-SQL)
datos, también se permite almacenar metadatos y sobretodo la facilidad de integración de SELECT (Transact-SQL)
fuentes externas. UPDATE (Transact-SQL)
UPDATETEXT (Transact-SQL)
WRITETEXT (Transact-SQL)
HERRAMIENTAS ETCL
(https://etl-tools.info/es/bi/proceso_etl.htm)

Proceso ETL
ETL - este termino viene de ingles de las siglas Extract-Transform-Load que significan Extraer, Transformar y Cargar y se refiere a los datos en una empresa. ETL es el
proceso que organiza el flujo de los datos entre diferentes sistemas en una organización y aporta los métodos y herramientas necesarias para mover datos desde
múltiples fuentes a un almacén de datos, reformatearlos, limpiarlos y cargarlos en otra base de datos, data mart ó bodega de datos. ETL forma parte de la Inteligencia
Empresarial (Business Intelligence), también llamado “Gestión de los Datos” (Data Management).

La idea es que una aplicación ETL lea los datos primarios de unas bases de datos de sistemas principales, realice transformación, validación, el proceso cualitativo,
filtración y al final escriba datos en el almacén y en este momento los datos son disponibles para analizar por los usuarios.
Los más populares herramientas y aplicaciones ETL del mercado
 IBM Websphere DataStage (anteriormente Ascential DataStage y Ardent DataStage)
 Pentaho Data Integration (Kettle ETL) - Una herramienta Open Source Business Intelligence
 SAS ETL Studio
 Oracle Warehouse Builder
 Informatica PowerCenter
 Cognos Decisionstream
 Ab Initio
 BusinessObjects Data Integrator (BODI)
 Microsoft SQL Server Integration Services (SSIS)

Beneficios de los procesos ETL


(https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/312584/procesos-etl-definici-n-caracter-sticas-beneficios-y-retos)

A cualquier empresa u organización le beneficia poner en marcha un proceso ETL para mover y transformar los datos que maneja por los siguientes motivos:
 Poder crear una Master Data Management, es decir, un repositorio central estandarizado de todos los datos de la organización. Por ejemplo, si tenemos un
objeto cliente en una base de datos de créditos y otro objeto cliente en la base de datos de tarjetas de crédito, lo que haría el Master sería definir, de forma
concreta e inequívoca, un registro cliente único con su nombre y apellidos para la organización.
 Posibilita a los directivos tomar decisiones estratégicas basadas en el análisis de los datos cargados en las bases nuevas y actualizadas: la dama mart o data
warehouse.
 Sirve para integrar sistemas. Las organizaciones crecen de forma orgánica y cada vez se van agregando más fuentes de datos. Esto provoca que comience a surgir
nuevas necesidades, como por ejemplo integrar los datos de un banking on line con los datos antiguos de un sistema legacy.
 Poder tener una visión global de todos los datos consolidados en una data warehouse. Por ejemplo, crear una estrategia de marketing basándose en el análisis de
los datos anteriores.
Herramienta ETCL Propietario Herramienta ETCL de uso libre Herramienta ETCL del SMBD
INFORMÁTICA POWER CENTER PENTAHO DATA INTEGRATION MICROSOFT SQL SERVER INTERGRATION SERVICES

Este producto es posiblemente el producto de PDI es una herramienta ETL de código abierto Tiene un costo menor que otras herramientas ETL
ETL más maduro del mercado. Es parte de una gran ampliamente conocida por su interfaz gráfica Spoon. empresariales y es bastante intuitiva y fácil de
cartera de productos, incluida como plataforma PDI exporta los proceos en archivos XML y estos son usar. Sin embargo, está limitada a implementaciones
de Informática. Informática es menos maduro que ejecutados a través de su motor ETL bajo el sistema operativo de Windows
otros productos para fuentes semiestructuradas y no
estructuradas

Potrebbero piacerti anche