Sei sulla pagina 1di 12

VALIDACIÓN DE TÉCNICAS DE MIGRACIÓN Y HERRAMIENTAS ETCL AA5-Ev1

GERMAN EDUARDO HOMEZ RODRIGUEZ

LADY JOHANNA ROMERO VILLAMIL

APRENDICES

FERNANDO LÓPE Z TRUJILLO


INSTRUCTOR

ESPECIALIZACIÓN TECNOLOGICA EN GESTIÓN Y SEGURIDAD DE BASE DE


DATOS
FICHA: 1764152

BOGOTÁ D.C.

2019
VALIDACIÓN DE TÉCNICAS DE MIGRACIÓN Y HERRAMIENTAS ETCL

ENTIDAD: Alcaldía de San Antonio del SENA


DEPENDENCIA: Secretaría de Hacienda

MIGRACIÓN DE DATOS

Llamamos migración de datos al proceso que necesitamos hacer para transferir los datos de un
sistema a otro mientras cambiamos el sistema de almacenamiento donde se encuentran los
datos, o bien mientras se practican las modificaciones necesarias en la base de datos o
la aplicación que los gestiona.

Dependiendo del tipo de iniciativa que se quiera llevar a cabo, es necesario un planteamiento
distinto. Así, podría hablarse de tres formas diferentes de abordar el data migration:

1. Usando un software basado en matriz, que es la mejor opción para el movimiento de datos
entre sistemas similares.
2. Apoyándose en un software basado en el host: que sería la opción más recomendable para
las migraciones específicas de la aplicación. Es el caso de la copia de archivos, las
actualizaciones de la plataforma o la replicación de la base de datos.
3. Empleando los dispositivos de red. De esta manera, se migran volúmenes, archivos o
bloques de datos del modo más apropiado, en función de su configuración.

Hay algunos factores que se deben considerar en un proyecto de migración de datos:

 Tiempo que llevará realizar la migración completa.


 Cantidad de tiempo de inactividad que se requerirá.
 Riesgo para el negocio derivado de problemas técnicos de compatibilidad, corrupción de
datos, problemas de rendimiento de aplicaciones y pérdida u omisión de datos.

Para minimizar el riesgo inherente al movimiento de datos, es preciso:

1. Entender qué datos se está migrando, de qué tipo son, cuál es su srcen y qué formato
adquirirán en destino, una vez completado el traslado.
2. Aplicar los procesos ETL (extracción, transformación y carga) preferiblemente antes de
proceder a la migración.
3. Definir e implementar políticas de migración de datos para garantizar el orden necesario a
lo largo de todo el proceso.
4. Apostar por las pruebas y validación de los datos migrados, por ser la única manera efectiva
de asegurarse de que reúnen todos los atributos de calidad necesarios.

TÉCNICAS EXISTENTES EN UNA MIGRACIÓN DE BASES DE DATOS

Sincronización de bases de datos: Esto se logrará con la copia de datos y metadatos


destino mediante una herramienta tecnológica, en la cual se configuran los sistemas de gestión
de bases de datos con bases de datos srcen y destino parametrizando la ubicación de
particiones y método de seguridad.
Importación y Exportación de archivos a través de comandos: Para estas
actividades es común utilizar los archivos de movimientos de datos, en los cuales se pueden
utilizar diferentes tipos de archivos, pero algunos de los formatos más comunes son archivos de
texto o lo que comúnmente llamamos archivos planos estos archivos son los que guardan los
datos sin ningún formato usando solo caracteres. Estos archivos son delimitados por comas por
puntos y comas o se delimitan para los campos y así poder definir las filas y las columnas, como
también se puede elegir el ancho para los campos, los cuales utilizaremos para delimitar las filas
y las columnas.

Los formatos más utilizados en las migraciones de datos son el Commaseparated-values (que
son los valores separados por comas o los comúnmente .CVS donde para delimitarlos es usada
la coma el otro formato utilizado es el lenguaje de marcado extensible este es usado como
lenguaje o metalenguaje extensible de etiquetas las cuales sirven como estándar para el
intercambio de información o datos estructurados entre distintas plataformas. Su sigla en inglés
es .XML.

El otro formato utilizado es la tabulación, estos archivos con esta tabulación y esta extensión
solo son utilizados en ciertas aplicaciones es posible que sean archivos de datos mas no de
documentos o medios de comunicación lo que no se pueden ver en ciertas circunstancias o
programas, este formato de tipo de texto será utilizado en la tabulación o espacios para separar
las columnas o filas de los datos por esto no se recomienda este tipo de formato debido a que
generan muchos tipos de caracteres en blanco y para poder hacer coincidir las filas y las
columnas con las siguientes correspondiente al campo.

Sentencias de lenguaje de manipulación de datos (DML): estas sentencias son


utilizadas para gestionar datos dentro de schemas. Una posibilidad de los sistemas gestores de
datos es la utilización de esta sentencia para generar los respectivos scripts SQL que permiten
realizar las migraciones existentes.

TÉCNICA DE MIGRACIÓN DE DATOS VENTAJAS Y DESVENTAJAS


Un fallo en uno de los servidores de base de
datos no impida a los usuarios seguir
utilizando la aplicación.

A través de múltiples servidores, te aseguras

que los datos van a estar disponibles incluso


en el caso de que una de las máquinas tenga
Sincronización de bases de datos un fallo grave de hardware. El sistema
distribuido de gestión de bases de datos debe
ser capaz de enrutar a los usuarios afectados
a otro de los nodos disponibles.

al estar los datos distribuidos en diferentes


servidores, los múltiples accesos no saturan
los servidores
Los archivos de texto pueden tener formato
delimitado utilizando coma(,), punto y coma
Importación y Exportación de archivos a
(;) o Tabulaciones para delimitar los campos
través de comandos
definiendo de esa forma columnas y filas.
También pueden tener formato de ancho fijo
para los campos, que se utiliza para delimitar
columnas y filas.

Un formato de archivo plano muy usado es el


“.CSV” (Comma-SeparatedValues, en español
Valores Separados por Coma), donde el
delimitador usado es una coma. Muy usado
para movimientos de datos con hojas de
cálculo.
En un script SQL se pueden realizar las
siguientes tareas:
• Copia de seguridad para creación de todos
Sentencias de lenguaje de manipulación los usuarios, grupos, inicios de sesión y
de datos (DML) permisos.
• Creación o actualización de código para la
implementación de una base de datos.
• Creación de un entorno de pruebas

PROCEDIMIENTOS ETCL

Este proceso tiene que ver con el diseño basado en los resultados del análisis de la migración y
el uso de mapeo detallado, de igual manera realizaremos una verificación de los requerimientos
del cliente para establecer los alcances respectivos y configurar estas técnicas.

Para ello hablaremos de los siguientes pasos:

Extracción: Lectura de los datos sistema operacional


 Durante la carga inicial
 Mantenimiento
Seleccionar las fuentes de datos: Aquí vemos que los usuarios son los más importantes y
sobretodo son los elementos más claves para identificar las fuentes verdaderas de datos de cada
proceso. Debemos tener un conocimiento técnico acerca de la plataforma final. Por esto una
migración requiere de todos los procesos de la empresa y del conocimiento de ellos; Ya
identificadas las fuentes de datos, se tiene la información para llenar la base de datos del nuevo
sistema.

Entender los datos: Una vez identificado las fuentes se debe tener con claridad los elementos
requeridos para saber si hay errores en los datos u omisiones presentadas. Al determinar los
errores se podrá estimar tiempos requeridos y costos generados para hacer el análisis de datos.
Los aspectos que se deben tener en cuenta los siguientes niveles:

 Campo, si se responde los campos de srcen con el destino. Refiriéndose a la


consistencia de la información y a los tipos de datos que se manejan.
 Tablas, que existan las coincidencias respectivas como las llaves primarias y foráneas
 Cruce, cuando existen relaciones entre tablas los procesos de conversión deben
mantener la consistencia en las relaciones de Bases de datos Operacionales
Correspondencia Extracción Transformación Almacén de datos Almacenamiento
Interno tablas para que la información no se vea afectada en la base de datos destino.

Ejecución de la extracción : Si los datos operacionales están mantenidos en un sistema de


gestión de base de datos, la extracción de datos se puede dirigir a consultas en SQL o rutinas
programadas.

Si los datos operacionales están en un sistema propietario es decir no se conoce el formato de


datos o en una fuente externa textual, hipertextual u hojas de cálculo, la extracción puede ser
difícil y puede tener que realizarse a partir de informes o volcados de datos proporcionados por
los propietarios que deberán ser procesados posteriormente.

Los cambios de datos operacionales (Relevantes) que por cualquier motivo han sufrido una
modificación de fecha del último mantenimiento. Los métodos que se utilizaran son:

 Carga Total
 Comparación de instancias
 Uso de marcas de tiempo
 Uso de disipadores
 Uso de ficheros de log
 Sistema de operación
 Uso de técnicas mixtas.

Transformación: En esta encontramos una serie de reglas de negocio o funciones sobre los datos
extraídos para convertirlos en datos que serán cargados, algunas requerirán alguna pequeña
manipulación de los datos, pero cuando es necesaria aplicaran las siguientes transformaciones.
Como se aprecia anteriormente, se realizarán los pasos de limpieza y transformación de los
datos de acuerdo lo presentado en los bases de datos srcen.

Limpieza de datos: esta es la parte más importante en la migración de datos, es poder hacer
limpieza de datos para que en la base destino no llegue información basura o no necesaria. El
proceso contempla realizar varias actividades complejas con el objeto de identificar datos
desactualizados, información en blanco o faltantes registros con duplicados o cualquier tipo de
información que se deba eliminar o limpiar, de tal modo que se lleven los datos al nuevo sistema.

Transformación de los datos: aquí es donde miramos que se necesita y el proceso adecuado a
ejecutar. Las transformaciones de datos se deberán colocar en doble vía o realizar con las copias
de las bases de srcen, de tal modo que la transformación no es consistente se pueda deshacer,
transformar y corregir de tal modo que se pueda garantizar la buena migración para un buen
resultado se debe garantizar la calidad de la transformación de los datos.

Cargue de datos: en este proceso se deberá hacer las actividades de mover, probar, auditar, y
validar los datos según los requerimientos estipulados.

Mover datos: aquí requeriremos herramientas técnicas de modo que la información de la base
de datos final sea consistente con la srcinal. En este proceso tenemos programas o
herramientas de migración, códigos para la copia de datos, procesos almacenados para una
buena migración de base de datos.

HERRAMIENTAS ETCL

Benetl: Es una herramienta ETL de uso libre, desarrollada entre los años 2007 – 2014, hecha en
java y trabaja con base a lenguajes de base de datos PostgreSQL o MySQL.

Esta herramienta se creó para facilitar el trabajo con archivos TXT, CSV o archivos de fuente de
datos XML. Para recuperar los datos que tendrán que definir un dato de tiempo y una entidad,
que está representado por datos a calcular o para mostrar. Todos los objetos útiles serán
creados por Benetl dentro de una base de datos MySQL o PostgreSQL. La aplicación también es
capaz de recuperar automáticamente los datos mediante el uso de diversas tareas planificadas
de su sistema.

Mediante el uso de Benetl podrá se ha podido recuperar fácilmente la información de los

archivos de datos planos, la organización y el filtrado de acuerdo con su dato de tiempo y


entidad.

Caracteristicas Benetl

Tecnologías:
 Java 7 update 80
 PostgreSQL 9.5.0 (con el apoyo plpgsql)
 MySQL 5.6 con función de OLD_PASSWORD de inicio de sesión de usuario (para
controlador suministrado)
 Con Windows (se utiliza "tareas programadas")
 Benetl 4.7 funciona en Linux.

Requerimientos Técnicos:

 Ejecución de Java (JRE) 1.7


 Base de datos PostgreSQL 9.5 con soporte plpgsql
 Base de datos de MySQL 5.6 con OLD_PASSWORD la función de inicio de sesión
de usuario o el controlador oficial de MySQL (no incluido)
 Probado en sistemas de 64 bits

Ejemplo: Nombre EtlTool… Definir Nombre, Este nombre es también el nombre de la tabla de
PostgreSQL o tabla de MySQL donde se almacenan las líneas de datos.

Un archivo llamado "EtlTool.bat" se creará en la carpeta de srcen de datos. Debe presionar


enter para validar su nombre EtlTool, y luego se pueden guardar los parámetros.

APLICACIÓN SMBD SELECCIONADO

SQL Server Integration Services


Microsoft Integration Services es una plataforma para la creación de soluciones empresariales
de transformaciones de datos e integración de datos. Integration Services sirve para resolver
complejos problemas empresariales mediante la copia o descarga de archivos, el envío de
mensajes de correo electrónico como respuesta a eventos, la actualización de almacenamientos
de datos, la limpieza y minería de datos, y la administración de objetos y datos de SQL Server.
Los paquetes pueden funcionar en solitario o junto con otros paquetes para hacer frente a las
complejas necesidades de la empresa. Integration Services puede extraer y transformar datos
de diversos orígenes como archivos de datos XML, archivos planos y orígenes de datos
relacionales y, después, cargar los datos en uno o varios destinos.

Integration Services contiene un variado conjunto de tareas y transformaciones integradas,

herramientas para la creación de paquetes y el servicio Integration Services para ejecutar y


administrar los paquetes. Las herramientas gráficas de Integration Services se pueden usar para
crear soluciones sin escribir una sola línea de código. También se puede programar el amplio
modelo de objetos de Integration Services para crear paquetes mediante programación y
codificar tareas personalizadas y otros objetos de paquete.

El SSIS Import/Export Wizard permite mover datos de srcen a destino sin modificar los datos
del srcen y permitiendo hacer iteraciones y cambios de información antes de llegar al destino
dentro de tablas de ETL. Se pueden importar datos de fuentes diferentes a SQL Server.

Con la herramienta Business Intelligence Development Studio, se pueden realizar tareas de


migración fácilmente usando tareas visuales. Si se desea crear nueva funcionalidad, se pueden
crear scripts en c# o VB.

Los paquetes, que son las unidades de almacenamiento de estas tareas de migración se pueden
guardar en archivos dtsx o en la base de datos en formato XML.
Una vez implementado el paquete puede ser depurado.

Características SSIS

Ultima Version: SQL Server 2016 Integration Services

Requerimientos Técnicos:
 Instalar en un equipo de 64 bits
 Instalar en un servidor dedicado para ETL
 Si requiere las características en tiempo de diseño de Integration Services, también debe
instalar Business Intelligence Development Studio.
 Si necesita las versiones de 32 bits de las herramientas y del motor en tiempo de
ejecución de Integration Services para ejecutar ciertos paquetes en modo de 32 bits,
también debe instalar Business Intelligence Development Studio.

ORACLE WAREHOUSE BUILDER

Es una completa herramienta para todos los aspectos de administración de datos y metadatos.
Esta brinda características para asegurar la calidad de datos, que integran el modelado relacional
y multidimensional y que permiten la administración de todo el ciclo de vida de datos y
metadatos.

Enterprise ETL Option

La opción empresarial ETL (Enterprise ETL Option) para Warehouse Builder es una opción que
puede ser adquirida con Oracle Warehouse Builder como parte de la edición empresarial del
motor de base de datos (Oracle DB Enterprise Edition).
Opciones Avanzadas para Carga de Datos

En grandes implementaciones, más y más procesos se ejecutan en paralelo, agotando los


recursos debido a las grandes cantidades de datos que participan en la carga. Como parte de la
Enterprise ETL Option, Warehouse Builder permite ejecutar cargas de datos usando métodos
rápidos y eficientes tales como el Oracle Data Pump y transportable tablespaces. Esta es una
aproximación completamente diferente al movimiento de datos que se realiza por medio de
conjuntos de datos controlados por el motor de base de datos. Los incrementos en velocidad de

carga se deben entonces a la omisión de las capas SQL tradicionales.

Soporte a Dimensiones Lentamente Cambiantes Integrado

En Warehouse Builder la lógica de dimensiones lentamente cambiantes es diseñada en los


metadatos de la dimensión. La dimensión captura toda la lógica que será aplicada a los datos
que se insertan dentro de la misma.

Una vez, los usuarios de negocio han decidido que atributos son importantes, el modelador de
datos diseña la dimensión. Con los pasos de ETL el desarrollador ve esta dimensión como

cualquier otra. El siguiente paso es definir cómo efectuar los cambios y actualizaciones en la
dimensión. Warehouse Builder automatiza esto basado en la definición de la dimensión. La
combinación entre estos pasos, el diseño y la estandarización hacen que los procesos
relacionados con dimensiones lentamente cambiantes presente un alto desempeño en su
ejecución.

Traza Lineal de Principio a Fin

Los servicios de administración de dependencias (Warehouse Builder Dependency Management


) le permiten prever el efecto que puedan tener los cambios que se hagan en cualquier lugar de
los metadatos del sistema ETL antes de que estos puedan afectarlo y deterióralo.

Por primera vez, tendrá la posibilidad de administrar los cambios de su sistema de manera
proactiva. Como un ejemplo, usted puede propagar los cambios a través de su sistema haciendo

uso el Mapping Editor.


Administración de Configuraciones Avanzadas

Tener que mover sistemas o aplicaciones de un ambiente a otro (por ejemplo de desarrollo a
producción) es un problema frecuente.

Con la Enterprise ETL Option de Warehouse Builder, es posible generar un modelo para
configurar los ambientes de desarrollo, pruebas y producción a niveles separados. Para mover
los cambios desde el ambiente de desarrollo a producción, el código generado en desarrollo es

modificado en producción solo en áreas específicas. Por ejemplo, la información sobre las
conexiones es substituida por la definida en desarrollo.

VENTAJAS, DESVENTAJAS, TIEMPOS Y COSTO DE LAS HERRAMIENTAS

TÉCNICA REQUERIMIENTO VENTAJAS DESVENTAJA TIEMPO


S TÉCNICOS S
 Es un  Utiliza 3 semanas
sistema de gestión la memoria
de base de datos. RAM para las Semana 1:
 Es útil para instalaciones Análisis de
manejar y obtener y utilización datos
datos de la red de de software.
redes  No se Semana 2:
 Nos puede utilizar Migración y
permite olvidarnos como validación de
de los ficheros que practicas información.
forman la base de porque se
datos prohíben Semana 3:
 Si se varios Optimizació
SQL trabaja en una red aspectos. n de
SERVER
INTEGRATION
SQL Server social, permite  La proceso.
SERVICES Estándar agregar otros relación
servidores de SQL calidad/preci
Server. o está por
 SQL debajo,
permite comparado
administrar con Oracle.
permisos a todo.  Tiene
varios
bloqueos a
nivel de
página, un
tamaño de
página fijo y
demasiado
pequeño.
 Oracle es Las versiones 3 semanas
el motor de base más recientes
ORACLE
ORACLE de datos Oracle son la Semana 1:
WAREHOUSE
ESTÁNDAR objeto/relacional 11g, 10g, 9g, Análisis de
BUILDER
más usado a nivel 8g desde el datos
mundial. lanzamiento
 Puede srcinal de la 8 Semana 2:
ejecutarse en se sucedieron Migración y
todas las varias validación de
plataformas, versiones información.
desde una PC hasta alcanzar
hasta un la estabilidad Semana 3:
supercomputador en la versión Optimizació
. 8.0.3. n de
 Soporta El mayor proceso.
todas las inconveniente
funciones que se de Oracle es
esperan de un su precio,
servidor, un puesto que
lenguaje de diseño son muy
de bases de datos costosas.
que permite Necesidad de
implementar ajustes.
diseños activos Un Oracle mal
con triggers y configurado
procedimientos puede ser
almacenados, con muy lento.
una integridad Elevado coste
referencial de la
declarativa muy información
potente. en cuanto al
 Permite el manejo de
uso de particiones Oracle y otros
para la mejora de aspectos.
la eficiencia,
incluso algunas
versiones admiten
la administración
de bases de datos
distribuidas.
 El
software del
servidor puede
ejecutarse en
diversos sistemas
operativos.
 Oracle es
la base de datos
con más
orientación hacia
Internet.
 Es una
técnica muy
SINCRONIZACIÓ
utilizada en
N DE BASES DE
procesos de
DATOS.
migración de
datos.
 Consiste
en hacer que dos
bases de datos
sean equivalentes
en el mismo
tiempo.
 Los
asistentes de
sincronización de
los SMBD son
configurados con
las bases de datos
srcen y la base de
datos destino.

PRECIO LICENCIA SQL SERVER 2017

PRECIO LICENCIA ORACLE

Ver archivo adjunto…

Potrebbero piacerti anche