Sei sulla pagina 1di 10

SERVICIO NACIONAL DE APRENDIZAJE “SENA”

AA5-Ev1-Validación de técnicas de migración y herramientas


ETCL
OSCAR FLAVIO BENAVIDEZ JIMENEZ

ESPECIALIZACION GESTION Y SEGURIDAD DE BASES DE DATOS

CALI-VALLE
Agosto 2019
Introduccion

La migracion de los datos de una base de datos es una tarea la cual debemos aplicar, La
razón más común para la migración es la necesidad de mover los datos a un nuevo sistema
para ampliar y acomodar el crecimiento del volumen. Conocer las diferentes formas de
migracion de datos es de mucha importancia para asi saber cual se adapta a las
necesidades de la compañia.
Tecnicas existentes de migracion de base de datos

Sincronizacion
Esto se logrará con la copia de datos y metadatos destino mediante una herramienta
tecnológica, en la cual se configuran los sistemas de gestión de bases de datos con bases
de datos origen y destino parametrizando la ubicación de particiones y método de
seguridad.

Importación y Exportación de archivos a través de comandos CSV y XML


Estos archivos son delimitados por comas por puntos y comas o se delimitan para los
campos y así poder definir las filas y las columnas, como también se puede elegir el ancho
para los campos, los cuales utilizaremos para delimitar las filas y las columnas.
Los formatos más utilizados en las migraciones de datos son el Commaseparated-values
(que son los valores separados por comas o los comúnmente .CVS donde para delimitarlos
es usada la coma el otro formato utilizado es el lenguaje de marcado extensible este es
usado como lenguaje o metalenguaje extensible de etiquetas las cuales sirven como
estándar para el intercambio de información o datos estructurados entre distintas
plataformas. Su sigla en inglés es .XML.
Ventajas
• La información se almacena en texto plano: software y hardware independiente.
• Simplifica los cambios de plataforma.
• Permite la uniformidad de la longitud de un byte desde un campo hasta el próximo.
• El formato CSV no requiere de un set de caracteres concretos, por lo que tiene una
gran interoperabilidad en diferentes aplicaciones
Desventajas
• Codificación.
• Accesibilidad a los datos.

DML
Estas sentencias son utilizadas para gestionar datos dentro de schemas. Una posibilidad
de los sistemas gestores de datos es la utilización de esta sentencia para generar los
respectivos scripts SQL que permiten realizar las migraciones existentes.
Ventajas
• Permiten realizar copias de seguridad, pruebas y creación o actualización de datos.
Desventajas
• Lentitud para las escrituras.
• Los índices afectan el rendimiento de algunos comandos.
ETCL
Es el proceso que permite a las organizaciones mover datos desde múltiples fuentes,
reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, o data
warehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio.
Las funciones de este sistema son la carga inicial de mantenimiento o refresco periódico
que puede ser diario semanal, trimestral o mensual. El almacenamiento interno permite
realizar transformaciones sin la necesidad de paralizar la base de datos operacionales y el
almacén de datos, también se permite almacenar metadatos y sobretodo la facilidad de
integración de fuentes externas.
Pasos para la migracion ETCL.

Herramientas ETCL
Las herramientas ECTL son los instrumentos principales que nos permiten construir un data
warehouse o data mart. Sin embargo, no siempre es sencillo saber como elegir la
herramienta correcta y que mejor se adapte a nuestros objetivos. En este post se explicarán
las distintas categorías de herramientas ETCL y se hará una comparativa de las principales
herramientas en el mercado.
Hay distintas herramientas ETCL en el mercado, cada una con sus características
concretas. Sin embargo, a la hora de elegir la herramienta adecuada para nuestra empresa
o proyecto, nos encontramos frente a cuatro distintas categorías principales:
Herramientas ETCL Enterprise. Se trata de productos propietarios, con muchas
funcionalidades incluidas y soporte para conexión con una gran cantidad de fuentes y
suelen ser elegidas por grandes empresas ya que el coste de adquisición es elevado.
Herramientas ETCL open source. Se trata de herramientas de código libre y de uso gratuito,
lo que permite una mayor accesibilidad para empresas de tamaño reducido. Al ser
productos con un enfoque general, es necesaria a menudo una personalización para que
se adapten a objetivos concretos, lo que requiere consultoría especializada.
Herramientas ETCL personalizadas. Se trata de herramientas desarrolladas a medida y de
forma específica para una empresa o proyecto en concreto. Requieren un grande esfuerzo
inicial de desarrollo, pero el resultado se ajusta mejor a los requerimientos.
Herramientas ETCL Cloud. La nube nos puede proporcionar todas sus ventajas como una
alta flexibilidad y el pago por uso a la hora de elegir herramientas ETCL que se ofrecen
como servicio.

Informatica PowerCenter
Es una de las plataformas de integración de datos líderes en el mercado, que es capaz de
impulsar y acelerar las iniciativas de integración de datos en proyectos de Business
Intelligence, data warehousing, migración e integración de aplicaciones en la nube y data
governance.
Características de PowerCenter ETCL
• Metadatos: Las visualizaciones son la diferencia más importante entre la
solución PowerCenter ETCL y otras de su clase. Para llevar a cabo una gestión
más efectiva y en base a metadatos la herramienta proporciona completas gráficas.
No sólo eso, sino que sus características analíticas, orientadas a conocer mejor el
linaje y el impacto,optimizan la función de gobierno.
• Reutilización: Reutilizar es sinónimo de economía y de efectividad. Si además le
sumas la automatización y lo entregas a través de un software user friendly tendrás
como resultado usuarios de negocio que mejoran su rendimiento y resultados al
aprovechar las opciones de transformación pre-integradas que esta herramienta
pone a su alcance.
• Autonomía: La independencia de los usuarios de negocio de IT les hace ganar en
agilidad a ambos, permitiendo que, mientras los primeros pueden consumir datos
fiables y precisos, sin latencias; los últimos ganan tiempo extra para ocuparse de
asuntos más relevantes y de mayor importancia estratégica para el negocio.
• Escalabilidad: Éste es uno de los criterios más frecuentemente empleados para
seleccionar herramientas tecnológicas y, en el caso de PowerCenter ETCL, además
de su cualidad de escalable, no hay que perder detalle de atributos tan importantes
como su alta disponibilidad, optimización de pushdown, balanceo de carga
adaptable, procesamiento distribuido y particionado dinámico.
• Gobierno: Quien tiene el control tiene el poder y eso es lo que entrega este software,
que permite alcanzar nuevas cotas de supervisión operacional mejoradas por un
eficaz sistema de alertas.
• Prototipos: La innovación es uno de los requisitos de la revolución digital pero, ya
no basta con exprimir la creatividad sino que además hay que hacerlo más rápido
que la competencia. La herramienta de Informatica destaca por sus funcionalidades
de colaboración en este sentido, permitiendo ganar en agilidad a la hora de proceder
a la validación de resultados.
• Real time: La eficiencia operativa es una cuestión de tiempo. Poder trabajar en
tiempo real, incluso en trabajos analíticos es una experiencia de la que no se puede
privar a los usuarios de negocio.
• Automatización, integración y conectividad: Pruebas de validación automatizadas
en cualquier entorno, facilidad de acceso a la información e integración de datos
desde cualquier tipo de fuente es sinónimo de rendimiento.

Informatica PowerCenter es una potente herramienta ETL que, basada en una estructura
de plataforma unificada de integración de datos empresariales, permite acceder, descubrir
e integrar datos de prácticamente cualquier sistema empresarial.
En un entorno de pruebas ETL la cobertura de Informatica podría concretarse en:
• Mantenimiento del flujo de trabajo de Informatica y sus componentes; asegurando
la marcha de todas las transformaciones utilizadas en las asignaciones
subyacentes.
• Prevención de la pérdida de datos. La integridad de los datos no queda
comprometida en ningún momento al cargarse en destino los datos proyectados sin
ningún truncamiento ni menoscabo.
• Puntualidad del proceso. Los datos consiguen cargarse en destino dentro de los
límites de tiempo estimados, asegurando el rendimiento de trabajo óptimo en todo
momento.
• Calidad de la información. Se trata de un aspecto prioritario para mantener la
confianza de los usuarios en el sistema de información empresarial y, por eso,
supone una prioridad para Informatica que, con PowerCenter, asegura que el flujo
de trabajo no permita que se carguen datos no válidos o no deseados en el destino.

Oracle Data Integrator


Es una herramienta de Extracción, Carga y Transformación, abreviado como ELT (del
inglés: Extract, Load and Transform) (en contraste con la aproximación común de ETCL),
producida por Oracle que ofrece un entorno gráfico para construir, gestionar y mantener
procesos de integración del datos en sistemas de inteligencia empresarial.
Oracle Data Integrator comprende los siguientes componentes:
• El Repositorio Modular, que consiste de un repositorio maestro y de uno o varios
repositorios de trabajo para almacenar metadata sobre los procesos de integración.
Estos repositorios pueden ser instalados en cualquier motor de base de datos que
soporte sintaxis ANSI ISO 89.
• Los módulos de interfaz gráfica (gestor de topología, diseñador, gestor de
seguridad, operador) y los agentes de ejecución. Estos son construidos
completamente con Java para dar acceso al repositorio en modo de cliente/servidor.
• Explorador de Metadatos, una aplicación Servlet/JSP que permite acceder al
repositorio a través de una interfaz de Web.
• Diseñador ligero, una Aplicación web para ver y editar objetos en el repositorio a
través de un navegador de Web.
• Servicios Web Públicos de Oracle Data Integrator, los cuales permiten a los usuarios
de Oracle Data Integrator hacer uso de características de la herramienta a través de
una Arquitectura Orientada a Servicios (del inglés: SOA).
Capacidades Funcionales
Oracle Data integrator ofrece las siguientes capacidades funcionales:
• Data movement – Extraer datos y transferirlos de forma masiva
• Data syncronization - Capacidad de replicar y extraer los datos que sufrieron algún
cambio
• Data quality – Limpieza de datos y a tono con las reglas de negocio
• Data management – Manejo de metadata y modelamiento de datos
• Data services - Plataforma para una implementación SOA para cubrir el gap entre
los procesos de negocio y la infraestructura de aplicaciones

IBM InfoSphere DataStage


Es una plataforma ETL líder que integra datos en múltiples sistemas
empresariales. Aprovecha un marco paralelo de alto rendimiento, disponible en las
instalaciones o en la nube. La plataforma escalable proporciona gestión de metadatos
extendida y conectividad empresarial. Integra datos heterogéneos, incluidos big data en
reposo (basado en Hadoop) o big data en movimiento (basado en transmisión), tanto en
plataformas distribuidas como en mainframe. Admite IBM Db2® Z y Db2 para z / OS®,
aplica la carga de trabajo y las reglas comerciales, e integra datos en tiempo real en una
plataforma fácil de implementar.
Se puede usar Datastage en los siguientes escenarios

• Creación y mantenimiento de Data Warehouse o Data Mart.

• Integración de datos de diversas fuentes.

• Migración de datos de varias fuentes.


Datastage: características principales
• Implementa reglas de validación de datos.
• Es útil para procesar y transformar grandes cantidades de datos.
• Utiliza un enfoque de procesamiento paralelo escalable.
• Puede manejar transformaciones complejas y administrar múltiples procesos de
integración.
• Puede conectarse a aplicaciones empresariales tanto como fuentes como destinos
de datos.
• Usa metadatos para análisis y mantenimiento.
• Puede funcionar en batch, en tiempo real o como un servicio web.
SQL Server Integration Services
Es una plataforma para la creación de soluciones empresariales de transformaciones de
datos e integración de datos. resolver complejos problemas empresariales mediante la
copia o descarga de archivos, la carga de almacenamientos de datos, la limpieza y minería
de datos y la administración de datos y objetos de SQL Server.
Integration Services puede extraer y transformar datos de diversos orígenes como archivos
de datos XML, archivos planos y orígenes de datos relacionales y, después, cargar los
datos en uno o varios destinos.
Integration Services incluye un amplio conjunto de tareas y transformaciones integradas,
herramientas gráficas para crear paquetes y la base de datos del catálogoIntegration
Services, donde se almacenan, ejecutan y administran los paquetes.
Puede usar las herramientas gráficas Integration Services para crear soluciones sin escribir
ni una sola línea de código. También puede programar el amplio modelo de
objeto Integration Services para crear paquetes mediante programación y codificar tareas
personalizadas y otros objetos de paquete.
Tipos de configuraciones de paquetes.
• Archivo de configuración XML: se pueden almacenar varios valores en un
archivo xml en el disco
• Variable de entorno: un único valor se puede almacenar en una variable de entorno
de Windows
• Entrada del registro: un único valor se puede almacenar en una clave de registro
• Variable del paquete principal: el paquete principal puede pasar una variable al
paquete que contiene el valor de configuración
• SQL Server: se pueden almacenar varios valores en una tabla en un SQL Server
En términos de arquitectura SSIS se divide en 4 componentes principales:

• El Servicio SSIS
• El Motor de ejecucion de SSIS y otros ejecutables
• El Motor de Flujo de Datos de SSIS y los componentes de flujo de Datos
• Los Clientes SSIS

En más detalle el servicio SSIS maneja los aspectos operacionales de la herramienta, es


basicamente un servicio de Windows que se instala junto con SQL Server y registra la
ejecución de paquetes y tiene utilidades para el almacenamiento de los mismos. Realmente
este servicio no es necesario para ejecutar paquetes SSIS pero si ya esta corriendo y el
servicio es detenido entonces todos los paquetes que se están ejecutando en ese momento
se detienen por defecto.

El motor de ejecución y sus programas auxiliares son los que realmente se encargan de
correr los paquetes. Este motor es el que salva la distribución de los elementos dentro de
BIDS, administra las bitácoras, depuración, configuración, conexiones y transacciones.
Adicionalmente maneja los eventos de envió de correos o almacenamiento de bitácoras en
la base de datos cuando un evento se dispara en el paquete. Lo ejecutables auxiliares
proveen otras funciones tales como: Contenedores, Tareas, Manejadores de Eventos y
restricciones de precedencia.

El componente principal de un proyecto SSIS es el paquete, se puede definir como una


serie de tareas que se ejecutan en un orden predeterminado, las restricciones de
precedencia ayudan a definir en que orden una tarea debe ejecutarse. Normalmente el
paquete se salva como un archivo con extensión DTSX, que en esencia es un archivo XML.
A su vez una tarea puede definirse como una unidad individual de trabajo, estas tareas
proveen diferente funcionalidades dentro del paquete, por ejemplo mover archivos, cargar
una archivo en una base de datos, enviar un correo o incluso escribir código fuente (C# o
VB.Net) de manera automática. SSIS viene con un numero de tareas ya definidas que
pueden ser utilizadas de inmediato, algunas de ellas son:

• Bulk Insert (Inserción de volúmenes altos de datos): Carga datos en una tabla
usando el comando BULK INSERT.

• Data Flow (Flujo de datos): Es una de las mas utilizadas, se usa para cargar y
transformar datos dentro de un destino OLE DB.

• Execute Package (Ejecución de Paquetes): Ejecuta paquetes dentro de otros


paquetes, esto sirve para modularizar paquetes.

• Execute Process (Ejecucion de Procesos): Ejecuta un programa externo al paquete.

• File System (Sistema de Archivos): Se encarga de operaciones tales como crear


directorios, renombrarlos y borrarlo. También maneja operaciones sobre archivos
tales como copiar o mover.

• FTP (Protocolo de Transferencia de Archivos): Envía o recibe archivos desde


servidores FTP.

• Script: Ejecuta código fuente creado en Visual Studio (C# o VB.Net)

• Send Mail (Envio de Correo): Envía correo a través de un servidor SMTP (Send Mail
Transfer Protocol)

• Analysis Services Processing (Procesamiento de servicios de análisis): Procesa


cubos, dimensiones o minería de modelos se SQL Server Analysis Services.

• Web Service (Servicios Web): Ejecuta métodos de servicios web.

• WMI Data Reader (Lectores de Datos WMI): Con esta tarea se pueden ejecutar
consultas WQL contra WMI (Windows Management Instrumentation). De esta forma
se puede leer información de las bitácoras de eventos que guarda Windows o
obtener información del hardware instalado por ejemplo.

• WMI Event Watcher (Captura de Eventos WMI): Con esta tarea SSIS es capaz de
esperar y responder por ciertos eventos que ocurren en el sistema operativo.

XML: Parsea o procesa archivos XML.


Estas son solo algunas de la tareas disponible, algunas de ellas son contenedores de mas
elementos que se pueden utilizar para operaciones especificas, tal es el caso de las tareas
de flujo de datos. También hay otras tareas que se pueden bajar e instalar o incluso
utilizando lenguajes como C# o VB.NET y el modelo de objetos de SSIS se pueden crear
nuevas tareas.

En síntesis SSIS es una de las herramientas mas innovadoras de migración de datos que
han aparecido en el mercado, si ya se tiene una licencia de SQL Server no tiene costo pues
se incluye como parte del paquete. Con un poco de imaginación y conocimiento, SSIS
puede utilizarse en un sin fin de tareas interesantes.

Instalar Integration Services

Puede instalar SQL ServerIntegration Services en las configuraciones siguientes:

• Puede instalar SQL ServerIntegration Services en un equipo que no tenga ninguna


instancia anterior de SQL Server.
• Puede instalar SQL Server 2017 Integration Services (SSIS) en paralelo con una
instancia existente de Integration Services.

Al actualizar a la versión más reciente de Integration Services en un equipo que tiene


instalada una versión anterior de Integration Services, la versión actual se instala en
paralelo con la versión anterior.

Después de revisar los requisitos de instalación de SQL Server y asegurarse de que el


equipo los cumple, puede comenzar a instalar Integration Services.
Si está usando el Asistente para la instalación con el fin de instalar Integration Services,
usará una serie de páginas para especificar los componentes y las opciones.
En la página Selección de características, en Características compartidas,
seleccione Integration Services.
En Características de instancia, puede seleccionar Servicios de Motor de base de datos
para hospedar la base de datos del Catálogo de SSIS, SSISDB, para almacenar, datos
administrar, ejecutar y supervisar los paquetes SSIS.
Para instalar ensamblados administrados para la programación de Integration Services,
también en Características compartidas, seleccione SDK de las herramientas de cliente.

Potrebbero piacerti anche