Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
LAURO DE FREITAS
2012
TRAJANO CARLOS MONTASSIER NETO
LAURO DE FREITAS
2012
AGRADECIMENTOS
Em primeiro lugar, agradeo a Deus, que me deu foras e clareou o meu caminho,
ajudando-me a superar as dificuldades e os obstculos, mas no final, fui presenteado por
este momento.
A minha Me Cecilia (in memoriam), a quem dedico essa realizao e que, durante
muitos anos, foi para mim um exemplo de fora e superao.
Um especial agradecimento a minha esposa, Rosangela e ao meu filho Vitor, que
me apoiaram em todos os momentos desta trajetria. Obrigado por compartilharem comigo
essa caminhada; sem essa fora no seria possvel chegar ao fim.
Igualmente agradeo aos meus tios Sylvio e Deolinda(in memoriam), sempre
presentes na minha vida e responsveis por um apoio incondicional no momento em que
mais precisei no incio de minha carreira profissional. Obrigado pelo carinho e o afeto que
tm me concedido.
Aos familiares e amigos, que estiveram ao meu lado ou de alguma forma fizeram
parte desta histria, dando-me foras para superar e no desistir e ainda me ajudando a
esquecer as dificuldades desse percurso atravs dos momentos descontrao e alegria em
que passamos juntos.
Tambm, no menos importante, meu agradecimento direo da empresa Morais
de Castro, que me apoiou e me incentivou-me a realizar o curso superior.
A todos os Mestres com quem tive o prazer de compartilhar conhecimento nesse
perodo, um muito obrigado. E, em especial, ao meu orientador Professor Pablo Passos, que
acreditou em meu potencial e, com dedicao e empenho, ajudou-me a realizar este
trabalho alm de ser uma figura fundamental nesta orientao desde seu nascimento. Ao
Coordenador Jorge Farias, que sempre se mostrou interessado em apoiar e ajudar seus
alunos. Por fim, no poderia deixar de agradecer a minha Professora Cristiane Dutra por
sua colaborao ajudando a engrandecer o resultado deste trabalho.
RESUMO
ETL tools are software applications whose function, in general terms, is to extract
data from several sources, then transform it to ensure standardization and consistency of
information, upload it to an environment of consultation and analysis, known as data
warehouse. The several ETL tools available on the market these days have the basic
functions with very similar characteristics and the level of sofistication is on more specific
features that will differentiate one another. From the perspective of small and medium
businesses, which have a limited capacity of investment in technological tools, the ETL
open-source tools are an interesting alternative since the licensing and upgrades are for free.
Through research conducted by organizations it was possible to identify the Kettle and
Talend as the currently most important ones in the world of ETL open-source tools. This
fact explains the need to develop a method to evaluate the ETL open-source Talend and
Kettle / Pentaho tools by defining criteria pertaining to the characteristics and features that
are important to build a DW project. The results of each of the criteria were collected
through the use of tools in a practical case study within a small business.
Keywords: ETL Tools, Kettle, Talend, CloverETL, Business Intelligence, Data Warehouse.
LISTA DE FIGURAS
1 INTRODUO ................................................................................................................. 12
2 Data Warehouse................................................................................................................. 18
2.1 A HISTRIA DO EIS AO DATA WAREHOUSE ....................................................... 18
2.2 CONCEITOS E PROPRIEDADES DO DATA WAREHOUSE .................................. 19
2.3 ARQUITETURA DO DATA WAREHOUSE ............................................................... 21
2.3.1 Staging Area ................................................................................................................ 21
2.3.2 Data Mart ..................................................................................................................... 23
2.4 FORMAS DE IMPLEMENTAES ............................................................................ 24
2.5 ETAPAS DA IMPLANTAO DO PROJETO ........................................................... 28
2.5.1 Modelagem .................................................................................................................. 28
2.5.2 ETL ............................................................................................................................. 33
2.5.3 ANLISE DE INFORMAES ................................................................................ 41
3 ETL EXTRAO, TRANSFORMAO E CARGA DE DADOS ............................ 42
3.1 ABRANGNCIA DO ETL ........................................................................................... 42
3.2 ETAPAS DO PROCESSO DE ETL ............................................................................. 43
4 FERRAMENTAS DE ETL .............................................................................................. 45
4.1 CONCEITO ................................................................................................................... 45
4.2 CARACTERSTICAS E BENEFCIOS ....................................................................... 45
4.3 MODELO OPEN SOURCE .......................................................................................... 47
4.3.1 Ferramenta CloverETL ............................................................................................... 48
4.3.2 Ferramenta TALEND ................................................................................................. 51
4.3.3 Ferramenta KETTLE (PENTAHO)............................................................................. 54
5 Estudo de caso: empresa de pequeno Porte ...................................................................... 57
5.1 ANLISE DE REQUISITOS E DESENVOLVIMENTO DA MATRIZ DO
PROCESSO DE NEGCIO................................................................................................. 58
5.2 DEFINIO DO MODELO DIMENSIONAL ............................................................ 60
5.3 EXTRAO DOS DADOS, MOVIMENTAO PARA STAGING AREA .............. 62
5.4 NECESSIDADES DE TRANSFORMAO, DIMENSO E FATO ........................ 66
5.5 PLANEJAMENTO DE CARGA DAS DIMENSES ................................................. 69
5.6 PLANEJAMENTO DE CARGA DA TABELA FATO ............................................... 72
5.7 NOTAS DO DESENVOLVIMENTO ........................................................................... 74
6 AVALIAO DAS FERRAMENTAS DE ETL ............................................................. 78
6.1 IDENTIFICAO DOS REQUISITOS ........................................................................ 78
6.2 AVALIAO DOS REQUISITOS .............................................................................. 79
6.2.1 Resumo das pontuaes ............................................................................................... 86
7 CONCLUSO ................................................................................................................... 89
REFERNCIAS: .................................................................................................................. 91
ANEXO 1 INFRA-ESTRUTURA UTILIZADA NA EXECUO DO LABORATRIO
.............................................................................................................................................. 94
ANEXO 2 LISTA DE CRITRIOS PARA AVALIAO DAS FERRAMENTAS ETL
.............................................................................................................................................. 95
ANEXO 3 ANLISE COMPLEMENTAR DOS CRITRIOS RELEVANTES .......... 105
1 INTRODUO
12
Existe uma advertncia comum entre dois dos principais gurus sobre data
warehouse, a exemplo de Ralf Kimball e Bill Inmon. Eles afirmam que a atividade de ETL
ocupa boa parte do tempo em projetos data warehouse, algo que varia entre 60% at 80%
do tempo total gasto em um projeto. E esse percentual pode se acentuar ou no se a opo
for pelo desenvolvimento manual do cdigo ou pelo uso de ferramentas especializadas em
ETL.
Vale observar que, quando a opo for por implementao manual de rotinas ETL, o
desenvolvedor poder encontrar possveis limitaes ou dificuldades em tarefas que vo
exigir do desenvolvedor um grande esforo de trabalho, alm de um tempo maior de
dedicao, assim como ficar mais suscetvel a ocorrncia de erros durante o
desenvolvimento do cdigo, consequentemente deixando de ganhar produtividade no
projeto e principalmente no garantindo a qualidade das informaes armazenadas para as
anlises dos gestores que podem levar a decises equivocadas, trazendo srios prejuzos
para as organizaes. Segundo Corey (2001), as principais dificuldades em uma
implementao manual esto no desenvolvimento de cdigo, nas funes de metadados
(detalhes no captulo 2.5.2.3), nas conexes com ambientes heterogneos, no prprio
gerenciamento do desenvolvimento, assim como na elaborao da documentao do
projeto.
Considerar a alternativa pelo uso de ferramentas de ETL frente ao desenvolvimento
manual algo importante, por tratar-se de um conjunto de recursos que apoia a construo
de um data warehouse. Essas ferramentas de ETL disponibilizam recursos, como: gerao
de metadados; conectividade nativa com os principais SGBD (Sistema Gerenciador de
Banco de Dados) dentre outros tipos de arquivos como XML, planilhas e TXT; funes
facilitadoras para transformao de dados; melhor aproveitamento para reutilizao de
cdigos; soluo para gerenciamento centralizado de projetos; facilidade no
desenvolvimento de cdigo atravs de diagramas; facilidade na elaborao da
documentao tcnica, entre outros.
Desta forma, possvel afirmar que h benefcios em utilizar uma ferramenta ETL
ante o desenvolvimento manual, salvo necessidades muito especficas em que s
ferramentas ETL no atendem de forma esperada. Segundo Corey (2001, p. 226) bons
programadores podem escrever bons processos de ETL. E geralmente podem fazer melhor
13
do que qualquer ferramenta ETL, porm Corey (2001, p. 226) ainda complementa dizendo
uma ferramenta ETL rene dados sobre os processos de ETL, os torna reutilizveis,
mais fcil de gerenciar e transferir conhecimento
Como bem coloca Corey (2001), no impossvel desenvolver um data warehouse
sem utilizar ferramentas de ETL, entretanto a utilizao deste recurso trar, alm dos
benefcios j citados, a qualidade como um todo para o projeto. Atualmente, o mercado
dispe de uma enorme variedade de ferramentas de ETL com recursos e caractersticas bem
diversificadas. Na perspectiva das empresas de pequeno e mdio porte, s quais possuem
uma capacidade de investimento em ferramental tecnolgico limitada, as ferramentas ETL
open source configuram-se como uma alternativa interessante, pois o licenciamento e os
upgrades (atualizaes) so gratuitos.
Outro fator que confirma a possibilidade de utilizao das ferramentas ETL open
source que as principais funcionalidades existentes nos software proprietrios j esto
disponveis na verso de cdigo aberto. Com isso, o padro oferecido pelas ferramentas de
ETL atendem satisfatoriamente as necessidades para esse porte de organizaes.
Tambm h evidncias sobre o grau de maturidade do modelo open source para
ferramentas de ETL com crescente aderncia at entre as organizaes mais
regulamentadas. Isso mostra que apresenta nveis confiveis de execuo. Segundo o artigo
publicado pela COMPUTERWORD (2010), metade de um universo de 300 organizaes
pesquisadas de grande porte j est comprometida com solues de cdigo aberto e outros
28% j realizaram testes ou empregam esse tipo de software em servios mais especficos.
A pesquisa intitulada Viso Geral do Mercado: Ferramentas ETL Open Source
realizada pela Forrester Research (2007) relata a existncia de dezenas de projetos de
cdigo aberto que realizam uma ou mais funes de ETL. Contudo, pondera que apenas
algumas destas solues oferecem um conjunto mais completo de recursos e dentre as que
se encaixam dentre as mais completas solues open-source destacam-se o Kettle e Talend.
De acordo com a pesquisa, as caractersticas tcnicas desses projetos tm muito mais
semelhanas do que diferenas. Alm disso, suas estratgias de mercado representam o
grosso de sua diferenciao em relao s demais solues open-source.
A identificao das ferramentas citadas como as mais importantes atualmente no
universo de ferramentas ETL open-source expe a necessidade de uma avaliao mais
14
aprofundada no tocante s funcionalidades e caractersticas destas solues. Esta questo se
configura como motivador para avaliao do emprego destas ferramentas em um estudo de
caso prtico em uma empresa de pequeno porte, o que permitiu a definio da soluo que
melhor se adequou ao contexto de avaliao.
1.1 OBJETIVO
1.2 MOTIVAO
15
foi destacar a importncia merecida etapa de ETL quase sempre renegada a segundo
plano nos projetos de BI, que bem lembrada por Gonalves (2003, p. 4) quando diz:
Os fornecedores de software que atuam nesta rea preocupam-se em desenvolver
as ferramentas finais para os usurios, mas esquecem de tratar a questo da
integrao de dados, um requisito para o data warehouse e algo que somente as
ferramentas ETL podem atender.
1.3 METODOLOGIA
16
O primeiro captulo faz uma breve introduo sobre o cenrio atual das empresas,
tambm procurando demonstrar o objetivo, a metodologia e motivao do contedo
abordado neste trabalho.
No segundo captulo, so descritos os conceitos bsicos, a arquitetura, elementos e
fundamentos sobre data warehouse.
No terceiro captulo, so definidos os conceitos sobre ETL, sua abrangncia e as
etapas.
O quarto captulo mostra o que e o que faz uma ferramenta ETL, assim como uma
breve referncia sobre as ferramentas CloverETL, Talend e Kettle/Pentaho.
No quinto captulo, apresentado o desenvolvimento do estudo de caso de um data
mart para uma empresa de pequeno porte.
No sexto captulo, est registrada a avaliao das ferramentas ETL open-source alvo
do trabalho com a classificao e pontuao dos requisitos para o desenvolvimento do
estudo de caso.
O stimo captulo finaliza com a concluso dos resultados obtidos e sugestes para
trabalhos futuros.
Trs anexos fazem parte deste trabalho, onde o primeiro descreve a infra-estrutura
utilizada no estudo de caso; o segundo traz uma lista de critrios importantes para avaliao
das ferramentas ETL que serviu como base para o foco do trabalho que a avaliao de
ferramentas ETL open-source voltada para projetos de DW em empresas de pequeno porte;
e o terceiro apresenta uma anlise complementar dos critrios relevantes aplicados no
estudo de caso.
17
2 DATA WAREHOUSE
18
permitir que os prprios analistas de negcio produzam modelos do tipo ad-hoc, ou seja,
sob demanda (COREY, 2001).
De acordo com Gonalves (2003), o DW pode ser considerado como a separao
fsica entre os sistemas de dados operacionais (aplicativos que controlam as funes crticas
do negcio da empresa) e os sistemas de suporte deciso de uma empresa. Esse conceito
define bem os elementos da arquitetura fsica, como ilustra a figura 1, o modelo de
ambiente data warehouse.
19
dispersos, falta de integrao com outras bases de dados, o formato no adequado para
favorecer consultas a um grande volume de dados, ausncia de estrutura para uma viso
unificada dos dados entre outros. Esses problemas tornaram-se um grande desafio para as
organizaes e foi para atender a essa demanda que surgiu os data warehouse
(GONALVES, 2003).
Segundo Corey (2001 apud INMON, 1997, p.12), para um data warehouse
necessrio atender as seguintes propriedades:
. Orientado ao assunto: Refere-se ao formato da organizao das informaes de
modo a facilitar as consultas, ou seja, os dados sero agrupados por assunto dos
negcios da empresa, por exemplo: vendas, compras, produo, RH e etc.
. Integrado: O data warehouse tem a funo de armazenar os dados em um nico
ambiente, integrando dados de diversas fontes, arquivos XML, entre outros. No
entanto, para a real integrao, necessrio adotar alguns cuidados antecipadamente
ao armazenamento no data warehouse.
. No voltil: Alm de garantir a durabilidade das informaes no tempo, essa
propriedade tambm garante que os usurios somente tero acesso ao data
warehouse com a possibilidade de somente leitura. Isso no significa que no
haver atualizao dos dados, mas ocorrer atravs de novas cargas de dados e, uma
vez carregado, no mais poder ser apagado. Diferentemente dos ambientes
transacionais OLTP, por intermdio das aplicaes, os usurios podem executar:
incluso, alterao, excluso e consulta dos dados.
. Variante no tempo: Sem o elemento tempo, o data warehouse no teria muito
sentido. O registro dos histricos das atualizaes permite ao usurio conhecer qual
era o estado de um determinado dado aps uma atualizao, uma vez que as novas
entradas sempre sero mapeadas em um novo registro, ou seja, os dados contidos
referem-se a algum momento de tempo especfico. Para isso, os registros, quando
carregados, recebem um atributo da unidade de tempo e nunca mais so atualizados.
essa caracterstica que possibilita os analistas de negcios fazerem anlises de
tendncias e visualizarem as variaes das informaes ao longo do tempo. E a
20
maior justificativa para os grandes volumes de dados dos data warehouse
exatamente a necessidade de manter os registros de histricos por tempo a fio.
21
carga para o DW seja de uma nica fonte. Inicialmente essa rea de armazenamento era
temporria. Com a evoluo do ambiente, outras finalidades surgiram tornando esses dados
permanentes, e teis para anlises e metadados. A figura 2 exemplifica o elemento staging
area em um ambiente do data warehouse.
Dois modelos podem ser adotados em uma estratgia de staging area, ou seja, de
acordo com a localizao fsica pode ser:
1) Local - quando a staging area est dentro do mesmo servidor OLTP; ou
2) Remoto quanto localizada no mesmo ambiente do data warehouse, ou em seu
prprio ambiente em um servidor independente.
Recomenda-se cuidado na configurao da staging area no modelo local, pois pode
afetar o desempenho do ambiente transacional.
22
2.3.2 Data Mart
23
2.3.2.2 Arquitetura Integrada (ou Dependente)
24
transacional OLTP, formatao e limpeza dos dados devam ser analisados antes de iniciar
a implementao. Desta forma, o modelo favorece a arquitetura de integrada dos data mart,
pois os dados para alimentar os data mart tero sua origem no data warehouse
(MACHADO, 2008). No entanto, existem vantagens e desvantagens em cada modelo,
como pode ser observado na tabela a seguir algumas caractersticas do modelo Top Down.
A figura a seguir demonstra o modelo da implementao top down para um data mart
dependente.
25
Ao contrrio da implementao top down, a botton up tem sua implementao mais
facilitada, porque no necessita do grande tempo requerido no levantamento de requisitos.
Deste modo, permite o desenvolvimento departamentalizado sem se preocupar com a viso
geral da empresa, mas com o propsito de desenvolvimento incremental do data warehouse
a partir dos data mart independentes. Assim sendo, o maior problema deste modelo a
padronizao na modelagem dimensional e no padro metadados, podendo ocorrer
redundncia de dados e inconsistncia entre os data mart. Na tabela 2 pode ser visto as
principais vantagens e desvantagens do modelo botton-up.
26
A figura seguinte ilustra o modelo da implementao botton up para um data mart
independente.
27
2.5 ETAPAS DA IMPLANTAO DO PROJETO
2.5.1 Modelagem
1
Ad-hoc a capacidade um produto oferece ...
2
a juno ou relacionamento entre de uma ou mais tabelas de um banco de dados.
28
A modelagem multidimensional tem o objetivo de sumarizar, reestruturar e oferecer
uma visualizao dos dados comuns do negcio que forma priorizar o suporte s consultas
analticas. Para tanto, emprega trs elementos bsicos:
- FATOS: consiste em um conjunto de dados que contm mtricas que representam
uma transao ou evento de negcio. A particularidade do fato que seu contedo
representado por valores numricos agrupados em tabela denominada de fato.
- DIMENSES: as dimenses que proporcionam as formas de visualizar os
eventos do negcio, ou seja, os fatos. A caracterstica da dimenso determinar o contexto
dos assuntos do negcio, por isso o contedo de seus atributos no numrico, e sim
contedos descritivos que classificam os elementos do fato. Exemplos de dimenses:
Cliente, Produto, Fornecedor e Tempo.
- MEDIDAS: as medidas so os atributos numricos de um fato. Para Machado
(2008), o elemento que permite demonstrar o desempenho de um indicador de negcios
relativo s dimenses de compem um fato. Exemplos de medidas so: quantidade vendida,
valor faturado, quantidade devolvida, margem bruta e custo da venda.
29
A seguir sero apresentadas as principais tcnicas de modelagem e suas
caractersticas.
2.5.1.2.1 Snowflake
30
2.5.1.2.2 Star Schema
31
2.5.1.3 Granularidade
32
2.5.2 ETL
33
Para Corey (2001), determinar qual mtodo deve-se aplicar exige um dilogo com
os modeladores e analista sobre a natureza dos dados na origem e no destino.
Antes de detalhar as estratgias de carregamento, para um melhor entendimento
importante conceituar a funo das chaves artificiais (alguns autores preferem chaves
substitutas) introduzidas nas dimenses em substituio a chave primria natural. Com a
finalidade de proporcionar maior flexibilidade na construo do data warehouse e,
principalmente, garantir maior agilidade de leitura dos dados pelas ferramentas de consulta
ou aplicaes OLAP. Uma vez que as chaves artificiais tm o formato numrico e
sequencial em substituio todos os campos de uma chave natural.
34
2.5.2.1.2 Estratgia: Dimenso que Muda Lentamente - Tipo-2
35
2.5.2.1.3 Estratgia: Dimenso que Muda Lentamente - Tipo-3
36
2.5.2.2 Estratgias de Carregamento da Tabela Fato
De modo geral, as tabelas fato de nvel bsico sempre acrescentam novos dados.
Comenta Corey (2001) que a natureza das tabelas de fatos deve ser tal que todos os novos
dados devem estimular eventos ou transaes exclusivos de suas extraes de sistema de
origem.. Os passos para o carregamento da tabela fato devem-se, primeiramente, associar
cada fato s suas respectivas chave de dimenso por meio da chave natural. Uma vez
verificada a integridade, recupera-se o valor da chave artificial para destino do registro do
fato (COREY, 2001). A figura 13 demonstra essa estratgia.
37
A carga inicial o primeiro desafio: como lidar com um volume imenso de dados
no menor tempo possvel? Uma recomendao apresentada por Kimball a boa gesto de
ndices, por exemplo: antes de carregar uma tabela fato, podem-se desabilitar todos os seus
ndices em um processo de pr-carga, para, depois, reconstruir os ndices assim que a carga
for completada em um processo de ps-carga. Os ndices so potencializadores de
rendimento no momento da consulta, mas eles matam o desempenho na carga de tabelas
que so fortemente indexadas (KIMBALL,2004, p.224).
O processo de atualizao da tabela fato outro desafio. Uma tcnica indicada por
Kimball (2004, p.228) a separao das operaes de inseres das atualizaes, mas
complementa, apenas separar essas operaes no basta, importante priorizar as
atualizaes e, em seguida, processar as inseres na tabela fato. Kimball tambm
adverte sobre a utilizao de comandos SQL nas operaes de inseres. Isso deve ser
evitado, uma vez que as ferramentas ETL possuem recursos para processamento de dados
em massa com balanceamento de carga por exemplo, oferecendo um desempenho mais
eficiente.
Outra questo abordada por Kimball (2004, p.228) quanto deciso para o tipo de
carga da tabela fato entre as opes: INSERO (limpeza e carregamento total); ou
INCREMENTAL (atualizao dos registros existentes e insero dos novos). Segundo
Kimball (2004, p. 228), devem ser evitadas as atualizaes em registros, pois isso demanda
enormes sobrecargas no SGDB, causadas pelo preenchimento do log rollback3, por isso, em
muitos casos, melhor excluir os registros que seriam atualizados e recarreg-los em
processamento de massa. Entretanto, o prprio Kimball (2004) adverte que, na escolha da
estratgia, deve-se levar em considerao a proporo de registros que esto sendo
atualizados versus o nmero de linhas existentes. Isso desenha um fator crucial na escolha
da tcnica ideal e, geralmente, necessitam ser complementados com a execuo de testes
para identificar cada situao em particular.
3
Recurso utilizados pelos gerenciadores de banco de dados para recuperao de registro em caso de falha.
38
Tambm a politica de correes dos registros na tabela fato deve estar alinhada com
a estratgia de carregamento da tabela fato. Para Kimball (2004, p.229), so trs as
possibilidades para corrigir um registro na tabela fato:
1 Negar o fato: Negar um erro implica na criao de uma duplicata exata do
registro errneo quando as medidas so resultado das medidas iniciais multiplicado por -1.
Dessa forma, as medidas negativas invertem o fato na tabela anulando o registro original.
Muitas razes existem para negar um erro ao invs de usar outras abordagens para corrigir
dados de fato, a principal para fins de auditoria. Outra razo o melhor desempenho, uma
vez que evita atualizaes de registros.
2 Atualizar o fato: Implica em atualizar a informao no prprio o registro
(UPDATE), lembrando que atualizaes em tabelas fato pode ser um esforo de
processamento intensivo, uma vez que a maioria dos sistemas de gerenciamento de banco
de dados, para esse tipo de transao, aciona um log rollback e isso reduz o desempenho da
carga.
3 Apagar e recarregar o fato: Para Kimball(2004), a maioria dos arquitetos ETL
concorda que a excluso de erros a melhor soluo para corrigir os dados em suas tabelas
fato. Uma desvantagem discutvel sobre as verses atuais dos relatrios. Quando
comparados com os que foram gerados anteriormente, eles no vo reconciliar. Por outro
lado, se se aceita que est mudando os dados, em qualquer das polticas utilizada para
atingir o objetivo da correo, a maioria dos relatrios existentes no consideram a
alterao de dados uma coisa ruim, desde que a verso atual represente a verdade.
2.5.2.3 Metadados
Para Gonalves (2003), o metadados est para o data warehouse como o catlogo
de livros est para uma biblioteca. A funo deste artefato de documentar informaes
tanto de sistema como de usurio. Machado (2008) define os metadados como dados de
nvel mais alto que representam os dados de nveis inferiores que compem a estrutura do
data warehouse.
39
Esses dados tm o papel de identificar a origem dos dados que mantm o data
warehouse e se estende a toda documentao produzida durante o projeto, desde material
originado nas entrevistas com usurios at as documentaes dos artefatos do sistema,
como por exemplo, modelo de dados, especificao dos arquivos (chaves e atributos),
histrico de extraes, controle de acesso, entre outras informaes. Por ter estas
caractersticas de implementao, os metadados podem ser classificados em dois grupos: os
metadados tcnicos, utilizados pelos desenvolvedores e analistas, e os metadados de
negcio, empregados pelos executivos e analistas de negcios.
Os metadados tcnicos tm a funo de fornecer segurana aos usurios tcnicos
(desenvolvedores e administradores de banco de dados), e a certeza de que os dados esto
vlidos. Estes dados so crticos para a manuteno e a evoluo do sistema. J os
metadados de negcio, como o prprio nome diz, so o elo entre o data warehouse e os
usurios de negcio (executivos e analista de negcio) e tm a finalidade de demonstrar a
origem dos dados no data warehouse, regras de transformao que foram aplicadas,
confiabilidade e contexto dos dados (MACHADO, 2008). A figura 14 ilustra bem as
possveis origens do metadados.
40
2.5.3 ANLISE DE INFORMAES
Nesta etapa do projeto, est disponibilizado para os usurios finais todo potencial de
anlise dos dados que, normalmente, requer ferramentas especficas para o ambiente OLAP
(on-line analitycal processing) ou processamento analtico on-line, que trata das
informaes na esfera ttica e estratgica das organizaes. Da mesma forma que no
ambiente OLTP, tambm existem aplicaes que manuseiam os dados para o
processamento de informaes OLAP e exploram os dados de um data warehouse. Afirma
Corey (2001, p. 616) que O OLAP proporciona aos usurios a capacidade de ter idias
sobre os dados, que anteriormente eles no podiam conseguir atravs de modos de
visualizao rpida, coerente e fceis de usar e interativos para uma variedade de
informao. Para tanto, as caractersticas das consultas aos ambientes analticos
necessitam atender os seguintes requisitos bsicos:
- Proporcionar operaes que mostram as maiores ocorrncias, comparaes entre
perodos, variaes em percentual, mdias, somas ou valores acumulados, entre outras
funes matemticas e estatsticas;
- Permitir descoberta de tendncias e cenrios;
- Outras anlises multidimensionais, tais como: slice e dice (que so formas de
mudana da visualizao das dimenses), drill down e roll up (que determina a maneira de
navegao entre os nveis de detalhamento do dados), drill across (comando para pular um
nvel intermedirio dentro de uma mesma dimenso), pivot table (manipula o ngulo pelo
qual os dados so vistos, ou seja, troca de linha por coluna e vice-versa).
Segundo Machado (2008, p. 86) As ferramentas OLAP so as aplicaes s quais
os usurios finais tm acesso para extrair os dados de suas bases e construir os relatrios
capazes de responder s suas questes gerenciais.
41
3 ETL EXTRAO, TRANSFORMAO E CARGA DE DADOS
O objetivo deste captulo mostrar os conceitos bsicos sobre ETL, abordando seu
significado e sua importncia como fator crtico na construo de um projeto para data
warehouse ou BI e o que precisa ser feito para consolidar os dados para atender a
inteligncia empresarial, demonstrando as necessidades de cada uma de suas etapas e seu
funcionamento.
Segundo Corey (2001), ferramentas certas devem fazer parte de um projeto de DW,
assim como um gerenciamento central dar apoio nas tarefas de movimentao de dados e,
preparando uma boa arquitetura de ETL, vai possibilitar uma melhor implementao do
projeto.
Logo aps as etapas de levantamento das necessidades de informaes, requisitos
do projeto e definio da modelagem dos dados a serem apresentados no data warehouse, o
passo seguinte identificar a origem dos dados, local onde so processados nos sistemas
transacionais da organizao. Desta forma, inicia-se a etapa de ETL que uma das mais
crticas no projeto de data warehouse, pois a etapa que envolve a movimentao de dados
entre os ambientes transacionais e o ambiente de consulta analtica.
O grau de dificuldade, na integrao dos dados entre estes ambientes OLTP e DW
- depende diretamente de como ser o cenrio a enfrentar nos sistemas de origem, que
podem estar armazenados em esquemas comuns (homogneos) ou em estruturas diferentes
(heterogneas); em um banco de dados comum ou com os dados espalhados por diferentes
bancos. Quanto localizao geogrfica dos dados pode estar dispersos ou centralizada em
um nico local, assim como as caractersticas de plataformas de hardware e sistemas
operacionais iro influenciar na complexidade do projeto.
Certamente uma implementao inconsistente ou equivocada no processo ETL
tornar as informaes armazenadas no DW no confiveis para uma tomada de deciso.
42
Aliado s questes tcnicas, no podemos esquecer quais so os limites de recursos
financeiros destinados ao projeto para que no ocorram surpresas com falta de recursos
depois de j iniciado o desenvolvimento, portanto um bom planejamento do cronograma
financeiro essencial para o projeto (COREY, 2001).
43
definio de tipos de dados ou ainda dados cadastrados de forma duplicada, para que a falta
de padronizao do ambiente transacional no venha a comprometer a qualidade das
informaes no ambiente do DW.
Um exemplo clssico de falta de padronizao de dados so as diversas formas de
representar o atributo sexo e, para resolver esse problema, preciso criar uma regra para
harmonizar a informao, conforme ilustrado no quadro abaixo:
44
4 FERRAMENTAS DE ETL
Neste captulo, descreve-se o que e o que faz uma ferramenta ETL, suas
caractersticas e benefcios, assim como as ferramentas de ETL que so objeto deste
trabalho, segundo a perspectiva de seus fabricantes como soluo de extrao,
transformao e carga de dados para um data warehouse.
4.1 CONCEITO
45
Algumas das principais caractersticas so: ter conectividade com os principais
bancos de dados, com arquivos planos e planilhas; suportar as principais plataformas de
hardware e sistemas operacionais; possuir recurso de depurao como breakpoint e
execuo passo-a-passo; componentes para manipulao de string (agregar, desagregar,
limpar), funes matemticas, execuo de scripts com insero de cdigos pelo
desenvolvedor sendo SQL, Java, Perl ou, at mesmo, linguagem proprietria como o caso
do CloverETL; administrao e gerenciamento do projeto; e uma boa interface grfica e
intuitiva.
Os fabricantes pesquisados (CLOVERETL, 2011), (PENTAHO; KETTLE, 2011) e
(TALEND, 2011), descrevem como as ferramentas de ETL podem beneficiar frente ao
desenvolvimento manual:
Implementando rotinas de Extraes e Cargas: Desenvolver conectores para
extrao e carga de dados com uma ferramenta de ETL muito mais simples e
rpido do que desenvolver manualmente, uma vez que codificar os drives de
conexo com bancos de dados exige especialistas com conhecimentos bem
especficos.
Na manuteno de Extraes e Cargas: As tarefas de manuteno, mesmo que
por outras equipes, so mais fceis de realizar em relao manuteno em
rotinas desenvolvidas por cdigo.
No desempenho: Em geral, as ferramentas de ETL empregam mtodos mais
performticos, principalmente quando o processamento envolve grandes
volumes de dados.
Em processamento paralelo: Normalmente as ferramentas de ETL tm recursos
nativos de paralelizao e de fcil implementao.
Na escalabilidade: Com as ferramentas de ETL mais fcil aplicar upgrade,
distribuir ou balancear a carga do processamento entre vrios servidores.
Na transparncia dos conectores: Alterao ou o surgimento de nova conexo de
fontes de dados com uma ferramenta de ETL fica totalmente transparente para o
restante do fluxo.
Em reuso de funes: As ferramentas de ETL facilitam a reusabilidade de
funes no decorrer do desenvolvimento do projeto (isso no copiar-colar).
46
Com re-inicializao de processamento: Com as ferramentas de ETL, possvel
retomar a execuo de carga a partir do ponto de para.
Na permanncia de metadados: As ferramentas mantm disponveis os
metadados gerados, facilitando identificar dados no ntegros ao final do
processo.
Com documentao facilitada: As ferramentas de ETL possuem recursos para
gerar documentao automaticamente.
47
considerando um produto para uma atividade que exige alto desempenho e escalabilidade,
deve ser extremamente minuciosa em seu teste de alta disponibilidade e suporte a failover4;
- Desenvolvimento Colaborativo: Um benefcio significativo para trabalho em equipe
a capacidade de gerenciar um grande nmero de desenvolvedores, arquitetos,
modeladores, programadores e administradores de dados, assim como compartilhar os
metadados, mapeamento e reutilizao de objetos dentro de projetos complexos.
- Transformao complexa: Funcionalidades e assistentes para transformaes
robustas, para projetos que exigem gerenciar um grande volume de regras complexas.
- Carga em tempo real: a capacidade de identificar e capturar dados acrescentados,
apagados ou atualizados em uma base e entreg-los, em tempo real, ao data warehouse,
garantindo informaes confiveis e imediatas para decises de negcios, ou seja,
informaes de qualidade em tempo real.
4
Failover consiste na capacidade de um processo ser assumido por outro servio automaticamente quando
ocorrer uma interrupo por falha.
48
escrito em um ou mais destinos. A figura 15 mostra um exemplo do fluxo de modelagem de
dados com alguns componentes.
49
Contudo, aps uma avaliao minuciosa da documentao disponibilizada pelo
prprio fabricante da ferramenta CloverETL (2011), foi constatado que a verso community
(ou open source) possui algumas restries que impactaram no desenvolvimento do estudo
de caso proposto neste trabalho, dentro do propsito de no ter que utilizar cdigo
(linguagem de programao ou scripts) para compensar a deficincia ou a falta de qualquer
componente. Dentre as restries da verso do CloverETL Community, os principais
componentes so (CLOVERETL, 2011):
50
imprescindvel na carga das dimenses tipo 1, 2 e 3 (lista completa dos critrios para
avaliao disponvel no ANEXO 2).
Segundo a Talend (2011), a ferramenta Talend Open Studio uma soluo verstil
para integrao de dados. Este produto pode melhorar significativamente a eficincia de
projetos no trabalho com movimentao de dados tambm disponibiliza um ambiente de
desenvolvimento grfico e fcil de usar. Possui suporte para a maioria dos tipos de fonte de
dados alm de vrios componentes para integrao, migrao e operaes de sincronizao
de dados.
Com uma comunidade forte e atuante de usurios que oferecem testes e retorno
contnuo, a Talend uma das maiores companhias de desenvolvedores de software de
cdigo aberto, oferecendo uma gama de solues de middleware5 que abordam as
necessidades de gerenciamento de dados e integrao de aplicaes. Em pouco tempo, a
Talend tornou-se umas das lderes reconhecidas no mercado open source de gerenciamento
de dados. A aquisio em 2010 da empresa Sopera lhe colocou no posto de lder em
integrao de aplicativos de cdigo aberto, o que tem reforado a evidncia da Talend neste
mercado.
Muitas das grandes organizaes ao redor do mundo vm utilizando os produtos e
servios da Talend para otimizar os custos de integrao de dados, na melhoria da
qualidade de dados Master Data Management6 (MDM) e na integrao de aplicaes. Com
um nmero crescente de downloads de produtos e clientes pagantes, a Talend oferece as
5
Middleware, tambm conhecido como mediador, uma camada de software posicionada entre o cdigo das
aplicaes e a infra-estrutura de execuo.
6
MDM Gerenciamento de Dados Mestres, uma das tecnologias para solues de integrao de dados, com o
objetivo de gerenciar mltiplos domnios de dados em um sistema nico, hierarquizando de forma complexa
as informaes. A necessidade deste tipo de soluo surge do fato de contarmos com muitas cpias da mesma
informao, espalhadas por diversas reas da organizao. Outro ponto em comum entre as solues MDM
a capacidade de lidar com os problemas causados por dados imprecisos, incompletos, inconsistentes e
duplicados. O aperfeioamento dos Dados Mestres est diretamente ligado ao aumento da eficincia
operacional (B2B MAGAZINE, 2011, p. 1).
51
solues mais utilizadas de gerenciamento de dados com boa presena no mundo
(TALEND, 2011).
A Talend (2011) refere-se ao seu produto como uma viso completamente nova que
se reflete na forma como utiliza a tecnologia, bem como no seu modelo de negcio. A
empresa quebra o modelo tradicional de propriedade, fornecendo solues de software
aberto, inovador e poderoso com a flexibilidade para atender a gesto de dados e integrao
de aplicaes s necessidades de todos os tipos de organizaes.
Pela primeira vez uma companhia de cdigo aberto aparece no Quadrante Mgico
7
do Gartner na categoria de Integrao de dados em 2009 e 2010 e, em 2011, como
Qualidade de dados. A Talend faz sua entrada no quadrante como visionria baseada
na sua viso global e capacidade de execuo. Veja o grfico a seguir.
7
Para uma empresa ser includa no Quadrante Mgico, precisa ter em seu portflio de tecnologia com todas
as capacidades que o Gartner considera mais importante no conjunto de todas as capacidades que so
esperados a partir das ferramentas de integrao de dados e/ou de qualidade de dados.
52
Uma ferramenta com caractersticas para o tratamento da Qualidade dos dados
fornece vasta funcionalidade, tais como anlise, combinao, limpeza, normalizao, dados
duplicados, entre outros.
O Talend Open Studio uma ferramenta desenvolvida em Java baseada em
arquitetura modular formada por: Gerenciador grfico de negcios, Gerenciador grfico de
processo ETL, Gerenciador de metadados, Repositrio de processos (apenas na verso
comercial), Interface web services8 e Monitor de Processos. Usando a API do sistema
podem ser desenvolvidos novos componentes personalizados pelo usurio.
O gerenciador grfico de processos ETL executado dentro do ambiente Eclipse,
por isso um sistema gerador de cdigo, responsvel pela execuo dos processos ETL,
ou seja, o Talend no requer um servidor de execuo de processos ETL. A vantagem da
gerao de cdigo que mais simples integrar os processos ETL dentro de outros
aplicativos e os modelos so de portabilidade muito mais flexvel.
A figura 16 exemplifica o fluxo de um modelo de negcio na ferramenta Talend
Open Studio verso 4.1 (Talend, 2011).
8
Web Service uma soluo utilizada na integrao de sistemas e na comunicao entre aplicaes diferentes.
Permite s aplicaes enviar e receber dados em formato XML.
53
Em sistemas com mecanismo de gerao de cdigo, permite a integrao do
cdigo gerado dentro de outras solues, alm de ter maior portabilidade. Produtos como
SpagoBI9, Ingres10, Teradata11 e JasperSoft12 so exemplos de uso do Talend integrado
como seu componente ETL padronizado.
O Talend Open Studio foi disponibilizado no mercado em 2005 pela empresa
Talend com sede na Frana, pas com uma forte poltica de apoio a Software Livre e cdigo
aberto. Analistas de TI como Forrester Research13, IDC14 e Bloor Research15 colocam o
Talend como o melhor sistema open source para atender necessidades de integrao de
dados.
9
SpagoBI Studio um ambiente para desenvolvimento OLAP.
10
Ingres provedor de solues para gerenciamento e integrao de dados e BI.
11
Teradata Inteligncia em otimizao de negcios em minerao de dados e BI.
12
Jaspersoft OLAP um ambiente (software) de anlise de dados.
13
Forrester Research uma empresa de pesquisa tecnolgica e de mercado que fornece conselhos
pragmticos lderes mundiais em tecnologia e negcios.
14
International Data Corporation (IDC) a principal provedora global de inteligncia de mercado, servios
de consultoria e eventos para a tecnologia, telecomunicaes, tecnologia da informao e dos mercados
consumidores.
15
Bloor Research uma das principais organizaes independente de pesquisa em tecnologia da Europa.
16
Processo de criao em metadados: Camada fsica, camada de negcios e camada de visualizao.
54
Assim, Kettle um conjunto de ferramentas e aplicativos que permite manipulaes
de dados atravs de mltiplas fontes. Abaixo so descritos os principais componentes do
Pentaho Data Integration PDI (PENTAHO, 2011):
5. Carte - um servidor web que permite o monitoramento remoto dos processos ETL
atravs de um navegador web.
55
Segundo a Pentaho (2011), o PDI/Kettle fcil de usar e todo processo criado
com uma ferramenta grfica onde voc especifica o que fazer sem escrever cdigo para
indicar como faz-lo; por isso pode-se dizer que o PDI/Kettle orientado por metadados. A
figura 17 demonstra um modelo de fluxo de processo no Kettle.
As principais fontes de dados e bases de dados em Kettle ETL so: Qualquer banco
de dados usando ODBC no Windows; Oracle; MySQL; AS/400; MS Access; MS SQL
Server; IBM DB2; PostgreSQL; Intersystems Cach; Informix; Sybase; dBase; SQL
Firebird; MaxDB (SAP DB); Hypersonic; SAP R / 3 System (usando o plugin
ProSAPCONN).
56
5 ESTUDO DE CASO: EMPRESA DE PEQUENO PORTE
57
5- Planejamento de carga das dimenses;
6- Planejamento de carga da tabela fato;
7- Notas do desenvolvimento.
Corey (2001) sugere que, antes da fase de levantamento e anlise de requisitos, seja
feito um planejamento inicial. Neste documento, deve-se definir ao menos o patrocinador e
responsvel pelo projeto, tambm deve justificar a necessidade do DW, delimitar o escopo
e construir um plano de longo prazo para o desenvolvimento do projeto.
58
A seguir as tabelas 3 e 4 representam a Matriz de Processo de Negcio para o
projeto proposto.
Custo Produto
Vlr. Pis/Cofins
Estorno ICMS
Cred.ICMS ST
Estorno IPI
Vlr. ICMS
Vlr E.F.
Vlr. IPI
Dimenses do Negcio
Filial X X X X X X X X X X
Cliente X X X X X X X X X X
Produto X X X X X X X X X X
Vendedor Interno X X X X X X X X X X
Vendedor Externo X X X X X X X X X X
Transportador X X X X X X X X X X
Tempo (gro data) X X X X X X X X X X
Fonte: Autoria prpria (2011)
59
5.2 DEFINIO DO MODELO DIMENSIONAL
O modelo utilizado neste estudo de caso foi o Star Schema por tratar-se de um
modelo j consagrado e defendido pelos principais mentores em data warehouse como
Ralph Kimball e Inmon. E. Como bem coloca Corey (2001, p. 174) O esquema Star a
maneira mais popular de construir estruturas de dados data mart de alto desempenho em
um ambiente relacional.
60
A figura 18 demonstra a modelagem dos dados de acordo com o paradigma star
schema.
VAL_VENDA NOM_VENDEDOR_E
QTD_VENDA
VAL_MARGEM_CONTRIB
VAL_CUST_PRODUTO
DIM_TEMPO VAL_CUST_ICMS
SEQ_TEMPO DIM_TRANSPORTADOR
VAL_CUST_IPI
DATA SEQ_TRANSPORTADOR
VAL_CUST_PISCOFINS
DIA_SEMANA COD_TRANSPORTADOR
VAL_CUST_EF
DIA_MES NOM_TRANSPORTADOR
VAL_CUST_FRET_VEND
SEMANA_MES
VAL_CUST_EMBALAGEM
MES
VAL_CUST_EST_ICMS
NOM_MES
VAL_CUST_EST_IPI
TRIMESTRE
VAL_CRED_ICMS_ST
SEMESTRE
QTD_PRODUTOS
ANO
QTD_CLIENTE
61
A figura abaixo representa o modelo da fonte dos dados do ambiente transacional
extrado do banco de dados do ERP Protheus 10 da Totvs.
A extrao dos dados do ambiente transacional para o data warehouse foi realizada
em duas etapas: A primeira foi a movimentao apenas dos dados necessrios para um
ambiente intermedirio separado do ambiente transacional, ou seja, a staging area. E, com
o objetivo de preservar o desempenho do ambiente transacional, adotou-se o modelo da
staging area remoto, sendo que configurado para hospedar no mesmo ambiente do data
warehouse. Desta forma, na segunda etapa, a extrao foi simplificada, uma vez que os
dados j tinham sido filtrados durante a carga da staging area.
Para uma anlise justa na comparao entre as ferramentas de ETL, em todas as
ferramentas foram criados os mesmos projetos de nome StagingArea para desenvolver a
movimentao dos dados do ambiente transacional OLTP para uma staging area. Abaixo
est uma representao ilustrativa das configuraes para conexo com a fonte de origem
62
no banco de dados DADOSADVII no SQL Server 2005. A figura 20 mostra como
configurar uma conexo de fonte ou carga de dados na ferramenta Kettle/Pentaho.
63
Para estabelecer as conexes de input/output no Talend Open Studio, so
necessrias previamente configur-las, conforme os passos indicados abaixo.
Fonte: Talend
64
O processo de movimentao dos dados entre os ambientes transacional e a staging
area priorizou no extrair dos campos desnecessrios para o data warehouse, uma vez que
as tabelas do ERP Protheus10 so extremamente grandes, ou seja, muitas colunas
desnecessrias para o projeto. Com isso, alm de simplificar as tabelas outro benefcio o
ganho de tempo na janela de transferncia para staging area. Devido s caractersticas do
ambiente de porte mdio em volume de dados, as tabelas so sempre copiadas
integralmente em cada carga. Na sequncia, a ilustrao do mapeamento das tabelas para
movimentao de dados entre o ambiente transacional e a staging area, igualmente com as
duas ferramentas de ETL Kettle/Pentaho e Talend Open Studio.
A figura abaixo representa o fluxo de dados do ambiente OLTP para staging area
com a ferramenta Kettle/Pentaho.
A figura 25 representa o fluxo de dados do ambiente OLTP para staging area com a
ferramenta Talend.
65
Figura 25 - Movimentao de Dados para Staging Area no Talend
Abaixo a figura 26 ilustra o componente utilizado para uma juno das tabelas
Cliente <> Segmento, mas, com esse componente, tambm possvel agregar ou
desagregar um dado, implementar funes matemticas, modificar o tipo do campo, de
numrico para string e vice-versa, entre outros.
66
Figura 26 Componente tMap do Talend Open Studio Tabela Cliente
Com o mesmo componente tMap, tambm foi possvel utilizar recursos para
clculos matemticos, exemplo do campo Valor Margem de Contribuio durante a carga
da tabela fato. Conforme exemplifica a figura a seguir.
67
a figura 28 ilustra uma pesquisa do campo de descrio do segmento para desnormalizar
a tabela de Cliente.
68
5.5 PLANEJAMENTO DE CARGA DAS DIMENSES
Abaixo os exemplos para o resultado esperado nas tabelas de dimenses para cada
tipo de verso com o controle SCD de acordo com os conceitos desenvolvidos por
Kimball(2002):
69
definido como tipo 1, caso sofra alterao, ter seu histrico corrigido, pois considera-se
que o motivo da alterao foi para corrigir um erro de digitao:
70
A figura a seguir representa um exemplo de como o componente Dimension
Lookup/Update foi configurado. Observe que, na aba Field em destaque, o controle
Type of dimension update (tipo de atualizao da dimenso) onde se determina se vai
existir, caso existindo, define o tipo de controle da dimenso, sendo: Punch through para
tipo 1 e Insert para tipo 2.
71
Figura 31 Componente tPostgreSqlSCD do Talend SCD tipo 1, 2 e 3
72
Para a carga da tabela fato Vendas com a ferramenta ETL Talend Open Studio, o
principal componente utilizado foi o tMap, como j visto anteriormente na carga de
dimenso com recursos e na utilizao de clculos matemticos. Sendo um componente
muito verstil nos permitiu, tambm, aplic-lo na carga da tabela fato. A figura 33
exemplifica como o componente foi configurado para atender o objetivo de buscar nas
dimenses a chave substituta corretamente com destaque para o Construtor de expresso
que se comporta como um assistente para comparar as datas.
73
5.7 NOTAS DO DESENVOLVIMENTO
b) Na etapa de Extrao dos dados, movimentao para staging area, onde foram
criadas as conexes com os bancos de dados, utilizados componentes de Input/Output.
Embora nas ferramentas no houvesse dificuldades para criar as conexes com o banco de
dados e tambm atendesse nativamente os bancos de dados do projeto, entre eles o SQL
Server, Oracle, MS Sql Server e o PostgreSQL, tambm no houve necessidade de baixar
componentes extras ou fazer atualizaes. Alm disso, todas as ferramentas disponibilizam
o recurso para testar a conexo, entretanto vale ressaltar:
- Kettle: Possui uma interface intuitiva com destaque para um assistente que facilita o
passo-a-passo para criar uma nova conexo e disponibiliza um nmero significativo (35) de
drivers nativos para conexo com os bancos de dados.
74
Figura 35 Exemplo Facilidade para Criar Componentes a Partir de Conexes
75
d) Na operao de Transformao da Dimenso e fato, dada a simplicidade do
projeto e o fato de ter trabalhado com os dados de origem de uma nica fonte, no houve
exigncias destas funes. No geral, nas duas ferramentas pesquisadas, os componentes so
bem flexveis e permitem agregar vrios recursos em um mesmo componente:
- Talend: Como exemplo, temos o componente tMap do Talend Open Studio. Com ele
possvel integrar, transformar, unir tabelas, criar novos campos. Comprovou ser um
componente muito poderoso, incluindo um assistente para gerar frmulas.
- Kettle: Com essa ferramenta, optamos pelo componente Database Lookup, com a
funo mais especfica para pesquisas de dados, mas eficiente e flexvel o necessrio para
atender o seu propsito. Outras facilidades esto disponveis, como exemplo um assistente
para carga dos campos das tabelas, gerando cdigo SQL para corrigir a tabela de dimenso.
E, para completar essa fase, recorreu-se a outro componente, Calculator e, da mesma
forma, no houve dificuldades na sua aplicao.
- Kettle: Nesta ferramenta, apesar de no ser um fator critico, foi necessrio utilizar mais
de um componente para atender os trs tipos de alterao lenta da tabela de dimenso.
Contudo, no Kettle, a representao grfica para esse processo ficou mais limpa, por no
exigir componentes adereos para o fechamento do processo como um todo. Porm, um
detalhe muito importante que no pode passar despercebido a nota referente carga
inicial da tabela, onde exige-se que, na tabela, exista o primeiro registro com a chave
substituta 0 ou 1 e demais campos zerados ou em branco. Caso no exista, o Kettle vai
incluir esse registro, mas para isso necessrio que no exista campo com o tipo NOT
NULL, seno o processo ser abortado com erro de execuo.
76
- Talend: Nesta ferramenta foi mais fcil mapear os campos de acordo com as necessidades
de controle de alterao lenta nas tabelas de dimenso, no s porque todos os tipos de
alterao lenta (1, 2 e 3) esto concentrados num nico componente, mas tambm a
facilidade de arrastar e soltar os campos entre as caixas de controle. Entretanto, para
execuo deste recurso no painel grfico necessria a presena de mais dois componentes
tPostgreConnection e tPostgreCommit que funcionam como trigger (gatilhos), algo
que no deixa o processo muito intuitivo, pois a compreenso de sua aplicao exigiu um
estudo mais detalhado nos tutoriais e modelos com exemplos.
77
6 AVALIAO DAS FERRAMENTAS DE ETL
Desta forma, apenas o gerente do projeto capaz de saber das necessidades e ter o
conhecimento suficiente das necessidades do seu ambiente. Corey (2001) ainda
complementa dizendo que VOC pode ser sua prpria bala de prata para o projeto ETL.
Deste modo, a proposta apresentada aqui um modelo para apoiar na deciso de
uma escolha segura e mais adequada da ferramenta de ETL para um dado projeto de data
warehouse. Entretanto, o resultado apresentado neste trabalho, ou seja, a ferramenta de
ETL selecionada possivelmente ser a melhor opo apenas para o projeto proposto no
estudo de caso, podendo ser avaliada outra soluo em um contexto diferente. Contudo,
este fato no inviabiliza a metodologia (ou mtodo) que pode ser aplicada em outros
projetos de data warehouse.
78
COREY (2001) captulo 9 (Fundamentos de uma arquitetura ETL) de seu
livro Oracle 8i Data Warehouse;
79
processamento (SMP17 ou MPP18), suporte a Cluster19 e processamento em Grid20, quando
aplicveis, esto disponveis apenas nas verses comerciais destas ferramentas de ETL, o
que foge ao foco do trabalho.
17
Multi-processamento simtrico.
18
Processamento Paralelo Massivamente.
19
Agrupamento de recursos que fornecem ao sistema a iluso de um recurso nico,utilizado para
balanceamento de carga ou para alta disponibilidade.
20
Semelhante ao Cluster, Grid consiste em combinar o poder de processamento de vrios computadores
interligados em rede para conseguir executar tarefas que no seria possvel (ou pelo menos no com um
desempenho satisfatrio) executar utilizando um nico computador.
80
Posteriormente, foi aplicada uma nota entre 1 e 4, para cada critrio referente s
ferramentas de ETL alvo do trabalho, baseada na seguinte classificao:
1 Fraco
2 Regular
3 Bom
4 Excelente
81
A qualificao obrigatrio justifica-se pela importncia deste
recurso no projeto, sua principal aplicao foi na carga da tabela
fato.
2.8 Dimenses de alterao lenta: Ao contrrio da carga da tabela 2 2 4
fato, na carga das tabelas de dimenses, em ambas as ferramentas
exigiram um tempo maior de estudo. Podemos destacar a Talend
por possibilitar em um nico componente todos os tipos de SCD e
com a interface bastante intuitiva, com recursos arrastar-e-soltar.
J com o Kettle, o recurso est fragmentado em vrios
componentes, mas a maior dificuldade encontrada foi resolver
algumas notas de documentao que no poderiam passar
despercebidas, alm de no ter um componente especfico para o
tipo 3 de alterao lenta. A evidncia desta avaliao foi
demonstrado na figura 30 e nos captulos 5.5 e 5.7.
Recebeu a qualificao obrigatrio, uma vez que esse requisito
tem grande importncia para o projeto, por ser o responsvel pela
carga das tabelas de dimenses de alterao lenta.
2.10 Tratamento de erros no processamento: Apesar de no ter 1 3 3
utilizado essa funcionalidade no projeto, mas pode-se observar
que, no Kettle, existe em alguns componentes e funciona como um
filtro, destinando linhas com problemas para um step (caminho)
especfico e seguindo o fluxo da transformao apenas as linhas
saudveis, ou seja, linhas que no causaram nenhum erro na
execuo da transformao. De forma muito semelhante, o Talend
tambm trata as ocorrncias de erros durante o processamento,
podendo ser configurado no prprio componente caminhos
alternativos (SubJobs) ou utilizar um componente especfico para
tratamento de erro tDie.
Como no houve necessidade de utilizar o recurso no
desenvolvimento do estudo de caso, a classificao para esse
requisito ficou como desejvel.
2.11 Anlise de impacto: S encontramos o recurso de Anlise de 1 3 0
Impacto na ferramenta Kettle. Este gera um relatrio das etapas
da transformao que se utiliza de conexo com banco de dados,
fornecendo uma lista informaes como: as tabelas acessadas, tipo
de acesso se leitura ou gravao, o cdigo da query, entre outros.
No Talend, esse recurso s est disponvel nas verses pagas,
conforme documento Data Integration Features Comparison
Matrix (Talend, 2011).
82
A classificao para esse requisito como desejvel de no ter
sido um fator condicionante para o estudo de caso desenvolvido,
nem impeditivo para a concluso do projeto.
2.12 Dados linhagem: No Talend, ao modificar qualquer um dos 2 3 3
parmetros de uma entrada na exibio em rvore do repositrio,
todos os trabalhos usando esta entrada do repositrio ser afetado
pela modificao. Desta forma, a ferramenta solicitar que se
propaguem estas modificaes a todos os trabalhos que usam a
entrada no repositrio. De maneira semelhante no Kettle, ocorre a
propagao das modificaes e, nas duas ferramentas, possuem
recursos para exibir em cada passo do processo (componentes)
quais os atributos esto entrando e saindo.
O recurso foi um facilitador muito utilizado durante o
desenvolvimento do projeto, motivo pelo qual foi classificado
como obrigatrio.
2.13 Documentao automtica: A gerao de uma documentao 1 1 4
automtica, incluindo detalhes das configuraes da cada
componente foram encontrados apenas na ferramenta Talend. J
no Kettle foi verificada a possibilidade de exportar o projeto para o
formato XML e, a partir deste, gerar a documentao com
ferramentas de terceiros, contudo no to detalhada se comparado
com relatrio do Talend.
O recurso foi classificado como desejvel, pois a sua ausncia
no seria impeditivo para o trabalho.
83
3.2 WYSIWYG: Ambas as ferramentas dominam bem esse princpio 1 3 3
de Aquilo voc v o que voc obtm, evidentemente requer do
desenvolvedor um bom domnio das boas prticas de
desenvolvimento.
Idem item 3.1.
3.3 Design de tela: Tanto o Kettle quanto o Talend demonstram um 1 3 3
equilbrio na apresentao das telas.
Um bom design desejvel, pois no impede o desenvolvimento
trabalho.
3.5 Necessidade de Treinamento: Sim, fundamental a necessidade 2 2 2
de treinamento s assim o desenvolvedor ser capaz de usufruir de
maneira mais eficiente os recursos oferecidos por essas
ferramentas na sua totalidade.
A qualificao deste requisito como obrigatrio justifica-se por
entender que se houvesse um treinamento especializado nas
ferramentas testadas, antes de iniciar o projeto estudo de caso, o
tempo gasto com avaliao seria infinitamente menor e,
provavelmente, teria mais qualidade e seria mais abrangente.
3.6 Integralidade do GUI: Para o projeto proposto no estudo de caso 2 4 4
foi 100%.
Este item um dos pr-requisitos obrigatrios para aceitar a
ferramenta de ETL para avaliao. Ter todos seus componentes
integrados ao GUI (Graphical User Interface ou Interface
Grfica para o Usurio).
4 Reutilizao Peso K T
4.1 Reutilizao de componentes: Dentro do projeto foi pouco 2 3 4
explorado esse requisito, ficou mais visvel a reutilizao dos
metadados e conexes com banco de dados. Mas, essa facilidade
foi constatada nas duas ferramentas, tanto na reutilizao de
componentes como de Jobs. Contudo, no Talend, devido a sua
caracterstica de desenvolvimento por projetos, facilitou o
entendimento deste conceito.
A classificao deste requisito como obrigatrio deve-se a
importncia do recurso para garantir qualidade do cdigo e
padronizao no desenvolvimento, facilitando manutenes
corretivas e evolutivas nas rotinas ETL.
84
5 Depurao Peso K T
5.1 Execuo Passo-a-passo: Esse recurso foi pouco explorado, pois 2 2 3
julgamos que esse tipo de anlise exige uma experincia maior do
desenvolvedor. Contudo, pode-se observar que o debug no Talend
baseado no Eclipse. Com isso, pode-se seguir a linha de
execuo e ver o cdigo fonte, como se estivesse programando em
Eclipse. Tambm possvel incluir estatsticas de visualizao dos
dados ou tempos de resposta na execuo da ferramenta grfica. J
com o Kettle, o depurador mais simples, mas da mesma forma
exige uma boa experincia na interpretao das mensagens de erro.
As funes de depurao mereceram a qualificao de
obrigatrio, pois sem esses recursos seria quase impossvel
analisar e resolver os problemas durante o processo de
desenvolvimento.
5.3 Ponto de Parada (Breakpoints): As duas ferramentas 2 3 3
disponibilizam esse quesito, porm vale as mesmas observaes
do item 5.1.
Idem 5.1.
5.5 Compilador/Validador: O recurso para validao do grfico 1 3 0
antes da execuo s foi encontrado no Kettle; no Talend, o
recurso no foi encontrado.
O recurso de validao foi qualificado como desejvel, porque
no um impeditivo para o desenvolvimento do trabalho.
7 Conectividade Peso K T
7.1 Conexes nativas: tanto Kettle como Talend atenderam com 2 4 4
conectores nativos os bancos de dados utilizados no estudo de
caso, sendo eles SQL Server e PostgreSQL. Alm desses
conectores, ambas as ferramentas oferecem outras dezenas.
Ter conexo nativa com os principais bancos de dados uma
qualificao obrigatria, j que sem o recurso seria um
impeditivo para desenvolver o trabalho.
7.6 Plataformas: Tanto Kettle quanto Talend prometem 2 4 4
independncia de plataforma.
O produto ser compatvel com as principais plataformas utilizadas
atualmente (Windows e Linux) um item importante, por isso foi
classificado como obrigatrio.
85
9 Caractersticas Gerais Ferramenta ETL Peso K T
9.1 Verso: As verses Open Source disponibilizadas so to recentes 2 4 4
quanto s verses comerciais.
Esse requisito mostra a importncia que o fabricante d para a
verso Open Source, por isso foi classificada como obrigatria.
9.2 Motor Gerador de Cdigo: Uma das principais diferenas entre 1 4 4
as ferramentas Kettle e Talend o conceito de construo:
Talend um gerador de cdigo (Java ou Perl) e Kettle salva seus
procedimentos em XML que executado por um interpretador o
Pan. No que se refere ao estudo de caso, no houve diferena.
O conceito de construo relevante, porm desejvel, porque
no interfere em projetos de pequeno porte.
O resultado da soma das pontuaes coloca a ferramenta ETL Talend com uma
pequena vantagem. As maiores diferenas ficaram por conta dos requisitos: recurso de
versionamento; facilidade de uso do componente de carga das tabelas de dimenses com
alterao lenta; e documentao automtica, que so os maiores destaques na ferramenta
Talend.
86
Tabela 6 - Pontuaes por Item de Requisito
Nota Ponderada
Item Requisito Peso K T K T
1 Arquitetura e Escalabilidade 2 4
1.10 Controle de verso do sistema 1 2 4 2 4
2 Funcionalidades ETL 25 27
2.3 Unio. 2 4 3 8 6
2.8 Dimenses de alterao lenta. 2 2 4 4 8
2.10 Tratamento de erros no processamento 1 3 3 3 3
2.11 Anlise de impacto 1 3 0 3 0
2.12 Dados linhagem 2 3 3 6 6
2.13 Documentao automtica 1 1 4 1 4
3 Facilidade de uso 21 20
3.1 Facilidade de uso 1 3 2 3 2
3.2 WYSIWYG 1 3 3 3 3
3.3 Design de tela 1 3 3 3 3
3.5 Necessidade de Treinamento 2 2 2 4 4
3.6 Integralidade do GUI 2 4 4 8 8
4 Reutilizao 6 8
4.1 Reutilizao de componentes 2 3 4 6 8
5 Depurao 13 12
5.1 Execuo Passo-a-passo 2 2 3 4 6
5.3 Ponto de Parada (Breakpoints) 2 3 3 6 6
5.5 Compilador/Validador 1 3 0 3 0
6 Mecanismo de processamento 0 0
7 Conectividade 16 16
7.1 Conexes nativas 2 4 4 8 8
7.6 Plataformas 2 4 4 8 8
8 Garantia de Qualidade dos Dados 0 0
9 Caractersticas Gerais Ferramenta ETL 12 12
9.1 Verses Open Source disponibilizadas 2 4 4 8 8
9.2 Motor Gerador de Cdigo 1 4 4 4 4
NOTA GERAL 95 99
Fonte: Autoria prpria (2011).
87
Tabela 7 - Resumo das Pontuaes por Categoria de Requisitos
30
25
20
15
10
5 Kettle
0 Talend
88
7 CONCLUSO
89
Com isso, conclui-se que os objetivos esperados neste trabalho foram alcanados na
medida em que o mtodo conseguiu evidenciar, dentre um universo de ferramentas ETL
open-source, uma determinada ferramenta que melhor se adequou ao conjunto de requisitos
da empresa de pequeno porte utilizada no estudo de caso a partir dos resultados aferidos e,
alm disso, com uma perspectiva positiva de aderncia a outros cenrios de projetos de
Data Warehouse.
Durante o trabalho de pesquisa e desenvolvimento do estudo de caso, foram
identificados alguns pontos que se encaixam como implementao futura, sendo:
90
REFERNCIAS:
COREY, Michael et al. Oracle 8i Data Warehouse. Traduo de Joo Tortello. Rio de
Janeiro: Campus, 2001.
GARTNET. Magic Quadrant for Data Quality Tools, 28 July 2011, Ted Friedman,
Andreas Bitterer - Research Note G00214013.
Disponvel em: http://www.gartner.com/technology/reprints.do?id=1-
170DCRV&ct=110819&st=sb&mkt_tok=3RkMMJWWfF9wsRokvq3BZKXonjHpfsX56O
UkW6O%252BlMI/0ER3fOvrPUfGjI4ARctlI/qLAzICFpZo2FFMG%252ByQcoQ%253D
Acesso em: 30 ago. 2011.
GONALVES, Marcio. Extrao de Dados para Data Warehouse. Rio de Janeiro: Axel,
2003.
91
KETTLE-COOKBOOK, Auto-documentation tool for Kettle, a.k.a. Pentaho Data
Integration.
Disponvel em http://code.google.com/p/kettle-cookbook/. Acesso em: 15 set. 2011.
KIMBALL, Ralf. The Data Warehouse Toolkit: The Complete Guide do Dimensional
Modeling. 2 ed. USA: BrianSnapp, 2002. (Chapter 4 Procuremente p. 89-105)
KIMBALL R., CASERTA J., The Data Warehouse ETL Toolkit: Practical Techniques
for Extracting, Cleanin. USA: Wiley Publishing Inc., 2004 (Chapter 6 Delivering Fact
Table p. 209-253)
92
TALEND, Data Integration Features Comparison Matrix - Talend Open Studio vs
Talend Integration Suite Team, Professional, RTx, Enterprise & MPx editions.
Disponvel em: http://www.talend.com/products-data-integration/Talend-Data-Integration-
Features-Comparison-Matrix.pdf. Acesso em: 30 set. 2011.
93
ANEXO 1 INFRA-ESTRUTURA UTILIZADA NA EXECUO DO
LABORATRIO
94
ANEXO 2 LISTA DE CRITRIOS PARA AVALIAO DAS FERRAMENTAS
ETL
95
1.7 Particionamento: Requer particionamento que determina No
em que mquina ou processador os dados de um Recurso no requerido
determinado processo deve ser executado? no projeto.
96
2 Funcionalidade ETL Relevncia
2.1 Diviso dos fluxos de dados / alvos mltiplos: possvel No
ler a fonte de dados uma vez e carregar os resultados em No explorado pelo
duas ou mais tabelas? projeto
2.2 Diviso Condicional: O mesmo que alvos mltiplos mas No
condicional, por exemplo, se a receita for maior que 1000 No explorado pelo
colocar os resultados na tabela 1 em contrrio na tabela projeto
2.
2.3 Unio: Juno de linhas de diferentes tabelas em uma Sim
tabela de mesma estrutura. Recurso com forte
possibilidade de aplicao.
2.4 Pivoting (Transformando): possvel transformar No
trocando os dados de linhas para colunas e vice-versa. No explorado pelo
projeto
2.5 Pesquisas de chave na memria: Voc pode carregar No
uma tabela completamente na memria interna e No explorado pelo
pesquisar na tabela, sem necessidade de fazer joins? projeto
97
2.12 Dados linhagem: Existe facilidade em rastrear a origem Sim
de um atributo/informaes de um elemento (anlise do Recurso de apoio para o
impacto invertida) desenvolvimento com
possibilidade de aplicao
e de fcil avaliao
2.13 Documentao automtica: possvel documentar e Sim
publicar um processo/transformao automaticamente e Recurso de apoio na
consultar por um navegador? documentao
98
3.4 Compatibilidade de tarefas ETL / EAI (Integrao de No
Aplicaes de Negcios): A ferramenta de ETL elabora as Recurso no explorado
tarefas, na mesma sequncia, como um desenvolvedor
ETL?
4 Reutilizao Relevncia
4.1 Reutilizao de componentes: O modelo de Sim
desenvolvimento favorece a reutilizao de Relevante para aplicar
componentes, ou seja, chamada por parmetros (isto no padres de boas prticas
o mesmo que copiar-colar)? de desenvolvimento
99
4.4 Comentrios sobre a seleo de objetos: Pode-se fazer No
comentrios sobre a seleo de objetos, de tal forma que Recurso no explorado
esses comentrios estejam estreitamente relacionados. no projeto
5 Depurao Relevncia
5.1 Execuo Passo-a-passo: possvel executar o fluxo de Sim
processo passo-a-passo? Facilitador no
desenvolvimento
5.2 Execuo Linha por linha: possvel executar o processo No
de fluxo de linha por linha? Recurso no explorado
no projeto
5.3 Ponto de Parada (Breakpoints): Permite definir um ponto Sim
de interrupo em uma etapa do processo em particular Facilitador no
ou uma linha de dados? desenvolvimento
100
criptografia; recursos para detectar as mudanas dos dados nos sistemas de origem; se h
integrao de dados por demanda; e recursos para compactar os dados nas bases de origem.
101
7 Conectividade e Plataformas Relevncia
7.1 Conexes nativas: Quantas e quais so as conexes Sim
nativas suportado pela ferramenta de ETL? Recurso essencial para o
(ODBC, OLE DB e arquivos flat excludos) projeto
102
8 Garantia de Qualidade dos Dados Relevncia
103
9.1 Verso: Verso do produto em avaliao? Open Source Sim
Nota para documentar
9.2 Motor Gerador de Cdigo: A ferramenta fundamentada Sim
em um Motor-Base ou Gerador de Cdigo? Nota para documentar
104
ANEXO 3 ANLISE COMPLEMENTAR DOS CRITRIOS RELEVANTES
Neste anexo apresentamos uma anlise complementar dos principais critrios que
foram classificados como relevantes para o estudo de caso, no sentido de gerar evidncias
em relao aos resultados aferidos nos critrios de comparao das ferramentas Talend
Open Studio e Kettle/Pentaho. Para tanto, so ilustrados com as imagens de cada
ferramenta de ETL.
1 Arquitetura e Escalabilidade
1.10 Controle de verso do sistema
Neste quesito notou-se uma superioridade na ferramenta Talend, com recursos mais
apurados, possibilitando o gerenciamento de verso de cada Job dentro de um
projeto, alm de ser fcil utilizao. J no Kettle, no encontramos essa facilidade.
KETTLE
No Kettle, o gerenciamento de verso bem simples, controlado manualmente nas
propriedades do projeto/transformao. Tambm pode informar o estado da transformao
se est em desenvolvimento ou em produo. A figura a seguir ilustra a tela de controle de
verso no Kettle.
105
TALEND
Fonte:Talend (2011)
106
A figura 38 ilustra um exemplo para consulta de verso de um trabalho e, nas
figuras seguintes (39 e 40), a possibilidade de visualizar o histrico e controle de Status
do trabalho.
107
Figura 40 - Controle de Status das Verses de um Trabalho no Talend
2 Funcionalidade ETL
108
2.10 Tratamento de erros no processamento: Existe tratamento para erro no
processamento e possvel prever o percurso alternativo dentro do fluxo do
processo, quando surge um erro especfico?
Com o tratamento de erros nas ferramentas de ETL, possvel evitar que uma
grande transformao pare no meio por problema em uma nica linha, por exemplo.
KETTLE
109
TALEND
Diferente do Kettle, o Talend Open Studio possu uma famlia de componentes para
tratar de Logs e Erros. Este grupo de componentes se dedica a captura de informaes e
manipulao de erros. Como exemplo o tAssert que fornece mensagens de status para
outro componente o tAssertCatcher e gera um fluxo de dados para ser salvo em um
arquivo pr-definido. A ilustrao a seguir mostra um exemplo dos principais componentes
com o propsito de capturar e armazenar mensagens de log, tambm demonstra como as
propriedades dos componentes tLogCatcher, "tDie" e "tWarn" esto intimamente
relacionados ao componente tLogCatcher. Tambm evidencia porque esses componentes
fazem sentido quando usados em conjunto para que os dados de log encapsulados sejam
coletados e repassados para a sada definida.
110
tLogCatcher - O propsito operar como uma funo de log desencadeada por
um dos trs: Java Exception, tDie ou tWarn para coletar e transferir esses dados de
log.
tDie - A finalidade desencadear uma mensagem de log para o componente
"tLogCatcher", antes de abortar ou no o processamento.
2.11 Anlise de impacto: possvel fazer uma anlise do impacto das mudanas
propostas (quando um atributo ou tabela mudar)
KETTLE
TALEND
No Talend esse recurso s est disponvel nas verses pagas, conforme documento
Data Integration Features Comparison Matrix (Talend, 2011).
111
2.12 Dados linhagem: Existe facilidade em rastrear a origem de um
atributo/informaes de um elemento (anlise do impacto invertida)
KETTLE
112
Figura 45 - Relatrio de Rastreabilidade dos Atributos no Kettle
TALEND
113
A figura a seguir mostra o recurso que exibe em cada passo da transformao
(componentes) quais os atributos esto entrando e saindo. Com este recurso tambm
possvel interferir no fluxo dos dados, ou seja, mudar uma caracterstica do atributo, incluir
ou excluir um atributo.
KETTLE
114
Figura 48 - Relatrio de Documentao Automtica do Kettle
TALEND
115
O relatrio bem completo, conforme pode ser observado na ilustrao abaixo,
onde mostra um corte do modelo do relatrio exibido em HTML, so detalhados todos os
itens do Sumrio em destaque.
3 Facilidade de uso
116
4 Reutilizao
KETTLE
117
TALEND
5 Depurao
KETTLE
118
de habilitar as condies para pausar um processamento que est associado
configurao do breakepoint, (ver configurao abaixo no item 5.3). A figura seguinte
demonstra como o funcionamento da execuo passo-a-passo e o painel que possibilita o
acompanhamento de cada etapa de processamento conforme foi definido nas condies de
parada.
TALEND
119
Figura 54 - Modelo dos Painis de Depurao Passo-a-Passo no Talend
KETTLE
120
TALEND
KETTLE
121
exemplo do resultado de uma verificao, sendo que linhas com destaque em verde so
resultado dos testes com sucesso e, em vermelho, caso negativo. O boto View message
permite visualizar um relatrio com mais detalhes, mas no permite salvar.
TALEND
7 Conectividade
7.1 Conexes nativas: Quanto e quais so as conexes nativas suportadas pela
ferramenta de ETL?
(ODBC, OLE DB e arquivos flat excludos)
7.6 Plataformas: Quais plataformas possveis para executar a ferramenta de ETL?
122
9 Caractersticas Gerais Ferramenta ETL
9.1 Verso: Verso do produto em avaliao? Open Source
123