Sei sulla pagina 1di 6

X Congresso Brasileiro de Informtica em Sade

Data Warehouse para a Sade Pblica: Estudo de Caso SES-SP


Ricardo S. Santos1,4, Andr Luiz de Almeida2, Umberto Tachinardi2, Marco Antnio Gutierrez3
Departamento de Informtica em Sade (DIS) Universidade Federal de So Paulo (UNIFESP), Brasil 2 Secretaria de Estado da Sade de So Paulo 3 Servio de Informtica, Instituto do Corao (INCOR) Universidade de So Paulo (USP), Brasil 4 Compumdica Informtica Ltda. Resumo Projetos de Data Warehouses, destinados produo de informaes gerenciais e estratgicas, vm crescendo desde os anos 90. Muitos segmentos organizacionais, tais como o da sade, comeam a adotar esta tecnologia visando obter maior eficincia no planejamento e no gerenciamento de suas atividades. O objetivo deste trabalho mostrar a experincia obtida num projeto de Data Warehouse, desenvolvido na Secretaria de Estado de Sade de So Paulo, com o intuito de disponibilizar informao gerencial obtida atravs da integrao de dados provenientes de diversos sistemas de informao da sade pblica. O artigo apresenta estratgias, mtodos, tcnicas, ferramentas utilizadas, os principais desafios e dificuldades encontrados no projeto, e conclui mostrando os resultados obtidos at o estgio atual e os desafios futuros. O trabalho contribui evidenciando alguns problemas que podem ser evitados em projetos similares. Palavras-chave: Data Warehouse, Gesto da Sade, Sade Publica, OLAP, Banco de Dados, Informtica Mdica. Abstract The Data Warehouse projects for powered strategic decision-making information are increasing since the 90s. Many companies, including the public healthcare organizations, are adopting this technology to achieve greatly efficiency in the planning and management. This work show the experience obtained in a Data Warehouse project which was developed at Health Department in So Paulo (Brazil) to deploy strategic information through the integration of data proceeding from several isolated information health systems. The article presents strategies, methods, techniques, tools, main challenges and difficulties found in the project. Furthermore it ends up showing results gained up-to-date and future challenges. The paper contributes by evidencing some problems that can be avoided in similar projects. Key-words: Data Warehouse, Health Management, Public Health, OLAP, Databases, Medical Informatics.
1

1. Introduo As organizaes gestoras da sade pblica buscam, freqentemente, aumentar a eficincia na administrao de seus programas de gerenciamento da sade. Muitas iniciativas de sucesso, como as apresentadas em [2], [3] e [4], que foram obtidas atravs de solues de Data Warehouse incentivam a adoo desta tecnologia como um agente facilitador no aumento de qualidade na gesto da sade pblica. No contexto brasileiro, as secretarias de sade, estaduais e municipais, gerenciam um vasto e complexo nmero de unidades de atendimento, de profissionais e de programas de sade. Consequentemente, para controlarem suas atividades, interagem com diversos sistemas de 1
53

informaes que produzem uma quantidade volumosa de dados. Como o conjunto total dos dados existentes nas secretarias so produzidos por sistemas diferentes, a tarefa de integrao destes dados para produzir uma informao gerencial extremamente rdua. Nestas instituies gestoras da sade pblica implantar um Data Warehouse, que tem como propsito a integrao de dados heterogneos para a produo de informao gerencial, significa um passo decisivo para aumentar a eficincia em suas gestes. Existem vrios artigos que apresentam casos de implantao de Data Warehouse em instituies de sade internacionais, porm, h uma carncia deste tipo de trabalho no cenrio nacional. Por essa razo, este artigo pretende mostrar a experincia obtida num projeto de Data Warehouse desenvolvido na

X Congresso Brasileiro de Informtica em Sade

Secretaria de Estado de Sade de So Paulo, visando disponibilizar informao gerencial obtida atravs da integrao de dados provenientes de diferentes sistemas de informao da sade pblica. O artigo apresenta estratgias, mtodos, tcnicas, ferramentas utilizadas, os principais desafios e dificuldades encontrados no projeto, e conclui mostrando os resultados obtidos at o estgio atual e os futuros desafios a serem enfrentados. 2. Definies Para melhor compreenso do estudo de caso apresentado neste trabalho, necessrio conhecer o conceito, a arquitetura e as principais etapas para implementao de uma soluo Data Warehouse. Shams [1] define Data Warehouse como uma plataforma que contm todos os dados da organizao, centralizados e organizados, de forma que os usurios possam extrair relatrios analticos complexos, contendo informaes gerenciais para apoio deciso. Pela definio, Data Warehouse corresponde apenas ao repositrio que contm dados integrados, entretanto, os projetos de implementao desta soluo, geralmente, compreendem uma estrutura mnima, apresentada na figura 1. Nesta estrutura, o primeiro componente o conjunto de dados originais provenientes de diversas fontes, que a matria prima para o Data Warehose. Na figura est representado como Dados Operacionais. Estes dados precisam ser extrados de suas fontes originais e submetidos a procedimentos de limpeza, integrao e transformao antes de serem includos no Data Warehouse. O conjunto destes procedimentos denominado processo de carga e, invariavelmente, corresponde etapa de maior esforo do projeto. Existem diversas ferramentas disponveis no mercado para auxiliar este processo. Elas so denominadas Ferramentas ETL (Extracting, Transforming and Loading). Aps o processo de carga, os dados so inseridos no Data Warehouse organizados num modelo apropriado para produo de informao gerencial. Este modelo denominado Modelo Dimensional [6]. Finalmente, com os dados adequadamente acomodados no Data Warehouse, os usurios necessitam de uma ferramenta capaz de produzir e apresentar, em formato adequado, a informao gerencial. As ferramentas que cumprem este papel so denominadas OLAP (On Line Analytical 2
54

Processing) [5] e contm um conjunto de caractersticas, entre elas drill-down, slice-dice, grficos e resumos, que permitem uma anlise detalhada da informao. O ltimo componente da arquitetura, denominado Metadados, corresponde a um amplo dicionrio de dados para auxiliar e documentar o processo de carga e a ferramenta OLAP.
D a d o s O p e ra c io n a is
BD1 BD2 BD3

P ro c e s s o d e C a rg a (F e rra m e n ta s E T L )

DW

M e ta d a d o s

Acesso aos D ados (F e rra m e n ta s O L A P )

C o n s u lta s /R e la t r io s G e r e n c ia is

Figura 1 Arquitetura de uma soluo DW. Um projeto de Data Warehouse compreende um conjunto de tarefas destinadas implementao de cada componente descrito na figura 1. Existem diversas abordagens metodolgicas que definem uma seqncia de passos essenciais para a realizao destas tarefas. Uma metodologia muito utilizada a definida por Inmon [7], que est representada sucintamente na tabela 1.
Etapa 1- Anlise de Dados 2- Dimensionamento 3- Avaliao Tcnica 4- Preparao do Ambiente Tcnico 5- Anlise das reas de Interesse 6- Projeto do DW 7- Anlise do Sistema Fonte 8- Especificaes 9- Programao 10-Povoamento Descrio Elaborar o modelo de dados para o DW. Estimar o volume de dados do DW. Definio das configuraes tcnicas Identificar, tecnicamente, como a configurao definida ser acomodada. Seleo da rea de negcio para ser povoada. Projeto fsico do banco de dados . Identificar, nos sistemas existentes, a fonte de dados para o DW, e efetuar um mapeamento entre eles. Definir, em especificaes de programas, as rotinas para carga dos dados. Codificao das especificaes para as rotinas de carga Execuo das rotinas de carga do DW

Tabela 1. Metodologia Desenvolvimento(Inmon).

X Congresso Brasileiro de Informtica em Sade

3. O projeto 3.3. As prximas sees do artigo detalham os principais aspectos do projeto. 3.1. A estrutura Organizacional Metodologia de Desenvolvimento Devido singularidade do complexo sistema de sade pblica e dos seus sistemas de informao, foi necessrio definir uma abordagem metodolgica, que embora baseada nas tradicionais, possusse caractersticas prprias para se adequar neste contexto. A estrutura bsica desta metodologia corresponde ao fluxo de atividades representado pela figura 3. Algumas particularidades desta metodologia merecem comentrios; dentre elas, a tcnica para anlise de requisitos, a elaborao do modelo relacional, a implantao incremental e o fluxo de desenvolvimento dos relatrios gerenciais. A tcnica adotada para a levantamento e anlise de requisitos foi a Source-Driven [11], onde os requisitos so identificados, basicamente, pelos sistemas provedores dos dados que sero integrados e inseridos no Data Warehouse. Alguns aspectos justificam a escolha desta tcnica, dentre eles, o escopo abrangente do projeto, a estratgia incremental de implementao e a restrio dos dados de origem, que so produzidos e gerenciados por outra instituio (o DATASUS). Outro ponto includo na metodologia que, geralmente, no est presente em projetos desta natureza, o desenvolvimento de um modelo relacional. O intuito facilitar o processo de carga e, sobretudo, criar uma base de dados relacional que permita a realizao de consultas operacionais, j que os dados originais no esto no modelo relacional. A implantao incremental foi adotada devido a algumas causas, dentre elas, as liberaes de subprodutos num curto espao de tempo visando satisfazer um pouco da expectativa dos usurios e a apresentao gradual da nova tecnologia. Conforme apresentado na figura 3, h um ciclo diferenciado para o desenvolvimento dos relatrios gerenciais com o objetivo de garantir a qualidade da informao produzida. Inicialmente, a equipe de negcio desenvolver alguns modelos de relatrios importantes. Os modelos so encaminhados para a equipe de TI para sua implementao. Os relatrios implementados retornam para aprovao pela equipe da negcios. Aprovados, eles so publicados para o usurio final. O metadados (dicionrio de dados) da ferramenta OLAP ajustado, conforme os relatrios j desenvolvidos, e disponibilizado para o usurio, permitindo que ele desenvolva seus prprios relatrios. Embora no demonstrada no fluxo de trabalho, uma etapa presente em qualquer projeto 3
55

A primeira deciso para um projeto desta natureza a definio de uma estrutura organizacional capaz de coordenar e executar tarefas necessrias para implementao da soluo. A estrutura definida para o projeto est representada pela figura 2. No topo da hierarquia est o Comit Executivo, que corresponde ao corpo decisrio do projeto e tem como responsabilidade a avaliao e aprovao dos produtos gerados. Subordinado ao Comit Executivo est a Gerncia do Projeto, que a responsvel pelo controle geral do projeto. Na execuo direta das atividades esto as equipes de TI (Tecnologia da Informao), formada por consultores tcnicos especialistas nos processos e ferramentas, e a equipe de negcios, formada por especialistas da SES-SP, cuja responsabilidade principal fornecer os requisitos e detalhes funcionais do negcio.
Comit Executivo

Gerncia Projeto

Equipe Negcio (SES)

Equipe TI

Figura 2 Estrutura Organizacional do projeto. 3.2. O escopo do projeto

O escopo do projeto foi delimitado, basicamente, pelos sistemas de informao provedores de dados da sade pblica. Devido ao grande nmero destes sistemas, foi decidido pelo comit executivo, dividir o projeto em duas fases, sendo a primeira, com durao de, aproximadamente, seis meses, destinada implementao de trs sistemas: SIA (Sistema de Informao Ambulatoriais), SIH (Sistema de Informaes Hospitalares) e CNES (Cadastro Nacional de Estabelecimentos de Sade). A segunda fase ficou destinada implantao dos demais sistemas, dentre eles, os sistemas de informao sobre natalidade, mortalidade e sistemas de informao epidemiolgica.

X Congresso Brasileiro de Informtica em Sade

a definio das ferramentas para o desenvolvimento. O processo de escolha abrange vrios aspectos, dentre eles, robustez para suportar o volume de dados, existncia de casos de sucesso implementados na ferramenta e um custo acessvel. Considerando estes aspectos, foi adotado um conjunto de ferramentas Oracle (Oracle 10g, Oracle IAS, OWB). No processo de carga, alm do OWB (Oracle Warehouse Builder) da Oracle, foi utilizada a ferramenta Compucarga, que possui algumas funcionalidades que atendem caractersticas especficas do projeto, tais como, anlise de versionamento de dimenses [10], downloads de arquivos e manuteno de tabelas pelo usurio.

3.4.

A modelagem dos Dados

Dentre as duas principais tcnicas para a modelagem dimensional, Star-Schem e SnowFlake, foi adotada no projeto a Star-Schem, que permite uma maneira mais simples de armazenar o histrico das alteraes ocorridas nas dimenses e proporciona melhor desempenho nas consultas e relatrios [12]. Para cada um dos sistemas contemplados na primeira fase (CNES,SIA,SIH) foram definidos os fatos principais e para cada fato foi construdo um cubo OLAP. No SIA , os principais fatos so Produo Ambulatorial e Produo de Alta Complexidade. No SIH, os fatos so Produo Hospitalar, Procedimentos Especiais e Atos Profissionais. A definio dos fatos no CNES, que possuem apenas dados cadastrais, foi mais difcil. Os fatos foram derivados dos principais cadastros, para os quais foi aplicada uma viso histrica. Os principais fatos produzidos so Leitos, Equipamentos, Estabelecimentos, Leitos; etc 3.5. O processo de carga dos dados

Figura 3 Fluxo de Trabalho. 4


56

Devido estratgia adotada, que define a criao de duas bases - uma relacional e outra dimensional - o processo de carga compreende duas fases. Na primeira fase, os dados dos sistemas fonte (DATASUS) so carregados em um banco relacional ou em um espao de armazenamento denominado STAGE, e posteriormente carregados para o banco dimensional. Na primeira etapa, visando facilitar a carga para a base relacional, utilizada a ferramenta Compucarga, que possui funes para automatizao do processo de download, descompactao e anlise de versionamento. A ferramenta tambm efetua a validao do contedo e da estrutura do arquivo para garantir a integridade dos dados. Todo o processo de carga armazenado em um arquivo log, permitindo auditorias ou eventual repetio da carga. A segunda etapa da carga implementada por scripts derivados dos mapeamentos do Oracle Warehouse Builder. As rotinas implementadas no OWB no apresentam grande complexidade, pois as tarefas de limpeza, padronizao e consistncia dos dados so efetuadas na primeira etapa. Um dos grandes desafios do projeto foi encontrar uma alternativa eficiente para tratar as constantes alteraes que ocorrem nas tabelas auxiliares, permitindo aos relatrios combinarem contedos antigos e novos da tabela de forma

X Congresso Brasileiro de Informtica em Sade

transparente ao usurio. Esta soluo foi implementada atravs de uma tcnica de versionamento temporal das dimenses, realizada no processo de carga. Outra particularidade do projeto a inexistncia de arquivos de dados para alimentao de algumas dimenses do Data Warehouse. Isto ocorre para as dimenses cujos valores so publicados em documentos oficiais impressos. A alimentao destas dimenses no so efetuadas no processo de carga, mas atravs da ferramenta Compucarga que possui uma tela especfica para para esta finalidade. 3.6. A exibio dos dados p/ o usurio

Os usurios acessam o Data Warehouse atravs de um portal web onde os relatrios produzidos so publicados. A figura 4 mostra a tela inicial do portal.

Figura 4 Portal Tela Inicial. 4. Resultados e Discusso A primeira fase do projeto permitiu a identificao de muitos desafios e dificuldades. Algumas dificuldades encontradas confirmam os desafios de um projeto de DW para a rea da sade citados por autores como Berndt et al.[2], DeJesus [8], Isken et al. [9]. Outras dificuldades foram inerentes ao nosso contexto. As principais dificuldades encontradas no projeto so: - Salto tecnolgico muito alto; - Qualidade dos dados; - Dificuldade no fluxo dos dados originais; - Altssimo grau de expectativa do usurio final; - Falta de uma perfeita compreenso sobre o processo Data Warehousing; - Falhas de comunicao e integrao entre as equipes de tecnologia e de negcios; 5
57

Discorrendo um pouco sobre cada dificuldade apresentada, a explanao comea pelo Salto Tecnolgico. Considerando que a principal fonte de informao, antes do projeto, era proveniente de dados disponibilizados em arquivos DBF e manipulados pelo MS-Excel ou pelo TABWIN (aplicativo do DATASUS), os conceitos de banco de dados relacional, SQL ou SGBD ainda no estavam difundidos entre os usurios. Nesse contexto, foram introduzidos, em curto espao de tempo, conceitos e ferramentas avanados, tais como, modelo multidimensional, ferramenta OLAP, etc. Seria desejvel um processo mais lento e gradativo para incluso da nova tecnologia. A qualidade dos dados de origem foi outro grande desafio enfrentado. Como a maioria destes dados no derivam de SGBDs relacionais, eles apresentam, com freqncia, problemas de consistncia e integridade referencial, os quais so tratados no processo de carga. Outro problema de qualidade, porm, muito mais difcil de solucionar o contedo dos dados, cuja soluo depende da anlise de um especialista. Em bases como o CNES, cuja alimentao efetuada por um elemento independente - o estabelecimento de sade - muito difcil ter um controle sobre a qualidade do contedo dos dados. Aliada ao problema da qualidade dos dados, uma outra grande dificuldade a demora na obteno dos dados de origem. De acordo com o fluxo dos dados, eles nascem nos estabelecimentos de sade, so consolidados no DATASUS e posteriormente devolvidos SES. Em alguns casos, como o CNES, o atraso supera um ms. Esta situao obriga o usurio que deseja informao referente ao ms atual, a fazer consultas em outras fontes. Uma importante recomendao para projetos de TI, feita por diversos autores, reduzir a expectativa do usurio final. importante deix-los com a exata noo do que ser obtido com a nova tecnologia. No projeto, esta situao foi agravada porque, devido a carncia de ferramentas para produo de informao, os usurios operacionais tambm esperavam atender plenamente suas necessidades a partir do Data Warehouse, cujo modelo apropriado para usurios gerenciais. A falta de uma perfeita compreenso sobre o processo e as falhas de comunicao entre as equipes de Negcios e de TI, foram as maiores dificuldades do projeto. Esta dificuldade seria minimizada se os envolvidos no projeto, sobretudo os da rea de negcios, compreendessem com muita preciso, o fluxo geral do processo apresentado na figura 3 e as funes e responsabilidades de cada nvel da estrutura organizacional representada na figura 2.

X Congresso Brasileiro de Informtica em Sade

Apesar das dificuldades enfrentadas, o saldo final foi positivo. Toda a infra-estrutura foi configurada e instalada, os sistemas CNES, SIA e SIH foram modelados e carregados (a partir de 2005) e o portal, contendo alguns relatrios e ferramentas para consultas AD-HOC, foi implementado. As tabelas 2 e 3 apresentam alguns dados quantitativos que permitem avaliar a dimenso desta primeira fase do projeto.

O trabalho detalha uma abordagem metodolgica, um fluxo de atividades, uma estrutura organizacional e um conjunto de ferramentas que, podem ser utilizados eficientemente em projetos de Data Warehouse para a Sade Pblica. Os fatores mensurveis apresentam nmeros positivos, mas a proposta suavizar a implantao dos demais mdulos, prxima fase do projeto, uma vez que j foram identificados os principais problemas de percurso, razo pela qual podero ser evitados e ou minimizados. A principal contribuio deste artigo evidenciar alguns problemas que podem ser evitados em projetos similares. 6. Referncias
[1] Shams K., Farishta M. (2001), Data Warehousing: Toward knowledge Management, Topics in Health Information Management, v. 21, n. 3, p. 24-32. [2] Berndt D.J., Hevner A.R., Studnicki J. (2003) The Catch Data Warehouse: Support for Community Health Care Decision-Making, Decision Support Systems, v.35 n.3, p.367-384. [3] Ramick D.C. (2001), Data Warehousing Journal of in Disease Management Programs, Healthcare

Tabela 2 Dados quantitativos - Modelagem

Information Management, v. 15, n. 2, p. 99-105. [4] Watsona H. J., Fullerb C., Ariyachandra T. (2004), Data warehouse governance: best practices at Blue Cross and Blue Shield of North Carolina, Decision Support Systems 38 (2004) 435-450. [5] Berson A., Smith S. J. (1997), Data Warehousing, Data Mining, & OLAP, New York: McGraw-Hill. [6] Kimball R. (1997), A Dimensional Modeling Manifesto, DBMS Online, (http:/www.dbmsmag.com/9708d15.html). [7] Inmon, W. H. (1997), Como Construir o Data Warehouse, Rio de Janeiro: Campus. [8] DeJesus E.X. (1999), Disease Management in a Warehouse: Data Warehouse Technology Makes a Good Fit for Disease Management programs., Healthcare Informatics, v.16, n. 9, p. 33-36, 38-39 [9] Isken M.W., Littig S.J., West M. (2001), A data Mart for Operations Analysis, Journal of Healthcare Information Management, v. 15 , n. 2, p.143-153. [10] Golfarelli M., Lechtenborger J., Rizzi S., Vossen G. (2005),

Tabela 3 Dados quantitativos Carga Banco 5. Concluses O artigo mostra a experincia obtida num projeto de Data Warehouse, desenvolvido na Secretaria de Estado de Sade de So Paulo, com o intuito de disponibilizar informao gerencial obtida pela integrao de dados provenientes dos diversos sistemas de informao da sade. 6
58

Schema Versioning in Data Warehouses: Enabling Cross-Version Querying via Schema Augmentation, Preprint submitted to Elsevier Science 7 September 2005 [11] Ballard C., Herreman D., Schau D., Bell R., Kim E., Valencic A, Data Modeling Techniques for Data Warehousing, IBM RedBooks, IBM Corporation 1998. [12] Powell, Gavin T., Oracle Data Warehousing Tuning for 10g, Digital Press, 2005. Contato rsantos@compumedica.com.br

Potrebbero piacerti anche