Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Profesor:
Asignatura
Data warehouse
Horario
11:00-12:00
Aula
710
Contenido
Introduccin...............................................................................................................................3
Planteamiento del problema.......................................................................................................4
Objetivo general.........................................................................................................................5
Objetivos especficos.................................................................................................................5
Justificacin................................................................................................................................6
Metodologa de la investigacin................................................................................................7
Mtodo Formal...........................................................................................................................8
Marco Formal...........................................................................................................................10
Marco terico...........................................................................................................................11
Integracin de datos:.............................................................................................................12
Integracin de Aplicaciones Empresariales (EAI)...............................................................12
Integracin de Informacin Empresarial (EII).....................................................................14
Desarrollo.................................................................................................................................16
FUNDAMENTOS CIENTFICOS.......................................................................................16
ENFOQUES DE INTEGRACIN.......................................................................................18
Resultados................................................................................................................................21
Conclusin................................................................................................................................22
Bibliografa..............................................................................................................................23
Introduccin
Un DW es una base de datos cuya informacin proviene de mltiples fuentes y es
resultado de transformaciones que la hacen til para el anlisis orientado a la toma de
decisiones. En un sistema de DW las fuentes de datos pueden ser heterogneas y adems
contener semntica en comn. Puede existir heterogeneidad semntica (diferencias en cuanto
a qu objetos del mundo real se representan), sintctica (diferencias en el esquema) y
conflictos de datos (inconsistencia entre datos de las distintas bases, que se corresponden).
Por lo tanto, en el proceso de diseo del DW y en el de carga de los datos al mismo, es
necesario resolver problemas de integracin.
Existen casos en que es necesario integrar los esquemas y/o datos provenientes de
distintas fuentes dentro del proceso de transformacin de las fuentes al DW. En otras
palabras, no siempre se puede dejar el problema de integracin para despus de terminadas
las transformaciones de las fuentes al DW.
En el contexto de los sistemas de almacenes de datos, se entiende por integracin de
los datos el proceso por el que datos procedentes de distintas fuentes son transformados y
combinados antes de ser incorporados al almacn de datos. La integracin de datos es uno de
los campos de investigacin ms antiguos en el rea de base de datos. Surgi con la extensin
del uso de los sistemas de bases de datos en las organizaciones (hacia 1960), debido a que el
nmero de aplicaciones y dispositivos de almacenamiento crecan continuamente, y con ellos
la necesidad continua de integrar datos.
Objetivo general
El objetivo general de la presente investigacin es dar a conocer la informacin
concerniente sobre el tema de la integracin de datos mediante un enfoque GAV, as como
conocer la forma en la que se desenvuelve este mtodo dentro de la construccin de un
Datawarehouse a partir de repositorios de informacin de distintas fuentes.
Objetivos especficos
Justificacin
La justificacin para llevar a cabo la presente investigacin surge de la necesidad de
conocer acerca del tema acerca del enfoque GAV.
Con esta investigacin se demuestra que la sindicacin de contenidos es un sistema
til para la edicin, catalogacin, bsqueda y exportacin de registros y referencias
bibliogrficas a modo de sistema hbrido que integra funciones propias del protocolo Z39.50,
de catlogo OPAC y de sistema de gestin de bibliotecas.
Tambin se demuestra la utilidad de la sindicacin de contenidos no slo para la
redifusin de informacin bibliogrfica, sino para transmitir los servicios bibliotecarios y de
gestin del catlogo propiamente dicho.
Adems, una de las consecuencias directas del desarrollo tcnico de la investigacin
es la acumulacin de una experiencia importante en la manipulacin y control de la
informacin formateada en lenguajes de marcado extensibles, que puede resultar de gran
utilidad para ampliar el desarrollo original presentado en este documento.
Metodologa de la investigacin
Tipo de investigacin
Mtodo Formal
Considerando esta investigacin como una recopilacin de informacin y por ende,
una aplicacin de tcnicas bibliogrficas y de bsqueda, mencionando tambin las estrategias
de organizacin en cuanto al trabajo en equipo el mtodo para elegir la informacin plasmada
en el presente trabajo ser el mtodo hipottico-deductivo.
El mtodo hipottico-deductivo es el procedimiento o camino que sigue el
investigador para hacer de su actividad una prctica cientfica. El mtodo hipotticodeductivo tiene varios pasos esenciales: observacin del fenmeno a estudiar, creacin de una
hiptesis para explicar dicho fenmeno, deduccin de consecuencias o proposiciones ms
elementales que la propia hiptesis, y verificacin o comprobacin de la verdad de los
enunciados deducidos comparndolos con la experiencia. Este mtodo obliga al cientfico a
combinar la reflexin racional o momento racional (la formacin de hiptesis y la deduccin)
con la observacin de la realidad o momento emprico (la observacin y la verificacin).
FASES DEL MTODO HIPOTTICO-DEDUCTIVO
1.
2.
Creacin de hiptesis
3.
4.
deducciones) y vuelve a la induccin para su verificacin. En el caso de que todas y cada una
de las variables puedan ser objeto de estudio, el ltimo paso sera una induccin completa que
dara paso a una ley universal.
Para la recopilacin de la informacin utilizaremos la tcnica de Recopilacin y
anlisis documental que se define como la nmina de documentos que el investigador debe o
puede leer para realizar un trabajo. Es posible pensar, en libros, manuales, guas, estudios,
informes y biografas
10
Marco Formal
La investigacin, como se ha mencionado, ser de tipo descriptiva, lo cual significa
que la informacin obtenida de esta investigacin fue adquirida de diversas fuentes
bibliogrficas sobre el tema. La informacin de esta investigacin est organizado por
subtemas, en los cuales vienen diversos conceptos de mucho inters.
Esta investigacin, ser de mucha utilidad ya que la informacin obtenida es muy fcil
de entender, porque est muy organizada y es muy precisa.
11
Marco terico
Los datos requeridos por una aplicacin se proporcionan a menudo por una multitud
de fuentes de datos. Las fuentes a menudo emplean formatos heterogneos de datos (por
ejemplo, archivos de texto, pginas web, documentos XML, bases de datos relacionales), la
estructura de los datos de diferentes maneras y se puede acceder a travs de diferentes
mtodos (por ejemplo, formularios web, bases de datos cliente). Esto hace que la tarea de
combinar informacin de mltiples fuentes sea particularmente desafiante. Para llevarlo a
cabo, hay que recuperar los datos de cada fuente individualmente, entender cmo los datos de
las fuentes se relacionan entre s y fusionarlos, mientras que la contabilidad de las
discrepancias en la estructura y los valores, as como de las posibles incompatibilidades.
Los primeros en darse cuenta de este problema fueron las empresas que desean
integrar sus datos estructurados dentro o a travs de las organizaciones.
Pronto la idea de integrar los datos en una sola vista unificada surgi. Estos sistemas,
al ser referidos como sistemas de integracin de datos basados en vistas (SIDBV)
proporcionara un nico punto de acceso a todas las fuentes de datos subyacentes. Los
usuarios de un SIDBV (o aplicaciones) consultaran la vista unificada y devolveran
resultados integrados de todas las fuentes, mientras que la tarea de combinar los datos de las
fuentes y resolver inconsistencias sera manejada por el sistema de forma transparente para
las aplicaciones.
Los SIDBV hicieron su primera aparicin en forma de bases de datos mltiples y
sistemas federados. Posteriormente, la comunidad de investigacin se enfoc en el problema
de especificar la correspondencia entre las fuentes y la visin unificada. El resultado fueron
tres categoras de lenguas para expresar la correspondencia (GAV, LAV y GLAV) junto con
varios resultados tericos y sistemas relacionados. La industria tambin acogi el marco de
12
integracin basada en la vista mediante la creacin de varias SIDBV exitosas (por ejemplo,
BEA AquaLogic, IBM WebSphere).
Existen diferentes metodologas para integrar aplicaciones que se concibieron de
forma independiente, estas son:
Integracin de datos
Integracin de Aplicaciones Empresariales (EAI)
Integracin de Informacin Empresarial (EII)
Integracin de datos:
La integracin de datos es el proceso de combinar informacin que reside en
diferentes fuentes y proveer a los usuarios de una vista unificada de ella. Un exponente de
este concepto son los almacenes de datos (Data Warehouse). En ellos, datos de distintas
fuentes son extrados, transformados y cargados (ETL) dentro del almacn compartiendo el
mismo esquema. Esta forma de integracin se considera estrechamente acoplada debido a que
los datos residen juntos en un mismo repositorio en el momento de consultarlos. Los
principales problemas asociados a este tipo de arquitectura estn relacionados con la
actualizacin de la informacin, por ejemplo, cuando una fuente original es actualizada, el
almacn de datos contiene todava la informacin anterior debiendo ser ejecutado
nuevamente el proceso ETL para que la actualizacin sea propagada.
Integracin de Aplicaciones Empresariales (EAI)
La Integracin de Aplicaciones Empresariales (EAI por sus siglas en ingls) se define
como el uso de principios de la arquitectura de software y sistemas informticos para integrar
un conjunto de informaciones y procesos en una organizacin.
Un gran reto para la EAI es que, los distintos sistemas que deben ser integrados entre
s, a menudo residen en diferentes sistemas operativos y utilizan diferentes soluciones de
bases de datos y diferentes lenguajes.
13
Existen mltiples contextos en los cuales EAI puede ser utilizado, algunos de ellos
son:
real.
14
eficiencia organizacional.
medianos negocios.
15
Desarrollo
FUNDAMENTOS CIENTFICOS
Resumiendo las diferencias entre sistemas individuales, un SIDBV tpica se ajusta a la
arquitectura siguiente.
Aplicaciones
Mediador
Envolturas
Fuentes
16
17
18
2.
y
transformacin con un objetivo diferente al ya existente.
19
Algo que puede resultar una desventaja en este enfoque es que es necesario contar con
el esquema del DW a priori.
Ejemplo: Catalogo de integracin
Esquema global:
o
Buses(manf, model, protocol)
o
Disks(manf, model, protocol)
Global-as-View (GAV), requiere que el esquema global sea expresado en terminos de las
fuentes de datos. El segundo enfoque, llamado Local-as-View (LAV), requiere que el
esquema global sea especificado de manera independiente a las fuentes, y que las relaciones
entre el esquema global y las fuentes se establezca definiendo cada fuente como una vista del
esquema global [Lenzerini, 2002]. Lenzerini dice que independientemente del metodo
empleado para especificar las relaciones entre el esquema global y las fuentes, un servicio
fundamental que debe contemplar un sistema de integracion de informacion, es la solucion a
las consultas en terminos del enfoque global. Esto es, la consulta al esquema global debe ser
replanteada para cada una de las fuentes, considerando la integracion de datos en la respuesta
y la solucion de la consulta con informacion incompleta. Dado que las fuentes son
generalmente autonomas, surgen problemas de fuentes con datos inconsistentes entre s y a
pesar de lo complicado de la tarea, lo que se espera de una computadora es que tome
decisiones lo mas acertadas posibles. Este problema se trata con procedimientos de
transformaciones y filtro de la informacion obtenida de las fuentes [Lenzerini, 2002]. Los
datos que se deben considerar para la integracion de esquemas son: el nombre del esquema, el
tipo de dato que maneja, su estructura y el formato de las instancias [Pottinger, 2008].
20
En el enfoque GAV, dado que el esquema global est especificado con base en cada uno de
las fuentes es mas sencillo adaptar las consultas [Lenzerini, 2002], pero como desventaja, si
se quiere agregar una nueva fuente de datos, el esquema global se tiene que replantear.
La integracin de datos es un campo tan rico que an existen problemas, como la necesidad
de saber qu valores en diferentes fuentes se refieren a los mismos objetos en el mundo real.
Segn Lenzerini, en el tema de la integracin de informacin quedan an abiertos muchos
temas para investigar. Queda por investigar a mayor detalle las relaciones entre los enfoques
LAV y GAV, investigar algoritmos para la solucin de consultas, el tratamiento de fuentes
inconsistentes y el razonamiento de sus consultas. Adems, falta por investigar mejores
formas de crear un esquema global, como manejar las posibles limitaciones para acceder a la
informacin, como incorporar la nocin de calidad y filtros de datos en un esquema de
integracin, como establecer reglas para encontrar las relaciones entre las fuentes de forma
automtica, entre muchas otras tareas.
21
Resultados
Con la investigacin realizada se puede mostrar como resultados que en un enfoque
GAV, los cambios en las fuentes de informacin o la adicin de una nueva fuente de
informacin requiere de revisiones de un esquema global y correlaciones entre el esquema
global y esquemas de origen.
El procesamiento de las consultas se basa en una estrategia de desenrollado.
Teniendo la consulta sobre el alfabeto AG, basta con reemplazar cada elemento con su
correspondiente qS. y evaluar la consulta resultante.
22
Conclusin
Las disciplinas de Integracin de Datos han adquirido hoy en da gran relevancia en los
departamentos de TI (Tecnologas de la Informacin) ya que juegan un papel clave a la hora
de lograr satisfacer las necesidades del negocio a nivel de permitir que los datos estn
accesibles.
Para ello es imprescindible que las tecnologas de integracin de datos que se utilicen
permitan el movimiento de datos y su actualizacin de manera rpida y fiable.
En contraste con desarrollos a medidas o procedimientos almacenados, las tecnologas de
integracin de datos permiten asumir proyectos que impliquen la transferencia de datos,
transformaciones complejas de datos, el acceso a fuentes de datos mltiples, sistemas
heterogneos, con tiempos de latencia apropiados (batch, tiempo real) y minimizando los
riesgos ms frecuentes vinculados a este tipo de proyectos, entre otros:
23
Bibliografa
1. Gable, J., Enterprise application integration. Information Management Journal. , 2002
March/April 2009(1).
3. Lam, W., Information Systems Integration and Enterprise Application Integration (EAI)
Adoption: A Case from Financial Services. Journal of Information Systems Education, 2007.
4. Taylor, J. Enterprise Information Integration: A New Definition. 2004 [cited 2009 2];
Available from: http://www.information-management.com/news/1009669-1.html.
6. Imhoff, C., Understanding the Three E's of Integration EAI, EII and ETL. Information
Management Magazine, 2005.
7. LiXu, D.W.E. Combining the Best of Global-as-View and Local-as-View for Data
Integration [cited 2009 2]; Available from:
http://www.deg.byu.edu/papers/PODS.integration.pdf
24
9. Linthicum, D. Build a Common Data Model. I dare you. 2009 20/2/2009 [cited; Available
from:
http://www.ebizq.net/blogs/linthicum/2009/02/build_a_common_data_model_i_da.php.
10.Hartley, C., SID GB922. Addendum 0: SID Primer, H. Hepburn, Editor. 2004,
TeleManagement Forum.
12. Faurer, C.C., TMF 053. The NGOSS Technology Neutral Architecture, in T. Richardson,
Editor. 2005, TeleManagement Forum.