Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
SYLLABUS GENRICO
NUEVAS TECNOLOGAS
Facultad de Ciencia y Tecnologa
Ingeniera de Sistemas
NOVENO SEMESTRE
Ing. Juan Carlos Alejo Quisbert
Gestin Acadmica I/2010
1
FACULTAD DE INGENIERIA
UDABOL
UNIVERSIDAD DE AQUINO BOLIVIA
Acreditada como PLENA mediante R. M. 288/01
VISION DE LA UNIVERSIDAD
Ser la Universidad lder en calidad educativa.
MISION DE LA UNIVERSIDAD
Desarrollar la Educacin Superior Universitaria
con calidad y competitividad al servicio de la
sociedad.
2
FACULTAD DE INGENIERIA
SYLLABUS GENRICO
Asignatura:
Cdigo:
Requisito:
Carga Horaria:
Crditos:
NUEVAS TECNOLOGIAS
CMP 527
CMP 517
80 horas
8
FACULTAD DE INGENIERIA
2.9. Prcticas
3. SOA
3.1. Qu es SOA?
3.2. Tecnologa SOA: Proveedores y categoras
3.3. Estndares
3.4. Gobierno SOA
3.5. Open Source y SOA
4. BUSINESS INTELLIGENCE DATA WAREHOUSE Y DATA MARTS
4.1.
Sistemas de Informacin
4.1.1. Sistemas Estratgicos
4.1.2. Sistemas Tcticos
4.1.3. Sistemas Tcnico-Operativos
4.1.4. Sistemas Interinstitucionales
4.2.
Objetivo de los Sistemas de Apoyo a las Decisiones
4.3. Caractersticas de un Data Warehouse
4.4. Estructura del Data Warehouse
4.5. Ciclo de vida de un Data Warehouse
4.6. Elementos Constituyentes de una Arquitectura Data Warehouse
4.7. Operaciones en un Data Warehouse
4.8. Transformacin de Datos y Metadata
4.9. Tabla de Dimensiones
4.10. Data Mart
5. OLAP, MOLAP Y ROLAP
5.1. OLAP
5.2. ROLAP
5.3. MOLAP
5.4. Data Mining
5.4.1. Tcnicas de Data Mining
5.4.2. Anlisis estadistico
5.4.3. Mtodos basados en rboles de decisin
5.5. Modelaje
5.5.1. Modelo Star Schema
5.5.1.1. Esquema Snowflake
5.5.1.2. Esquema MultiStar
5.6. Prcticas generacin DWH.
6. HERRAMIENTAS DE BASES DE DATOS MULTIDIMENSIONALES
4
FACULTAD DE INGENIERIA
III. BIBLIOGRAFA.
KIMBALL, R., LifeCycle Toolkit for Data Warehuouse
KENT, P. , World Wide Web fcil
DIAZ, J., World Wide Web paso a paso, 1997
BREEDLOVE, B., Web desarrollo de aplicaciones, 1995
ABBEY COREY, SLOLTZ KEVIN, Oracle Gua del Aprendizaje, Redes de
Computacin, Todo acerca
Hinricsd , Intranets usos y Aplicaciones
SYAN, Internet y seguridad en redes
YOURDON, ISO 9000 Liderazgo Virtual
FACULTAD DE INGENIERIA
V. PLANIFICACIN DE ACTIVIDADES
PLANIFICACIN DE ACTIVIDADES
MATERIA
NUEVAS TECNOLOGAS
TURNO
TRABAJO
SEMESTRE
NOVENO
PARALELO
A
ING. JUAN CARLOS ALEJO
QUISBERT
DOCENTE
CONTENIDO ANALTICO
ACTIVIDAD
INTRODUCCIN
Clase
magistral
Clase
magistral,
grupos
colaborativos
de trabajo
Investigacin
CICC
INTERNET E
INTRANETS
SOA
Primera
Evaluacin Parcial
Clase
magistral,
grupos
colaborativos
de trabajo
PERIODOS
ACADMIC
OS
2
RECURSOS
DIDCTICO
S
Pizarra
pizarra
dinmicas
de grupo
Pizarra,
Dinmicas
de grupo,
computado
ras
Evaluacin
Impresa
FACULTAD DE INGENIERIA
BUSINESS
INTELLIGENCE
DATA WAREHOUSE Y
DATA MARTS
4.1.
Sistemas de
Informacin
4.1.1.
Sistemas Estratgicos
4.1.2.
Sistemas Tcticos
4.1.3.
Sistemas TcnicoOperativos
4.1.4.
Sistemas
Interinstitucionales
4.2.
Objetivo de los
Sistemas de Apoyo a las
Decisiones
4.3.
Caractersticas de
un Data Warehouse
4.4.
Estructura del Data
Warehouse
4.5.
Ciclo de vida de un
Data Warehouse
4.6.
Elementos
Constituyentes de una
Arquitectura Data Warehouse
4.7.
Operaciones en un
Data Warehouse
4.8.
Transformacin de
Datos y Metadata
4.9.
Tabla de Dimensiones
4.10.
Data Mart
Clase
magistral,
Grupos
Colaborativos
Brigada
Team
Teaching
Investigacin
CICC
30
Dinmicas
de grupo,
computado
ras
Evaluacin
Impresa
Grupos
Colaborativos
Dinmicas
de grupo,
computado
ras
Grupos
Colaborativos
18
Dinmicas
de grupo,
computado
ras
Evaluacin
Impresa
Segunda
Evaluacin Parcial
OLAP, MOLAP Y
ROLAP
HERRAMIENTAS DE
BASES DE DATOS
MULTIDIMENSIONALE
S
Evaluacin Final
5.1.
OLAP
5.2.
ROLAP
5.3.
MOLAP
5.4.
Data Mining
5.4.1.
Tcnicas de Data
Mining
5.4.2.
Anlisis estadistico
5.4.3.
Mtodos basados en
rboles de decisin
5.5.
Modelaje
5.5.1.
Modelo Star Schema
5.5.1.1. Esquema Snowflake
5.5.1.2. Esquema MultiStar
5.6.
Prcticas generacin
DWH.
Microsoft SQL Server 2005,
Oracle
FACULTAD DE INGENIERIA
Segundo Turno
TOTAL
Evaluacin
Impresa
80
FACULTAD DE INGENIERIA
MATERIA
TURNO
FECHA
NOMBRE
DEL
INVITADO
CARGO
LUGAR DE
TRABAJO
FECHA DE
NACIMIENTO
TELFONO
CELULAR
GRADO
ACADMICO
TEMTICA
DE LA
EXPOSICIN
APUNTES
FACULTAD DE INGENIERIA
10
FACULTAD DE INGENIERIA
WORK PAPER # 1
No. DE PROCEDIMIENTO:
No. DE HOJAS :
ELABOR:
CDIGO:
ALUMNOS
ADMINIST.
OTROS
FECHA DE DIFUSIN:
FECHA DE ENTREGA:
11
FACULTAD DE INGENIERIA
Bien formados: son todos los que cumplen las especificaciones del lenguaje respecto a
las reglas sintcticas que despus se van a explicar, sin estar sujetos a unos elementos
fijados en un DTD (luego veremos lo que es un DTD). De hecho los documentos XML
deben tener una estructura jerrquica muy estricta, de la que se hablar ms tarde, y los
documentos bien formados deben cumplirla.
Vlidos: Adems de estar bien formados, siguen una estructura y una semntica
determinada por un DTD: sus elementos y sobre todo la estructura jerrquica que define
el DTD, adems de los atributos, deben ajustarse a lo que el DTD dicte.
Y ahora, qu pinta tiene un documento XML? Aqu podemos ver uno muy sencillo, que iremos
estudiando para ver las caractersticas del lenguaje:
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<ficha>
<nombre>Angel</nombre>
<apellido>Barbero</apellido>
<direccion>c/Ulises, 36</direccion>
</ficha>
12
FACULTAD DE INGENIERIA
Lo primero que tenemos que observar es la primera lnea. Con ella deben empezar todos los
documentos XML, ya que es la que indica que lo que la sigue es XML. Aunque es opcional, es ms
que recomendable incluirla siempre. Puede tener varios atributos (los campos que van dentro de la
declaracin), algunos obligatorios y otros no:
version: indica la versin de XML usada en el documento. La actual es la versin 1.0, con
lo que no debe haber mucho problema. Es obligatorio ponerlo, a no ser que sea un
documento externo a otro que ya lo inclua (ya veremos qu documentos externos puede
haber).
encoding: la forma en que se ha codificado el documento. Se puede poner cualquiera, y
depende del parser el entender o no la codificacin. Por defecto es UTF-8, aunque
podran ponerse otras, como UTF-16, US-ASCII, ISO-8859-1, etc. No es obligatorio salvo
que sea un documento externo a otro principal.
standalone: indica si el documento va acompaado de un DTD (``no''), o no lo necesita
(``yes''); en principio no hay porqu ponerlo, porque luego se indica el DTD si se necesita.
En cuanto a la sintxis del documento, y antes de entrar en el estudio de las etiquetas, hay que
resaltar algunos detalles importantes y a los que nos debemos acostumbrar:
Los documentos XML son sensibles a maysculas, esto es, en ellos se diferencia las
maysculas de las minsculas. Por ello <FICHA> sera una etiqueta diferente a <ficha>.
Adems todos los espacios y retornos de carro se tienen en cuenta (dentro de las
etiquetas, en los elementos).
Hay algunos caracteres especiales reservados, que forman parte de la sintxis de XML:
<, >, &, " y '. En su lugar cuando queramos representarlos deberemos usar las entidades
<, &rt;, &, " y ' respectivamente. Ms adelante hablar de las entidades
y lo que son, pero baste saber ahora que si escribimos cualquiera de las secuencias
anteriores equivaldr a los correspondientes caracteres citados.
Los valores de los atributos de todas las etiquetas deben ir siempre entrecomillados. Son
vlidas las dobles comillas (") y la comilla simple (').
Pasando al contenido en s, vemos etiquetas que nos recuerdan a HTML, y que contienen los
datos. Es importante diferenciar entre elementos y etiquetas: los elementos son las entidades en
s, lo que tiene contenido, mientras que las etiquetas slo describen a los elementos. Un
documento XML est compuesto por elementos, y en su sintxis stos se nombran mediante
etiquetas.
13
FACULTAD DE INGENIERIA
Hay dos tipos de elementos: los vacos y los no vacos. Hay varias consideraciones importantes a
tener en cuenta al respecto:
Toda etiqueta no vaca debe tener una etiqueta de cerrado: debe estar seguida de . Esto
se hace para evitar la aberracin (en el buen sentido de la palabra) a la que haban
llegado todos los navegadores HTML de permitir que las etiquetas no se cerraran, lo que
deja los elementos sujetos a posibles errores de interpretacin.
Todos los elementos deben estar perfectamente anidados: no es vlido poner:
<ficha><nombre>Angel</ficha></nombre>
y s lo es sin embargo:
<ficha><nombre>Angel</nombre></ficha>
Los elementos vacios son aquellos que no tienen contenido dentro del documento. Un
ejemplo en HTML son las imgenes. La sintxis correcta para estos elementos implica
que la etiqueta tenga siempre esta forma: <etiqueta/>
Hasta aqu la sintxis de XML resumida. Aunque la especificacin entera es ms prolija en cuanto
a detalles sintcticos, codificaciones, etc., creo que no hace falta extenderse mucho en ello, ya que
realmente ``el movimiento se demuestra andando'', y ser en la prctica cuando veamos los
posibles problemas que se pueden plantear. Ahora quedan por ver otros aspectos, el ms
prioritario, los DTD.
3. DTD: Definicin de Tipos de Documento
Como antes se coment, los documentos XML pueden ser vlidos o bien formados (o no serlo,
claro, pero entonces no seran documentos XML :-). En cuanto a los vlidos, ya sabemos que su
gramtica est definida en los DTD.
Pues bien, los DTD no son ms que definiciones de los elementos que puede incluir un documento
XML, de la forma en que deben hacerlo (qu elementos van dentro de otros) y los atributos que se
les puede dar. Normalmente la gramtica de un lenguaje se define mediante notacin EBNF; si
alguno la conoce, se habr dado cuenta de que es bastante engorrosa. Pues el DTD hace lo
mismo pero de un modo ms intuitivo.
14
FACULTAD DE INGENIERIA
Incluir dentro del documento una referencia al documento DTD en forma de URI
(Universal Resource Identifier, o identificador universal de recursos) y mediante la
siguiente sintxis:
<!DOCTYPE ficha SYSTEM "http://www.dat.etsit.upm.es/~abarbero/DTD/ficha.dtd">
En este caso la palabra SYSTEM indica que el DTD se obtendr a partir de un elemento
externo al documento e indicado por el URI que lo sigue, por supuesto entrecomillado.
Luego el documento ficha.dtd ser:
15
FACULTAD DE INGENIERIA
La forma de incluir el DTD directamente como en este ejemplo pasa por aadir a la
declaracin <!DOCTYPE y despus del nombre del nombre del tipo de documento, en
vez de la URI del DTD, el propio DTD entre los smbolos '[' y ']'. Todo lo que hay entre
ellos ser considerado parte del DTD.
En cuanto a la definicin de los elementos, es bastante intuitiva: despus de la clusula <!
ELEMENT se incluye el nombre del elemento (el que luego se indicara en la etiqueta), y despus
diferentes cosas en funcin del elemento:
+: uso obligatorio y mltiple; permite uno o ms elementos de ese tipo dentro del
elemento padre, pero como mnimo uno.
*: opcional y mltiple; puede no haber ninguna ocurrencia, una o varias.
?: opcional pero singular; puede no haber ninguno o como mucho uno.
|: equivale a un OR, es decir, da la opcin de usar un elemento de entre los que forman la
expresin, y solo uno.
FACULTAD DE INGENIERIA
foto; y por fin, pueden incluirse, aunque no es obligatorio en ninguno de los dos casos, uno o ms
telfonos o uno o ms nmeros de fax.
Para la definicin de los atributos, se usa la declaracin <!ATTLIST, seguida de:
<pieza color="Rojo">Mipieza</pieza>
Qu diferencia habra entre ambos? Queda a discrecin del diseador el decidir entra ambas.
17
FACULTAD DE INGENIERIA
CUESTIONARIO
1. Que diferencia existe entre XML y HTML?
2. Mencione tres caractersticas bsicas de XML
3. Explique la diferencia entre un documento XML vlido y el bien formado
4. Qu es un DTD?
5. Es lo mismo elemento y atiqueta?
6. Proporcione un ejemplo de elemento
7. Explique el significado de PCDATA
8. Proporcione un ejemplo de atributo
9. Explique la funcin de #REQUIRED y IMPLIED
10. Cul es la funcin de los comodines: *, + y ?
18
FACULTAD DE INGENIERIA
WORK PAPER # 2
No. DE PROCEDIMIENTO:
No. DE HOJAS :
ELABOR:
CDIGO:
ALUMNOS
ADMINIST.
OTROS
FECHA DE DIFUSIN:
FECHA DE ENTREGA:
19
FACULTAD DE INGENIERIA
FACULTAD DE INGENIERIA
Se trata de una especificacin muy reciente, por lo que el soporte por parte de
muchas herramientas an est en proceso.
Ejemplo
FACULTAD DE INGENIERIA
Caractersticas
Espacios de nombres
FACULTAD DE INGENIERIA
Ms estructuras
Tipos
En un esquema XML se pueden utilizar tipos para los elementos y atributos, de forma
similar a cualquier lenguaje de programacin.
Existen una serie de tipos predefinidos, algunos ejemplos:
o string
o boolean (true-false)
o integer
o positiveInteger (desde 1)
o decimal (7.08)
o time (hh:mm:ss)
o date (YYYY-MM-DD)
o anyURI (http://www.web.com)
o ID y NMTOKEN (ver DTDs)
Es posible crear nuevos tipos de datos a partir de los existentes, imponiendo restricciones a
stos:
<xs:simpleType name="TipoColores">
<xs:restriction base="xs:string">
<xs:enumeration value="rojo"/>
<xs:enumeration value="blanco"/>
<xs:enumeration value="azul"/>
</xs:restriction>
</xs:simpleType>
<xs:simpleType name="TipoEdad">
<xs:restriction base="xs:integer">
<xs:minInclusive value="18"/>
23
FACULTAD DE INGENIERIA
<xs:maxInclusive value="65"/>
</xs:restriction>
</xs:simpleType>
enumeration, minInclusive y maxInclusive son algunos ejemplos de facetas, hay muchas ms.
Atributos
Veamos cmo se tratan los atributos de los elementos. Dado el siguiente fragmento de
DTD:
FACULTAD DE INGENIERIA
</xs:restriction>
</xs:simpleType>
Si un elemento tiene contenido simple y atributos (por ejemplo: <elem atr=h4>678</elem>), se
restringe as:
<xs:element name="elem">
<xs:complexType>
<xs:simpleContent>
<xs:extension base="xs:integer">
<xs:attribute name="atr" type="xs:string" use="required"/>
</xs:extension>
</xs:simpleContent>
</xs:complexType>
</xs:element>
Importar esquemas
1.
2.
3.
4.
5.
Qu es un esquema XML?
Qu diferencias existen entre un DTD y un Esquema XML?
Qu es un espacio de nombres?
Proporcione un ejemplo de definicin de elementos
Defina un lenguaje en XML para estructurar un Base de Datos de Hojas de Vida, para
sto
a) Considere lo siguientes datos de los profesionales:
Datos personales
Nombre
Fecha de Nacimiento (da,mes y ao)
25
FACULTAD DE INGENIERIA
Carnet de Identidad
Telfono (Puede repetirse 0 o ms veces) considere el atributo tipo= mvil,
fijo, trabajo, domicilio
Direccin (Solo una)
Email (obligatorio)
Datos acadmicos
Secundaria (institucin, ao)
Pregrado (institucin, carrera, ao ingreso, ao de egreso)
Postgrado (ttulo obtenido, ao ingreso, ao de egreso,), considere en este
el atributo nivel: diplomado, maestra, doctorado
Otros estudios (nombre del curso, institucin, ao), considere el atributo tipo:
seminario, congreso, taller, etc.
Experiencia de trabajo (institucin, cargo, fecha inicio, fecha conclusin)
b) Grafique el esquema jerrquico
c) Realice un ejemplo de definicin de un elemento compuesto y de un elemento
simple en un DTD o en un XML Schema, de acuerdo a su esquema jerrquico
d) Proporcione un ejemplo de aplicacin con sus respectivas etiquetas (documento
XML)
26
FACULTAD DE INGENIERIA
WORK PAPER # 3
No. DE PROCEDIMIENTO:
No. DE HOJAS :
ELABOR:
CDIGO:
ALUMNOS
ADMINIST.
OTROS
FECHA DE DIFUSIN:
27
FACULTAD DE INGENIERIA
FECHA DE ENTREGA:
FACULTAD DE INGENIERIA
Qu es Data Warehousing?
En la actualidad hay una importante cantidad de confusin respecto a lo que es un Data
Warehouse que, afortunadamente, est comenzando a despejarse. No obstante, parece que cada
proveedor de un producto o servicio relacionado con tecnologa informtica tiene su definicin y, lo
que es peor, en su propia jerga no siempre comprensible.
Algunos llaman a Datawahouse Business Intelligence or Decision Support en realidad es
considerada la solucin integral y oportuna para desarrollar negocio el Datawarehouse se
caracteriza por ser:
Integrado - Temtico - Histrico - No volatil
Definicin :
Es un proceso, no un producto. Es una tcnica para consolidar y administrar datos de variadas
fuentes con el propsito de responder preguntas de negocios y tomar decisiones, de una forma
que no era posible hasta ahora.
Consolidar datos desde una variedad de fuentes. Dentro del marco conceptual de Data
Warehousing los agruparemos dentro del proceso de Transformacin de Datos.
Manejar grandes volmenes de datos de una forma que no era posible, o no era costo efectiva. A
estos medios los agruparemos en Procesamiento y Administracin de Datos.
Acceder a los datos de una forma ms directa, en "el lenguaje del negocio", y analizarlos para
obtener relaciones complejas entre los mismos. Estos procesos se engloban en dos categoras
que sern explicadas ms adelante: Acceso a los Datos y Descubrimiento o Data Mining.
Estos desarrollos tecnolgicos, correctamente organizados e interrelacionados, constituyen lo que
se ha dado en llamar un Data Warehouse o Bodega de Datos. Veamos un poco ms en detalle los
grupos mencionados.
Existen muchas definiciones para el DW, la ms conocida fue propuesta por Inmon[MicroSt96]
(considerado el padre de las Bases de Datos) en 1992: "Un DW es una coleccin de datos
orientados a temas, integrados, no-voltiles y variante en el tiempo, organizados para soportar
29
FACULTAD DE INGENIERIA
necesidades empresariales". En 1993, Susan Osterfeldt[MicroSt96] publica una definicin que sin
duda acierta en la clave del DW: "Yo considero al DW como algo que provee dos beneficios
empresariales reales: Integracin y Acceso de datos. DW elimina una gran cantidad de datos
intiles y no deseados, como tambin el procesamiento desde el ambiente operacional clsico".
Data Marts
Es un pequeos Data Warehouse, para un determinado numero de usuarios, para un arrea
funcional, especifica de la compaa. Tambin podemos definir que un Data Martes es un
subconjunto de una bodega de datos para un propsito especifico.
Su funcin es apoyar a otros sistemas para la toma de decisiones.
Los procesos que conforma el datawarehouse son:
1-Extraccion
2-Elaboracin
3-Carga
4-Explotacion
FACULTAD DE INGENIERIA
Diagrama de Funcionamiento
FACULTAD DE INGENIERIA
En qu podemos usarlo?
CUESTIONARIO
1.
2.
3.
4.
5.
6.
32
FACULTAD DE INGENIERIA
WORK PAPER # 3
No. DE PROCEDIMIENTO:
No. DE HOJAS :
ELABOR:
CDIGO:
ALUMNOS
ADMINIST.
OTROS
FECHA DE DIFUSIN:
FECHA DE ENTREGA:
33
FACULTAD DE INGENIERIA
OLAP
Es un sinnimo de base de datos multidimensional mediante las cuales se proveen una tecnologa
para el clculo y anlisis requerido por las aplicaciones analticas para el "Bussines Intellingence",
las bases de datos relacionadas estn formadas por un conjunto de registros. Cada registro
contiene la informacin organizada en campos.
El OLAP describe la tecnologa asociada al acceso y anlisis de datos en lneas.
Sistemas De Data Warehouse Y Oltp
Una base de datos para soportar procesos transaccionales en lnea (OLTP), puede no ser
adecuada para el Data Warehouse ya que ha sido diseada para maximizar la capacidad
transaccional de sus datos y tipicamente tiene cientos de tablas la gran mayora normalizadas. Su
diseo tambin ha sido condicionado por los procesos operacionales que deber soportar para la
ptima actualizacin de sus datos, normalmente muchas de sus tablas en constantes y continuos
cambios. Los sistemas Data Warehouse estn orientados a procesos de consultas en
contraposicin con los procesos transaccionales.
OLTPData WarehousePropsitoEjecuta operaciones transaccionales diariamenteConsultas y
anlisis para la obtencin de informacinEstructuraSistemas de bases de datos
relacionalesNormalmente sistemas de bases de datos relacionalesModelo de
datosNormalizadoMuchas de sus tablas pueden no estar normalizadas se admite redundancia en
los datos. Bases de datos multidimensionales.AccesoSQLSQL ms extensiones especiales
dependientes de las herramientas de explotacin de datos (Data Mining)
No obstante, el SQL estndar puede ser suficiente en manos de personal experto.Tipo de
datosLos datos estn orientados a la gestin de los negociosLos datos estn orientados al anlisis
de los negocios.
Transforman los datos en informacin para su anlisis. Perdurabilidad Los datos cambian
constantemente, vistos globalmente en procesos de reporting sofisticados pueden perder
consistencia, o bien, para no perder consistencia deben imponerse mecanismos de bloqueo de
datos con un elevado consumo de recursos globales del sistema.Datos histricos con referencias
temporales no sujetos a modificaciones.
34
FACULTAD DE INGENIERIA
Caractersticas
De acuerdo con Bill Inmon, autor de Building the Data Warehouse Construyendo el almacn de
datos, ampliamante reconocido como el gur creador del concepto data warehousing, existen
generalmente cuatro caractersticas que describen un almacen de datos:
1.orientado al sujeto:
Los datos se organizan de acuerdo al sujeto en vez de la aplicacin, por ejemplo, una compaia
de seguros usando un almacn de datos podra organizar sus datos por cliente, premios, y
reclamaciones, en lugar de por diferentes productos (automviles, vida, etc.). Los datos
organizados por sujetos contienen solo la informacin necesaria para los procesos de soporte para
la toma de decisiones.
2.integrados:
Cuando los datos residen en muchas aplicaciones separados por los distintos entornos
operacionales, la descodificacin de los datos es a menudo inconsistente. Por ejemplo, en una
aplicacin, la palabra gender podra codificarse como "m" y "f" en otra como "0" y "1". cuando los
datos fluyen de un entorno operacional a un entorno de almacen de datos o de data warehouse,
ellos asumen una codificacin consistente, por ejemplo gender siempre se transformara a "m" y
"f".
3.variacin-temporal:
El almacen de datos contiene un lugar para guardar datos con una antiguedad de 5 a diez aos,
o incluso ms antiguos, para poder ser usados en comparaciones, tendencias y previsiones. Estos
datos no se modificarn.
4. No son inestables:
Los datos no sern modificados o cambiados de ninguna manera una vez ellos han sido
introducidos en el almacn de datos, solamente podrn ser cargados, leidos y/o accedidos.
35
FACULTAD DE INGENIERIA
CUESTIONARIO
1.
2.
3.
4.
5.
6.
7.
Qu es OLAP?
Qu es OLTP?
Averigue el objetivo de Molap y Rolap
Decriba la relacin entre OLAP y un Data Warehouse
Decriba la relacin entre MOLAP y un Data Warehouse
Decriba la relacin entre ROLAP y un Data Warehouse
Esplique brevemente las caractersticas de un almacen de datos
36
FACULTAD DE INGENIERIA
WORK PAPER # 4
No. DE PROCEDIMIENTO:
No. DE HOJAS :
ELABOR:
CDIGO:
ALUMNOS
ADMINIST.
OTROS
FECHA DE DIFUSIN:
FECHA DE ENTREGA:
37
FACULTAD DE INGENIERIA
DATA MINING
En este sentido un sistema Datamining es una tecnologa de soporte para usuario final, cuyo
objetivo es extraer conocimiento til y utilizable a partir de la informacin contenida en las bases
de datos de las empresas.
Los objetivos de un sistema Datamining nos permitira analizar factores de influencia en
determinados procesos, predecir o estimar variables o comportamientos futuros, sementar o
agrupar tems similares, adems de obtener secuencias de eventos que provocan
comportamientos especficos.
Los sistemas Datamining se desarrollan bajo lenguajes de ultima generacin basados en la
inteligencia artificial y utilizando mtodos matemticos, tales como:
Redes euronales
Introduccin de reglas
Arboles de decisin
Conjunto de reglas por clase
Soporta tambien sofisticadas operaciones de anlisis tales como los sistemas Scoring y
aplicaciones de deteccin de fraude
CUESTIONARIO
1. Explique el objetivo de Data Mining
2. Explique la relacin entre Data MIning y Data Warehouse
3. Investique los mtodos y tcnicas que utiliza Data Mining:
Redes Neuronales
Introduccin de reglas
Arboles de decisin
Algoritmos Geneticos
Logica Difusa
38
FACULTAD DE INGENIERIA
FACULTAD DE INGENIERIA
Por el momento ya se ha sacado el 1er nivel como recomendacin (Octubre 1998), y el public draft
del 2, es decir, est en etapa de consulta y sujeto a comentarios.
El objetivo es que de una vez por todas cualquier script pueda ejecutarse de forma ms o menos
homognea en cualquier navegador que soporte dicho DOM. Siempre por supuesto se podr
elegir el implementar modelos propietarios que es lo que ahora ofrecen Netscape y Microsoft, pero
tener una plataforma estndar en la que poder crear contenidos sin temor a no estar soportado por
alguna marca o versin de navegador, que adems sea potente y verstil.
Y por supuesto, como el conjunto de piezas que el W3C est creando para su uso en el
intercambio de documentos e informacin, no estar sujeto al mbito de los navegadores, sino que
su uso ser extensible a cualquier tipo de aplicacin que acceda a esos documentos.
40
FACULTAD DE INGENIERIA
41
FACULTAD DE INGENIERIA
NOTA: Los pasos 3 y 4 deben ser realizados con el NetBeans, de acuerdo a lo indicado en la
pgina proporcionada en clases.
PROGRAMA DE CALIDAD UDABOL
DIF 003
IMPACTOS DE DATA WAREHOUSE
El xito de DW no est en su construccin, sino en usarlo para mejorar procesos empresariales,
operaciones y decisiones. Posesionar un DW para que sea usado efectivamente, requiere
entender los impactos de implementacin en los siguientes mbitos:
Impactos Humanos.
Efectos sobre la gente de la empresa:
Construccin del DW: Construir un DW requiere la participacin activa de quienes usarn el DW. A
diferencia del desarrollo de aplicaciones, donde los requerimientos de la empresa logran ser
relativamente bien definidos producto de la estabilidad de las reglas de negocio a travs del
tiempo, construir un DW depende de la realidad de la empresa como de las condiciones que en
ese momento existan, las cuales determinan qu debe contener el DW. La gente de negocios debe
participar activamente durante el desarrollo del DW, desde una perspectiva de construccin y
creacin. Accesando el DW: El DW intenta proveer los datos que posibilitan a los usuarios
accesar su propia informacin cuando ellos la necesitan. Esta aproximacin para entregar
informacin tiene varias implicancias:
a) La gente de la empresa puede necesitar aprender nuevas destrezas.
b) Anlisis extensos y demoras de programacin para obtener informacin ser eliminada. Como
la informacin estar lista para ser accesada, las expectativas probablemente aumentarn.
c) Nuevas oportunidades pueden existir en la comunidad empresarial para los especialistas de
informacin.
d) La gran cantidad de reportes en papel sern reducidas o eliminadas.
e) La madurez del DW depender del uso activo y retroalimentacin de sus usuarios.
Usando aplicaciones DSS/EIS: usuarios de aplicaciones DSS y EIS necesitarn menos
experiencia para construir su propia informacin y desarrollar nuevas destrezas.
42
FACULTAD DE INGENIERIA
3. Impactos Empresariales.
Procesos Empresariales Y Decisiones Empresariales.
Se deben considerar los beneficios empresariales potenciales de los siguientes impactos:
a) Los Procesos de Toma de Decisiones pueden ser mejorados mediante la disponibilidad de
informacin. Decisiones empresariales se hacen ms rpidas por gente ms informada.
b) Los procesos empresariales pueden ser optimizados. El tiempo perdido esperando por
informacin que finalmente es incorrecta o no encontrada, es eliminada.
c) Conexiones y dependencias entre procesos empresariales se vuelven ms claros y entendibles.
Secuencias de procesos empresariales pueden ser optimizados para ganar eficiencia y reducir
costos.
d) Procesos y datos de los sistemas operacionales, as como los datos en el DW, son usados y
examinados. Cuando los datos son organizados y estructurados para tener significado
empresarial, la gente aprende mucho de los sistemas de informacin. Pueden quedar expuestos
posibles defectos en aplicaciones actuales, siendo posible entonces mejorar la calidad de nuevas
aplicaciones. Comunicacin e Impactos Organizacionales.
Apenas el DW comienza a ser fuente primaria de informacin empresarial consistente, los
siguientes impactos pueden comenzar a presentarse:
a) La gente tiene mayor confianza en las decisiones empresariales que se toman. Ambos, quienes
toman las decisiones como los afectados conocen que est basada en buena informacin.
b) Las organizaciones empresariales y la gente de la cual ella se compone queda determinada por
el acceso a la informacin. De esta manera, la gente queda mejor habilitada para entender su
propio rol y responsabilidades como tambin los efectos de sus contribuciones; a la vez,
desarrollan un mejor entendimiento y apreciacin con las contribuciones de otros.
c) La informacin compartida conduce a un lenguaje comn, conocimiento comn, y mejoramiento
de la comunicacin en la empresa. Se mejora la confianza y cooperacin entre distintos sectores
de la empresa , vindose reducida la sectorizacin de funciones.
d) Visibilidad, accesibilidad, y conocimiento de los datos producen mayor confianza en los
sistemas operacionales.
Impactos Tcnicos De DW.
43
FACULTAD DE INGENIERIA
44
FACULTAD DE INGENIERIA
FACULTAD DE INGENIERIA
difcil que un proveedor sepa ms acerca de su producto de lo que sabemos nosotros. Nos da el
poder de la ventaja competitiva." Para poner esto en perspectiva debemos considerar que las
sucursales a las que hace referencia Sam Walton son unas 2500 y que cada una de ellas tiene
una variedad de entre 50.000 y 80.000 artculos, todas las noches 20 millones de actualizaciones
se realizan en el Data Warehouse. Wal*Mart es un excelente ejemplo prctico del concepto
planteado por A. Tofler en su libro "Powershift": el poder se desplaza del fabricante al minorista por
el manejo de la informacin.
Otras instalaciones de Data Warehousing de magnitud en la industria minorista son las de Kmart,
Sears,
Meijer,
Kohl's
Department
Stores,
American
Stores
(Jewel/OSCO/Lucky/Savon/ACME/SuperSaver), Mervyn's, Buttrey Food & Drug, QVC Home
Shopping, Canadian Tyre, WH Smith Books (Gran Bretaa), Great Universal (GB), Supermercados
Casino (Francia), Migrosgenossenschaftsbund (Suiza), Otto Versand (Alemania).
Manufactura de Bienes de Consumo Masivo
Las empresas de este sector necesitan hacer un manejo cada vez ms gil de la informacin para
mantenerse competitivas en la industria. Los Data Warehouses se utilizan para predecir la
cantidad de producto que se vender a un determinado precio y, por consiguiente, producir la
cantidad adecuada para una entrega "justo a tiempo". A su vez se coordina el suministro a las
grandes cadenas minoristas con inmensas cantidades de productos "en consignacin", que no son
pagados hasta que estos productos son vendidos al consumidor final.
Las cadenas minoristas y sus proveedores utilizan sus Data Warehouses para compartir
informacin, permitindole a las empresas de manufactura conocer el nivel de stock en las
gndolas y eventualmente hacerse responsables de la reposicin de inventario de la cadena
minorista. Como es de esperar esto reduce fuertemente la intermediacin. Tambin se utilizan para
campaas de marketing, planificacin de publicidad y promociones y se coordinan las ofertas de
cupones y promociones con las cadenas minoristas.
Un ejemplo interesante es el de Whirlpool. Este fabricante global de electrodomsticos con base
en Benton Harbor, Michigan, utiliza su Data Warehouse para hacer un seguimiento directo de sus
casi 15 millones de clientes y de sus ms de 20 millones de aparatos instalados. Las mayores
aplicaciones del sistema son para marketing, ventas, mantenimiento, garanta y diseo de
productos. Permite mantener stock de partes ms ajustados y mejorar las condiciones de
negociacin con los proveedores de las mismas. Si, por ejemplo, un determinado motor se
46
FACULTAD DE INGENIERIA
identifica como poseedor de una tasa de falla superior, Whirlpool puede utilizar la informacin para
hacer renegociaciones de garanta con el proveedor.
Como ancdota interesante se puede mencionar que durante el verano de 1993 los ingenieros de
Whirlpool detectaron una tasa de falla muy alta en una manguera de conexin en una serie de
lavarropas que se estaba vendiendo. A partir de all se detuvo la produccin, se identificaron los
clientes y se enviaron tcnicos a reemplazar la parte defectuosa antes de que entrara en falla.
Esto no solo tuvo un impacto muy importante en satisfaccin de clientes sino que se redujeron los
costos de garanta por el reemplazo planificado y, especialmente, se evitaron costosos reclamos
por dao a la propiedad debidos a prdidas de agua!
Otras empresas del sector que cuentan con Data Warehouses de importancia son: Coca Cola,
Nike, Procter & Gamble, Hallmark, Maybelline, Helene Curtis, 3M, Owens Corning Glass, Karsten
Ping Golf Clubs, Walt Disney.
Transporte de Cargas y Pasajeros
Se utilizan Data Warehouses para almacenar y acceder a meses o aos de datos de clientes y
sistemas de reservas para realizar actividades de marketing, planeamiento de capacidad,
monitoreo de ganancias, proyecciones y anlisis de ventas y costos, programas de calidad y
servicio a clientes.
Las empresas de transporte de cargas llevan datos histricos de aos, de millones de
cargamentos, capacidades, tiempos de entrega, costos, ventas, mrgenes, equipamiento, etc..
Las aerolneas utilizan sus Data Warehouses para sus programas de viajeros frecuentes, para
compartir informacin con los fabricantes de naves, para la administracin del transporte de
cargas, para compras y administracin de inventarios, etc. Hacen un seguimiento de partes de
repuesto, cumplimiento con las regulaciones aeronuticas, desempeo de los proveedores,
seguimiento de equipaje, historia de reservas, ventas y devoluciones de tickets, reservas
telefnicas, desempeo de las agencias de viajes, estadsticas de vuelo, contratos de
mantenimiento, etc.
Algunas empresas que cuentan con Data Warehouses de magnitud: Cornrail, Union Pacific,
Norfolk Southern, American President Lines, Delta, Lufthansa, QANTAS, British Airways, American
Airlines, Canadian Airlines, SNFC.
47
FACULTAD DE INGENIERIA
Telecomunicaciones
Estas empresas utilizan sus Data Warehouses para operar en un mercado crecientemente
competitivo, desregulado y global que, a su vez, atraviesa profundos cambios tecnolgicos. Se
almacenan datos de millones de clientes: sus circuitos, facturas mensuales, volmenes de
llamados, servicios utilizados, equipamiento vendido, configuraciones de redes, etc. as como
tambin informacin de facturacin, utilidades, y costos son utilizadas con propsitos de
marketing, contabilidad, reportes gubernamentales, inventarios, compras y administracin de
redes. Otras Industrias
Muchas otras industrias y actividades utilizan actualmente, o estn comenzando a instalar, Data
Warehouses: entidades gubernamentales, especialmente para el control impositivo, empresas de
servicios pblicos, de entretenimiento, editoriales, fabricantes de automviles, empresas de
petroleo y gas, laboratorios farmacuticos, drogueras, etc.
En la industria informtica NCR dispone de los Data Warehouses de mayor magnitud y
antigedad. Sus mayores instalaciones se encuentran en distintos centros de la compaa en
Estados Unidos. La de NCR El Segundo, California, es una de las ms antiguas del mundo, su
primera aplicacin fue el seguimiento histrico y detallado de la base de clientes: llamados de
servicios, productos instalados, performances, etc. Esta instalacin es herencia de Teradata,
compaa fundada en 1979 para la produccin de sistemas de procesamiento paralelo masivo
destinados a aplicaciones de soporte a la toma de decisiones y posteriormente adquirida por NCR.
En NCR San Diego, California, se encuentra el centro de desarrollo de los computadores
WorldMark. Sobre los mismos se realiz la demostracin del Data Warehouse ms grande del
mundo: 10 Terabytes de informacin (=10.000 Gigabytes=10.000.000 Megabytes), para poner esto
en trminos manejables debemos considerar que toda la informacin escrita de la Biblioteca del
Congreso de los Estados Unidos se podra almacenar en unos 20 Terabytes.
En NCR Dayton, Ohio, la compaa dispone de un Data Warehouse de 1 Terabyte (=1000
Gigabytes) destinado fundamentalmente a tareas de marketing, produccin y finanzas. A la fecha
tiene almacenados 281.154 documentos, agrupados en 36 grupos de inters temtico, que pueden
ser accedidos 24 Hs. al da, los siete das de la semana, por 16.100 usuarios distribuidos en 46
pases. A principios del ao 1996 el sistema estaba respondiendo un promedio de 242.707
consultas mensuales.
48