Sei sulla pagina 1di 21

Universidad Abierta y a Distancia

Practica 2
JANES SAENZ PUERTA CC: 1.046.427.232

2013

TABLA DE CONTENIDO
DESCRIPCIN DE LA ACTIVIDAD .......................................................................................................... 4 PROPUESTA BODEGA DE DATOS PARA LA UNAD ............................................................................... 4 TABLA DE HECHOS OLAP CONCEPTOS ................................................................................................ 4 MODELO RELACIONAL GENERAL......................................................................................................... 5 MODELO RELACIONAL LOCAL ............................................................................................................. 6 MODELO RELACIONAL......................................................................................................................... 7 IMPLEMENTACIN DE LA BODEGA DE DATOS.................................................................................... 8 VENTAJAS DE NUESTRA BODEGA DE DATOS .................................................................................. 8 DISEO DE NUESTRA BODEGA DE DATOS .......................................................................................... 9 BENEFICIOS DE LA IMPLEMENTACION DE LA BODEGA DE DATOS ................................................... 10 PROCESO DE IMPLEMENTACIN ...................................................................................................... 11 SOFTWARE: ................................................................................................................................... 11 HARDWARE: .................................................................................................................................. 11 RIESGOS DEL SISTEMA OPERATIVO. .............................................................................................. 12 RIESGOS DE LA RED. ...................................................................................................................... 12 OTROS RIESGOS............................................................................................................................. 12 DATA MINING .................................................................................................................................... 13 APLICACIN DEL DATA MINING EN EL ANALISIS DE POBLACION UNAD .......................................... 14 TCNICAS DE MINERA DE DATOS ..................................................................................................... 15 ESTRUCTURA BSICA DE UN SISTEMA EXPERTO .............................................................................. 18 TIPOS DE SISTEMAS EXPERTOS ......................................................................................................... 18

INTRODUCCION
Con el presente trabajo colaborativo perteneciente a la UNIDAD No dos del mdulo de Bases de datos avanzadas, se espera lograr de parte de nosotros los estudiantes de este curso asimilar y comprender cada tema visto con anterioridad en la unidad correspondiente a esta tarea, as como tambin conocer y aplicar los concepto de bases de datos distribuidas y bodegas de datos por medio de la minera de datos. Los fundamentos tericos para esta prctica se presentan en el mdulo del curso, en la temtica correspondiente a Bodegas de datos y minera de datos. Una Bodega de Datos (Data Warehouse) es un repositorio integrados por datos que pueden ser generados internamente o recibidos de fuentes externas, organizados de tal manera que facilitan el proceso de toma de decisiones. La Minera de datos es el proceso analtico diseado para explorar grandes volmenes de datos con el objeto de descubrir patrones y modelos de comportamiento o relaciones entre diferentes variables. Es decir, descubrir conocimiento que ayuda a mejorar la toma de decisiones en las organizaciones.

OBJETIVOS
Utilizar los temas abordados en la segunda unidad del curso y complemente su aprendizaje mediante lecturas de los textos de referencia. De igual manera, mejorar la comprensin y el aprendizaje mediante socializacin y discusin de los temas con el grupo colaborativo. Poner en prctica la unidad 2 del mdulo bases de datos avanzada. Aplicar bodegas de datos sobre un ejemplo real y crear una minera de datos

DESCRIPCIN DE LA ACTIVIDAD
En la prctica 1 se dise la base de datos distribuida para la Unad, ahora continuando con este ejercicio, se solicita que se ponga en prctica los conocimientos adquiridos en la unidad dos y se prepare una propuesta detallada de implementacin de una bodega de datos en la que se aplicar minera de datos para extraer informacin importante para la toma de decisiones. La propuesta debe presentar informacin suficiente sobre la bodega de datos, como: ventajas para la organizacin, proceso de implementacin, costos, riesgos; de igual manera una descripcin detallada de la aplicacin de algoritmos de minera de datos en dnde se resalte qu informacin especfica se podra obtener mediante esta tcnica que no podra obtenerse de manera convencional.

PROPUESTA BODEGA DE DATOS PARA LA UNAD


Primero que todo explicamos en nuestra propuesta para ustedes lo que consiste la bodega de datos, como conjunto de datos integrados u orientados a una materia, que varan con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones de la administracin y est orientada al manejo de grandes volmenes de datos provenientes de diversas fuentes o diversos tipos. Estos datos cubren largos perodos de tiempo lo que trae consigo que se tengan diferentes esquemas de los datos fuentes, La concentracin de esta informacin est orientada a su anlisis para apoyar la toma de decisiones oportunas y fundamentadas, Previo a su utilizacin se debe aplicar procesos de anlisis, seleccin y transferencia de datos seleccionados desde las fuentes.

TABLA DE HECHOS OLAP CONCEPTOS


ESCUELAS CENTROS
Nom_escuela, telfono, decano, correo, direccin

PROGRAMAS
(Id_programa , nombre, titulo, modalidad, T_informacio n, N_educativo, crditos)

CURSOS
Id_curso, tutor, mediacin, coordinador, nombre

TUTORES
Id_tutor, correo, telfono, nombre, apellido, direccin, N_formacio n

ESTUDIANTES
Id_estudia nte, nombre, apellido, direccin, telefono

MODELO RELACIONAL GENERAL

MODELO RELACIONAL LOCAL

MODELO RELACIONAL

IMPLEMENTACIN DE LA BODEGA DE DATOS


La bodega de datos del almacn estar ubicada en la Zona central por lo tanto se dispondr de toda la informacin de las sedes del supermercado actualizando la mediante las herramientas especficas como son: Herramientas de Almacenamiento (bases de datos, multidimensionales): esta ser un servidor para el almacenamiento y manejo de la base de datos corporativa, Herramientas de Extraccin y Coleccin: sern desarrolladas por el personal interno de la compaa dado el gran conocimiento que tienen de los sistemas transaccionales. Herramientas para Reportes de Usuario Final: es la interface vista por el usuario entre estas puede ser seleccionada entre Cognos Powerplay, Business Objects, SAS, ShowCase Strategy. Herramientas para Anlisis Inteligentes: Entre ellas estn las de empresas como IBM, SAS, Arbor, Cognos, Business Objects, entre otras. Estas herramientas han sido construidas utilizando inteligencia artificial que buscan alrededor de la Bodega de Datos modelos y relaciones en los datos. Estas herramientas utilizan una tcnica conocida como Minera de datos.

Para la implementacin de nuestra bodega de datos les planteamos algunas ventajas que tendramos con la anterior.

VENTAJAS DE NUESTRA BODEGA DE DATOS


Proporciona informacin clave para la toma de decisiones en la empresa y mejora la calidad de las decisiones tomadas. Especialmente til para el medio y largo plazo. Muy tiles para el almacenamiento de anlisis y consultas de histricos. Proporciona un gran poder de procesamiento de informacin. Permite una mayor flexibilidad y rapidez en el acceso a la informacin. Facilita la toma de decisiones en los negocios Y la empresa obtiene un aumento de la productividad. Proporciona una comunicacin fiable entre todos los departamentos de la empresa y Mejora las relaciones con los proveedores y los clientes.

DISEO DE NUESTRA BODEGA DE DATOS


Con el fin optimizar las consultas relacionadas con los aspectos de la Unad (Centros, tutores, Programas, etc.). Esto conduce a una estructura en estrella en la que el centro es la tabla fact o hecho que representa al factor principal por el que se desea analizar la base de datos. Alrededor de esta tabla aparecen las tablas dimensin, que representan los diferentes aspectos relac ionados con el principal y que influyen en el estudio. Consideraciones tenidas al momento del diseo: Identificar las tablas de hechos, ya que es posible tener ms de una. Por cada aspecto del negocio que interese estudiar debe aparecer una tabla de hechos. Identificar las tablas de dimensin (esto es, decidir cules son los parmetros por los que interesa realizar el estudio). Comprobar que ninguna de las tablas de hechos oculta tablas de dimensiones. Al heredar la estructura de las bases de datos operacionales, esto ocurre muy a menudo al encontrarnos que no se han eliminado atributos que ya no interesan. Teniendo en cuenta algunas consideraciones como las anteriores recomendaciones presentamos el modelo de nuestra bodega de datos. Al disear nuestra bodega de datos para la UNAD, se toma informacin de las anteriores bases de datos realizada en el Informe No 1, tales informaciones como: Escuelas: En las Cuales se dividen los distintos programas. Programas: para la identificacin de los programas acadmicos. Cursos, Tutores y Estudiantes: que almacenan la informacin relevante a los actores de la Unad.

BENEFICIOS DE LA IMPLEMENTACION DE LA BODEGA DE DATOS


La UNAD se ver beneficiada de usar una bodega de datos porque ser una forma ms gil de obtener informacin especfica para tomar decisiones con el fin de aumentar las ventas. La bodega de datos no implica demasiado costo para la Unad, pues al tener una base de datos distribuida la informacin se filtrar para tomar solo la especifica y necesaria para almacenar en la bodega de datos, aunque s debera tener presupuesto para alguna herramienta hardware y para el recurso humano. Para la bodega de datos y minera se necesitaran herramientas como Herramientas de Almacenamiento, Herramientas de Extraccin y Coleccin, Herramientas para Reportes de Usuario Final y Herramientas para Anlisis Inteligentes.

PROCESO DE IMPLEMENTACIN
SOFTWARE:
Herramientas de Almacenamiento: corresponde a la herramienta en la cual se irn a almacenar los datos. Existen muchas opciones dependiendo del volumen de los datos, presupuesto y capacidad de su sistema. Cada uno de los sistemas de administracin de bases de datos, como Oracle, DB2, Informix, Tera Data?, Sybase, etc, tienen una facilidad de Data Warehouse. Herramientas de Extraccin y Coleccin: Ayudan a definir, acumular, totalizar y filtrar los datos de sus sistemas transaccionales en el Data Warehouse. La mayora de esas herramientas son desarrolladas por el personal interno de la compaa dado el gran conocimiento que tienen de los sistemas transaccionales. Herramientas para Elaboracin de Reportes a Usuarios Finales: Es la interface vista por el usuario. Al usuario se le debe proveer un mecanismo para que vea los datos a un alto nivel y que entonces obtenga con ello la solucin a preguntas especficas. Existen muchas herramientas, incluyendo Cognos Powerplay, Business Objects, SAS, Show Case? Strategy etc.

HARDWARE:
Se requiere de un servidor para el almacenamiento y manejo de la base de datos corporativa; este servidor se recomienda que sea altamente escalable, pues algunas veces el proyecto de construccin de la bodega presenta redimensionamiento a medida que se avanza en la implementacin. La capacidad inicial de almacenamiento estar determinada por los requerimientos de informacin histrica presentados por la empresa y por la perspectiva de crecimiento que se tenga.

Debemos considerar que en todo proyecto de bases de datos e implementacin de una bodega de datos tendremos y existen algunos riesgos para el sistema, presentamos alguno de esos riesgos ms significativos.

RIESGOS DEL SISTEMA OPERATIVO.


La bodega de datos se encuentra sobre la plataforma del sistema operativo. La seguridad representada en la disponibilidad, confidencialidad y controles de accesos y privilegios sobre las reas de almacenamiento y procesamiento estn en gran medida dependientes de esta plataforma. El Sistema operativo no apoya las polticas de acceso establecidas desde la administracin de la bodega de datos. Los recursos requeridos por los procesos de actualizacin sean mal atendidos por el sistema operativo. El sistema operativo permite que programas o usuarios ejecuten y utilicen recursos protegidos desde la bodega de datos. El sistema operativo no otorga los recursos necesarios para la realizacin de procesos de alto costo computacional.

RIESGOS DE LA RED.
Es la infraestructura de comunicacin que permite que los diferentes componentes intercambien informacin. La cantidad de datos contenidos en la bodega de datos incrementa su importancia. Acceso al sistema desde elementos externos sin autorizacin (aplicaciones, personas, etc.) La red se convierta en un cuello de botella para lo operacin del sistema. La inexistencia de elementos que respalden un componente que falle

OTROS RIESGOS
- Des actualizacin de esquemas a nuevas necesidades del negocio. - Acceso no restringido a objetos de la bodega de datos. - Respaldo de los datos almacenados.

DATA MINING
El data mining es una tecnologa compuesta por etapas que integra varias reas y que no se debe confundir con un gran software. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadsticas, de visualizacin de datos o de inteligencia artificial, principalmente. Actualmente existen aplicaciones o herramientas comerciales de data mining muy poderosas que contienen un sinfn de utileras que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementndose con otra herramienta. Podemos decir que "en data mining cada caso es un caso". Sin embargo, en trminos generales, el proceso se compone de cuatro etapas principales: 1. Determinacin de los objetivos. Trata de la delimitacin de los objetivos que el cliente desea bajo la orientacin del especialista en data mining. 2. Preprocesamiento de los datos. Se refiere a la seleccin, la limpieza, el enriquecimiento, la reduccin y la transformacin de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining. 3. Determinacin del modelo. Se comienza realizando unos anlisis estadsticos de los datos, y despus se lleva a cabo una visualizacin grfica de los mismos para tener una primera aproximacin. Segn los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes reas de la Inteligencia Artificial. 4. Anlisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los anlisis estadsticos y de visualizacin grfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.

APLICACIN DEL DATA MINING EN EL ANALISIS DE POBLACION UNAD


Uno de los campos de aplicacin tradicionales de la minera de datos es la prediccin de la evolucin en el futuro de una variable (o conjunto de variables) a partir de datos histricos sobre su comportamiento en el pasado. Las tcnicas de minera de datos constituyen una alternativa til y eficaz a las aproximaciones matemticas tradicionales, especialmente en el caso de variaciones muy irregulares, complicadas de modelar con los mtodos clsicos. Para mejorar la precisin del modelo y conseguir la exactitud necesaria en las predicciones, se han aplicado tcnicas de minera de datos. En primer lugar, se han analizado las caractersticas bsicas de la serie. A simple vista, se observa que las ventas presentan una tendencia creciente en el tiempo que puede modelarse con medias mviles. Tambin se observan oscilaciones estacionales, aunque estas regularidades no aparecen en todos los meses. Por ejemplo, si bien se puede medir las caractersticas de la poblacin de que se encuentra en la Unad como tutores, estudiantes y personal administrativo. Esto puede significar que la serie incluye varios factores de influencia con distintos periodos. Estas observaciones se ven confirmadas por el anlisis del espectro de frecuencia, que muestra varios mximos. Las conclusiones de los estudios preliminares sugieren la conveniencia de incluir en el modelo informacin no slo de los valores de la poblacin en los meses previos sino tambin sobre la tendencia de la serie y sobre la temporada en cuestin, datos todos ellos contenidos en la propia serie. El sistema desarrollado, basado en una red neuronal, permitira medir el nivel de la poblacin de la Unad, clasificando variables como Sexo, Edad, Zona Geogrfica, condicin socioeconmica, entre otras que permitirn el desarrollo de planes especficos para cada zona que conforma la Unad.

TCNICAS DE MINERA DE DATOS


Las tcnicas de la minera de datos provienen de la Inteligencia artificial y de la estadstica, dichas tcnicas, no son ms que algoritmos, ms o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados. Las tcnicas ms representativas son:

Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automtico inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexin de neuronas en una red que colabora para producir un estmulo de salida. Algunos ejemplos de red neuronal son: o El Perceptrn. o El Perceptrn multicapa. o Los Mapas Auto organizados, tambin conocidos como redes de Kohonen. rboles de decisin.- Un rbol de decisin es un modelo de prediccin utilizado en el mbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lgicas, muy similares a los sistemas de prediccin basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolucin de un problema. Ejemplos: o Algoritmo ID3. o Algoritmo C4.5. Modelos estadsticos.- Es una expresin simblica en forma de igualdad o ecuacin que se emplea en todos los diseos experimentales y en la regresin para indicar los diferentes factores que modifican la variable de respuesta. Agrupamiento o Clustering.- Es un procedimiento de agrupacin de una serie de vectores segn criterios habitualmente de distancia; se tratar de disponer los vectores de entrada de forma que estn ms cercanos aquellos que tengan caractersticas comunes. Ejemplos: o Algoritmo K-means. o Algoritmo K-medoids.

Segn el objetivo del anlisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998):

Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos) desconocido a priori, a partir de otros conocidos. Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren patrones y tendencias en los datos.

El hecho es, que en la prctica la totalidad de los modelos y algoritmos de uso general en minera de datos, como redes neuronales, rboles de regresin y clasificacin, modelos logsticos, anlisis de componentes principales, entre otros, gozan de una tradicin relativamente larga en otros campos. La minera de datos bebe de la estadstica, de la que toma las siguientes tcnicas: Anlisis de varianza, mediante el cual se evala la existencia de diferencias significativas entre las medias de una o ms variables continas en poblaciones distintas. Regresin: define la relacin entre una o ms variables y un conjunto de variables predictoras de las primeras. Prueba chi-cuadrado: por medio de la cual se realiza el contraste la hiptesis de dependencia entre variables. Anlisis de agrupamiento o clustering: permite la clasificacin de una poblacin de individuos caracterizados por mltiples atributos (binarios, cualitativos o cuantitativos) en un nmero determinado de grupos, con base en las semejanzas o diferencias de los individuos. Anlisis discriminante: permite la clasificacin de individuos en grupos que previamente se han establecido, permite encontrar la regla de clasificacin de los elementos de estos grupos, y por tanto una mejor identificacin de cules son las variables que definan la pertenencia al grupo. Series de tiempo: permite el estudio de la evolucin de una variable a travs del tiempo para poder realizar predicciones, a partir de ese conocimiento y bajo el supuesto de que no van a producirse cambios estructurales. Y como la informtica toma las siguientes tcnicas: Algoritmos genticos: Son mtodos numricos de optimizacin, en los que aquella variable o variables que se pretenden optimizar junto con las variables de estudio constituyen un segmento de informacin. Aquellas configuraciones de las variables de anlisis que obtengan mejores valores para la variable de respuesta, correspondern a segmentos con mayor capacidad reproductiva. A travs de la reproduccin, los mejores segmentos perduran y su proporcin crece de generacin en generacin. Se puede adems introducir elementos aleatorios para la modificacin de las variables (mutaciones). Al cabo de cierto nmero de iteraciones, la poblacin estar constituida por buenas soluciones al problema de optimizacin, pues las malas soluciones han ido descartndose, iteracin tras iteracin. Inteligencia Artificial: Mediante un sistema informtico que simula un sistema inteligente, se procede al anlisis de los datos disponibles. Entre los sistemas de Inteligencia Artificial se encuadraran los Sistemas Expertos y las Redes Neuronales.

Sistemas Expertos: Son sistemas que han sido creados a partir de reglas prcticas extradas del conocimiento de expertos. Principalmente a base de inferencias o de causa-efecto. Sistemas Inteligentes: Son similares a los sistemas expertos, pero con mayor ventaja ante nuevas situaciones desconocidas para el experto. Redes neuronales: Genricamente, son mtodos de proceso numrico en paralelo, en el que las variables interactan mediante transformaciones lineales o no lineales, hasta obtener unas salidas. Estas salidas se contrastan con los que tenan que haber salido, basndose en unos datos de prueba, dando lugar a un proceso de retroalimentacin mediante el cual la red se reconfigura, hasta obtener un modelo adecuado. Se busca una mejor calidad y rapidez en las respuestas dando as lugar a una mejora de la productividad del experto. Se puede considerar como una rama de la inteligencia artificial. Estos sistemas copian las actividades de un humano para resolver problemas de distinta ndole (no necesariamente tiene que ser de inteligencia artificial). Tambin se dice que un Sistema experto se basa en el conocimiento declarativo (hechos sobre objetos, situaciones) y el conocimiento de control (informacin sobre el seguimiento de una accin). Un sistema experto para que sea una herramienta efectiva, los usuarios deben interactuar de una forma fcil, reuniendo dos capacidades para poder cumplirlo como son: Expresar sus razonamientos o base del conocimiento: los sistemas expertos se deben realizar siguiendo ciertas reglas o pasos claros de manera que se pueda generar la explicacin para cada una de estas reglas, que a la vez se basan en hechos. Adquisicin de nuevos conocimientos o integrador del sistema: son mtodos de razonamiento que sirven para modificar los conocimientos anteriores. Sobre la base de lo anterior se puede decir que los sistemas expertos son el producto de investigaciones en el campo de la inteligencia artificial ya que esta no intenta sustituir a los expertos humanos, sino que se desea ayudarlos a realizar con ms rapidez y eficacia todas las tareas que realiza.

Debido a esto en la actualidad se estn mezclando diferentes tcnicas o aplicaciones aprovechando las ventajas que cada una de estas ofrece para poder tener empresas ms seguras. Un ejemplo de estas tcnicas sera los agentes que tienen la capacidad de negociar y navegar a travs de recursos en lnea; y es por eso que en la actualidad juega un papel preponderante en los sistemas expertos. Unos ejemplos claros de sistemas expertos son:

Dendral XCon Dipmeter Advisor

Mycin CADUCEUS R1 CLIPS, Jess Prolog ehsis.ikudetelemed.com

ESTRUCTURA BSICA DE UN SISTEMA EXPERTO


Un Sistema Experto est conformado por:

Base de conocimientos (BC): Contiene conocimiento modelado extrado del dilogo con el experto. Base de hechos (Memoria de trabajo): contiene los hechos sobre un problema que se ha descubierto durante el anlisis. Motor de inferencia: Modela el proceso de razonamiento humano. Mdulos de justificacin: Explica el razonamiento utilizado por el sistema para llegar a una determinada conclusin. Interfaz de usuario: es la interaccin entre el SE y el usuario, y se realiza mediante el lenguaje natural.

TIPOS DE SISTEMAS EXPERTOS


Principalmente existen tres tipos de sistemas expertos:

Basados en reglas. Basados en casos o CBR (Case Based Reasoning). Basados en redes bayesianas.

CONCLUSIONES
Esta minera de datos est dirigido a profesionales involucrados en el anlisis de los sistemas de informacin o en la toma de decisiones de su organizacin o de sus clientes, as como a estudiantes universitarios en titulaciones de ingeniera, informtica, empresariales o biomdicas, o bien que quieran complementar su formacin estadstica con la perspectiva del proceso de extraccin de conocimiento mediante la generacin de modelos a partir de bases de datos. Esta minera de datos es utilizada actualmente para deducir y encontrar perfiles de comportamiento de clientes, proveedores o ambientes, de acuerdo a los parmetros emitidos en los modelos matemticos que se extraen en el anlisis hecho para la implementacin de esta tecnologa.

REFERENCIAS BIBLIOGRAFICAS
Modulo de Bases de Datos Avanzadas (UNAD) Contenido en lnea: http://campus03.unadvirtual.org/moodle/file.php/160/moduloExe/index.html Documento sobre la Bodega de datos: http://ccp.ucr.ac.cr/bvp/pdf/desarrollohumano/bd_distribuidas-rca.pdf http://www.monografias.com/trabajos24/bodega-de-datos/bodega-dedatos.shtml Documentos sobre la Normalizacin de las BD: http://www.eet2mdp.edu.ar/alumnos/MATERIAL/MATERIAL/info/infonorma. pdf http://es.wikipedia.org/wiki/Normalizaci%C3%B3n_de_bases_de_datos

Potrebbero piacerti anche