Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
INVESTIGACIN UNIDAD 6
ALUMNO:
FELIPE CAMPOS AVILES
Contenido
Introduccin. ................................................................................................................................. 3 Tpicos selectos de bases de datos .............................................................................................. 4 6.1 CONCEPTOS DE BASES DE DATOS ORIENTADOS A OBJETOS. ................................................. 5 6.2 CONCEPTOS DE BASES DE DATOS DISTRIBUIDAS ................................................................... 7 6.3CONCEPTOS DE BASE DE DATOS EN MALLA ............................................................................ 8 6.4 CONCEPTOS DE BASE DE DATOS DIFUSAS. ........................................................................... 10 6.5.1 DATAWAREHOUSE ......................................................................................................... 16 6.5.2 DATAMINNING ............................................................................................................... 18 6.5.3 SOPORTE A LA TOMA DE DECISIONES............................................................................ 20 CONCLUSIN ............................................................................................................................... 22 BIBLIOGRAFA .............................................................................................................................. 23
Introduccin. En esta investigacin encontraran los tipo de redes de base de datos que existen de esta manera les ayudara a entender a comprender le manejo de las mismas as como el uso de ellas para ello en esta investigacin en donde hablando de la Bases de Datos de red nos servirn para comunicarlas de un lugar a otro como dice: Implica que una sola aplicacin debe ser capaz de operar de manera transparente sobre los datos que estn dispersos en una variedad de bases de datos diferentes, diferentes, manejadas por varios sistemas operativos diferentes y conectados a una variedad de redes de comunicacin distintas.; donde el termino de manera transparente significa que la aplicacin opera desde un punto de vista lgico como si todos los datos fueran manejados por un solo DBMS y ejecutados en una sola mquina. (Date, 2000) Tambin conocida como Base de datos espacial (spatial database) es un sistema administrador de bases de datos que maneja datos existentes en un espacio o datos espaciales.
Un programa de base de datos almacena la informacin que introducimos en forma de tablas como las que podemos ver, por ejemplo, en una lista telefnica. Registro: es el concepto bsico en el almacenamiento de datos. El registro agrupa la informacin asociada a un elemento de un conjunto y est compuesto por campos. Tabla: conjunto de registros homogneos con la misma estructura. Tipos de base de datos: planas y relacionales Para hacer una base de datos que cumpla las funciones de listn telefnico necesitamos una sola tabla, pero puede haber casos en los que necesitemos ms de una. A esta forma de organizar la base de datos mediante distintas tablas relacionadas por campos comunes se le llama base de datos relacional.
No todos los programas de gestin de base de datos tienen esta capacidad de manejar bases de datos relacionales, por eso, antes de elegir uno deberemos considerar si necesitamos o no esta capacidad. Esta base de datos relacional estar formada por tablas. Con la caracterstica de que las mismas se relacionan entre s mediante uno o ms campos. Se puede decir que cada objeto de la realidad ser una tabla en nuestra base de datos y que hay que buscar la manera de reflejar las relaciones antes mencionadas. Para este tipo de bases de datos con mltiples usuarios aparecieron las llamadas bases de datos de red. Estas estn situadas en un nico ordenador llamado servidor (generalmente ordenadores de gran potencia) y se puede acceder a ellas desde terminales u ordenadores con un programa que permita el acceso a ella los llamados clientes. Los Gestores de bases de datos de este tipo permiten que varios usuarios hagan operaciones sobre ella al mismo tiempo: uno puede hacer una consulta al mismo tiempo que otro, situado en un lugar diferente, est introduciendo datos en la base. Los almacenes de datos contienen a menudo grandes cantidades de informacin que se subdividen a veces en unidades lgicas ms pequeas dependiendo del subsistema de la entidad del que procedan o para el que sea necesario. Objetivos fundamentales. Registrar informacin a travs del tiempo. Tener informacin accesible, entendible, navegable y con buen desempeo. Tener informacin consistente. Significa contabilizada y completa. Informacin adaptable y elstica. Diseado para continuos cambios, permite nuevas preguntas y nuevos datos. Proteger la informacin. Permite buena visibilidad sobre el uso de los datos. Soportar la toma de decisiones.
6.1 CONCEPTOS DE BASES DE DATOS ORIENTADOS A OBJETOS. Las Bases de datos orientados a objetos se propusieron con la idea de satisfacer las necesidades de las aplicaciones ms complejas. El enfoque orientado a objetos ofrece la flexibilidad para cumplir con algunos de estos requerimientos sin estar limitado por los tipos de datos y los lenguajes de consulta disponibles en los sistemas de bases de datos tradicionales. Como cualquier Bases de Datos programable, una Base de Datos Orientada a Objetos (BDOO) proporciona un ambiente para el desarrollo de aplicaciones y un depsito persistente listo para su explotacin. Una BDOO almacena y manipula informacin que puede ser digitalizada (presentada) como objetos, adems proporciona un acceso gil y permite una gran capacidad de manipulacin. Los principales conceptos que se utilizan en las Bases de Datos Orientada a Objetos (BDOO) son las siguientes: Identidad de objetos Constructores de tipos Encapsulamiento
Compatibilidad con los lenguajes de programacin Jerarquas de tipos y herencias Manejo de objetos complejos Polimorfismo y sobrecarga de operadores Creacin de versiones BDOO Est diseada para simplificar la POO almacena objetos directamente en la base de datos empleando las mismas estructuras que leguajes de programacin. SGBOO Es un sistema de objetos y un sistema de base de datos que almacena objetos permitiendo la concurrencia y recuperacin. Pueden tratar directamente con los objetos sin hacer la traduccin a tablas registros, para los programadores de aplicacin (general o especfica) los objetos se conservan en su forma y tamao pueden compartirse con multiples usuarios, Niveles de abstraccin: interno Niveles de abstraccin Interno.- Como se van a guardar los objetos (disco duro) Conceptual.Como guardar la estructura Externo.Lo que vamos a mostrar al usuario (interfaz) Consideraremos el problema de almacenar un coche en el garaje en un sistema de objetos, el coche es un objeto, el garaje es un objeto y hay una operacin simple que es almacena el coche en el garaje. En el sistema relacional todos los datos se traducen en tablas, entonces el coche debe de ser desarmado, las llantas se colocan en un lugar, los birlos en otro lugar, por la maana antes de salir hay que componer el coche antes de conducir. Aplicaciones de la BDOO
Diseo asistido por computadora CAD Fabricacin asistida por computadora CAM Ingeniera de software asistido por computadora CASE Sistemas de gestin de red Sistemas de informacin de oficina y sistemas multimedia OIS Sistema autoedicin digital Sistemas de informacin geogrfica GIS Sistemas Web interactivos dinmicos
localidades. Un nuevo componente de software en cada localidad realiza las funciones de sociedad necesarias, u es la combinacin de este nuevo componente y el DBMS ya existente, la que constituye el llamado sistema administrador de bases de datos distribuidas. (Gonzales, 1998)
POLGONOS Figuras planas conectadas por distintas lneas u objetos cerrados que cubren un rea determinada, como por ejemplo pases, regiones o lagos. De esta forma la informacin sobre puntos, lneas y polgonos se almacena como una coleccin de coordenadas (x, y). La ubicacin de una caracterstica puntual, pueden describirse con un slo punto (x, y). Las caractersticas lineales, pueden almacenarse como un conjunto de puntos de coordenadas (x, y). Las caractersticas poligonales, pueden almacenarse como un circuito cerrado de coordenadas. La otra forma de expresar datos espaciales es mediante rasterizacin, la cual, a travs de una malla que permite asociar datos a una imagen; es decir, se pueden relacionar paquetes de informacin a los pxeles de una imagen digitalizada. Los datos espaciales adems se caracterizan por su naturaleza georreferenciada y multidireccional. La primera se refiere que la posicin relativa o absoluta de cualquier elemento sobre el espacio contiene informacin valiosa, pues la localizacin debe considerarse explcitamente en cualquier anlisis. Por multidireccional se entiende a que existen relaciones complejas no lineales, es decir que un elemento cualquiera se relaciona con su vecino y adems con regiones lejanas, por lo que la relacin entre todos los elementos no es unidireccional. Es decir, todos los elementos se relacionan entre s, pero existe una relacin ms profunda entre los elementos ms cercanos. Como destacaba Tobler: "todo tiene que ver con todo, pero las cosas cercanas estn ms relacionadas que las cosas lejanas".
LENGUAJES DE CONSULTA ESPACIAL Las bases de datos espaciales no tienen un conjunto de operadores que sirvan como elementos bsicos para la evaluacin de consultas ya que estas manejan un volumen extremadamente grande de objetos complejos no ordenados en una dimensin. Es por esto que existen algoritmos complejos para evaluar predicados espaciales. Las consultas son realizadas generalmente en SSQL (Spatial SQL), el cual introduce, mediante extensiones, los distintos conceptos del lgebra ROSE dentro del lenguaje SQL estndar, es decir, utiliza las clusulas SELECT-FROM-WHERE para las tres operaciones en el lgebra relacional (proyeccin algebraica, producto cartesiano y seleccin). Las tres categoras fundamentales de consultas en un sistema de informacin espacial son: Consultas exclusivamente de propiedades espaciales. Ejemplo: "Traer todos los pueblos que son cruzados por un ro". Consultas sobre propiedades no espaciales. Ejemplo: "Cuantas personas viven en Valdivia". Consultas que combinan propiedades espaciales con no espaciales. Ej: "Traer todos los vecinos de un cuadra localizada en Los Angeles".
10
En el lenguaje SSQL, el ejemplo del segundo punto se escribira de la siguiente forma. SELECT poblacin FROM ciudades WHERE nombre= "Valdivia" El otro tipo de consultas, para los datos obtenidos mediante rasterizacin, es llamado PSQL (Pictoral SQL) donde cada objeto espacial se extiende mediante un atributo loc (localizacin) el cual es referenciado en la clusula SELECT para una salida grfica y una clusula especfica para tratar relaciones espaciales. Tambin se destaca en los lenguajes de modelado de la informacin espacial a GML que es una estructura para almacenar y compartir datos geogrficos. Es una codificacin del modelo geomtrico de rasgo simple del OGC (Open Geospatial Consortium simple feature) usando XML. Un rasgo geogrfico (geographic feature) es definido por el OGC como "una abstraccin del fenmeno del mundo real, si ste est asociado con una posicin relativa a la Tierra". Por tanto, es posible hacer una representacin del mundo real con un conjunto de rasgos. La especificacin de un rasgo viene dada por sus propiedades, las que pueden pensarse definidas como un triple (nombre, tipo, valor). Si este rasgo es geogrfico entonces la propiedad tendr un valor geomtrico. Por tanto, un rasgo simple del OGC es aquel cuya propiedad geomtrica est restringida a una geometra simple en la que sus coordenadas estn definidas en dos dimensiones y en el caso de existir una curva, sta es sujeta a una interpolacin lineal.
11
pertenecer a un conjunto o no pertenecer al mismo; en otras palabras, el grado de pertenencia a un conjunto en la teora clsica tiene solo dos valores posibles: 0 y 1. En el sentido ms amplio, un sistema basado en reglas difusas es un sistema basado en reglas donde la lgica difusa es utilizada como una herramienta para representar diferentes formas de conocimiento acerca del problema a resolver, as como para modelar las interacciones y relaciones que existen entre sus variables. Debido a estas propiedades, los sistemas basados en reglas difusas han sido aplicados de forma exitosa en varios dominios en los que la informacin vaga o imprecisa emerge en diferentes formas. Actualmente, el modelo relacional no permiten el procesamiento de consultas del tipo Encontrar todos los gerentes cuyo sueldo no sea muy alto dado que ni el clculo ni el lgebra relacional, que establecen el resultado de cualquier consulta como una nueva relacin, tienen la capacidad de permitir consultas de una manera difusa. En los ltimos aos, algunos investigadores han lidiado con el problema de relajar el modelo relacional para permitirle admitir algunas imprecisiones; esto conduce a sistemas de bases de datos que encajan en el campo de la Inteligencia Artificial, ya que permiten el manejo de informacin con una terminologa que es muy similar a la del lenguaje natural. Una solucin que aparece recurrentemente en los trabajos de investigacin actuales en esta rea es la fusin de los sistemas manejadores de bases de datos relacionales con la lgica difusa, lo que da lugar a lo que se conoce como sistemas manejadores de bases de datos difusas o FRDBMS (por sus siglas en ingls, Fuzzy Relational Database Management System). 2. Modelos de Implementacin El problema de la implementacin de los sistemas gestores de bases de datos difusas ha sido tratado en dos vertientes principales: Iniciar con un sistema gestor de bases de datos relacionales (SGBDR) con informacin precisa y desarrollar una sintaxis que permita formular consultas imprecisas, lo cual da origen a extensiones SQL, como Fuzzy SQL, con capacidades de manejar la imprecisin. Construir un gestor de bases de datos relacionales difusas (SGBDRD) prototipo que implemente un modelo concreto de base de datos relacional difusa en el que la informacin imprecisa pueda ser almacenada. Dentro de esta vertiente existen dos grandes ramas: Los modelos a travs de unificacin por relaciones de similitud y los modelos relacionales basados en distribuciones de probabilidades. Particularmente me enfocar a los trabajos desarrollados en la Universidad de Granada, Espaa por un grupo de investigadores que se encuentran trabajando en esta rama actualmente. 3. Representacin de la informacin Los elementos relacionados con la manipulacin de informacin difusa pueden tener representaciones diferentes. Por ejemplo, una distribucin normalizada de probabilidades puede ser representada por diferentes tipos de funciones (trapezoidal, triangular, intervalar, etc.). Lo ms usual, es que se usen funciones de tipo trapezoidal.
12
Lo mismo puede decirse de la forma en la que se modelan los operadores relacionales difusos as como los dems elementos difusos que aparezcan en el sistema. El criterio empleado para seleccionar la forma de representacin de los mltiples elementos difusos del sistema manejador de base de datos, puede afectar de manera determinante la funcionalidad y desempeo de la base de datos, por lo que debera ser uno de los puntos centrales en los que el experto ajuste la arquitectura del FRDBMS al problema especfico a tratar mediante el mismo. Puede decirse entonces que este criterio de seleccin y ajuste constituye un paso entre la formulacin de una base de datos relacional difusa y la implementacin de un sistema basado en la misma. La informacin que se puede manejar en una base de datos difusa puede dividirse en dos tipos principales: Datos Precisos.
Manejados usualmente mediante la representacin provista por la base de datos relacional husped. Datos Imprecisos.
Los modelos usualmente consideran dos tipos de representacin para los datos imprecisos adems de la informacin desconocida o indeterminada que se maneja mediante los tipos unknown, undefined y null: *Datos imprecisos sobre dominios ordenados Este grupo de datos contiene distribuciones de probabilidad definidas en dominios continuos o discretos, pero ordenados.
Este grupo de datos se construye sobre dominios discretos en los que existen definidas relaciones de proximidad entre sus valores.
13
En este caso se deber almacenar la representacin de los datos adems de la representacin de las relaciones de proximidad definidas para los valores en el dominio. Tipo de dato Indefinido (undefined)
Cuando un atributo toma el valor undefined, esto refleja el hecho de que ningn valor de su dominio es permitido. Por ejemplo: el nmero de telfono de alguien que no tiene telfono. Tipo de dato desconocido (unknown)
Los datos de este tipo expresan nuestra ignorancia sobre el valor que el atributo toma, sin embargo expresa tambin que puede tomar uno de los valores del dominio. Por ejemplo la fecha de nacimiento de alguien, la desconocemos pero tiene que tener alguna. Tipo de dato nulo (null)
Cuando un atributo toma el valor nulo, esto significa que no tenemos informacin sobre l, ya sea porque no conocemos su valor o porque es imposible asignarle un valor del dominio. Por ejemplo el email de alguien es null si desconocemos su valor o si lo tiene o no. 3.1 Operaciones relacionales difusas: Los diferentes operadores de comparacin que se uti lizan para representar relaciones en la base de datos son los operadores relacionales. Para que estos funcionen sobre informacin imprecisa es necesario extender estos operadores. La representacin adoptada por Medina et al en su modelo de FRDBMS se basa en el trabajo previo de Zadeh [6] y es la siguiente: Igual a:
Aproximadamente igual:
Este operador define el grado en el que dos valores numricos (no difusos) son aproximadamente iguales de acuerdo a si la diferencia de sus valores se encuentra dentro de un lmite preestablecido. Y se calcula mediante la siguiente expresin:
14
Como esta lista ilustra, las bases de datos forman una parte esencial de casi todas las empresas actuales. A lo largo de las ltimas cuatro dcadas del siglo veinte, el uso de las
15
bases de datos creci en todas las empresas. En los primeros das, muy pocas personas interactuaron directamente con los sistemas de bases de datos, Aunque sin darse cuenta interactuaron con bases de datos indirectamente (con los informes impresos como extractos de tarjetas de crdito, o mediante agentes como cajeros de bancos y agentes de reserva de lneas areas). Despus vinieron los cajeros automticos y permitieron a los usuarios interactuar con las bases de datos. Las interfaces telefnicas con los computadores (sistemas de respuesta vocal interactiva) tambin permitieron a los usuarios manejar directamente las bases de datos. Un llamador poda marcar un nmero y pulsar teclas del telfono para introducir informacin o para seleccionar opciones alternativas, para determinar las horas de llegada o salida, por ejemplo, o para matricularse de asignaturas en una universidad. La revolucin de Internet a finales de la dcada de 1990 aument significativamente el acceso directo del usuario a las bases de datos. Las organizaciones convirtieron muchas de sus interfaces telefnicas a las bases de datos en interfaces Web, y pusieron disponibles en lnea muchos servicios. Por ejemplo, cuando se accede a una tienda de libros en lnea y se busca un libro o una coleccin de msica se est accediendo a datos almacenados en una base de datos. Cuando se solicita un pedido en lnea, el pedido se almacena en una base de datos. Cuando se accede a un banco en un sitio Web y se consulta el estado de la cuenta y los movimientos, la informacin se recupera del sistema de bases de datos del banco. Cuando se accede a un sitio Web, la informacin personal puede ser recuperada de una base de datos para seleccionar los anuncios que se deberan mostrar. Ms an, los datos sobre los accesos Web pueden ser almacenados en una base de datos. As, aunque las interfaces de datos ocultan detalles del acceso a las bases de datos, y la mayora de la gente ni siquiera es consciente de que estn interactuando con una base de datos, el acceso a las bases de datos forma una parte esencial de la vida de casi todas las personas actualmente. La importancia de los sistemas de bases de datos se puede juzgar de otra forma: actualmente, los vendedores de sistemas de bases de datos como Oracle estn entre las mayores compaas software en el mundo, y los sistemas de bases de datos forman una parte importante de la lnea de productos de compaas ms diversificadas, como Microsoft e IBM.
16
6.5.1 DATAWAREHOUSE
Es un repositorio de datos de muy fcil acceso, alimentado de numerosas fuentes, transformadas en grupos de informacin sobre temas especficos denegocios, para permitir nuevas consultas, anlisis, reporteador y decisiones. Que es lo que le preocupa a los ejecutivos?
Se tienen montaas de datos en la compaa, pero no podemos llegar a ellos adecuadamente. Nada enloquece ms a los ejecutivos que dos personas presentando el mismo resultado de operacin pero con diferentes nmeros y los ejecutivos lo que buscan es ver la informacin pero desde diferentes ngulos, mostrando nicamente lo que es importante para tomar una decisin en la empresa, finalmente los ejecutivos saben que hay datos que nunca sern confiables, por lo que prefieren que se eviten en los reportes ejecutivos. Uno de los valores ms importantes de una organizacin es la informacin. Estos valores normalmente son guardados por la organizacin de dos formas:
Crudamente hablando, los sistemas operacionales de registros es donde los datos son depositados y el DataWareHouse es de donde se extraen eso datos.
Los objetivos fundamentales de un DataWareHouse son:
Hace que la informacin de la organizacin sea accesible: los contenidos del DataWareHouse son entendibles y navegables, y el acceso a ellos son caracterizado por el rpido desempeo. Estos requerimientos no tienen fronteras y tampoco limites fijos. Cuando hablamos de entendible significa, que los niveles de la informacin sean correctos y obvios. Y Navegables significa el reconocer el destino en la pantalla y llegar a donde queramos con solo un clic. Rpido desempeo significa, cero tiempo de espera. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar. Hacer que la informacin de la organizacin sea consistente: la informacin de una parte de la organizacin puede hacerse coincidir con la informacin de la otra parte de la organizacin. Si dos medidas de la organizacin tienen el mismo nombre, entonces deben significar la misma cosa. Y a la inversa, si dos medidas no significan la misma cosa, entonces son etiquetados diferentes. Informacin consistente significa, informacin de alta calidad. Significa que toda la informacin es contabilizada y completada. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar. Es informacin adaptable y elstica: el DataWareHouse est diseado para cambios continuos. Cuando se le hacen nuevas preguntas al DataWareHouse, los datos existentes y las tecnologas no cambian ni se corrompen. Cuando se agregan datos nuevos al DataWareHouse, los datos existentes y las tecnologas tampoco cambian ni se corrompen. El diseo de Data Marts separados que hacen al DatWareHouse, deben ser distribuidos e incrementados. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar. Es un seguro baluarte que protege los valores de la informacin: el DataWareHouse no solamente controla el acceso efectivo a los datos, si no que da a los dueos de la
17
informacin gran visibilidad en el uso y abusos de los datos, an despus de haber dejado el DataWareHouse. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar. Es la fundacin de la toma de decisiones: el DataWareHouse tiene los datos correctos para soportar la toma de decisiones. Solo hay una salida verdadera del DataWareHouse: las decisiones que son hechas despus de que el DataWareHouse haya presentado las evidencias. La original etiqueta que preside el DataWareHouse sigue siendo la mejor descripcin de lo que queremos construir: un sistema de soporte a las decisiones.
Los elementos bsicos de un DataWareHouse
Sistema fuente: sistemas operacionales de registros donde sus funciones son capturar las transacciones del negocio. A los sistemas fuentes tambin se le conoce como Legacy System. rea de trfico de datos: es un rea de almacenamiento y grupo de procesos, que limpian transforman, combinan, remover los duplicados, guardan, archivan y preparan los datos fuente para ser usados en el DataWareHouse. Servidor de presentacin: la maquina fsica objetivo en donde los datos del DataWareHouse son organizados y almacenados para quieres directos por los usuarios finales, reportes y otras aplicaciones. Modelo dimensional: una disciplina especfica para el modelado de datos que es una alternativa para los modelos de entidad relacin. Procesos de negocios: un coherente grupo de actividades de negocio que hacen sentido a los usuarios del negocio del DataWareHouse. Data Mart: un subgrupo lgico del DataWareHouse completo. DataWareHouse: bsquedas fuentes de datos de la empresa. Y es la unin de todos los data marts que la constituyen. Almacenamiento operacional de datos: es el punto de integracin por los sistemas operacionales. Es el acceso al soporte de decisiones por los ejecutivos. OLAP: actividad general de bsquedas para presentacin de texto y nmeros del DataWareHouse, tambin un estilo dimensional especifico de bsquedas y presentacin de informacin y que es ejemplificada por vendedores de OLAP. ROLAP: un grupo de interfaces de usuarios y aplicaciones que le dan a la base de datos relacional un estilo dimensional. MOLAP: un grupo de interfaces de usuarios, aplicaciones y propietarios de tecnologa de bases de datos que tienen un fuerte estilo dimensional. Aplicaciones para usuarios finales: una coleccin de herramientas que hacen los queries, analizan y presentan la informacin objetivo para el soporte de las necesidades del negocio. Herramientas de acceso a datos por usuarios finales: un cliente de DataWareHouse. Ad Hoc Query Tool: un tipo especfico de herramientas de acceso a datos por usuarios finales que invita al usuario a formas sus propios queries manipulando directamente las tablas relacionales y sus uniones. Modelado de aplicaciones: un sofisticado tipo de cliente de DataWareHouse con capacidades analticas que transforma o digiere las salidas del DataWareHouse. Meta Data: toda la informacin en el ambiente del DataWareHouse que no son as mismo los datos actuales.
18
Extraccin: este es el primer paso de obtener la informacin hacia el ambiente del DataWareHouse. Transformacin: una vez que la informacin es extrada hacia el rea de trfico de datos, hay posibles paso de transformacin como; limpieza de la informacin, tirar la basura que no nos sirve, seleccionar nicamente los campos necesarios para el DataWareHouse, combinar fuentes de datos, hacindolas coincidir por los valores de las llaves, creando nuevas llaves para cada registro de una dimensin. Carga: al final del proceso de transformacin, los datos estn en forma para ser cargados.
6.5.2 DATAMINNING
Data Mining, la extraccin de informacin oculta y predecible de grandes bases de datos, es una poderosa tecnologa nueva con gran potencial para ayudar a las compaas a concentrarse en la informacin ms importante de sus Bases de Informacin (Data Warehouse). Las herramientas de Data Mining predicen futuras tendencias y comportamientos, permitiendo en los negocios tomar decisiones proactivas y conducidas por un conocimiento acabado de la informacin (knowledge-driven).
Fundamentos del Data Mining Las tcnicas de Data Mining son el resultado de un largo proceso de investigacin y desarrollo de productos. Esta evolucin comenz cuando los datos de negocios fueron almacenados por primera vez en computadoras, y continu con mejoras en el acceso a los datos, y ms recientemente con tecnologas generadas para permitir a los usuarios navegar a travs de los datos en tiempo real. Data Mining toma este proceso de evolucin ms all del acceso y navegacin retrospectiva de los datos, hacia la entrega de informacin prospectiva y proactiva. Data Mining est listo para su aplicacin en la comunidad de negocios porque est soportado por tres tecnologas que ya estn suficientemente maduras:
19
Recoleccin masiva de datos Potentes computadoras con multiprocesadores Algoritmos de Data Mining
El Alcance de Data Mining El nombre de Data Mining deriva de las similitudes entre buscar valiosa informacin de negocios en grandes bases de datos - por ej.: encontrar informacin de la venta de un producto entre grandes montos de Gigabytes almacenados - y minar una montaa para encontrar una veta de metales valiosos. Ambos procesos requieren examinar una inmensa cantidad de material, o investigar inteligentemente hasta encontrar exactamente donde residen los valores. Dadas bases de datos de suficiente tamao y calidad, la tecnologa de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades:
Prediccin automatizada de tendencias y comportamientos. Data Mining automatiza el proceso de encontrar informacin predecible en grandes bases de datos. Preguntas que tradicionalmente requeran un intenso anlisismanual, ahora pueden ser contestadas directa y rpidamente desde los datos. Un tpico ejemplo de problema predecible es el marketing apuntado a objetivos (targeted marketing). Data Mining usa datos en mailing promocionales anteriores para identificar posibles objetivos para maximizar los resultados de la inversin en futuros mailing. Otros problemas predecibles incluyen pronsticos de problemas financieros futuros y otras formas de incumplimiento, e identificar segmentos de poblacin que probablemente respondan similarmente a eventos dados.
Descubrimiento automatizado de modelos previamente desconocidos. Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un slo paso. Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de crditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos.
Las bases de datos pueden ser grandes tanto en profundidad como en ancho:
Ms columnas. Los analistas muchas veces deben limitar el nmero de variables a examinar cuando realizan anlisis manuales debido a limitaciones de tiempo. Sin embargo, variables que son descartadas porque parecen sin importancia pueden proveer informacin acerca de modelos desconocidos. Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos, sin preseleccionar un subconjunto de variables. Ms filas. Muestras mayores producen menos errores de estimacin y desvos, y permite a los usuarios hacer inferencias acerca de pequeos pero importantes segmentos de poblacin.
20
Redes neuronales artificiales: Modelos predecible no-lineales que aprenden a travs del entrenamiento y semejan la estructura de una red neuronal biolgica. Arboles de decisin: estructuras de forma de rbol que representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificacin de un conjunto de datos. Mtodos especficos de rboles de decisin incluyen Arboles de Clasificacin y Regresin (CART: Classification And Regression Tree) y Deteccin de Interaccin Automtica de Chi Cuadrado (CHAI: Chi Square Automatic Interaction Detection) Algoritmos genticos: tcnicas de optimizacin que usan procesos tales como combinaciones genticas, mutaciones y seleccin natural en un diseo basado en los conceptos de evolucin. Mtodo del vecino ms cercano: una tcnica que clasifica cada registro en un conjunto de datos basado en una combinacin de las clases del/de los k registro (s) ms similar/es a l en un conjunto de datos histricos (donde k 1). Algunas veces se llama la tcnica del vecino k-ms cercano. Regla de induccin: la extraccin de reglas if-then de datos basados en significado estadstico.
21
Para Power el termino DSS puede referirse a muchos tipos de sistemas de informacin que dan soporte a la toma de decisiones. Humorsticamente aade que siempre que un sistema informtico no sea un 'sistema para procesamiento de transacciones en linea' (OLTP), alguien tendr la tentacin de llamarlo DSS (Power10 ). Como se puede ver no hay una definicin universalmente aceptada de lo que es un DSS.11 Los DSS son herramientas de mucha utilidad en Inteligencia empresarial (Business Intelligence), permiten realizar el anlisis de las diferentes variables de negocio para apoyar el proceso detoma de decisiones de los directivos: Permite extraer y manipular informacin de una manera flexible. Ayuda en decisiones no estructuradas. Permite al usuario definir interactivamente qu informacin necesita y cmo combinarla. Suele incluir herramientas de simulacin, modelizacin, etc. Puede combinar informacin de los sistemas transaccionales internos de la empresa con los de otra empresa externa. Su principal caracterstica es la capacidad de anlisis multidimensional (OLAP) que permite profundizar en la informacin hasta llegar a un alto nivel de detalle, analizar datos desde diferentes perspectivas, realizar proyecciones de informacin para pronosticar lo que puede ocurrir en el futuro, anlisis de tendencias, anlisis prospectivo, etc. Un DSS da soporte a las personas que tienen que tomar decisiones en cualquier nivel de gestin, ya sean individuos o grupos, tanto en situaciones semiestructuradas como en no estructuradas, a travs de la combinacin del juicio humano e informacin objetiva: Soporta varias decisiones interdependientes o secuenciales. Ofrece ayuda en todas las fases del proceso de toma de decisiones -inteligencia, diseo, seleccin, e implementacin- as como tambin en una variedad de procesos y estilos de toma de decisiones. Es adaptable por el usuario en el tiempo para lidiar con condiciones cambiantes. Genera aprendizaje, dando como resultado nuevas demandas y refinamiento de la aplicacin, que a su vez da como resultado un aprendizaje adicional. Generalmente utiliza modelos cuantitativos (estndar o hechos a la medida). Los DSS avanzados estn equipados con un componente de administracin del conocimiento que permite una solucin eficaz y eficiente de problemas muy complejos. Puede ser implantado para su uso en Web, en entornos de escritorio o en dispositivos mviles (PDA). Permite la ejecucin fcil de los anlisis de sensibilidad.
22
CONCLUSIN
En esta investigacin aprendimos las diferentes tipos de Base de Datos que existen para ellos conocimos de una manera ms fcil los tipos de una manera sencilla y fcil para ellos veremos lo tipos as como la importancia que tiene cada uno de ellos para el manejo para el manejo de ellos asi mismo vimos como funcionan cada uno de ellos Implica que una sola aplicacin debe ser capaz de operar de manera transparente sobre los datos que estn dispersos en una variedad de bases de datos diferentes
23
BIBLIOGRAFA
FUNDAMENTOS DE BASES DE DATOS, Cuarta edicin, Abraham Silberschatz, Bell Laboratories, Henry F. Korth, Bell Laboratories, S. Sudarshan, Instituto Indio de Tecnologa, Bombay http://www.estructurayprogramacion.com/materias/fundamentos-debase-de-datos/t%C3%B3picos-selectos-de-bases-de-datos/
http://topicos-1.wikispaces.com/1.1+Bases+de+datos+orientadas+a+objetos.
http://alarcos.inf-cr.uclm.es/doc/ddddavanzadas/08-09/funcionalidad2.pdf